RFO Cloud-opslag Delft
Dit artikel is een work in progress en zal nog verder worden bijgewerkt.
Laatste update: 9 juli 10:00
achtergrond
1A gebruikt Proxmox als virtualisatieplatform voor het aanbieden van haar cloud-diensten. De opslag in dit platform bestaat uit een Ceph cluster. Ceph is software waarmee verschillende machines met SSDs of harddisks worden samengevoegd tot een enkele grote opslagmogelijkheid, die door Proxmox wordt gebruikt. Voor de locatie Delft bestaat het Ceph-cluster uit zes servers met elk 10 SSD’s, en vijf servers met elk 10 HDD’s, goed voor samen ongeveer 200 TB SSD-opslag en 550 TB HDD-opslag. Ceph zorgt voor dataveiligheid door alle data drie keer op te slaan, en is daardoor bestand tegen het uitvallen van een of meerdere SSD’s of HDD’s, of zelfs het uitvallen van een hele server.
De koppeling tussen de daadwerkelijke SSDs of harddisks en de virtuele laag wordt bereikt door middel van software, zogeheten //osd daemons//. Voor elke SSD of harddisk draait er een osd daemon die het bijbehorende stukje opslag toevoegt aan de grote pool.
Van tijd tot tijd moet de Ceph software geupdate worden. Ceph is open source, maar een enterprise-variant wordt door Proxmox tegen betaling beschikbaar gesteld. 1A gebruikt de enterprise-updates van Proxmox, zowel voor de Proxmox software als voor de Ceph software.
Updates worden door 1A altijd eerst getest op het test-cluster, en daarna doorgevoerd op het Proxmox cluster dat 1A voor ontwikkeling en eigen data in gebruik heeft. Pas nadat deze systemen met de updates minstens vier weken zonder problemen hebben gedraaid, wordt er overwogen om de system te updaten waarmee de Cloud-diensten aan klanten worden geleverd.
tijdlijn
- 7 juli 19:00 Engineers van 1A beginnen aan de upgrade van de ceph software.
- 7 juli 23:00 De upgrade is afgerond. Het systeem ziet er stabiel uit.
- 8 juli 07:30 Engineers merken op dat er tussen 24:00 en 07:00 een tiental osd-daemons is gecrashed. Ceph heeft geprobeerd om de nu ontbrekende opslag te herstellen uit de overgebleven kopieen. In een aantal gevallen was er nog maar 1 kopie van de data aanwezig, waardoor Ceph dit stuk opslag als alleen-lezen heeft gemarkeerd.
- 8 juli 07:30 Engineers controleren de opslag van de gecrashte osd-daemons en voegen ze weer toe aan het systeem. Een deel van de problemen is hiermee opgelost. Enkele osd-daemons kunnen echter niet meer toegevoegd worden of vallen na het toevoegen wederom uit het systeem.
- 8 juli 08:30 Er wordt besloten om externe expertise in te schakelen van het bedrijf Croit, wat gespecialiseerd is in grote opslag, o.a. met Ceph.
- 8 juli 09:30 De engineers van Croit kijken mee naar de problemen op het systeem. Ook een van de makers van Ceph kijkt mee.
- 8 juli 11:45 De data van de falende osd-daemons wordt in Ceph gemarkeerd als verloren, waardoor Ceph de derde kopie opnieuw genereert op basis van de bestaande twee kopieen. De storage is nu weer voor alle VMs beschikbaar.
- 8 juli 12:50 Om meer informatie te krijgen wordt er op verzoek van Croit een osd-daemon offline gehaald.
- 8 juli 13:06 Aangezien er weer klachten worden gemeld wordt deze osd-daemon weer gestart.
- 8 juli 14:00 Het overleg met Croit loopt te einde. De conclusie is dat de enige manier om te garanderen dat de opslag weer betrouwbaar is, is om alle data van het cluster af te halen en het hele cluster opnieuw op te bouwen.
- 8 juli 14:00-nu Engineers van 1A monitoren het systeem actief om te bewaken dat uitvallende osd-daemon meteen weer kunnen worden toegevoegd aan het systeem. Dat gebeurt nog een enkele keer.
- 8 juli 15:00 Er wordt een plan gemaakt om de dienstverlening veilig te kunnen stellen, en ondertussen het cluster opnieuw op te bouwen.
- 8 juli 16:00 Er worden nieuwe SSDs besteld (22x 4TB) om als tijdelijke opslag te kunnen fungeren
- 8 juli 19:00 De nieuwe SSDs worden in RAID-configuratie geplaatst in de vijf van de zes virtualisatie-nodes
- 8 juli 20:00-9 juli 08:00 Data wordt (live) verplaatst van de Ceph-opslag naar de nieuwe lokale SSD-opslag. Dit levert geen onderbreking op, wel mogelijk een wat trager reagerend systeem tijdens het verplaatsen.
- 9 juli 09:30 Er worden SSDs in RAID-configuratie geplaatst in de zesde virtualisatie-node
Hier kan de laatste informatie vanaf onze leverancier gevonden worden.