Storing klantenstorage en VM's / Disturbance customer storage and customer VM's

NL

Er is zojuist een probleem opgetreden aan onze omgeving voor klanten-storage en klanten-VM's.

Dit probleem is in onderzoek bij onze engineers.

Volg de incidentmelding op onze website voor updates inzake dit incident.

Update geplaatst om 12:46
Bij een geforceerde failover naar de andere filer in het metrocluster is ook die filer onbereikbaar geworden. Daardoor was ook bit.nl onbereikbaar. Storingsmeldingen worden bij onbereikbaarheid van bit.nl op bit.org geplaatst. Eén van de filers is weer beschikbaar gekomen en daarmee ook bit.nl. De oorzaak en impact van de storing is nog in onderzoek.

Update geplaatst om 12:56
Engineers van BIT zijn aan het werk om alle diensten terug online te krijgen.

Update geplaatst om 13:00
Er wordt gesproken met NetApp TAC over deze storing. De meeste diensten, behalve windows webruimtes, zijn weer beschikbaar.

Update geplaatst om 13:04
Eén van de twee filers in het MetroCluster is beschikbaar, dat betekent dat de storage nog niet redundant beschikbaar is.

Update geplaatst om 13:27
Specialisten van de storageleverancier zijn gearriveerd en hebben samen met BIT engineers de oorzaak in onderzoek.

Update geplaatst om 13:37
Totdat duidelijk is wat de oorzaak is van de storing, zal het cluster niet redundant gemaakt worden. Dit zou namelijk kunnen leiden tot het opnieuw triggeren van de oorzaak. Alle diensten, behalve windows webruimtes, zouden weer beschikbaar moeten zijn. Neemt u contact met ons op als u nog problemen ervaart.

Update geplaatst om 14:09
Ook de windows webruimtes werken weer. Neemt u contact met ons op als u nog problemen ervaart.

Update geplaatst om 15:51
De leverancier heeft een eerste analyse van de crashdumps gemaakt en heeft geconcludeerd dat de storing niet hardware-gerelateerd is. Ook zien zij dat er geen relatie is tot de high availability functionaliteit. Daarom is zojuist de redundantie van het cluster weer ingeschakeld. Tevens heeft de leverancier een bug geïdentificeerd bij het oveschakelen tussen de twee filers die de storing op de tweede filer verklaart.

Update geplaatst om 17:30
Op dit moment is het metrocluster stabiel. In beide filers van het cluster is echter nog één disk met problemen. Hiervoor worden spare disks ingezet. Deze disks moet opnieuw in het cluster opgenomen worden, dit zal in totaal ongeveer 10 uur in beslag nemen. Tot die tijd zijn er géén problemen met de filers, er is alleen verminderde redundantie in ieder van de filers. Data wordt altijd op beide filers opgeslagen en is dus nog steeds redundant beschikbaar. Engineers van BIT blijven op lokatie totdat het metrocluster volledig in normale status is om snel te kunnen ingrijpen bij problemen.

Update geplaatst om 22:28
De oorzaak van het probleem is gevonden. Het probleem blijkt disk gerelateerd te zijn. Er zijn drie disken geïdentificeerd die vervangen moeten worden. We zullen de disken één voor één vervangen. We gaan echter na het vervangen van de eerste disk een aantal tests uitvoeren om er zeker van te zijn dat dit het probleem verhelpt én dat we er zeker van zijn dat het probleem niet nog een keer kan optreden.

Update geplaatst om 23:42
Na het vervangen van de eerste disk en de testen die we gedaan hebben blijkt dit helaas niet het gewenste resultaat te geven. We zijn nu weer in overleg met de leverancier en zoeken verder naar een oplossing voor dit probleem.

Update geplaatst om 04:44
We hebben met NetApp Technical Support uitgebreid getroubleshoot. We zullen nu nog een aantal testen uitvoeren om zeker te weten dat we de oorzaak geïdentificeerd hebben. Zodra deze testen gedaan zijn zullen we onderhoud gaan uitvoeren. Wat de impact van dat onderhoud zal zijn zal in een nieuwe update worden aangekondigd.

Update geplaatst om 07:00
We hebben met NetApp Technical Support een plan opgesteld en dat wordt nu uitgevoerd. Uit alle testen blijkt nu dat we hiermee de problemen kunnen oplossen. Zodra alle handelingen en testen zijn doorlopen zullen we een nieuwe update plaatsen.

Update geplaatst om 08:12
Alle werkzaamheden om de volledige redundantie te herstellen, en alle benodigde controles om dit te bevestigen zijn succesvol geweest. Het NetApp MetroCluster is weer volledig redundant.

Update geplaatst om 11:16
Onze storage leverancier heeft alle logs geanalyseerd en heeft geen afwijkingen meer gevonden. Omdat we echter zeker willen weten dat het NetApp MetroCluster functioneert zoals het zou moeten (voor het geval van onderhoud / storing) zullen we de MetroCluster-werking gaan controleren. Hiertoe zullen we vrijdagochtend 19 december om 08.30 uur een spoedonderhoud gaan uitvoeren. Dat zal een "takeover / giveback" zijn van de vfilers van NetApp2. We verwachten geen impact, maar er is wel een verhoogde kans daarop. Dit spoedonderhoud zal nog apart van deze melding worden aangekondigd.

Update geplaatst om 19-12-2014 11:41
De takeover / giveback test van vanochtend is succesvol afgerond. Binnenkort verschijnt in de nieuws sectie op deze site een RFO.

EN

We have noticed a disturbance on our customer storage and customer VM platform.

The underlying cause is being investigated by our engineers.

Follow the incident on our website for updates concerning this incident.

Update placed at 12:53
During a forced takeover to the other filer in the metrocluster, the redundant filer became unavailable. That caused bit.nl to be unavailable. In these cases bit.org becomes available for updates on incidents. One of the filers is available again en bit.nl can be checked for updates. Cause and impact of the incident is under investigation.

Update placed at 12:56
We are speaking with NetApp TAC on this matter. Engineers of BIT are working to get all services back online. Most of the services are back, we are still working on shared windows websites.

Update geplaatst om 13:05
One of two filers in the MetroCluster is back online. That means the storage is not redundant yet.

Update placed at 13:29
Specialists of the storage supplier have arrived. Together with BIT engineers they are investigating the cause of the incident.

Update placed at 13:40
The root cause of the incident has not been found yet. Untill that moment we will not make the storage redundant again. Because it might trigger the cause. All services except for windows websites are back available. Please contact us if you continue to experience problems.

Update placed at 14:10
Windows websites are back online. Please contact us if you continue to experience problems.

Update placed at 15:57
Our vendor has done an initial investigation of the crash reports and has concluded that the crash of the first filer was not hardware or high availability related. Therefor we have reenabled the metrocluster and the setup is redundant again. It will take our vendor another 48 hours to do a complete analysis of the crash reports. Also, a bug has been identified which caused the crash of the second filer.

Update placed at 17:30
At this moment the metrocluster is stable. However, both filers have one defective disk. These disks need to be replaced by spares. This replacement will take approximately 10 hours. Until these disks are operational both filers don't have any spare disks. Data is always stored on both filers in the metrocluster, so it's still redundant. BIT engineers will stay onsite until the metrocluster is back in a completely stable situation again.

Update placed at 00:40
After replacing the first disk and the tests we performed we did not get the expected and desired result. We are discussing the issue with NetApp technical support and try to find a way to resolve the issue.

Update placed at 04:49
We have did a fair amount of troubleshooting. We are going to perform some more tests to make sure we isolated the issue. As soon as those tests have been conducted we will perform maintenance. We will update what possible impact this maintenance might have in a new update.

Update placed at 07:08
We created a plan to recover from the issues we are facing. The plan is being executed at the moment. Based on all the tests we have done we should be able to resolve all issues. As soon as procedures and tests have been performed we will add an update.

Update placed at 08:32
All maintenance to restore full redundant operation has been completed succesfully, and all required checks have been performed. The NetApp MetroCluster is fully redundant again.

Update placed at 11:32
NetApp Technical Support and our storage supplier have gone through all logs and have not found any discrepancies. But because we want to ensure ourselves that the NetApp MetroCluster is functioning correctly (in case of maintenance / emergency) we will test the NetApp MetroCluster functionality in an emergency maintenance window friday 19th december, 08.30 h AM. We will perform a "takeover / giveback" of filer NetApp2. We do not expect any impact but the risk thereof is increased. This emergency maintenance will also be announced in a seperate emergency maintenance notice. Update placed at 19-12-2014 - 11:37
The takeover / failover test went succesfully. A RFO (in Dutch) will appear within the Dutch news section soon.