NL
Sinds 06:19 uur ondervinden wij opnieuw problemen met de beschikbaarheid van onze storage systemen. Engineers zijn druk bezig de oorzaak van de verstoring te onderzoeken. Als gevolg hiervan is ons shared Linux hostingplatform verminderd beschikbaar en kunnen klanten die gebruik maken van shared storage van BIT problemen hieraan ondervinden.
Update geplaatst om 07.29
De instabiliteit op ons storage systeem is weer opgelost. Het systeem is weer online sinds 06:54 uur. Het is duidelijk dat we tegen een bug aan lopen op de Ceph MDS servers. Diensten die gebruikmaken van Cephfs ondervnden daar hinder van. Het is nog niet duidelijk waar de bug door veroorzaakt of door getriggerd wordt. Onze engineers doen nog onderzoek hiernaar. Onderzoek wordt bemoeilijkt doordat de bug niet optreed wanneer we debugging aan hebben staan, ook wel een
Heisenbug genoemd.
Update geplaatst om 10.44
We gaan configuratie aanpassingen maken om te zien of we hiermee kunnen voorkomen dat we tegen de bug aanlopen, en indien dat toch gebeurd, dat we het filesysteem sneller weer online kunnen krijgen. Dit kan een negatieve impact hebben op de performance, en zal gedurende de tijd dat we met de aanpassingen bezig zijn resulteren in het niet beschikbaar zijn van het filesysteem.
Update geplaatst om 12.36
De wijzigingen zijn actief. We hopen hiermee de stabiliteit te verhogen. Er is impact op performance, maar deze lijkt vooralsnog acceptabel.
Update geplaatst op 21-10-2019 om 7.50
Helaas zien wij nu toch opnieuw problemen optreden met de beschikbaarheid van de storage systemen. Er worden verdere aanpassingen gedaan om de stabiliteit te verhogen.
Update geplaatst om 8.03
Om 7.54 uur was het platform weer stabiel.
Update geplaatst om 8.31
Helaas zien wij toch nog met enige regelmaat instabiliteit optreden. Engineers zijn nog steeds druk bezig om dit probleem verder te analyseren en waar mogelijk aanpassingen te doen die de stabiliteit verhogen.
Update geplaatst om 11.08 Rond 10.45 uur is er een fix, die ons door de Cephfs developers is geadviseerd, uitgerold op het cluster. Aangezien we het cluster onregelmatig instabiel zagen worden, is er nu nog geen absolute zekerheid dat deze fix de instabiliteit definitief voorkomt. Onze engineers blijven het cluster nauwgezet monitoren.
Update geplaatst om 17.25 De fix die door de Cephfs ontwikkelaars is aangedragen heeft de instabiliteit uit het cluster gehaald. Deze fix pakt echter de onderliggende oorzaak van het probleem niet aan. Er wordt op dit moment gewerkt aan een wijziging die ervoor zorgt dat duidelijk wordt wat de instabiliteit veroorzaakt. Daarna kan er aan de onderliggende oorzaak gewerkt worden. In een nog aan te kondigen spoedonderhoud zal deze wijziging uitgerold worden.
Het incident is opgelost. Heeft u vragen over dit incident, neem dan contact op met de afdeling Customer Care via +31 (0)318 648 688 of via
support@bit.nl.
EN
As of 06:23h we're again experiencing problems with the availability of our shared storage systems. Engineers are investigating this outage. As a result, our shared Linux hosting platform and customers using shared storage solutions provided by BIT are experiencing degraded availability.
Update placed at 07:42h
The instability of the storage platform has been resolved. Unfortunately we are hitting a bug on the Ceph MDS systems which causes problems for services on Cephfs. We are still investigating what the bug entails and what triggers the bug. Investigation is complicated due to the fact the bug does not happen when the software is put in debug mode. Also known as a
Heisenbug.
Update placed at 10:48h
We are going to make configuration changes to prevent this issue from happening. In case we do hit the bug, this should lead to shorter downtime of the shared filesystem (faster failover). In the meantime that we are re-configuring the system the shared filesystem will not be available.
Update placed at 12:40h
The configuration changes are in place. We hope to achieve a more stable system this way. There is a noticable performance impact, but as far as we can tell this is acceptable.
Update placed on 21/10/2019 at 7:50h
Unfortunately we're observing instability on the storage platform again. Additional changes have been made to increase stability.
Update placed at 8.04h
The platform has been stable again since 7.54h.
Update placed at 8.33h
We still observe intermittent instability on the platform. Engineers are still investigating and making changes to improve stability.
Update placed at 11:12h At around 10:45h we have implemented a fix on the cluster that has been advised to us by the Cephfs developers. Before that change we saw the cluster becoming instable irregularly, therefore we cannot be assured yet that the fix has solved the problem definitely. Our engineers keep monitoring the system meticulous.
Update placed at 17:31 The by Cephfs developers advised fix has cleared the instability of the cluster. It has not solved the underlying root cause of the instability. A change is in preparation that will help identifying the root cause. After enabling that change we can start working on solving the root cause. In a to be announced emergency maintenance we will apply the change.
The incident has been resolved. If you have any questions regarding this incident, please contact the Customer Care department by phone on +31 (0)318 648 688 or by email on
support@bit.nl.