Analyse der Störungsmeldungen der S-Bahn München

Der Herbst bzw. schon das gesamte Jahr 2018 war eine Katastrophe für die S-Bahn München. Allerdings hat jeder einen subjektiven Eindruck von den Störungen und es gibt einen gewissen Bias bei der Auswahl (andere Strecke, andere Fahrgewohnheiten). Ich fahre selbst häufiger gegen späten Vormittag oder frühen Nachmittag, wohingegen andere ganz früh in die Arbeit oder sehr spät von der Arbeit heimkehren können.

Um die Störungen systematisch anzugehen ist eine Datengrundlage nötig, die alle Störungen beinhaltet und zusätzliche Infos, wie die betroffenen S-Bahnenlinien, bereitstellt. Die Bahn veröffentlicht selbst zu jeder Störung eine kurze Nachricht, die alle diese Daten beinhaltet. Allerdings habe ich keinen Weg gefunden, direkt an die Daten der Bahn zu kommen.

Es gibt allerdings Webseiten, welche diese Störungen selbst publizieren und überwachen. Meine Daten der Störungen sind netterweise bereitgestellt von der Website Störticker. Ganz herzlichen Dank an dieser Stelle für die unkomplizierte Bereitstellung und die Möglichkeit, diese Daten auszuwerten.

Datengrundlage

Ich habe von Störticker Daten ab Januar 2014 bis Ende Oktober 2018. (Ich komme erst jetzt dazu, diese Analysen aufzuschreiben und in eine geordnete Form zu bringen.)

Ich habe jeweils die Störungsmeldung der Bahn, was meist eine kurze Meldung mit Störungsursache und betroffenen Linien ist und die Uhrzeit der Störung. Ein gutes Gefühl für diese Meldungen bekommt man im Archiv von Störticker: https://stoerticker.de/archiv?evu=2. So habe ich 10379 Meldungen seit Januar 2014.

Eine kurze Analyse dieser Meldungen auf wiederkehrende Worte ergibt das folgende Bild:

Wort
Anzahl der Meldungen mit mindestens
einer Erwähung des entsprechenden Wortes
Störung
4034
Strecke
3602
Aktualisierung3275
Verzögerungen3014
Technisch2462

Analyse

Wir können auch die Meldungen pro Monat zählen und graphisch darstellen. Diese Grafik alleine ist aber aufgrund verschiedener Gründe nicht aussagekräftig. Was hier nicht herausgenommen ist, sind Aktualisierungen oder Meldungen, die an sich keine Störungen sind.

Diese Meldungen muss man nun aber ausgiebig filtern, da hier auch Aktualisierungen der ursprünglichen Meldungen inbegriffen sind. Ich möchte aber eine Störung, zu der es Aktualisierungen gibt, nicht mehrmals zählen. Weiterhin muss ich Ankündigungen von Bauarbeiten aus den Meldungen nehmen. Ich berücksichtige weiterhin nicht den Ausfall von S-Bahnen des 10-Minuten-Taktes auf den Linien, auf den es diesen gibt. Dies würde lediglich die Störungsstatistik aufblähen und verzerren. (Der Ausfall dieser S-Bahnen ist auch mehr ein Personalproblem, als eine tatsächliche Störung.)

Wir können weiterhin für eine weitere Untersuchung auch speziell die Meldungen mit bestimmten Wörtern heraussuchen und deren Häufigigkeit über die Zeit ansehen. Dazu nehmen wir uns Wörter wie „Störung“, „Verzögerung“, „Ausfall“, „Polizeieinsatz“, „Personen im Gleis“ und „Weichenstörung“. Wir analysieren die Häufigkeit der Meldungen, in denen diese insgesamt 19 Wörter oder Satzteile vorkommen. Diese Meldungen zählen wir jeden Monat und es ergibt sich folgende Grafik:

Absolut betrachtet haben wir nun deutlich weniger Störungen, die wir zählen. Allerdings ist die Entwicklung über die Zeit auch recht spannend. Der starke Rückgang im letzten Monat 2018 ist damit zu erklären, dass wir hier nicht einen gesamten Monat ansehen, sondern nur einen Teil.

Wir zerlegen nun die Meldungen hinsichtlich der Ursache und der betroffenen S-Bahnlinie. Damit kann man die Störungen den einzelnen S-Bahnlinien zuweisen (und der Stammstrecke).

Wir können nun die Häufigkeit der Störungen für die einzelnen S-Bahnlinien auch noch über die Zeit analsieren, hier beispielhaft für die S1. Die Trendlinie ist die 6-Monats-Trendlinie.

Jedes Jahr im November oder im Dezember gibt es in München den ersten Schnee. Dies trifft in der Wahrnehmung die S-Bahn immer besonders, da aufgrund von Schnee und Eis Züge ausfallen oder Weichen einfrieren. Wir sehen uns deshalb die Störungen nach Monat und Jahreszeit an.

Die durchschnittlichen Störungen pro Jahreszeit erhalten wir, indem wir die Monate in verschiedene Jahreszeiten einteilen und für einen Monat im Frühling / Sommer / Herbst / Winter die durchschnittliche Anzahl an Störungen berechnen.

Beidesmal erkennen wir keinen Trend bzw. keine offensichtliche Abweichung bei den durchschnittlichen Störungen pro Monat oder für einen Monat einer Jahreszeit.

Zuletzt können wir auch die Störungen in Tageszeiten aufteilen. Hier berechnen wir keinen Durchschnitt, sondern alleine die Anzahl.

Was kann ich aus der Analyse schließen? Was nicht?

Nach der Analyse und Auswertung möchte ich nun besprechen, was man aufgrund der Verfügbarkeit und Qualität der betrachteten Daten erwarten kann und was gerade auch nicht. Es benötigt einige Säuberung, bis man bei der Art von Störungsmeldungen, die wir vorliegen haben, zu einem guten Ergebnis kommen kann. Ich habe so gut es geht versucht eine gute Qualität des analysierten Datensatzes herzustellen.

Weiterhin kann die Analyse zwar zeigen, wie die Störungen sich über Zeit verhalten, was man aber nicht kontrollieren kann, ist die Quelle. Es ist gut möglich, dass die Deutsche Bahn in letzter Zeit viel mehr Störungen veröffentlicht oder bekanntmacht. Dann muss ein möglicher Anstieg nichts mit der Qualität des S-Bahnnetzes zu tun haben.

Code & Methodik

Der Code für die Analyse findet sich mit den Daten hier: https://github.com/kumdmerer94/sbahn-stoerungen. Alle Analysen und Berechnungen sind dort in einem Jupyter Notebook zu finden.

Ich freue mich über Kritik oder Anmerkungen zur Methodik. Diese Arbeit habe ich neben meiner Masterarbeit und Arbeitsstelle als Werkstudent in meiner Freizeit durchgeführt und daher ist sie an einigen Stellen sicher nicht so sauber, wie sie sein sollte. Die Säuberung des Datensatzes ist in diesem Falle von besonderer Wichtigkeit und sollte mit Umsicht beruteilt werden.

Veröffentlicht von Alexander Kammerer

Student, Blogger, Leser. Bloc Party und Bob Dylan Enthusiast. Motto/Ästhetik: "Schönheit ist Freiheit in der Erscheinung" - Friedrich Schiller

Schreib einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.