Einsatz von Maschinellem Lernen am Beispiel von Rettungsleitstellen
Achim Marikar and Oliver Heinzel
Im Notfall muss ein Rettungsdienst innerhalb weniger Minuten am Einsatzort eintreffen. Eine ausreichende Anzahl an Rettungsmitteln (Fahrzeuge und Besatzung) sind bereitzustellen, um dies immer und unter allen Umständen zu gewährleisten. Eine Leitstelle schätzt den Bedarf anhand von Erfahrungswerten ab. Weicht das reale Einsatzaufkommen von der Planung ab, schließt sie auftretende Lücken durch das Verlegen von Einsatzmitteln. In einem Forschungsprojekt der IABG wird untersucht, ob eine Vorhersage des Einsatzaufkommens mittels Künstlicher Intelligenz möglich ist. Das Ziel ist die Planung zu optimieren, um so die Anzahl an Verlege-Fahrten zu reduzieren, knappe Ressourcen einzusparen und ohne Hilfsfristen zu überschreiten. Die Umsetzung erfolgt mit Keras und TensorFlow.
Motivation
Die IABG berät Leitstellen und Lagezentren zum Einsatz moderner IT. Um bestehende Prozesse zu verbessern, forscht die IABG unter anderem zum Einsatz von Künstlicher Intelligenz zur Vorhersage von Einsatzaufkommen und -Verteilungen sowie zur Unterstützung von Standortplanungen.
Grundlagen
Rettungsdienste müssen innerhalb einer bestimmten Hilfsfrist nach dem Eingehen eines Notrufes am Einsatzort eintreffen. Diese Frist ist abhängig von der Besiedlungsdichte (Stadt oder Land) sowie dem Bundesland. Ein typischer Wert für dünn besiedelte Gebiete ist beispielsweise innerhalb von 10 Minuten in 90% der Fälle. Da die verfügbaren Einsatzmittel (Fahrzeuge und Personal) stets ein rares Gut sind, ist es wichtig sparsam zu planen, ohne die Hilfsfrist zu überschreiten. Das Leitstellenpersonal schätzt basierend auf Erfahrungen das Einsatzaufkommen anhand der Wettervorhersage, Jahreszeit, Wochentag, Tageszeit, Veranstaltungen und Sonderlagen. Stimmt die Planung nicht mit dem realen Einsatzaufkommen überein, bleiben entweder wertvolle Ressourcen ungenutzt oder Einsätze sind nur mit Mehraufwand durchzuführen.
Eingesetzte Tools
Zur schnellen Umsetzung und Entwicklung von Prototypen nutzen wir eine große Anzahl an Open-Source-Bibliotheken, unter anderem:
• Pandas ist eine beliebte Open-Source-Datenmanipulationsbibliothek für Python. Es bietet eine flexible und effiziente Möglichkeit, mit strukturierten Daten wie Tabellen und Zeitreihen zu arbeiten.
• NumPy nutzen wir für numerische Berechnungen. Es bietet eine leistungsstarke und effiziente Möglichkeit, mit Matrizen zu arbeiten, und ermöglicht eine schnelle Berechnung und Bearbeitung großer Datensätze.
• TensorFlow ist eine Bibliothek für den Aufbau, das Training und das Bereitstellen von Machine-Learning-Modellen, einschließlich Deep-Neural-Networks. Es bietet viel Flexibilität und Kontrolle über die zugrunde liegenden Berechnungen und ermöglicht es Benutzern, benutzerdefinierte komplexe Architekturen zu erstellen und die Leistung zu optimieren.
• Keras ist eine High-Level-API, die auf Backend-Engines wie TensorFlow aufsetzt und die Modellierung, Training und Bereitstellen von Machine-Learning erheblich erleichtert.
• scikit-learn ist eine weitere High-Level API für Machine-Learning, die hauptsächlich klassische bzw. typische und erprobte Algorithmen bereitstellt.
• Scipy und CVXOPT bieten eine große Auswahl an Werkzeugen im Bereich der Optimierung.
Analyse der Daten
Trainingsdaten sind die Einsatzdaten aus der Vergangenheit, die im Einsatzleitsystem jeder Leitstelle dokumentiert sind. Zusätzlich werden Wetterdaten, Wetterwarnungen und andere für die Prognose relevanten Daten einbezogen. So haben auch Daten zu Großveranstaltungen wie zum Beispiel Fußballspiele oder Open-Air Events in der Regel Auswirkungen auf das Einsatzaufkommen.
Aufbereiten der Daten
Zeitreihendaten enthalten oft fehlende/falsche Werte und Ausreißer. Diese Probleme sind zu identifizieren und zu beseitigen. Die Visualisierung der Daten stellt einen essenziellen Bestandteil der Zeitreihenanalyse dar. Sie dient der Erkennung von Mustern, Trends und Anomalien in den Daten. Darüber hinaus erlaubt sie die Bewertung der Relevanz einzelner Eingabeparameter, auch bekannt als Features. Bei der Vorhersage des Einsatzaufkommens stellt sich beispielsweise die Frage, welche der gegebenen Feature relevant für unsere Prognosen sind. Diese Überlegungen tragen maßgeblich zur Erklärbarkeit des Modells bei, indem sie ein Verständnis dafür schaffen, wie ein bestimmtes Feature die Vorhersage beeinflusst. Zusätzlich helfen eventuell weitere Features, wie beispielsweise die "gefühlte Temperatur" anstelle der bloßen Temperatur und relativen Feuchte das Modell zu verbessern. Alternative Datenquellen (z.B. Wetterdienst) sind ein weiteres Hilfsmittel Trends noch besser zu erklären.
Trainieren
Erfasst man Features über die Zeit, spricht man ganz allgemein von Zeitreihen. Beispielsweise ist das Einsatzaufkommen über die Zeit eine solche Zeitreihe. Beim Einsatzaufkommen im Rettungsdienst wird diese Anzahl der Einsätze über die Zeit in regelmäßigen Abständen, beispielsweise stündlich, n-stündlich oder täglich, erfasst. Darüber hinaus wird das Einsatzvolumen (Anzahl Einsätze pro Zeiteinheit) im Rettungsdienst von verschiedenen externen Faktoren wie Wetterbedingungen, Unfällen, Naturkatastrophen und anderen Ereignissen beeinflusst. Diese Faktoren ändern sich üblicherweise im Laufe der Zeit, was zu Schwankungen im Einsatzvolumen führt, d. h. die Anzahl der Einsätze pro Zeiteinheit ändert sich.
Für das Maschinelle Lernen ist das Aufteilen der Zeitreihen in Training-/Validierung- und Testdaten erforderlich. Eine rein zufällige Aufteilung der Daten ist nicht geeignet, denn bei der Zeitreihenanalyse ist die Reihenfolge der Datenpunkte wichtig. Daher wird eine spezielle Methode verwendet, bei der man die Daten in einem bestimmten Zeitfenster betrachtet. Die Grundidee besteht darin, das Modell in jeder Iteration für mehrere kleine historische Zeitfenster der Zeitreihendaten zu trainieren. Dabei besteht jedes Zeitfenster aus sogenannten „Input Lags“ einer festen Größe und aus „Labeln“ für die Zukunft, welche vom Modell möglichst gut mittels einer Verteilung approximiert werden soll. Eine Aufteilung in Training-/Validierung- und Testdaten findet dennoch statt, allerdings in sequenzieller Ordnung. Mit diesem Vorgehen ist überprüfbar, wie sich das Modell bei zukünftigen Daten verhält, ohne tatsächlich zukünftige Daten für das Training zu verwenden. Dies hilft, eine Überanpassung des Modells auf die Trainingsdaten zu vermeiden und eine genauere Schätzung der Leistung des Modells zu erhalten.
Prognose
Das trainierte Modell wird zur Prognose der zukünftigen Zeitschritte verwendet.
Hierbei wird das Zeitfenster in Richtung Zukunft verschoben, das heißt, die tatsächlichen Daten des vorherigen Zeitfensters (Input Lags) werden eingelesen, und eine Vorhersage basierend auf diesen Werten getroffen. Dieser Prozess wird aktuell alle vier Stunden durchgeführt, um auf dieser Weise die aktuelle Vorhersage zu erhalten. Der betrachtete Zeitraum der Input Lags beläuft sich momentan auf 28 Tage (4 Wochen).
Auswertung der Ergebnisse
Die Genauigkeit der Vorhersagen des Modells ist ein Hauptfaktor bei der Auswertung. Metriken wie mittlerer absoluter Fehler (MAE), mittlerer quadratischer Fehler (MSE) sowie selbstgenerierte Verlust-Funktionen werden verwendet, um die Qualität der Prognose zu bestimmen. Des Weiteren sollte das Modell robust sein und sich gut auf neue Daten verallgemeinern lassen. Es sollte die Trainingsdaten nicht überanpassen, denn das führt in der Regel zu einer schlechten Leistung bei noch nicht gesehenen neuen Daten.
Ein weiteres Bestreben ist es das Modell interpretierbar zu gestalten, d. h. es sollte Einblicke in die zugrunde liegenden Muster und Beziehungen in den Zeitreihendaten geben. Dies hilft bei der Identifizierung wichtiger Merkmale oder Variablen, die die Vorhersagen des Modells steuern. Schließlich ist das Ziel, die Ergebnisse in einem Dashboard verständlich der Leitstelle darzustellen und die vorhergenannten Merkmale auch einzusehen. Denn der Planer vergleicht die Ergebnisse des Modells stets mit seinem Erfahrungswissen und muss die Vorhersage der KI nachvollziehen können. Dies dient der Verifikation der Ergebnisse und schafft Vertrauen in die KI als Planungshilfe.
Nächste Schritte
Die Prognose des Einsatzaufkommen ist ein erster Schritt. Je nach Anwendung, Ziel und Bedarf der Leitstelle wird die Prognose auf neue Kennzahlen erweitert. Einige Beispiele sind die Prognose der Einsatzart, die Länge des Einsatzes oder die Räumliche Verteilung der Einsätze. Daher soll das „KI-Modell“ aus einem Ensemble aus mehreren Modellen bestehen. Die Prognose des Ensembles hilft dabei, die erforderlichen Ressourcen wie Personal, Ausrüstung und Vorräte zu planen und so den erwarteten Bedarf zu decken. Dies trägt dazu bei, dass der Rettungsdienst angemessen auf Notfälle vorbereitet ist.
Des Weiteren soll das Prognosemodell im Laufe der Zeit basierend auf neuen Daten und Feedback von Benutzern verfeinert und verbessert werden. Dies soll sicherstellen, dass das Modell in einem sich ändernden Umfeld weiterhin genau und relevant bleibt (Bsp. Corona).