Wie kommt man jetzt an eine Liste aller Mitglieder des Deutschen Bundestags – bitte maschinenlesbar? Das ist eine Frage, die gar nicht so leicht zu beantworten ist. Der Bundestag bemüht sich um Offene Daten – wer etwas tiefer gräbt, stellt aber schnell fest: die Sache ist etwas komplizierter. Deshalb machen wir uns gemeinsam auf die Suche nach Maschinenlesbarkeit in deutschen Parlamenten, fischen in XMLs und schrubben IDs. Die sind nämlich im Laufe der Zeit... äh... etwas dreckig geworden.
Wir entdecken, wie viele unterschiedliche IDs es für Abgeordnete alleine in der Dateninfrastruktur der Bundestagsverwaltung gibt (fümpf!), welche Gefahren bei der Arbeit mit Namen lauern (Prof. Dr. gleicher Nachname und hat jetzt auch noch geheiratet lässt grüßen) und wie man am Ende dann doch noch ins Rettungsboot springt.
Der Talk gibt also nicht nur einen Überblick, welche Daten verfügbar sind – sondern auch, wie man damit umgeht, ganz praktisch, zum Nachmachen und mit Beispielcode. Wir schauen uns an, wie man mit Python/Pandas an Daten kommt, was darin steckt und wie man die verschachtelten Datenstrukturen umformen und auswerten kann.
https://creativecommons.org/licenses/by-sa/4.0/