Bundesanzeiger Crawling

Friedrich Schöne and Nico Duldhardt

Playlists: 'rc3' videos starting here / audio

Wieso liegen öffentliche Finanzdaten in der Hand von einigen wenigen zahlenden Firmen?
Der Bundesanzeiger Verlag ist seit 2006 komplett privatisiert. Unternehmen sind gesetzlich verpflichtet ihren Jahresabschluss über den Bundesanzeiger kostenpflichtig zu veröffentlichen. Der Verlag verdient gleichzeitig am Verkauf dieser Daten, die eigentlich öffentlich zugänglich sein sollten.
Wir beleuchten das Problem und stellen die rechtlichen und technischen Hürden vor, die auf einen zukommen, wenn man diese Daten nutzen möchte.
Wir hoffen, dass der Bundesanzeiger analog zum Projekt "OffeneGesetze.de" der Open Knowledge Foundation zukünftig öffentlich durchsuchbar sein wird.

Unternehmen sind laut § 325 HGB gesetzlich verpflichtet ihren Jahresabschluss kostenpflichtig im Bundesanzeiger zu veröffentlichen. Der Bundesanzeiger Verlag gehört zur DuMont Mediengruppe und ist seit 2006 komplett privatisiert.
Grundsätzlich sind die dort veröffentlichten Jahresabschlüsse und weitere Firmeninformationen öffentlich einsehbar, allerdings nur einzeln über eine altbackene Webseite und mit Captcha Schutz. Diese rückständige Veröffentlichung macht es uns unmöglich diese Informationen maschinell zu analysieren, obwohl sie der Öffentlichkeit explizit zur Verfügung stehen sollen. Der Bundesanzeiger besitzt damit ein staatliches Monopol auf eine der wichtigsten Informationsquellen zu deutschen Unternehmen.
Neben der Unzugänglichkeit der Daten setzt der Bundesanzeiger Verlag noch einen drauf. Unter dem Namen "Validatis" verkauft er die gleichen Daten, die er öffentlich zugänglich machen soll. Zitat: "Nutzen Sie valide Unternehmensdaten aus erster Hand - passgenau für Ihr Business."
Praktisch, wenn jedes Unternehmen gesetzlich verpflichtet ist das Datenmonopol des Bundesanzeigers anzureichern.
Wir erzählen von den rechtlichen Stolpersteinen, die der Bundesanzeiger bereithält, wenn man die Daten befreien möchte. Außerdem erzählen wir, wie man die technischen Hürden, um an die Daten zu kommen aus dem Weg räumen könnte. Wir konstruieren einen verteilten Crawler für den Bundesanzeiger, der mittels neuronalem Netzwerk Captchas löst.
Disclaimer: Natürlich haben wir den Crawler praktisch nicht eingesetzt, um uns nicht strafbar zu machen.

Download

Embed

Share:

Tags