Beiträge von Ralf:


    Chord-Diagramm: Verdienste von Stadträten in Aufsichtsräten – Teil 1

    August 11th, 2014

    Mitte März 2014 fanden hier in Bayern Kommunalwahlen statt. Natürlich auch in Unterfranken, ungefähr dem Verbreitungsgebiet der Main-Post, für die ich freiberuflich arbeite. Die neugewählten Stadt- und Gemeinderäte saßen meist ab dem 2. Mai in den Rathäusern. In Würzburg wurden in den ersten Wochen in einer Sitzung bestimmt, welche Stadträte Posten in Aufsichtsräten der kommunalen Gesellschaften bekommen — Ämter, die meist mit einer mehr oder weniger hohen Aufwandsentschädigung einhergehen.

    In der Lokalredaktion Würzburg kam die Frage auf, wie viel denn die Stadtratsmitglieder denn so im Monat durch die Tätigkeit in Aufsichtsräten verdienen — ein Fall für den Datenjournalisten.

    Pläne und Probleme

    Ein Gewirr: Die Verbindungen zwischen den Würzburger Stadtratsmitgliedern und den kommunalen Gesellschaften.
    Ein Gewirr: Die Verbindungen zwischen den Würzburger Stadtratsmitgliedern und den kommunalen Gesellschaften.

    In Würzburg gibt es 50 ehrenamtliche und vier berufsmäßige Stadtratsmitglieder, dazu noch den Oberbürgermeister. Auf der anderen Seiten sind Posten in 12 Ausschüssen und und 15 kommunalen Gesellschaften zu vergeben. Das ergibt 1485 mögliche Verbindungen. Zu viel, um sie im im recht begrenzten Layout von mainpost.de abzubilden.  Erschwert wurde eine Darstellung durch den Umstand, dass viele Verbindungen unterschiedlich behandelt werden müssen. Für die Ausschüsse bekommen die Stadträte kein Geld, der Verdienst des Oberbürgermeisters ist gedeckelt, usw.

    Erst hatte ich überlegt, eine interaktive Grafik zu entwerfen, in der man zwischen verschiedene Darstellungen umschalten kann. Da kam ein grundsätzliches Problem ins Spiel — die Zeit. Innerhalb der Online-Redaktion habe ich im Normalfall leider nur ein recht begrenztes Zeitbudget für Datenjournalismus. Also musste ich bei den Features abspecken und die angezeigten Daten reduzieren.

    Darum beschloss ich, mich auf die ehrenamtlichen Stadtratsmitglieder — „Die Leute, die man gewählt hat“ — und auf die kommunalen Gesellschaften zu beschränken.

    Ein erster naiver Entwurf sah vor, die Stadträte und Gesellschaften links und rechts gegenüberzustellen und die Verbindungen darzustellen, wenn man mit der Maus darüber fährt. Doch die Anzahl von 50 Stadtratsmitgliedern brauchte einfach zu viel Platz. Also musste ein anderer Visualiserungsansatz her.

    In solchen Fällen ist es gut, wenn man in den vielen Beispielen auf der Website von D3.js stöbert,  der Javascript-Bibliothek für Visualierungen — ein Quell der Inspiration. Da bin ich schnell auf eine passende Darstellungsform gestoßen — das Chord-Diagramm. Eine weitere Recherche nach Anwendungsbeispielen dieser Chord-Diagramme brachte mir einen Volltreffer: Der Berliner Dominik Henn hat mit der gleichen Technik die Verbindungen zwischen Bundestagsabgeordneten und Aufsichtsräten visualisiert. Von diesem großartigen Projekt konnte ich mir einige Ideen holen, Danke an Dominik dafür an dieser Stelle.

    Das Konzept war nun so weit klar, im zweiten Teil wird es um die technische Umsetzung des Projekts gehen …

    0 Kommentare



    Datenjournalismus: Einbrüche in Unterfranken

    Juli 2nd, 2014

    Winter 2013. Die Tage werden kürzer, die zunehmenden Stunden der Dunkelheit rufen immer mehr Einbrecher auf den Plan. So war damals zumindest der Eindruck bei uns in der Online-Redaktion der Main-Post, den die Polizeiberichte aus dem Regierungsbezirk Unterfranken vermittelten.

    Nur einen Eindruck haben ist einem als Journalist allerdings zu wenig. Wie viele Einbrüche finden in der dunklen Jahreszeit statt — und wie viele im Sommer? Zu welcher Uhrzeit wird am meisten eingebrochen? Und wo sind die Schwerpunkte? In den Städten? Auf dem flachen Land? Nur eine möglichst konkrete Datenbasis kann darüber Auskunft geben. Das Datenjournalismus-Projekt „Einbrüche in Unterfranken“ wurde gestartet.

    Nur wie kommt man an diese Daten? Die Polizei konnte uns aus Nachfrage kein brauchbares Material zur Verfügung stellen, die allgemeine Einbruchsstatistik genügte uns nicht.

    So blieb nur der harte Weg: Möglichst viele Einbrüche in Unterfranken aus den Polizeiberichten von Hand erfassen, die die Redaktion per E-Mail erreichen — manchmal sogar noch innerhalb eines Word-Dokuments.

    Dateneingabe

    Tabelle der Einbruchsstatistik bei Google Drive
    Tabelle der Einbruchsstatistik bei Google Drive

    Dafür wurde bei Google Drive eine Tabelle angelegt, in die über ein Formular der jeweilige Online-Redakteur am Newsdesk die Daten der Einbrüche eingeben kann.

    Erfasst wurden der Ort — mit Längen- und Breitengrad, das Datum und die Uhrzeit und knapp etwas zum entstandenen Schaden. Dem Einbruch wird noch eine Kategorie mitgegeben — Wohnungseinbruch, Firmeneinbruch, oder Gartenhaus-/Wohnwageneinbruch — und im Idealfall ein Link auf den Artikel bei mainpost.de.

    Leider musste wir in Online-Redaktion in der Praxis einige Abstriche an der Genauigkeit der Daten machen. In den Polizeiberichten ist oft nicht der exakte Ort — also zum Beispiel die Hausnummer — angegeben, manchmal nicht einmal die Straße. Gerade bei Einbrüchen „auf der grünen Wiese“ konnte der Tatort vom Redakteur nur geschätzt werden.

    Ähnlich ungenau wurde es bei der Zeit. Oft wissen die Bestohlenen nicht, wann genau der Einbruch stattfand. Wir haben darum nur grobe Zeitfenster wie „Früh“, „Vormittag“, „Mittag“ verwendet, da uns ein solches Zeitraster für eine Auswertung genügte. Noch schwieriger war es bei Einbrüchen, die irgendwann in einem Zeitraum über mehrere Tage passiert sein konnten. Letztlich gehen diese Einbrüche gar nicht in die Auswertung der Tageszeit ein, da dazu keine Aussage getroffen werden kann.

    Wir hätten auch gerne den Wert und Art der Beute und den verursachten Schaden bei den Einbrüchen besser erfasst. Doch in den Polizeiberichten ist dieser Punkt meist noch offen oder nur sehr ungenau angegeben, so dass uns eine einigermaßen brauchbare Auswertung gar nicht möglich ist.

    Datenverarbeitung

    Die Daten in der Tabelle können nur schwer direkt für eine Online-Präsentation verwendet werden. Darum werden sie durch ein Programm verarbeitet, vereinheitlicht, teilweise verifiziert und in maschinenlesbarer Form wieder ausgegeben.

    Ausschnitt aus dem PHP-Script, dass die Daten aus der Tabelle bei Google Drive weiterverarbeitet.
    Ausschnitt aus dem PHP-Script, das die Daten aus der Tabelle bei Google Drive weiterverarbeitet.

    Ohne in technische Details zu gehen: Ein PHP-Script liest den Inhalt der Tabelle ein. In einem ersten Programmschritt wird unter anderem auf die korrekte Angabe der Geokoordinate des Orts geprüft. Ist der Breitengrad um die 50 und der Längengrad um die 10? Dann befindet sich der so angegebene Ort in etwa in Unterfranken. Sonst tauscht das Programm die beiden Zahlen aus und prüft dann das Ergebnis noch einmal — denn eventuell wurden bei der Eingabe Längen- und Breitengrad verwechselt. Es können durch Eingabefehler — oder Google Drive selbst —  die Dezimalpunkte der Geokoordinaten „verschwinden“, auch dieses Problem wird durch das Programm korrigiert.

    Die Einbrüche in der Tabelle werden nun vom Programm strukturiert, zum Beispiel nach Tageszeit oder Datum, zusammengefasst. Diese strukturierten Daten werden dann in den Formaten — alles JSON-Dateien — ausgegeben, wie es die später verwendete Software zur Präsentation der Daten benötigt.

    Visualisierung der Daten

    Wo wurde eingebrochen? Die Tatorte in Unterfranken auf einer Karte.
    Wo wurde eingebrochen? Die Tatorte in Unterfranken auf einer Karte.

    Die Präsentation der Einbrüche in Unterfranken geschieht auf einer Webseite in zwei großen Blöcken. Zum einen wird eine Karte verwendet, auf der alle erfassten Einbrüche angezeigt werden. Zum anderen werden zwei Statistiken grafisch dargestellt: Die Anzahl der Einbrüche pro Tag und die Verteilung der Einbruchszeiten.

    Zur Darstellung der Karte wird das Javascript-Framework Leaflet verwenden. Gefüttert wird die Karte durch eine GeoJSON-Datei, die vom PHP-Script geschrieben wurde. Als Kartenmaterial greift Leaflet auf Daten des OpenStreetMap-Projekts zu.

    Die Anzahl der Einbrüche - eine deutliche Spitze in der dunklen Jahreszeit.
    Die Anzahl der Einbrüche – eine deutliche Spitze in der dunklen Jahreszeit.

    Für die Statistiken hätte man auch Leaflet verwenden können, doch mit dem jqPlot-Plugin des jQuery-Frameworks konnte schneller das gewünschte Ergebnis erreicht werden.

    Zu welchen Uhrzeiten wurde eingebrochen? Eine Balkengrafik gibt Auskunft.
    Zu welchen Uhrzeiten wurde eingebrochen? Eine Balkengrafik gibt Auskunft.

    Der Vorteil der Verwendung des PHP-Scripts als Zwischenschritt kommen hier zum Tragen: Die Daten liegen genau so vor, wie es die einzelnen Komponenten der Visualisierungs-Software benötigen, eine Umformung ist auf der Webseite nicht mehr nötig. Der Programmcode zur Darstellung der einzelnen Grafiken konnte dadurch recht knapp und übersichtlich gehalten werden.

    Diese interaktiven Grafiken wurden auf mainpost.de mit einem IFrame in das Angebot eingebunden:

    Karte und Statistik auf mainpost.de: Einbrüche in Unterfranken

    (Anmerkung: Ich arbeite noch an einer Visualisierung in „Clustern“, wo räumlich nahe Einbrüche zusammengefasst angezeigt werden. Die Version ist aber noch nicht ausgereift, den Stand der Dingen kann man sich aber schon anschauen.)

    Fazit

    Das Jahr 2014 hat Halbzeit, ebenso wie das Projekt „Einbrüche in Unterfranken“.  Wir in der Online-Redaktion der Main-Post haben damit versucht, das Ausmaß der Einbrüche in der Region „live“ zu visualisieren und zu analysieren. Etwas unbefriedigend ist nach wie vor die Datenbasis. Die Einbrüche aus den Pressemitteilungen der Polizei zu ziehen, ist ein fehleranfälliger Weg. Hat die Polizei auch wirklich jeden kleinen Einbruch dort vermeldet? Wir wissen, dass gerade in Spitzenzeiten der Einbruchsserien nicht jeder kleine Einbruchsversuch in den Pressemitteilungen zu finden war.
    Oder wurde auch wirklich jeder Einbruch von dem Redakteur an dem Tag in die Tabelle eingetragen? In hektischen Zeiten kann man schon mal einen Einbruch in einer langen Polizeimeldung übersehen. Und wie schon erwähnt, sind die Daten in den Pressemitteilungen oft recht ungenau.

    Im Grunde müsste man jeden Einbruch noch einmal genau nachrecherchieren — und das ist ein Problem der Ressourcen. Braucht man für einen Einbruch dann etwa 10 Minuten, hätte man im ersten Halbjahr schon gut 70 Stunden allein für die Recherche verwendet — und muss man sich als Redaktion erst mal leisten können. Wir haben versucht, mit wenig Aufwand möglichst viele und genau Daten zu bekommen, mit einem nur mäßig befriedigendem Ergebnis.

    Ideal wäre natürlich, die Daten direkt an der Quelle anzapfen zu können, bei der Polizei. Wenn es dort eine Möglichkeit geben würde, dort online auf Daten von Einbrüchen, Unfällen, Bränden, etc. strukturiert und maschinenlesbar  zugreifen zu können, wäre das eine große Erleichterung und würde die Zahlenbasis deutlich solider machen. Aber hier befinden wir uns schon im Traumland der Open-Data-Idee. Noch ist so etwas nicht möglich und nach Angaben der Polizei Unterfranken auch erst mal nicht geplant.

    Die Arbeit an dem Projekt geht weiter …

    Weiterführende Links

    Update: Gerade über Twitter erfahren: „Die Stimme“ in Heilbronn hat sich auch dem Thema „Einbrüche“ angenommen — ganz ähnlich wie die Main-Post. 🙂

     

    1 Kommentar



    Eurostat: Alkoholmenge in deutschem Wein verachtfacht

    April 23rd, 2014

    Die Europäische Union über Eurostat, dem Statistischen Amt der Europäischen Union, eine Vielzahl von offenen Daten an — eine wunderbare Quelle für Datenjournalismus.

    Nein, das ist nicht ganz korrekt — es wäre eine wunderbare Quelle für Datenjournalismus, wenn man sich darauf verlassen könnte, dass die Daten bei Eurostat auch korrekt sind.

    Eines darf man an der Stelle nicht vergessen: Eurostat wacht über Zahlen für das „Verfahren bei einem makroökonomischen Ungleichgewicht“ — die Schlagworte „Euro-Krise“ und „Griechenland“ winken einem an dieser Stelle freudig zu.  Laut Pressemitteilung der Europäischen Kommission ist das die Aufgabe das Amts:

    Eurostat wird für die Überwachung der Einhaltung der Qualitätsanforderungen für die von den Mitgliedstaaten vorgelegten Statistiken sowie für die Verbreitung dieser Daten zuständig sein.

    Dann schauen wir doch mal dir Qualität der Daten an. Wie hoch ist und war denn der durchschnittliche natürliche Alkoholgehalt der Weine den europäischen Anbaugebieten? Die Suche nach „Weinbau“ in der Datenbank von Eurostat liefert auch eine passende Tabelle — in der man besorgniserregende Zahlen findet. Im Jahr 2008 lag der durchschnittliche Alkoholgehalt im Wein meiner fränkischen Heimat bei 84 Prozent! Das erklärt im Nachhinein einiges!

    Screenshot Eurostat
    Screenshot Eurostat – Ergebnis der Suche nach dem Alkoholgehalt europäischer Weine.

    Acht Jahre zuvor waren es noch 11,90 Prozent. Und da ich mich im Jahr 2008 nach einem Glas Wein nicht betrunkener gefühlt habe als im Jahr 2000, bedeutet das, dass ich in den Jahren dazwischen dermaßen viel getrunken gesoffen habe, dass mir ein Glas voll Strohrum mir nicht mehr ausgemacht hat als ein Schoppen leichten Silvaners einige Jahre zuvor.

    Eine andere Theorie, die mir deutlich mehr zusagt: Die Daten sind Müll! Was aber kein gutes Licht auf Eurostat wirft. Was bringt mir der größte Datenschatz, wenn ich sehr misstrauisch sein muss, ob die Zahlen überhaupt stimmen? In diesem Fall war der Fehler recht offensichtlich, aber statt den falschen 84,00 Prozent hätten da auch ebenso falsche 12,50 Prozent stehen können. Starker Wein — aber nicht unmöglich. Und wenn man dann ohne weitere Recherche eine Geschichte über den immer alkoholreicheren Wein in Deutschland schreibt, steht man blöd da.

    Darum auch beim Datenjournalismus — eine zweite, unabhängige Quelle befragen. Aber da hört es mit offenen Daten auch oft schnell wieder auf und „Von-Hand-Recherche“ ist gefragt.

    0 Kommentare