wem-gehoert-hamburg

Aktuelle Artikel

Alle Artikel zu unseren Recherchen

CORRECTIV bleibt auch nach der ersten Veröffentlichung einer Geschichte am Thema dran. Wir recherchieren weiter, wir aktualisieren und veröffentlichen Einzel- oder Folgeartikel. Diese finden Sie hier.

Nerds

Technische Details zur Justizgelder-Datenbank

von Stefan Wehrmeyer

In unserer Justizgelder-Datenbank kann jeder schauen, an welche Einrichtungen die deutsche Justiz 170 Millionen Euro verteilt hat. In diesem Blogpost wollen wir den Code hinter dem Projekt erklären. Wer an der Technik hinter der Web-Anwendung interessiert ist, kann hier in die Tiefe gehen. Zudem gibt es einen Link zum kompletten Quelltext auf Github.

Uns ist es bei CORRECTIV wichtig, dass mit der Veröffentlichung einer Geschichte die Entwicklung der dazu gehörenden Datenbank nicht abgeschlossen sein muss. Deswegen machen wir unsere Arbeit transparent, veröffentlichen in der Regel die Quellcodes unserer Datenbanken und geben möglichst alle Daten frei. Wir sind gespannt, was in den Daten steckt, das wir nicht gesehen haben.

## Ablauf des Projektes

Zunächst mussten wir die Daten für das Projekt “Spendengerichte” besorgen. Unser Reporter Jonathan Sachse hat hier letzte Woche beschrieben, auf welche Hürden er in der Justiz gestoßen ist. Nachdem wir die Dateien aus den verschiedenen Bundesländern besorgt hatten, haben wir sie nach Bundesland, Jahr und Behörde aufgeteilt in Ordner abgelegt.

Das war die Ausgangssituation für die eigentliche Programmierung:

Die Dateien liegen im PDF-, Excel- und Word-Format vor. Unser Ziel ist es, aus diesem Ausgangsmaterial eine einzige Tabelle mit allen Zahlungen zu erstellen. Bei der Durchsicht der Quelldateien stellte sich leider schnell heraus, dass es kein einheitliches Datenschema gibt. Auch wenn einige Dateien viel mehr Informationen beinhalten, in wirklich allen Dateien waren letztlich nur der Name der Einrichtung und der zugewiesene Betrag enthalten.

## Konvertierung nach CSV

Um alle Daten zusammenzuführen bietet es sich an, zuerst alle Dateien in das selbe Format zu konvertieren. Das CSV-Format (Comma Separated Values) ist ideal für die maschinelle Weiterverarbeitung: keine Formatierungen, keine versteckten oder verbundenen Spalten – eine einzige Tabelle mit klar definiertem Kopf. Unsere Tabelle muss mindestens die Spalte „name“ und die Spalte „betrag“ haben. Weitere Spalten sind optional, sollten jedoch die gleiche Bezeichnung haben, wenn sie das gleiche beinhalten.

Die eigentliche Konvertierung ist viel Handarbeit. Während aus Excel-Dokumenten meist recht einfach passende CSV-Dateien exportiert werden können, müssen PDFs gegebenenfalls vorher mit OCR behandelt werden, um die Schrift maschinenlesbar zu machen. Im Anschluss werden sie dann durch Tabellenerkennungs-Werkzeuge wie Tabula geschickt.

Die entstehenden CSV-Dateien stellen die Datenbasis dar. Hat die Behandlung der Dateien mit OCR Fehler produziert oder finden sich andere Probleme in den Daten, werden diese Fehler an dieser Stelle korrigiert. Das ist viel Handarbeit.

## Zusammenführung und automatisierte Reinigung

Leider ist die Datenbasis nach der Konvertierung immer noch sehr dreckig: die Namensspalte enthält oft noch eine durchlaufende Nummer, die Adresse der Organisation oder weitere Informationen. Auch die Betragsspalte besteht aus verschiedenen Kombinationen aus Ziffern, Punktierungen, Leerzeichen und Variationen der Währung (€, EUR, Euro,…).

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Ein Python-Script (eine Anwendung, geschrieben in der Programmiersprache Python) liest alle CSV-Dateien ein, bildet eine Gesamtmenge an Spaltennamen, reinigt bekannte Spalten nach bestimmten Mustern (reguläre Ausdrücke und schlimmer) und schreibt dann alle Daten in eine große CSV-Datei.

## Deduplizierung mit Open Refine

Open Refine hilft bei der Säuberung von tabellarischen Datensätzen. Die gröbsten Unreinheiten wurden schon mit dem Python-Skript entfernt, daher brauchen wir Refine nur noch für die Deduplizierung. Damit wollen wir vermeiden, dass der selbe Verein mehrere Male mit unterschiedlichen Beträgen in unseren Tabellen auftaucht – stattdessen soll am Ende ein Gesamtbetrag pro Verein stehen. Dazu nutzen wir den „Cluster & Edit“-Modus auf der Namensspalte.

Bei Open Refine gibt es mehrere Möglichkeiten, um Einträge zusammenzuführen. Eine der genauesten Funktionen nennt sich “nearest neighbor”. Bei “nearest neighbor” vergleicht Open Refine jeden Eintrag mit jedem anderen Eintrag und schaut, wie ähnlich die Einträge sich sind. Bei mehr als 44.000 Zeilen dauert das selbst extrem lange. Es empfiehlt sich daher eher, eine von mehreren möglichen „key collision“-Methoden zu wählen. Bei der “key collision” bildet das Programm aus jeder Zeile ein bestimmtes Muster, es schaut sich zum Beispiel jeden dritten Buchstaben an und legt die Einträge zusammen, bei denen dieses Muster übereinstimmt. Bei Open Refine kann man verschiedene dieser “key collision”-Funktionen durchprobieren. Wir haben mit den verschiedenen Parametern herumgespielt und so schnell viele gute Duplikat-Treffer erzeugt, die sich verbinden lassen.

Was dann am Ende tatsächlich Duplikate sind (und nicht nur ähnlich gemusterte Einträge), ist natürlich Definitionsfrage. Vereine an unterschiedlichen Registern können den gleichen Namen haben, sind aber nicht der gleiche Verein. Regionale Ableger einer Einrichtung sind auch nicht identisch zu ihrem gleichnamigen Bundesverband. Die Keying-Funktion „metaphone3“ zum Beispiel fasst alle Einrichtungen zusammen, die mit dem Wort „Förderverein“ beginnen. Das produziert natürlich einen Haufen falscher Ergebnisse. Besser ist dagegen die Fingerprint-Funktion in Open Refine, damit werden viele Tipp- und OCR-Fehler erkannt und auf die richtige Schreibweise normalisiert.

Die Deduplizierung beinhaltet viele menschliche Entscheidungen. Diese lassen sich aus Refine im Undo/Redo-Menü als Kommandos im JSON-Format extrahieren und in die Datenverarbeitungs-Pipeline einbinden. So bleibt stets überprüf- und reproduzierbar, wie wir an den Daten gearbeitet haben. Und wir können die einmal getroffenen Entscheidungen auch für neue Daten oder spätere Updates weiter nutzen.

## Pipeline

Die Idee hinter einer Daten-Pipeline ist, dass die Daten von der Quelle über automatisierte Verarbeitungsschritte in die Datenbank fließen, so dass bei Fehlerbehebungen an der Quelle die Daten nicht händisch integriert werden müssen. So eine Pipeline haben wir für dieses Projekte aufgebaut: die einzelnen CSV-Dateien, werden zu einer CSV-Datei zusammengefasst und gereinigt. Abgespeicherten Refine-Befehle werden auf die Gesamt-CSV-Datei angewendet und erst dann wird das Ergebnis in die finale Datenbank geladen.

## Die Web-Anwendung

Ziel des Projekts ist es, interessierten Bürgern Zugriff auf unsere Zuwendungsdatenbank zu geben. Ein Web-Interface mit Such- und Filterfunktion und eigenen Seiten für jede Einrichtung ist die naheliegende Lösung.

Die Web-Anwendung ist ein Django-Projekt. Die Daten werden zwar in einer herkömmlichen Datenbank gehalten, aber für die Suche noch einmal in ElasticSearch indiziert. Die Anwendung nutzt den offiziellen ElasticSearch Python Client und einen ElasticSearch-Query mit verschachtelten Aggregationen, Filter-Queries und Sortierung.

Der komplette Quelltext der Web-Anwendung findet sich auf dem CORRECTIV-GitHub-Account.

IMG-8050
Nerds

Hintergrund-Informationen zur interaktiven „Wem gehört Hamburg?“-Karte

Woher die Daten kommen, was wir zeigen und was nicht. Der Werkstatt-Bericht zur Visualisierung.

weiterlesen 5 Minuten

von Simon Wörpel

Wir haben zu unserer Recherche „Wem gehört Hamburg?“ eine interaktive Karte veröffentlicht, die ausgewählte Recherche-Ergebnisse zu den Wohnungseigentümern in Hamburg darstellt. Hier erklären wir Hintergründe zu den  Daten und warum die Karte kein vollständiges Bild zeigt.

Was zeigt die interaktive Karte?

Die Karte zeigt die Ergebnisse unseres „Wem gehört Hamburg?“-Projekts. Jeder Punkt auf der Karte ist eine konkrete Adresse, der wir einen Eigentümer einer Mietwohnung zuordnen konnten. Die Einteilung unserer Daten in verschiedene Eigentümer-Typen haben wir nach einer eigenen Systematik vorgenommen. Außerdem zeigen wir ausgewählte und anonymisierte Mieter-Geschichten, die exemplarisch für die jeweiligen Eigentümer stehen. Diese Geschichten verorten wir nur grob auf der Karte, sodass die Hinweisgeber anonym bleiben.

Wir haben bewusst auf eine detailliertere Darstellung der Karte verzichtet, um die Anonymität der Beteiligten unserer Crowd-Recherche und anderer Quellen zu wahren. Es sind somit keine Rückschlüsse auf konkrete Adressen oder Eigentümer möglich.

Woher kommen die Daten?

Die meisten der Daten stammen aus unserer crowdbasierten Recherche mit dem CrowdNewsroom. Wir hatten Hamburger Bürgerinnen und Bürger dazu aufgerufen, uns den Eigentümer ihrer Wohnung mitzuteilen. Dazu mussten sie auch ein Dokument als Beleg hochladen, etwa einen Mietvertrag oder eine Betriebskostenabrechnung. So konnten wir die Daten verifizieren. Zu allen Einträgen in der Visualisierung liegen uns Belege vor.

Weitere Daten stammen aus den Bestandslisten, die die Hamburger Genossenschaften als Reaktion auf unsere Recherche veröffentlicht haben.

Außerdem wurden uns im Verlauf der Recherche weitere Listen von Wohnungseigentümern und ihren Beständen zugespielt, die wir ebenfalls auf der Karte anzeigen – sofern wir sie verifizieren konnten.

Warum ist die Karte nicht vollständig?

Diese Karte ist eine Einzelfall-Karte. Die Daten-Recherche und somit auch ihre Ergebnisse war bewusst als qualitative Recherche angelegt. Wir wollten (strukturellen) Missständen in Hamburger Wohnsituationen nachspüren und herausfinden, wie diese mit bestimmten Eigentümer-Strukturen zusammenhängen. Jeder Punkt auf der Karte ist ein Einzelfall und das Ergebnis einer eigenen Recherche, sei es durch die vielen Hinweise in unserem CrowdNewsroom oder durch unsere weiteren Recherchen. Es war von Beginn an klar, dass wir niemals alle Eigentümer der über 700.000 Mietwohnungen in Hamburg herausfinden und darstellen können.

Der Immobilienmarkt ist weiterhin intransparent. Wir zeigen nur einen Bruchteil. Unsere Karte hat deshalb noch viele weiße Flecken.

Wie ist die Karte technisch umgesetzt?

Die interaktive Visualisierung ist eine kleine Javascript-Anwendung (github). Die vielen Punkte werden dynamisch (und jedes mal etwas anders ;)) via WebGL mit dem Framework pixi.js gezeichnet, die interaktiven Komponenten sind mit riot.js umgesetzt.

Verstärke das News-Nerds-Team von CORRECTIV!

Verstärke das News-Nerds-Team von CORRECTIV!© Ivo Mayr

Nerds

CORRECTIV stellt ein

Wir suchen neue Kolleginnen und Kollegen, die uns dabei helfen, die Bereiche Technologie und Datenjournalismus weiter auszubauen.

von Simon Jockers , Simon Wörpel

CORRECTIV ist das erste gemeinnützige, investigative Journalismusbüro in Deutschland. Wir recherchieren langfristig zu Themen, die in anderen Medien zu wenig Aufmerksamkeit erhalten. In den vergangenen drei Jahren haben wir dafür zahlreiche Preise gewonnen – unter anderem den Grimme Online Award, mehrere Lead Awards, den Deutschen Journalistenpreis, den Reporterpreis.

Jetzt bauen wir die Bereiche Technologie und Datenjournalismus weiter aus. Ab sofort suchen wir neue Kolleginnen und Kollegen, die Schlüsselpositionen in diesen beiden Bereichen übernehmen wollen:


Wir bieten:

  • Arbeit in einem hoch motivierten Team in unseren Büros in Berlin oder Essen
  • die Möglichkeit, gemeinsam mit uns an der Zukunft des Journalismus in Deutschland zu arbeiten
  • feste Vollzeitstellen mit branchenüblicher Bezahlung, die sich an Tariflöhnen orientiert
  • die Chance, unser Redaktions-Fußballteam von der Außenseiterposition in die erste Berliner Medienliga zu führen.

Das CORRECTIV-Team

1. Webentwickler*in Python (senior)

Als Webentwickler*in bei CORRECTIV bist Du verantwortlich für die Entwicklung der Tools hinter unseren datengetriebenen Recherchen und die Weiterentwicklung unserer Django-basierten Publishing-Platform mit Mitglieder- und Spendensystem. Du triffst selbstständig Technologie- und Architekturentscheidungen, unterstützt die Redaktion mit technischem Fachwissen und hilfst dabei, unser technisches Team weiter auszubauen.

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Dein Profil:

  • Du beherrschst Python, Deutsch und Englisch auf verhandlungssicherem Niveau
  • Du hast mehrjährige Erfahrung mit Konzeption, Entwicklung und Betrieb von komplexen Webanwendungen, im Idealfall in einer Lead- oder Senior-Position
  • Du bist in der Lage, sauberes HTML, CSS und JavaScript zu schreiben
  • Du hast Erfahrung mit der Integration externer APIs (z.B. Mailchimp, Paypal, etc.)

Pluspunkte für:

  • Erfahrung mit Django und Django CMS
  • Erfahrung mit modernen JavaScript-Bibliotheken wie React, Riot.js oder Vue.js
  • Erfahrung mit Node.js
  • Erfahrung mit der Leitung von Softwareprojekten oder kleinen Entwicklungsteams
  • Ein starkes Portfolio mit eigenen Projekten oder Beiträgen zu Open-Source-Software

2. Datenjournalist*in (junior und senior)

Als Datenjournalist*in bei CORRECTIV arbeitest du selbständig an datengetriebenen Recherchen, von der Datenaufbereitung und -analyse bis zur Veröffentlichung. Du arbeitest gemeinsam mit Redakteur*innen, Entwickler*innen und Designer*innen an Texten, Grafiken und interaktiven Erzählstücken und hilfst dabei, die Datenkompetenz unseres Teams zu erhöhen, indem du andere Redakteure im Umgang mit Daten unterstützt und schulst.

Dein Profil:  

  • Du hast eine journalistische Ausbildung und/oder journalistische Berufserfahrung
  • Du bringst solides statistisches Grundwissen mit
  • Du bist sicher im Umgang mit Excel, Google Spreadsheets oder anderen Formen von Datenaufbereitung & -analyse
  • Du hast Erfahrung mit Datenanalyse in einer Scriptsprache (R oder Python) und/oder Erfahrung mit interaktiver Datenvisualisierung mit Tools wie d3.js oder Leaflet

Pluspunkte für:

  • Erfahrung mit Textmining / Dokumentenanalyse
  • Erfahrung mit Projektmanagement
  • Ein starkes Portfolio mit Arbeiten aus den Bereichen Datenvisualisierung, Datenanalyse oder technischen Veröffentlichungen

Du interessierst Dich für eine der Stellen aber bist Dir nicht sicher, ob Du alle Skills hast? Bitte bewirb Dich trotzdem! Wir helfen Dir gerne dabei, Neues zu lernen und Dich weiterzuentwickeln.

Aussagekräftige Bewerbungen mit Lebenslauf und einem Link zu Deinem Portfolio oder Arbeitsproben an: bewerbung@correctiv.org

Bitte verzichte auf Fotos sowie Angaben zu Familienstand und Deinen Eltern.

160303_correctiv_im-2705-1

Nerds

Warum wir unseren Eis-Konsum in Spreadsheets erfassen sollten

Beim letzten ddj-Meetup in diesem Jahr lernten wir über die Vorzüge von Tabellen in unserem Alltag, dass Leser und Nutzer völlig egal ist, wie viel Arbeit wir in ein Projekt stecken und sprachen über Wahlberichterstattung.

weiterlesen 3 Minuten

von Simon Wörpel

Sandhya Kambhampati, Open-News-Fellow aus den USA, liebt Tabellen. Und zwar so sehr, dass sie fast alles, was sie in ihrem Alltag tut, in Tabellen erfasst. Von Reisen, Workshops über Kino-Besuche bis dahin, wann sie wo in Berlin Eis gegessen hat. Und sie forderte uns in ihrem kleinen Workshop auf, es ihr gleich zu tun – also ebenfalls Spreadsheets als unsere digitalen Notitzen zu benutzen. Warum? So gewöhnen wir uns ganz alltäglich an die Arbeit mit Tabellenkalkulations-Programmen und fangen an, “saubere” Tabellen zu erstellen und ein gutes Gefühl dafür zu kriegen.

Eine gute Idee, die wir uns von Sandhya abschaueen sollten: Wer in der Lage ist, in einer Excel- oder Google-Tabelle den Überblick über seinen Netflix-Konsum zu behalten, braucht sich auch keine Sorgen mehr um schwer lesbare Statistiken bei seiner Arbeit als Datenjournalist zu machen.

Die Folien zu Sandhyas Talk bei uns in Essen gibt es übrigens hier.

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Was kann man bei einer Wahl anders machen, um aus den vielen Hauptstadtmedien hervorzustechen? Das hat sich das Daten-Team vom Tagesspiegel gefragt und ist zu einer Antwort gekommen: Wir wollen die schnellsten sein. Und das waren sie auch – dank spezieller Technologien, wie uns Philipp Bock berichtete. Unter anderem bauten sie eine Extra-Seite, die nicht in das normale Redaktionssystem eingebunden war und somit unabhängiger und viel schneller funktionierte. Außerdem schrieben sie ein kleines Skript, das die einkommenden E-Mails von den neuen Hochrechnungen automatisch in eine Datenbank einspeiste. Ganz abgesehen davon, dass die ganze Infrastruktur auf Push-Technologie basierte und so die Daten und Visualisierungen automatisch im Browser aktualisiert wurden…

Es zeigt sich also: Wer aus der Masse herausstechen will, kann das auch dadurch erreichen, mal etwas Zeit und Ressourcen in das Ausprobieren und Anwenden neuer Technologien zu stecken.

Den datenjournalistischen Blick aus der Schweiz lieferte uns an diesem Abend Felix Michel, Journalist und Coder beim Basler Online-Medium TagesWoche. Anhand aktueller Projekte, darunter zum Beispiel das Erbschafts-Tool oder ein interaktives Kulturbudget-Spiel, zeigte er uns, wie man auch in einem winzigen Team solche Projekte realisieren kann. Der Trick unter anderm: Auf möglichst viele Online-Tools zurückgreifen, die einem die Arbeit abnehmen können.

Dabei als Mini-Newsroom überlegen, welche Daten, Technologien und Workflows sich wiederholen und für neue Projekte anwenden lassen, um Zeit und Aufwand zu sparen. Denn, das zeigte sich bei den Projekten aus Felix’ Team bisher: Den Lesern ist ziemlich egal, wie viel Mühen in eine Veröffentlichung gesteckt wurden, denn teilweise waren die besonders aufwändig gestalteten Stücke bei der TagesWoche am wenigsten erfolgreich. Worauf es nach wie vor ankommt im Datenjournalismus: Eine gute Story. Wenn das Thema die Leser fesselt, ist egal, ob man eine Datenvisualisierung mit viel Aufwand selbst programmiert hat oder ein praktisches Online-Tool benutzt hat, das nicht ganz so schick aussieht.

© Open Road by Paul De Los Reyes unter der Lizenz CC BY 2.0

Nerds

Werde OpenNews-Fellow bei CORRECTIV

Wir bei CORRECT!V wollen Journalismus und Recherche weiterentwickeln. Deshalb freuen wir uns sehr darauf, kommendes Jahr einen OpenNews-Fellow in unserem Berliner Büro begrüßen zu dürfen. Bis zum 21. August könnt Ihr Euch für das Fellowship bewerben. Hier beschreiben wir, was wir mit Dir vorhaben.

weiterlesen 3 Minuten

von Daniel Drepper , Stefan Wehrmeyer

Wir wollen helfen, den Journalismus zu verändern. Wir wollen nicht mehr nur Informationen vermitteln, von Journalist zu Bürger, von hohem Ross ins tiefe Tal. Wir wollen transparent arbeiten, so viele Menschen wie möglich einbeziehen, Verständnis schaffen für den Rechercheprozess und für die Grenzen unserer Veröffentlichung. Wir wollen Menschen so speziell und individuell wie möglich informieren. Über Datenbanken. Über Originaldokumente. Über visualisierte Daten.

Je häufiger uns das gelingt, desto besser wird unser Journalismus – und desto mehr Spaß haben wir. Wir wollen, dass Du als OpenNews-Fellow mit uns die Grenzen dieses neuen Journalismus weiter verschiebst.

OpenNews-Fellow

  • Das Knight-Mozilla-Fellowship ermöglicht jedes Jahr einer guten Hand voll Programmierern, in verschiedenen Redaktionen zu arbeiten. In diesem Jahr sind neben CORRECTIV fünf amerikanische Medien dabei: The Coral Project (New York Times / Washington Post), Frontline, Los Angeles Times, NPR, Vox Media.
  • Das Fellowship ist zehn Monate lang und ist bezahlt. Auch Nebenkosten und Reisen zu verschiedenen Konferenzen sind enthalten.
  • Bewerben kannst Du Dich direkt bei OpenNews noch bis zum 21. August.

Journalismus setzt sich aus drei Prozessen zusammen: Informationen beschaffen, Informationen verarbeiten und Informationen verbreiten. Alle drei Bestandteile des Journalismus wandeln sich seit einigen Jahren radikal. Jeder Bürger kann Teil der vierten Gewalt werden. Eines aber bleibt: Wir als Journalisten sind das CORRECTIV für diejenigen, die ihre Macht missbrauchen.

Um möglichst viele Bürger einzubeziehen und zum Teil der vierten Gewalt zu machen, wollen wir die Hintergründe unserer Arbeit so nachvollziehbar und verständlich wie möglich machen. Wir wollen Menschen damit fortbilden, wir wollen an mancher Stelle verlorenes Vertrauen in die Medien zurückgewinnen und zur Mitarbeit anregen. Denn was wir hier tun, das machen wir nicht für uns selbst, sondern für uns alle, als Vertreter der Bürger. Und Du kannst uns dabei helfen, das alles weiterzuentwickeln.

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Ein paar Beispiele aus unserer Arbeit des ersten Jahres, die unsere Idee des offenen Journalismus illustrieren:

  • Wir haben recherchiert, was mit den Geldauflagen passiert, die in Strafverfahren gezahlt werden. Das Ergebnis: Richter und Staatsanwälte verteilen diese Gelder fast ohne Kontrolle und nach eigenem Gutdünken. Statt einfach nur eine Geschichte zu schreiben, haben wir Zahlungen über 350 Millionen Euro aus den vergangenen acht Jahren zusammengetragen. Jeder kann diese Zahlungen jetzt in einer Datenbank nach Auffälligkeiten durchsuchen.
  • Multiresistente Bakterien gelten als eine der größten Gesundheitsgefahren der kommenden Jahrzehnte. Wir haben recherchiert, wie groß die Gefahr tatsächlich ist und dafür visualisiert, wie häufig eine Behandlung der relevantesten Keime in Deutschland mittlerweile abgerechnet wird. Jeder kann jetzt seine Postleiztahl eingeben und sehen, wie es um seine Region im Vergleich zum Rest von Deutschland steht und wie sich die Zahl der abgerechneten Keime entwickelt hat.
  • Wir recherchieren zum Thema TTIP, haben die wichtigsten Grundsätze mit eingängigen Graphiken illustriert und veröffentlichen dazu auch zahlreiche Originaldokumente.
  • Wir betreuen Themen wie TTIP oder die Spendengerichte langfristig. Im Herbst werden wir ein zweijähriges Projekt zu multiresistenten Bakterien in Europa starten. Und auch das Thema Klimawandel wollen wir langfristig angehen. Wir wollen Bürgern Informationen und Recherchen an einer Stelle bieten, die stetig ergänzt werden können. Viele Geschichten sind nicht abgeschlossen, sondern entwickeln sich weiter.
  • Wir arbeiten aktuell an einer virtuellen Redaktion. In einer neuen Plattform wollen wir gemeinsam mit Bürgern und anderen Journalisten große Themen recherchieren, die von einem Journalisten oder einer Redaktion alleine niemals in dieser Tiefe recherchiert werden könnten. Mit der virtuellen Redaktion schaffen wir erstmals einen Raum, der lokale Recherchen vor Ort mit der nationalen, übergreifenden Geschichte verbindet.

Für das OpenNews-Fellowship suchen wir nach einer Person, die Programmiererfahrung hat und im Bereich investigative Recherche arbeiten möchte. In unserer journalistischen Daten-Arbeit geht es um das Scrapen von Webseiten und Dokumenten, das Analysieren von Datenmengen und um die Aufbereitung und Visualisierung von Datenbanken.

Konkret könnte eines Deiner Projekte die Arbeit am Thema globale Erwärmung sein. Gemeinsam mit Reportern begibst Du Dich auf die Recherche, sammelst Studien, Daten, Informationen und Dokumente zum Thema. Beobachtest Entwicklungen. Probierst Dich im Roboter- und im Sensor-Journalismus. Gemeinsam mit den Reportern entwickelst Du Tools zur Analyse und Darstellung komplexer Probleme und Daten – und veröffentlichst kontinuierlich zum Thema globale Erwärmung.

Wir freuen uns auf Dich. Gemeinsam können wir den Journalismus öffnen.


Heute, am Dienstagabend, 11. August, kannst Du mehr über das Fellowship erfahren. Um 18 Uhr freuen wir uns darauf, Deine Fragen bei uns im Büro zu beantworten.

meetup2

Nerds

Einfach mal was nachbauen

Warum Berliner Buslinien klicken, was so schön am Nachahmen ist und wie wir mit ein paar Mausklicks ganz automatisch spannende Daten-Themen kreieren können.

von Simon Wörpel

Moritz Klack berichtete von seiner Arbeit beim Interaktiv-Team der Berliner Morgenpost. Eines der aufwändigeren und bekannteren Projekte des Teams der vergangenen Monate war eine interaktive Fahrt auf Berlins Buslinie M29. Moritz erzählte von der Entstehung dieser Anwendung mit einem großen Team aus Journalisten, Entwicklern und Designern. Hier wurde schnell klar, dass für solch große Projekte viel Manpower nötig ist, die sich kleinere Redaktionen nicht leisten können oder wollen – doch Moritz ermutigte zu mehr interaktiven Elementen im Online-Journalismus, auch wenn diese mehr Kosten und Aufwand bedeuten als herkömmliche Texte, denn das seien die Geschichten, die garantiert hohe Klickzahlen bekämen.

Marie Louise-Ticke ist Gründerin der journocode-Gruppe aus dem Umfeld der TU Dortmund. Die angehenden Datenjournalisten, Designer und Entwickler treffen sich regelmäßig und bringen sich gegenseitig neue ddj-Tools bei. Marie lernt seit einiger Zeit im Selbststudium die Scriptsprache R, mit der leicht erlernbare Datenanalysen und -visualisierungen möglich sind. Sie nahm uns unterhaltsam mit auf ihre Entdeckungsreise, die zeigte: Man sollte keine Angst vor’m Programmieren haben, sondern einfach mal anfangen. Denn auch Anfänger können schnell erstaunliche Ergebnisse hervorbringen. Der erste Schritt: Einfach mal nachbauen, was die anderen machen. Dann irgendwas verändern, und schauen, was passiert!

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Maries Kollege (unser DDJ-Fellow Phil Ninh) hat übrigens Maries Vortrag gefilmt.

Zum Abschluss unseres ersten Meetups führte uns Stefan Wehrmeyer in die komplizierte und teilweise verrückte Welt der Datenbefreiung mittels des Informationsfreiheitsgesetzes ein. Stefan betreibt seit 2011 das Portal FragDenStaat.de, eine Plattform, über die Bürger Anfragen an Behörden in Deutschland stellen. Die IFG-Anfragen sind in den vergangenen Jahren rapide gestiegen, was auch an der Entwicklung der Plattform liegt: Nur mit wenigen Mausklicks ist der Antrag an eine Behörde fertig. Das ist gerade für Datenjournalisten interessant – mit wenig Aufwand neue Datensätze anfragen, abwarten, das Thema vergessen und plötzlich inmitten einer Ideen-Flaute eine neue Geschichte auf den Schreibtisch bekommen…

Übrigens: Zum Thema Auskunftsrechte haben wir auch einen eigenen Blog.

rs978_160303_correctiv_im-9335-scr-2

Nerds

Tintenfische statt Einhörner

Verlagsmenschen sprechen bei programmierenden Journalisten gern von Einhörnern – weil sie so selten auftauchen. Wir haben aber gelernt: Datenjournalisten sind Oktopusse. Unser Meetup-Rückblick.

weiterlesen 5 Minuten

von Simon Wörpel

Adriana Homolova, Datenjournalistin unter anderem bei oneworld.nl, sprach auf unserem zweiten DDJ-Meetup in Essen über die Anforderungen an ihren Beruf. Hinter schönen Datenvisualisierungen stecken die vielseitigsten Tätigkeiten: Recherche, Statistik, Analyse, Coding, und natürlich auch eine gehörige Portion Projektmanagement, um alles unter einen Hut zu bringen – vorallem als Freelancerin in diesem Bereich. Um das alles zu jonglieren bräuchten wir am besten acht Arme, eben wie ein Oktopuss.

oktopuss.jpg

Unser Fellow Phil Ninh hat den Vortrag von Adriana wunderbar zusammengefasst.

 Der Datenjournalist und Trainer Michael Hörz aus Berlin erzählte uns von seinen aktuellen Experimenten. Zuletzt hat er sich unter anderem mit Zukunftsdaten beschäftigt und ist mit Journalistenschülern der Frage nachgegangen, wie Berlin sich verändert. Wer als Datenjournalist viel mit Daten aus öffentlicher Verwaltung arbeitet, kennt das Phänomen: Man hängt immer etwas der Zeit hinterher, da Daten oft später erst veröffentlicht werden. Anhand seines Projektes zeigte Michael, was stattdessen Daten aus der Zukunft hergeben können.

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Was tun, wenn Datensätze, die man unbedingt verarbeiten will, noch gar nicht vorliegen? Wir von CORRECTIV wollten wissen,wie es den Sparkassen geht. Doch zu bestimmten Fragestellungen gab es noch keine Daten. Simon Jockers erzählte von der Geschichte hinter unserem CrowdNewsroom, was der Gewinn von User-generierten Daten für journalistische Geschichten sein kann und worauf man achten muss. Denn wenn die User Daten selbst zusammentragen, kann das Fluch und Segen zugleich sein: Bisher unbearbeitete Themenfelder können erschlossen werden, doch diese neuen Daten müssen natürlich von anderen Journalisten verifiziert werden.

Nerds

Was es alles zu gutem Datenjournalismus braucht

Bunte Grafiken und Diagramme können viele. Bei unserem Meetup haben wir vor allem darüber diskutiert, was eine Veröffentlichung sonst noch braucht, um wirklich gut zu werden.

von Simon Wörpel

Natürlich gibt es dafür keine eindeutige Antwort, kein klares Rezept. Doch dank unserer drei Speaker sind uns einige Punkte klargeworden. Christina Elmer, Team-Lead für Datenjournalismus bei Spiegel Online, erklärte anhand einiger Learnings aus der bisherigen Arbeit ihres Datenteams, was es braucht, um mit ddj-Geschichten etwas Durchschlagskraft zu erzielen.

Wichtig ist demnach die Präsenz bei Lagen, also die (tages-)aktuelle Begleitung eines wichtigen Themas. Dazu muss die Datenredaktion natürlich genug Personal haben – nicht nur Redakteuer oder Programmierer, auch Designer, Datenanalysten und Projektplaner müssen alle zusammen arbeiten können. Christina sprach hier von der Verzahnung strategischer Bereiche.

Ohne Story kein Dataviz

Das Wichtigste bleibt aber natürlich eine gute Geschichte! Denn sonst bringt die schönste Datenvisualisierung nichts – Christina brachte es so auf den Punkt: „Ohne Story kein Dataviz, ohne Ressorts kein Wumms“.

Auch Alsino Skowronnek zeigte anhand seines für den Grimme-Online-Award nominierten Projekts airbnbvsberlin.com über die Auswirkungen von Airbnb auf Berliner Mietpreise, was für den Erfolg eines solchen Projekts wichtig ist. Bei uns blieben vor allem zwei Sachen hängen: Erstens, wie auch bei dem airbnb-Projekt, eine seperate, monothematische Website bauen. Die Süddeutsche Zeitung hat das zum Beispiel auch mit den Panama Papers so gemacht. Das löst zwar den Wiedererkennungswert zum eigenen Medium etwas, spricht aber auch ganz neue Zielgruppen an, zudem lässt sich so eine eigene Domain besser teilen und bewerben.

Zudem ermutigte uns Alsino, einfache Zusammenhänge mit einfachen Charts darzustellen. Auch wenn sich das auf den ersten Blick langweilig anfühlt: Für die User ist es wichtig, die Informationen schnell und unkompliziert erfassen zu können.

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

alsinosko.jpeg

Alsinos Gedanken, visualisiert von unserem Daten-Fellow Phil Ninh

E-Government als Datenquellen für lokale Geschichten

„Eine moderne öffentliche Verwaltung als Voraussetzung für den wirtschaftlichen Erfolg Deutschlands“ – so sieht das zumindest die Bundesregierung, und versucht daher in jüngerer Zeit, vermehrt Verwaltungs-Dienstleistungen, vor allem auf kommunaler Ebene, online anzubieten.

Ernesto Ruge beschäftigt sich unter anderem genau damit – und kommt zu dem Schluss, dass E-Government zwar „super Möglichkeiten hat“, aber noch viel zu wenig von den Kommunen bisher angeboten wird. Um das genauer herauszufinden, hat er die Plattform behoerden-online-dienste.de gestartet, die zeigt, welche Behörden bisher welche Dienste anbieten – und, ob die entsprechende Website dabei verschlüsselt ist oder nicht.

ernesto.jpeg

Die komplexe Thematik E-Government – ganz einfach aufgemalt von Phil Ninh

Immerhin, in Städten wie Bochum, Moers, Köln oder Berlin funktioniert E-Government schon auf einer anderen Ebene: Die jeweiligen „Ratsinformationssysteme“, also die Schnittstellen, die Dokumente aus Stadträten oder Rathäuser zur Verfügung stellen, sind soweit digital, dass Ernestos Projekt politik-bei-uns.de (zusammen mit der Open Knowledge Foundation) sie gesammelt anzeigen kann. Für die regional fokussierten Datenjournalisten unter euch ist diese Quelle ein Muss!

meetup

Nerds

Warum Datenjournalisten öfter mal den Staat fragen sollten

Bei unserem Auskunftsrechte-Special wird deutlich: Kaum jemand nutzt seine Informationsfreiheitsrechte. Dabei lohnt es sich – vor allem, wenn man weiß, was alles gefragt werden kann. Der Meetup-Rückblick.

von Simon Wörpel

Wir haben euch auf unserem 4. Meetup gefragt: Wer kennt das Informationsfreiheitsgesetz? Ergebnis: Eigentlich alle, zumindest hat jeder schon einmal davon gehört. Wer hat es schonmal genutzt? Nur vereinzelte Hände bleiben oben. Dieser Eindruck scheint repräsentativ für die Journalisten-Branche. Viel zu wenige Nutzen ihre Auskunftsrechte, egal ob als Journalist oder als Bürger. Wir hoffen, mit unserem Themenabend dazu motiviert zu haben.

Tania Röttger, Auskunftsrechte-Expertin bei correctiv.org und Arne Semsrott, der das Portal fragdenstaat.de betreut, brachten uns die beiden hauptsächlichen Gesetze näher, die Bürger und Journalisten nutzen können. Kurz gesagt: Das Informationsfreiheitsgesetz (IFG) gilt für alle Bürger, Journalisten können sich zusätzlich auf die Landespressegesetze (LPG) berufen. Die sind von Bundesland zu Bundesland verschieden, ermöglichen aber vor allem kurzfristigere Presseanfragen. Außer Ministerien, Behörden und Ämtern sind auch bestimmte private Unternehmen auskunftspflichtig. Nämlich diejenigen, die gemeinschaftliche Aufgaben übernehmen oder mehrheitlich in öffentlicher Hand sind.

Durch die Talks wurde klar, was die Hürden erfolgreicher Anfragen sind: Zum einen versuchen natürlich die Ämter und Ministerien gerne, den Weg so kompliziert wie möglich zu gestalten. Missverstandene Fragen oder hohe Kosten sind keine Seltenheit. Hier hilft ein langer Atem.

Wichtig: Wissen, was es alles zu holen gibt

Zum Anderen ist es aber auch für uns Antragssteller wichtig, zu wissen, was alles gefragt werden kann: Nämlich wirklich alles! Dazu ist wichtig zu verstehen, wie eine Behörde in Deutschland funktioniert. Nahezu alles wird irgendwie schriftlich festgehalten. Gesprächsprotokolle, Ausarbeitungen der einzelnen Fachreferate, Handlungs-Vorschläge zu allen möglichen Themen, haufenweise eMails sowieso.

Unterstützen Sie unabhängigen Journalismus!

CORRECTIV ist das erste gemeinnützige Recherchezentrum im deutschsprachigen Raum. Unser Ziel ist eine aufgeklärte Gesellschaft. Denn nur gut informierte Bürgerinnen und Bürger können auf demokratischem Weg Probleme lösen und Verbesserungen herbeiführen. Diese Recherche wurde mit der Unterstützung unserer Fördermitglieder realisiert. Jetzt spenden!

Ein Beispiel dafür: Gesprächsvorbereitungen. Trifft sich etwa ein Minister mit Lobbyvertretern, arbeitet irgendein Fachreferat mindestens Stichpunkte für dieses Gespräch aus. Wenn man das einmal weiß, kann man durch IFG-Anfragen an interessante Informationen kommen. Wir haben dann mit Arne gleich mal “live” eine Anfrage über fragdenstaat.de gestellt. Wir wollen wissen, um was es bei einem Treffen zwischen Gabriel und Edeka-Vertretern ging. Ihr könnt sogar über das Portal der Anfrage folgen, um auf dem aktuellen Stand zu bleiben.

Neue Geschichten ausgraben

Hier wird klar, warum das gerade für Journalisten so interessant ist: Aus der Antwort lässt sich garantiert sofort eine neue Geschichte aufschreiben! Und für Datenjournalisten noch der Tipp: Selbst das kleinste Fachreferat irgendeiner Behörde hat irgendwo auf seinen Computern einen Ordner, der garantiert voll mit Excel-Tabellen ist. Und manchmal freut sich sogar der ein oder andere Beamte, wenn sich jemand für seine Daten interessiert.

Auch in den USA gibt es den “Freedom of Information Act”. Unsere Open-News-Fellow Sandhya Kambhampati erklärte uns die Unterschiede zum deutschen Gesetz. So gibt es in den USA viel weniger Ausnahmen, und gerade im Bildungsbereich gibt es viel mehr Daten, wie zum Beispiel die Geld-Spenden an die Sportprogramme der Colleges. Sandhya zeigte uns auch, dass Anfragen nicht immer nur ernste, komplizierte Sachverhalte oder Datensätze sein müssen: Auch eine Geschichte über Bären kann durch eine Informationsfreiheitsanfrage entstehen.

Also, an alle Bürger und Journalisten: Nutzt eure Auskunftsrechte. Wir helfen euch dabei.

© Ivo Mayr

Nerds

EXKLUSIV: Sicherheitslücke bei der Bahn

Eine Sicherheitslücke im Geschäftskundenbereich offenbart, wie wenig sich die Deutsche Bahn um die Daten ihrer Kunden kümmert.

weiterlesen 5 Minuten

von Simon Wörpel

Nicht nur auf der Schiene fällt die Bahn regelmäßig mit maroder Infrastruktur auf. Auch im Internet ist die Technik teilweise von gestern. Wir haben eine Sicherheitslücke entdeckt, über die Daten von Firmenkunden leicht auszuspähen sind.

Das Daten-Leck befindet sich im Geschäftskunden-Bereich. Hier wickeln weit über zweihunderttausend Unternehmen ihre Geschäftsfahrten ab. CORRECTIV.Ruhr war in der Lage, innerhalb weniger Minuten über zehntausend Geschäftsadressen von bahn.business-Kunden abzugreifen, ohne dafür eine Passwort-Sperre oder andere Sicherheits-Barrieren knacken zu müssen.

Wir haben uns diesen Beispieldatensatz von 10.139 Unternehmen und Organisationen genauer angeschaut, um die Lücke bewerten zu können. Von Elterninitiativen an Schulen über Mittelständler bis hin zu Konzernen, Landesministerien und politischen Fraktionen ist alles dabei. Außer ihrer Rechnungsadresse haben viele Geschäftskunden auch die Namen von entsprechenden Ansprechpartnern der Bahn anvertraut. Oder detaillierte Angaben über die Lage der jeweils zuständigen Abteilungen oder Büros, so zum Beispiel „2.OG Raum 2.13“ bei einer Firma aus Baden-Württemberg. Auch ausländische Firmen, vorzugsweise aus China, sind in unserem Beispieldatensatz zu finden.

Solche Daten dürften vor allem für Werbetreibende und die Konkurrenz im Mobilitätssektor interessant sein, da ziemlich klar ist, was man diesen Firmen verkaufen kann: Billigere Geschäftsreisen als bei der Bahn. Aber auch Kriminelle könnten die detaillierten Kontaktinformationen nutzen, um Briefe im Namen einer Firma zu verschicken und so „Social Engineering“ zu betreiben. Weiter könnten sie versuchen, mit den Informationen Fahrkarten über die Namen der Unternehmen zu buchen.

Unabhängig davon, ob und wie die Daten missbraucht werden könnten – allein, dass sie bei einem internationalen Konzern wie der Bahn so einfach zu bekommen sind, ist überaus bedenklich.

Unterstützen Sie unabhängigen Journalismus!

Unsere Recherchen entstehen vor Ort. Wir liefern Hinter­­­gründe und spüren Skandalen nach – da wo sie passieren. Wir berichten mitten aus dem Leben – wo die Menschen sind. Jetzt spenden!

Die Lücke ist technisch banal: Bahn.business-Kunden erhalten einen speziellen Link, über den sich ihre Mitarbeiter als „Selbstbucher“ registrieren können. Die gekauften Tickets werden dann direkt über die Firma abgerechnet. Dieser Link hat in seiner Adresse einen Parameter namens „firmenid“, der jedem Kunden eine eigene Nummer zuweist. Ändert man diesen Parameter, erhält man die Eingabemaske für eine andere Firma – mit vorausgefüllter Rechnungsadresse und oftmals auch mit einem Ansprechpartner oder weiteren Details aus dem Geschäftsbetrieb der betroffenen Firma.

Das Späh-Programm, das diese Abfrage sehr einfach automatisiert und die Daten in eine auswertbare Tabelle umwandelt, konnten wir in wenigen Minuten schreiben. Es hat 11 Zeilen und 799 Zeichen (inklusive Leerzeichen). Die Datenabfrage selbst dauerte für die über 10.000 Adressen lediglich 45 Minuten.

Wir haben die Bahn einige Stunden vor Veröffentlichung dieses Textes über die bestehende Lücke informiert um eine Stellungnahme gebeten.* Eine Sprecherin der Bahn erklärte auf CORRECTIV.Ruhr-Anfrage, dass die Bahn den Hinweis sehr ernst nehme. Allerdings handele es sich hierbei „um ein technisches Problem, und dabei sind nach erster Einschätzung keine personenbezogenen Daten betroffen. Wir arbeiten an einer schnellstmöglichen Behebung.“ Die betroffene Funktionalität sei zunächst deaktiviert worden, so die Sprecherin weiter.

In den vergangenen Monaten ist die Bahn schon öfter negativ aufgefallen. Vor zwei Wochen legte ein Mitglied des Chaos Computer Clubs (CCC) in Hannover eine gravierende Sicherheitslücke im neuen WLan-Netz der ICE-Züge offen. Die Bahn reagierte überraschend schnell.

Disclaimer: Wir haben den Beispieldatensatz nach Abschluss der Recherche vernichtet.

*Update 24.10., 23.10: Wir haben die Stellungnahme der Bahn in den Text eingefügt. Zudem hatten wir geschrieben, „die Bahn um eine Stellungnahme gebeten“ zu haben. Damit keine Missverständnisse aufkommen, heißt es nun korrekterweise: „Wir haben die Bahn einige Stunden vor der Veröffentlichung dieses Textes auf die Lücke hingewiesen und um eine Stellungnahme gebeten.“