Zeit Online schließt ihr Archiv mit einer API auf

Hackday bei Zeit Online
Foto: Dirk Schmidtke
Zoom
 + 
Hackday bei Zeit Online
Foto: Dirk Schmidtke
Die von einer Stiftung getragene Tageszeitung Guardian gilt weltweit als eine der auch technologisch führenden Online-Publikationen. In Deutschland eifert Zeit Online in kleinerem Maßstab dem angelsächsischen Vorbild nach. Wohl nicht umsonst wechselt der anglophile Chefredakteur Wolfgang Blau, einer der Meinungsführer zur Zukunft des (Online-) Journalismus hierzulande, im kommenden Jahr als Digital Strategy Director nach London.

Noch unter Blaus Ägide hat Zeit Online jetzt eine Content-API in der Beta-Version freigeschaltet, die ebenfalls vom Guardian inspiriert ist. Sie ermöglicht es auch externen Entwicklern, auf das Zeitungs-Archiv zuzugreifen und diesen Datenschatz mit eigenen Anwendungen zu heben. Fürwahr ein Schatz, hat die Zeit doch trotz einiger Probleme ihre Druckausgaben seit 1946 (!) gescannt und per Texterkennungs-Software digitalisiert.

Filigrane tag clouds
Stilecht wurde der API-Launch mit einem kleinen Hackday in einem Nebenraum des Berliner Zeit-Online-Newsrooms eingeläutet. "Wir wünschen uns, dass die API viele Entwickler zu neuen Apps inspiriert", sagt Thomas Jöchler, Leiter der zehnköpfigen Entwicklungsredaktion von Zeit Online. Der Österreicher zeigt auf zwei großformatige Ausdrucke an der Wand, die nach dem Prinzip von tag clouds die am häufigsten erwähnten Personen und Länder in fast 70 Jahren Zeit-Publikation darstellen - ein filigrane Gewebe aus Namen und ihren Querverbindungen, die sich wie thematische Kontinente auf einer Weltkarte verteilen.

Faszinierend: Da steht Bert Brecht in der Feuilleton-Wolke direkt zwischen Ernst Jünger und - wir sind ja bei der Zeit - Fritz J. Raddatz. Weiter unten beim Sport findet sich der Fußball-Kaiser Franz Beckenbauer neben Ex-Bundestrainer Jürgen Klinsmann unweit des Klubs Real Madrid - ein Verschlagwortungsfehler, der ohne die Visualisierung nicht so schnell ins Auge fallen würde.

Der Nutzwert, findet Jöchler, vor seinem Wechsel nach Berlin im Juli 2012 in Wien für den Kurier und den Online-Auftritt der österreichischen Hauptstadt tätig, sei viel höher als bei einer gewöhnlichen Artikelliste. Jetzt fehle noch ein Zeitstrahl, mit dessen Hilfe man die Konjunktur der Namen und Orte über die Jahre hinweg beobachten könnte. Ein weiteres Einsatzgebiet wären linguistische Studien zur Verwendung von Begriffen.

Data-Mining mit Apache Lucene
Über die API lassen sich solche Recherchen auch aus der Ferne durchführen. Eine Suche im Volltext der Artikel ist zwar möglich, herausgegeben wird aber vorerst nur ein Anrisstext - unter anderem aus urheberrechtlichen Gründen, sagt Jöchler. Pro Tag und Nutzer sind 10.000 Abrufe möglich.

Die nach dem REST-Prinzip ausgelegte API liefert Daten verpackt in JSON bzw. JSONP zurück - damit dürften alle denkbaren Skipt- und Programmiersprachen zurecht kommen. Für das Data Mining auf Seiten von Zeit Online verantwortlich ist mit der Open-Source-Software Apache Lucene und deren Server Solr dieselbe Suchmaschine, wie sie auch beim Guardian verwendet wird.

Programmierer benötigen für den Zugriff einen API-Key, der sich umstandslos gegen Hinterlassung von Namen und Email-Adresse abrufen lässt. Mit Hilfe eines API Explorers können Abfragen probeweise auch direkt über ein Online-Tool ausgeführt werden. Zudem haben die Zeit-Entwickler zur Demonstration in der bislang noch fast leeren App-Gallery einen einfachen jQuery-Client bereitgestellt. Weitere Informationen liefert der Zeit-Developer-Blog.