Präsentation zum BMBF geförderten Projektes newsstream auf dem Symposium
"Big Data - Produktiver Mehrwert oder unberechenbare Datenflut?".
Nach eine kurzen Vorstellung des dpa-newslab und einem Überblick über das Projekt, wird insbesondere auf die Motivation des dpa-newslab und der dpa an dem Projekt teilzunehmen eingegangen und erste "Epics" und Demonstratoren vorgestellt.
Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten
1. Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten
Symposium BigData
Haus des Rundfunks, Berlin
18. Juni 2015
Dr. Gerd Kamp
Leiter dpa-newslab / Chief Technology Scout dpa
3. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab
3
4. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab: Übersicht
R & D Einheit der dpa Gruppe, seit 2009
Kleines Team
• Vorwiegend Informatiker/Entwickler + Entwicklungsredakteur /
Datenjournalist + Graphiker
Arbeitsweise
• Demos not Memos
4
5. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab: Schwerpunkt Development
• NewsApps für
Nachrichtenprofis
• APIs für dpa / dpa-infocom
Inhalte
• Clients / Apps /
kundenspezifische Formate
5
6. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
dpa-newslab: Schwerpunkt Research
Formate, Workflows & APIs für (Meta-)Daten im Bereich Nachrichten
Zusätzliche Metadaten
• z.B. Geo-Metadaten, Bildschwerpunkte für Fotos
Nutzung dieser Metadaten für
• Suche (z.B. Faceted-Search)
• Präsentation, Layout, IA, UX
6
7. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Überblick news|stream
7
8. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Hauptziel des Projekts
Das Hauptprojektziel ist
die echtzeitnahe Verarbeitung von hochdynamischen,
unstrukturierten Nachrichtenströmen und die gleichzeitige
Anreicherung mit bereits verarbeiteten und archivierten,
strukturierten Nachrichtendaten,
sowie mit externen Wissensbasen
aus der Linked-Open-Data-Welt.
8
9. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Projektkonsortium
Technikpartner
• Fraunhofer IAIS (Konsortialführer, Schwerpunkt: Audio, Ansprechpartner Dr. Daniel Stein )
• neofonie GmbH (Schwerpunkt: Text, Ansprechpartner: Peter Adolphs)
Anwendungspartner
• Deutsche Welle (Schwerpunkt: Audio, Ansprechpartner: Cosmin Cabulea)
• dpa (Schwerpunkt: Text, Ansprechpartner: Dr. Gerd Kamp)
Laufzeit: 09/2014 - 08/2017
newsstreamproject.org, @wearenewsstream
9
10. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Projektziele
Ziel 1
• Big-Data-Infrastruktur zur effizienten und echtzeitnahen Analyse von
heterogenen Nachrichtenströmen
Ziel 2
• Semantische Analyse von multimodalen und unstrukturierten Nachrichtendaten
Ziel 3
• Pilotierung und Erprobung der neuartigen Analyseinfrastruktur in realen
Nachrichtenumgebungen
10
11. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Anwendungsszenarien
Szenario 1 (DW)
• Unterstützung der journalistischen Arbeit mit Big Data durch
automatisches Filtern und Aggregieren verschiedener Quellen
Szenario 2 (DW):
• Computer-Assisted Reporting 3.0
Scenario 3 (dpa):
• Bewältigung von Big Data im hektischen Tagesgeschäft
11
12. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Szenario 3: Bewältigung
Unterstützung beim Information Overload bei "Großlagen"
Aktualisierung / Pflege von Hintergründen und Fakten
Monitoring von Online und SocialMedia, Archivsuche
Scouting nach neuen Themen, neuen Blickwinkeln/Aspekten
12
13. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Motivation dpa-newslab / dpa für Newsstream 3.0
13
14. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Neues Format: Von IPTC7901 / NITF zu NewsML G2
Mit Abstand das größte Projekt der dpa in den letzten Jahren
Beinhaltet Entwicklung und Roll-Out eines neuen Redaktionssystems (1,5 x)
• Roll-Out erste Version 2012 / 2013
Struktur in den Meldungen
• Mehr Metadaten,
• Semantisches HTML für die Auszeichnung des Inhaltes
• Einheitliches Format
• Kuratierung (Text-Bild-Verknüpfung, Themenpakete, Rubrikenpakete, Terminpakete, …)
14
15. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Neues Format: Von IPTC7901 / NITF zu NewsML G2
newslab seit 2012 involviert
Rolle:
• Erster Kunde des Formates
• Nutzung des Formates zum Bau von Apps und APIs
• Feedback an Formatentwickler und Definition des semantischen
HTML der Artikel
15
16. Format: Archive < 1983
Digitalisierter Mikrofilm
16Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
17. Aktuelles Basisdienstformat
Immer noch IPTC7901
17Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
^Ahsh0008 3 vm 205 lno 0039^M
Leute/USA/Deutschland/^M
^B(Medien-Info)^M
Zeitung: Robert Redford hat in Hamburg geheiratet^M
(Mit Bild) =^M
Hamburg (dpa) - Hollywood-Star Robert Redford (72) hat nach^M
Informationen des «Hamburger Abendblatts» seine langjährige Freundin^M
Sibylle Szaggars (51) in Hamburg geheiratet. Die Trauzeremonie mit^M
etwa 30 Gästen sei am vergangenen Samstag im engsten Familienkreis im^M
Hotel «Louis C. Jacob» gefeiert worden, berichtet das Blatt am^M
Mittwoch. Dort habe das Paar mehrere Tage gewohnt. Zuvor hatte es^M
demnach bereits standesamtlich geheiratet. Der Oscar-Preisträger^M
Redford und die Malerin Szaggars sind seit 1996 liiert. Für beide ist^M
es nicht die erste Ehe. Szaggars ist gebürtige Hamburgerin, lebt aber^M
seit vielen Jahren in den USA. Eine weitere Hochzeitsfeier will das^M
frisch getraute Paar laut Zeitung im September in Mexiko feiern.^M
….
dpa gth yyzz n1 gth^M
^C150500 Jul 09 ^MText
18. 2010 dpa-Notizblock
Markdown um XHTML in ASCII zu tunneln
18Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
# dpa-Notizblock
## Berichtigung- Im Zeile 4 wurde geändert: Vier-Raum-Wohnung (statt: Drei-Raum)
## Achtung- Zusammenfassung folgt - 20 Zl bis 1400
## Internet
- [Studie zum Wohnungsmangel in Deutschland](http://dpaq.de/VZRVW)
- [Daten zum Wohnen](http://dpaq.de/dgheZh)
## Orte
- [SP Eduard Pestel Institut für Systemforschung](Königstr. 50a, 30175 Hannover)
## Service
- [Studie zum Wohnungsmangel](Meier-Verlag 2009. 300 S. Euro 35,00, ISBN:300356756)
## Hinweise
- RegioData: Angebot von Regiodata zum Wohnungsmarkt in Deutschland
* * * *
Die folgenden Informationen sind nicht zur Veröffentlichung bestimmt
## Ansprechpartner
- x. xxxxxx, im Eduard Pestel Institut für Systemforschung, 0511/xxxxx-xx x.xxxxx@pestel-institut.de
## Autoren/Kontakt
- Andreas Meyer <meyer.andreas@dpa.com> und Klaus Müller, mueller.klaus@dpa.com
- Bearbeiter: Hans-Jürgen Ehlers Tel. 040/4113-xxxxx, hamburg@dpa.com
dpa am/km yyzz eh
19. Aktuelles Onlineformat
NITF 3.0
19Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
20. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
NewsML G2 Textwire
Textfunk
20
21. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
NewsML G2 Textwire
Textfunk
21
22. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /1
Newsroom Workflows
• Verwendung von BigData-Technologien zum effizienten Filtern /
zur effizienten Recherche.
• Übergreifend über die aktuelle Produktion , das Archiv, sowie
Onlinemedien und / soziale Medien
22
23. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /2
Effiziente Workflows zur Anreicherung der Nachrichten „an der
Quelle“
• Daten, Metadaten, Wissen
• Semi-automatisch durch Unterstützungssysteme,
• Journalist / Nutzer im „Driver Seat“, Algorithmen machen
Vorschläge
Technologien: NLP, Textmining, Klassifikation, …
23
24. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Ansätze & Ideen (dpa) für newsstream: Von Entwicklern / Entwicklertools lernen
Leitbilder:
• Konfigurierbare Dashboards, Facettierte Suche
• Integrated Authoring Environment
• Github / Gist for News
24
25. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie: Kompetenzen & Technologien
25
26. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie: Kompetenzen
Big Data
• Textmining auf großen Datenmengen seit > 5 Jahren
Textanalyse API (TXT Werk)
• Extraktion von Metadaten mit linguistischen und statistischen
Verfahren
26
27. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie : Big-Data-Technologien
Realisierung der Big-Data-Plattform auf Entwicklungscluster mit 16
Nodes (100 TB Speicherkapazität)
• Apache Spark: Batchverarbeitung und Spark Streaming
• Suchintegration über Cloudera Search/Apache Solr
• Konfigurierbare Dashboards mit “Banana”
27
28. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
neofonie: Textanalyse
TXT Werk API (http://txtwerk.de/)
• Entitätenerkennung und -verlinkung
• Erkennt Personen,Orte, Organisationen, Jobtitle und Events
• Verlinkung mit LInked-Open-Data-Quellen (Freebase/Wikidata)
• Erkennung unbekannter Personen und Orte mit maschinellen Lernverfahren
• Extraktion der wichtigsten Schlüsselwörter mit statistischen Verfahren
• Klassifikation nach Nachrichtenressorts
• Automatische Zitaterkennung mit rudimentärer Quellenerkennung
• Datumserkennung inkl. Auflösung von Begriffen wie "morgen"
28
29. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Aktuelle Demonstratoren & „Epics“
29
30. "Epic": Sprecher- / Ereigniserkennung
Software analysiert live-Audio und reagiert, wenn
bekannte Sprecher auftauchen
Auch möglich für beliebige Live-Daten (Dax, Rheinpegel)
ENTW
URF
30Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
31. "Epic": O-Ton-Zuordnung
Redakteur markiert Zitat im Text, Software
ordnet Audio-Schnippsel zu
ENTW
URF
31Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
32. "Epic": “named entities”-Verlinkung
Schlagworte, Orte, Personen, Zitate, Organisationen werden
erkannt und vorgeschlagen
Verlinken mit dpa und anderen Quellen
32Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
ENTW
URF
33. EPIC: Bilden von Themenbündeln
Textähnlichkeit
dpa Subjects & Keywords, Themenpakete
neofonie Klassifikatoren und Schlagwörtern
ENTW
URF
33Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
38. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
Danke
Dr. Gerd Kamp
gkamp@acm.org
@gkamp
38