Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

2.064 Aufrufe

Veröffentlicht am

Präsentation zum BMBF geförderten Projektes newsstream auf dem Symposium
"Big Data - Produktiver Mehrwert oder unberechenbare Datenflut?".

Nach eine kurzen Vorstellung des dpa-newslab und einem Überblick über das Projekt, wird insbesondere auf die Motivation des dpa-newslab und der dpa an dem Projekt teilzunehmen eingegangen und erste "Epics" und Demonstratoren vorgestellt.

Veröffentlicht in: Technologie
0 Kommentare
1 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

Keine Downloads
Aufrufe
Aufrufe insgesamt
2.064
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
625
Aktionen
Geteilt
0
Downloads
16
Kommentare
0
Gefällt mir
1
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten

  1. 1. Newsstream 3.0 – Big-Data-Infrastruktur für Journalisten Symposium BigData Haus des Rundfunks, Berlin 18. Juni 2015 Dr. Gerd Kamp Leiter dpa-newslab / Chief Technology Scout dpa
  2. 2. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 • dpa-newslab • news|stream Projektübersicht • Motivation dpa / Kompetenzen neofonie • Aktuelle Demonstratoren & “Epics" 2 Agenda
  3. 3. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 dpa-newslab 3
  4. 4. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 dpa-newslab: Übersicht R & D Einheit der dpa Gruppe, seit 2009 Kleines Team • Vorwiegend Informatiker/Entwickler + Entwicklungsredakteur / Datenjournalist + Graphiker Arbeitsweise • Demos not Memos 4
  5. 5. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 dpa-newslab: Schwerpunkt Development • NewsApps für Nachrichtenprofis • APIs für dpa / dpa-infocom Inhalte • Clients / Apps / kundenspezifische Formate 5
  6. 6. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 dpa-newslab: Schwerpunkt Research Formate, Workflows & APIs für (Meta-)Daten im Bereich Nachrichten Zusätzliche Metadaten • z.B. Geo-Metadaten, Bildschwerpunkte für Fotos Nutzung dieser Metadaten für • Suche (z.B. Faceted-Search) • Präsentation, Layout, IA, UX 6
  7. 7. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Überblick news|stream 7
  8. 8. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Hauptziel des Projekts Das Hauptprojektziel ist
 die echtzeitnahe Verarbeitung von hochdynamischen, unstrukturierten Nachrichtenströmen und die gleichzeitige Anreicherung mit bereits verarbeiteten und archivierten, strukturierten Nachrichtendaten,
 sowie mit externen Wissensbasen
 aus der Linked-Open-Data-Welt. 8
  9. 9. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Projektkonsortium Technikpartner • Fraunhofer IAIS (Konsortialführer, Schwerpunkt: Audio, Ansprechpartner Dr. Daniel Stein ) • neofonie GmbH (Schwerpunkt: Text, Ansprechpartner: Peter Adolphs) Anwendungspartner • Deutsche Welle (Schwerpunkt: Audio, Ansprechpartner: Cosmin Cabulea) • dpa (Schwerpunkt: Text, Ansprechpartner: Dr. Gerd Kamp) Laufzeit: 09/2014 - 08/2017 newsstreamproject.org, @wearenewsstream 9
  10. 10. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Projektziele Ziel 1 • Big-Data-Infrastruktur zur effizienten und echtzeitnahen Analyse von heterogenen Nachrichtenströmen Ziel 2 • Semantische Analyse von multimodalen und unstrukturierten Nachrichtendaten Ziel 3 • Pilotierung und Erprobung der neuartigen Analyseinfrastruktur in realen Nachrichtenumgebungen 10
  11. 11. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Anwendungsszenarien Szenario 1 (DW) • Unterstützung der journalistischen Arbeit mit Big Data durch automatisches Filtern und Aggregieren verschiedener Quellen Szenario 2 (DW): • Computer-Assisted Reporting 3.0 Scenario 3 (dpa): • Bewältigung von Big Data im hektischen Tagesgeschäft 11
  12. 12. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Szenario 3: Bewältigung Unterstützung beim Information Overload bei "Großlagen" Aktualisierung / Pflege von Hintergründen und Fakten Monitoring von Online und SocialMedia, Archivsuche Scouting nach neuen Themen, neuen Blickwinkeln/Aspekten 12
  13. 13. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Motivation dpa-newslab / dpa für Newsstream 3.0 13
  14. 14. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Neues Format: Von IPTC7901 / NITF zu NewsML G2 Mit Abstand das größte Projekt der dpa in den letzten Jahren Beinhaltet Entwicklung und Roll-Out eines neuen Redaktionssystems (1,5 x) • Roll-Out erste Version 2012 / 2013 Struktur in den Meldungen • Mehr Metadaten, • Semantisches HTML für die Auszeichnung des Inhaltes • Einheitliches Format • Kuratierung (Text-Bild-Verknüpfung, Themenpakete, Rubrikenpakete, Terminpakete, …) 14
  15. 15. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Neues Format: Von IPTC7901 / NITF zu NewsML G2 newslab seit 2012 involviert Rolle: • Erster Kunde des Formates • Nutzung des Formates zum Bau von Apps und APIs • Feedback an Formatentwickler und Definition des semantischen HTML der Artikel 15
  16. 16. Format: Archive < 1983 Digitalisierter Mikrofilm 16Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  17. 17. Aktuelles Basisdienstformat Immer noch IPTC7901 17Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 ^Ahsh0008 3 vm 205 lno 0039^M Leute/USA/Deutschland/^M ^B(Medien-Info)^M Zeitung: Robert Redford hat in Hamburg geheiratet^M (Mit Bild) =^M Hamburg (dpa) - Hollywood-Star Robert Redford (72) hat nach^M Informationen des «Hamburger Abendblatts» seine langjährige Freundin^M Sibylle Szaggars (51) in Hamburg geheiratet. Die Trauzeremonie mit^M etwa 30 Gästen sei am vergangenen Samstag im engsten Familienkreis im^M Hotel «Louis C. Jacob» gefeiert worden, berichtet das Blatt am^M Mittwoch. Dort habe das Paar mehrere Tage gewohnt. Zuvor hatte es^M demnach bereits standesamtlich geheiratet. Der Oscar-Preisträger^M Redford und die Malerin Szaggars sind seit 1996 liiert. Für beide ist^M es nicht die erste Ehe. Szaggars ist gebürtige Hamburgerin, lebt aber^M seit vielen Jahren in den USA. Eine weitere Hochzeitsfeier will das^M frisch getraute Paar laut Zeitung im September in Mexiko feiern.^M …. dpa gth yyzz n1 gth^M ^C150500 Jul 09 ^MText
  18. 18. 2010 dpa-Notizblock Markdown um XHTML in ASCII zu tunneln 18Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 # dpa-Notizblock ## Berichtigung- Im Zeile 4 wurde geändert: Vier-Raum-Wohnung (statt: Drei-Raum) ## Achtung- Zusammenfassung folgt - 20 Zl bis 1400 ## Internet - [Studie zum Wohnungsmangel in Deutschland](http://dpaq.de/VZRVW) - [Daten zum Wohnen](http://dpaq.de/dgheZh) ## Orte - [SP Eduard Pestel Institut für Systemforschung](Königstr. 50a, 30175 Hannover) ## Service - [Studie zum Wohnungsmangel](Meier-Verlag 2009. 300 S. Euro 35,00, ISBN:300356756) ## Hinweise - RegioData: Angebot von Regiodata zum Wohnungsmarkt in Deutschland * * * * Die folgenden Informationen sind nicht zur Veröffentlichung bestimmt ## Ansprechpartner - x. xxxxxx, im Eduard Pestel Institut für Systemforschung, 0511/xxxxx-xx x.xxxxx@pestel-institut.de ## Autoren/Kontakt - Andreas Meyer <meyer.andreas@dpa.com> und Klaus Müller, mueller.klaus@dpa.com - Bearbeiter: Hans-Jürgen Ehlers Tel. 040/4113-xxxxx, hamburg@dpa.com dpa am/km yyzz eh
  19. 19. Aktuelles Onlineformat NITF 3.0 19Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  20. 20. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 NewsML G2 Textwire Textfunk 20
  21. 21. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 NewsML G2 Textwire Textfunk 21
  22. 22. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /1 Newsroom Workflows • Verwendung von BigData-Technologien zum effizienten Filtern / zur effizienten Recherche. • Übergreifend über die aktuelle Produktion , das Archiv, sowie Onlinemedien und / soziale Medien 22
  23. 23. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Ansätze & Ideen (dpa) für newsstream: Newsroom Workflows /2 Effiziente Workflows zur Anreicherung der Nachrichten „an der Quelle“ • Daten, Metadaten, Wissen • Semi-automatisch durch Unterstützungssysteme, • Journalist / Nutzer im „Driver Seat“, Algorithmen machen Vorschläge Technologien: NLP, Textmining, Klassifikation, … 23
  24. 24. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Ansätze & Ideen (dpa) für newsstream: Von Entwicklern / Entwicklertools lernen Leitbilder: • Konfigurierbare Dashboards, Facettierte Suche • Integrated Authoring Environment • Github / Gist for News 24
  25. 25. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 neofonie: Kompetenzen & Technologien 25
  26. 26. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 neofonie: Kompetenzen Big Data • Textmining auf großen Datenmengen seit > 5 Jahren Textanalyse API (TXT Werk) • Extraktion von Metadaten mit linguistischen und statistischen Verfahren 26
  27. 27. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 neofonie : Big-Data-Technologien Realisierung der Big-Data-Plattform auf Entwicklungscluster mit 16 Nodes (100 TB Speicherkapazität) • Apache Spark: Batchverarbeitung und Spark Streaming • Suchintegration über Cloudera Search/Apache Solr • Konfigurierbare Dashboards mit “Banana” 27
  28. 28. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 neofonie: Textanalyse TXT Werk API (http://txtwerk.de/) • Entitätenerkennung und -verlinkung • Erkennt Personen,Orte, Organisationen, Jobtitle und Events • Verlinkung mit LInked-Open-Data-Quellen (Freebase/Wikidata) • Erkennung unbekannter Personen und Orte mit maschinellen Lernverfahren • Extraktion der wichtigsten Schlüsselwörter mit statistischen Verfahren • Klassifikation nach Nachrichtenressorts • Automatische Zitaterkennung mit rudimentärer Quellenerkennung • Datumserkennung inkl. Auflösung von Begriffen wie "morgen" 28
  29. 29. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Aktuelle Demonstratoren & „Epics“ 29
  30. 30. "Epic": Sprecher- / Ereigniserkennung Software analysiert live-Audio und reagiert, wenn bekannte Sprecher auftauchen Auch möglich für beliebige Live-Daten (Dax, Rheinpegel) ENTW URF 30Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  31. 31. "Epic": O-Ton-Zuordnung Redakteur markiert Zitat im Text, Software ordnet Audio-Schnippsel zu ENTW URF 31Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  32. 32. "Epic": “named entities”-Verlinkung Schlagworte, Orte, Personen, Zitate, Organisationen werden erkannt und vorgeschlagen
 Verlinken mit dpa und anderen Quellen 32Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 ENTW URF
  33. 33. EPIC: Bilden von Themenbündeln Textähnlichkeit dpa Subjects & Keywords, Themenpakete neofonie Klassifikatoren und Schlagwörtern ENTW URF 33Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  34. 34. Demonstrator: Vergleich von Texten Text-Alignment CVS / diff / 3-way merge 34Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  35. 35. "Epic": Twitter-Statistik “Live” #Hashtag oder Wort-Statistik im Zeitverlauf
 ENTW URF 35Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  36. 36. Demonstrator: Twitter-Dashboard http://newsstreamproject.org/werkstattbericht- no-1/
 36Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  37. 37. Demonstrator: Twitter-Dashboard http://newsstreamproject.org/werkstattbericht- no-1/
 37Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  38. 38. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Danke Dr. Gerd Kamp gkamp@acm.org @gkamp 38
  39. 39. Umsetzung Architektur Archivierte, multimediale Nachrichteninhalte Dynamische Nachrichtenströme Analyse von unstrukturierten Daten Aggregierte Metadaten Kontextualisierung & semantische Analyse Anreichern Filtern Indexieren Semantische Suche und Verwendung von Inhalten Audio und Video RSS Feeds & Websites Social Streams Linked & Sensor Data Newsroom Batch Layer Speed Layer 39Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015
  40. 40. Gerd Kamp, newsstream - Big-Data-Technologien für Journalisten, ARD/ZDF Symposium Big/Data, Haus des Rundfunks, Berlin, 18.Juni 2015 Umsetzung: Lambda-Architektur Batch Layer • Batch Function: Prozessierung aller gesammelten Original-Daten • Batch View: Aufbereitung zur Präsentation der Berechnungs-Ergebnisse • Batch-Prozesse werden zyklisch wiederholt Speed Layer • Unmittelbare Verarbeitung von einkommenden Daten • Prozessierung zur Präsentation in der Anwendung • Überbrückung der Batch-Laufzeiten 40

×