Universität zu Köln. Historisch-Kulturwissenschaftliche InformationsverarbeitungJan G. Wieners // jan.wieners@uni-koeln.de...
Text: Aspekte Textklassifikation Natürliche bzw. unstrukturierte Texte Semistrukturierte Texte Strukturierte Texte XM...
Textklassifikation
Die Strukturiertheit von Texten:(Text von lat. textus: Gewebe, Geflecht) Natürliche und unstrukturierte TexteBeispiel: „V...
Strukturiertheit
Strukturierte Texte: XML
 Standard Generalized Markup Language (SGML) Tags Attribute und Attributwerte Wohlgeformtheit von XML-Dokumenten Vali...
XSLT: Tiefensuche
Einheitliches Strukturieren: Standards
Hugo von Hofmannsthal – Die BeidenSie trug den Becher in der Hand– Ihr Kinn und Mund glich seinem Rand –,So leicht und sic...
Hugo von Hofmannsthal – Die BeidenSie trug den Becher in der Hand– Ihr Kinn und Mund glich seinem Rand –,So leicht und sic...
Ein Standard (von dem man unbedingt ‘mal gehört haben muss):Die Text Encoding Initiative
Eine Lösung: TEI (Text Encoding Initiative) Fokus: TextTEI bezeichnet sowohl das Konsortium (TEI-C), als auch einen Sta...
Geschichte: 1987 entstanden als internationale Initiative vonPhilologinnen und Philologen Dokumentenformat zur Repräsent...
Versionsgeschichte 1990: TEI P1 (P => Proposal, Entwurf / Plan)Basiert auf SGML (Standard Generalized MarkupLanguage) 19...
Standards und Guidelines Standards der TEI schränken die schier unendlichenAuszeichnungsmöglichkeiten von XML ein. Dabei ...
Modularisierung Flexible Auswahl von TEI-Elementen aufgrund desmodularen Charakters der TEI. So muss ein eigenesSchema ni...
Verortung:EAD: Encoded Archival DescriptionMETS: Metadata Encoding and Transmission Standard
Fokus: Unstrukturierte undschwach strukturierte Texte
Buzzwords: Text Mining, Data Mining, InformationRetrieval, Machinelles Lernen, Textklassifikation, WebMining Data Mining:...
Bedeutung
Die Sache mit der Bedeutung…
Quelle: http://www.wzl.rwth-aachen.de/de/ebecb2e7d199a686c125736f00454c10/11_v_deu.pdf
Übung 1
Übung 2
Tf-idf-Maß
Tf-idf-Maß
Suche: Inhalte auffinden
Übung 3
„Magic“:◦ Rechtschreibfehler:„accidentally“vs. „acidentally“It‘s magic?
„Magic“ II:◦ Ranking: Sortierung der Treffer von hochrelevanten zuweniger relevanten Treffern„Magic“ III:◦ Performance:It‘...
It‘s magic?…oh no, it‘s „just“ the work of…algorithms(hm, and maybe a little bit of magic)
Ein Beispiel aus der Praxis: Das VD18 Projekt
Ein Beispiel aus der Praxis: Das VD18 Projekt Förderzeitraum Pilotphase: 2009-2011 Aufgaben Bibliotheken:◦ Digitalisieru...
Übung 4

IDF – Beispiel:„Griechische Anthologie – aus den besten Dichtern gesammlet, nachden Dichtungsarten geordnet und mit litera...
(2) Gewichtung der Suchphrase bestimmen, i.e.:„Griechische Anthologie – aus den besten Dichtern gesammlet, nachden Dichtun...
(3) Wie herausfinden, dass der Titel„Griechische Anthologie – aus den besten Dichtern gesammlet, nachden Dichtungsarten ge...
(4) Komplexität verringern, retrieval erhöhen:n-dimensions  1-dimensionVektorraum
Ähnlichkeitsmaß
(6) Cluster ähnlicher Titel generieren:◦ Cluster I: Titel mit Gewichtung = 22.040516 Dissertatio jvridica inavgvralis de ...
„Tatort“-Folge „Er wird töten“ (09.06.2013)
Levenshtein-Distanz, oder auch „Edit-Distance“: Geringste Anzahl der Bearbeitungsschritte, umeine Zeichenkette in eine an...
Trefferquote (recall) und Genauigkeit (precision): Recall: Liefert die Suchanfrage ein relevantesErgebnis? Precision: Is...
Ein Textformat: docX
 Office Formate xls (Excel) doc (Word) ppt (Power Point) Quasi-Standards Office Open XML xlsx docx pptx Standard...
 [Content_Types].xmlInhaltsbeschreibung der ZIP Datei _rels-VerzeichnisseAbhängigkeiten der einzelnen Teile desDokuments...
docx: Aufbau
docx: Aufbau
/
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
Nächste SlideShare
Wird geladen in …5
×

SoSe 2013 | Basisinformationstechnologie II - 06_Text

316 Aufrufe

Veröffentlicht am

0 Kommentare
0 Gefällt mir
Statistik
Notizen
  • Als Erste(r) kommentieren

  • Gehören Sie zu den Ersten, denen das gefällt!

Keine Downloads
Aufrufe
Aufrufe insgesamt
316
Auf SlideShare
0
Aus Einbettungen
0
Anzahl an Einbettungen
125
Aktionen
Geteilt
0
Downloads
0
Kommentare
0
Gefällt mir
0
Einbettungen 0
Keine Einbettungen

Keine Notizen für die Folie

SoSe 2013 | Basisinformationstechnologie II - 06_Text

  1. 1. Universität zu Köln. Historisch-Kulturwissenschaftliche InformationsverarbeitungJan G. Wieners // jan.wieners@uni-koeln.deBasisinformationstechnologie ISommersemester 201312. Juni 2013 – Text
  2. 2. Text: Aspekte Textklassifikation Natürliche bzw. unstrukturierte Texte Semistrukturierte Texte Strukturierte Texte XML (eine ganz kurze Auffrischung) Ein XML-Standard: die TEI Bedeutung Information Retrieval: Inhalte auffinden Das VD18-Projekt docX, ein TextformatThemenüberblick
  3. 3. Textklassifikation
  4. 4. Die Strukturiertheit von Texten:(Text von lat. textus: Gewebe, Geflecht) Natürliche und unstrukturierte TexteBeispiel: „Vor dieser Burleske frühkapitalistischenÜbereifers flohen die coolen Kinder derNachkriegsgeneration zu Beginn der achtziger Jahre in einreptilienartiges Singledasein mit minimalen Ausschlägen.“(http://www.zeit.de/2012/01/L-Murakami) Strukturierte TexteBeispiel: MySQL-DB, XML Semistrukturierte TexteBeispiel: HTML  Was bezeichnet ein bestimmtes HTML-Tag? Werden Standards in der Auszeichnung eingehalten?Textklassifikation
  5. 5. Strukturiertheit
  6. 6. Strukturierte Texte: XML
  7. 7.  Standard Generalized Markup Language (SGML) Tags Attribute und Attributwerte Wohlgeformtheit von XML-Dokumenten Validität / Gültigkeit von XML-Dokumenten Schemata Transformation von XML-Dokumenten
  8. 8. XSLT: Tiefensuche
  9. 9. Einheitliches Strukturieren: Standards
  10. 10. Hugo von Hofmannsthal – Die BeidenSie trug den Becher in der Hand– Ihr Kinn und Mund glich seinem Rand –,So leicht und sicher war ihr Gang,Kein Tropfen aus dem Becher sprang.So leicht und fest war seine Hand:Er ritt auf einem jungen Pferde,Und mit nachlässiger GebärdeErzwang er, daß es zitternd stand.Jedoch, wenn er aus ihrer HandDen leichten Becher nehmen sollte,So war es beiden allzu schwer:Denn beide bebten sie so sehr,Daß keine Hand die andre fandUnd dunkler Wein am Boden rollte.
  11. 11. Hugo von Hofmannsthal – Die BeidenSie trug den Becher in der Hand– Ihr Kinn und Mund glich seinem Rand –,So leicht und sicher war ihr Gang,Kein Tropfen aus dem Becher sprang.So leicht und fest war seine Hand:Er ritt auf einem jungen Pferde,Und mit nachlässiger GebärdeErzwang er, daß es zitternd stand.Jedoch, wenn er aus ihrer HandDen leichten Becher nehmen sollte,So war es beiden allzu schwer:Denn beide bebten sie so sehr,Daß keine Hand die andre fandUnd dunkler Wein am Boden rollte.VersStrophe
  12. 12. Ein Standard (von dem man unbedingt ‘mal gehört haben muss):Die Text Encoding Initiative
  13. 13. Eine Lösung: TEI (Text Encoding Initiative) Fokus: TextTEI bezeichnet sowohl das Konsortium (TEI-C), als auch einen Standard zur Kodierung und zum Austausch vonTextdokumenten„TEI hat ein unabhängiges, portables und offenes Format [für die]Speicherung, Austausch und Analyse von Texten in denGeisteswissenschaften entwickelt. Das konkrete Resultat dieserArbeit sind sowohl Richtlinien für die Kodierung unterschiedlicherTextsorten als auch das Textkodierungsformat selber.“(http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html) Richtlinien und Format sind frei zugänglich und kostenlosText Encoding Initiative (TEI)
  14. 14. Geschichte: 1987 entstanden als internationale Initiative vonPhilologinnen und Philologen Dokumentenformat zur Repräsentation von Texten indigitaler Form Vielseitigkeit & PraxisnäheDifferenzierung: TEI bezeichnet sowohl das Konsortium (TEI-C), 2000 gegründet als auch Richtlinien und Empfehlungen zur Kodierungund zum Austausch von Textdokumenten.Intention: Geisteswissenschaftlerinnen undGeisteswissenschaftler sollen über größtmögliche Freiheitverfügen, textuell vorliegende Information nach eigenemTextbegriff in XML zu codieren.Text Encoding Initiative (TEI)
  15. 15. Versionsgeschichte 1990: TEI P1 (P => Proposal, Entwurf / Plan)Basiert auf SGML (Standard Generalized MarkupLanguage) 1992 / 1993: TEI P2 1994: TEI P3 ("Green Books") 2002: TEI P4 (XML-basiert) 2002: TEI Lite 2007 TEI P5Die Text Encoding Initiative
  16. 16. Standards und Guidelines Standards der TEI schränken die schier unendlichenAuszeichnungsmöglichkeiten von XML ein. Dabei stellensich die folgenden Grundfragen: Welche Tags und welche Attribute lassen sich verwenden,um eigene Texte auszuzeichnen? Wie lassen sich die Tags miteinander kombinieren /verschachteln? Überblick über Richtlinien, z.B. für TEI P5: http://www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1641Seiten)Die Text Encoding Initiative
  17. 17. Modularisierung Flexible Auswahl von TEI-Elementen aufgrund desmodularen Charakters der TEI. So muss ein eigenesSchema nicht alle Elemente und Attribute der TEIenthalten. Module, u.a.: core für Basiselemente header für Metadaten textstructure für grundlegende Textstrukturen drama für Dramen prose, poetry, etc.Die Text Encoding Initiative
  18. 18. Verortung:EAD: Encoded Archival DescriptionMETS: Metadata Encoding and Transmission Standard
  19. 19. Fokus: Unstrukturierte undschwach strukturierte Texte
  20. 20. Buzzwords: Text Mining, Data Mining, InformationRetrieval, Machinelles Lernen, Textklassifikation, WebMining Data Mining: Einsatz auf stark strukturierten Daten Text Mining: Informationsextraktion aus (u.a.semistrukturierten) Texten; Verwendung von Verfahren/ Algorithmen des Data Minings Automatisierte Strukturierung von Texten (insbes.sehr großen Mengen von Texten) Information Retrieval: Suchanfragen an einenTextcorpus  Wie finde ich die von mir gesuchteInformation?Arbeit mit Text: Methodenverortung
  21. 21. Bedeutung
  22. 22. Die Sache mit der Bedeutung…
  23. 23. Quelle: http://www.wzl.rwth-aachen.de/de/ebecb2e7d199a686c125736f00454c10/11_v_deu.pdf
  24. 24. Übung 1
  25. 25. Übung 2
  26. 26. Tf-idf-Maß
  27. 27. Tf-idf-Maß
  28. 28. Suche: Inhalte auffinden
  29. 29. Übung 3
  30. 30. „Magic“:◦ Rechtschreibfehler:„accidentally“vs. „acidentally“It‘s magic?
  31. 31. „Magic“ II:◦ Ranking: Sortierung der Treffer von hochrelevanten zuweniger relevanten Treffern„Magic“ III:◦ Performance:It‘s magic?
  32. 32. It‘s magic?…oh no, it‘s „just“ the work of…algorithms(hm, and maybe a little bit of magic)
  33. 33. Ein Beispiel aus der Praxis: Das VD18 Projekt
  34. 34. Ein Beispiel aus der Praxis: Das VD18 Projekt Förderzeitraum Pilotphase: 2009-2011 Aufgaben Bibliotheken:◦ Digitalisierung  http://digitale.bibliothek.uni-halle.de/vd18 Aufgaben HKI, Köln:In der sehr großen Datenbank (kleio) mit mehr als~1 Million Titeln:◦ Einzigartige, im Fundus nur einmal vorhandene, Werkeidentifizieren◦ Sets von gleichen Werken ausfindigmachen
  35. 35. Übung 4
  36. 36.
  37. 37. IDF – Beispiel:„Griechische Anthologie – aus den besten Dichtern gesammlet, nachden Dichtungsarten geordnet und mit literarischen Notizen begleitet;für Gymnasien und Akademien“
  38. 38. (2) Gewichtung der Suchphrase bestimmen, i.e.:„Griechische Anthologie – aus den besten Dichtern gesammlet, nachden Dichtungsarten geordnet und mit literarischen Notizen begleitet;für Gymnasien und Akademien“ Summe der Gewichtungen relevanter Suchterme, die dieSuchphrase charakterisierenGewichtung
  39. 39. (3) Wie herausfinden, dass der Titel„Griechische Anthologie – aus den besten Dichtern gesammlet, nachden Dichtungsarten geordnet und mit literarischen Notizen begleitet;für Gymnasien und Akademien“gleich bzw. sehr ähnlich ist zu dem deutlichkürzeren Titel „Griechische Anthologie“ ? Eine Möglichkeit: Abbildung in einem n-dimensionalen VektorraumVektorraum
  40. 40. (4) Komplexität verringern, retrieval erhöhen:n-dimensions  1-dimensionVektorraum
  41. 41. Ähnlichkeitsmaß
  42. 42. (6) Cluster ähnlicher Titel generieren:◦ Cluster I: Titel mit Gewichtung = 22.040516 Dissertatio jvridica inavgvralis de jvre consvetvdinario Dissertatio Juridica Inauguralis De Jure Consuetudinario […]◦ Cluster II: Titel mit Gewichtung = 14.525173 <ns>Diss. iur. inaug.</ns> de iure consuetudinario Dissertatio iuris Germanici de iure consuetudinario universaliGermaniae Medii Aevi in speculis Saxonico et Suevico, eiusquecognoscendi ratione(7) MAB Einträge (Author Name, Place of Printing, etc.)unscharf (fuzzy) vergleichen◦ Partial String Comparison◦ Levenshtein Distance / Edit Distance◦ …Cluster
  43. 43. „Tatort“-Folge „Er wird töten“ (09.06.2013)
  44. 44. Levenshtein-Distanz, oder auch „Edit-Distance“: Geringste Anzahl der Bearbeitungsschritte, umeine Zeichenkette in eine andere Zeichenkette zutransformieren.Vorgestellt in Levenshtein, Vladimir I.: Binary codes capable of correcting deletions, insertions, and reversals. SovietPhysics Doklady, Vol. 10, No. 8. (1966), pp. 707-710. Beispiel: „kleyer“ vs. „meyer“◦ Levenshtein-Distanz zwischen den beiden Zeichenkettenbeträgt zwei: Um „kleyer“ in „meyer“ umzuformen, mussdas zweite Zeichen der Zeichenkette „kleyer“ gelöscht(„kleyer“  „keyer“) und das erste Zeichen in denBuchstaben „m“ geändert werden („keyer“  „meyer“).Levenshtein-Distanz
  45. 45. Trefferquote (recall) und Genauigkeit (precision): Recall: Liefert die Suchanfrage ein relevantesErgebnis? Precision: Ist der gefundene / zurückgelieferteTreffer für die Suchanfrage relevant?Bewertung der Suchergebnisse
  46. 46. Ein Textformat: docX
  47. 47.  Office Formate xls (Excel) doc (Word) ppt (Power Point) Quasi-Standards Office Open XML xlsx docx pptx Standardisiert in ISO/IEC 29500: ISO/IEC 29500 -1:2008 – Office Open XML File Formats – Part 1:Fundamentals and Markup Language Reference ISO/IEC 29500-2:2008 – Office Open XML File Formats – Part 2: OpenPackaging Conventions ISO/IEC 29500-3:2008 – Office Open XML File Formats – Part 3: MarkupCompatibility and Extensibility ISO/IEC 29500-4:2008 – Office Open XML File Formats – Part 4: TransitionalMigration FeaturesMS Office Formate
  48. 48.  [Content_Types].xmlInhaltsbeschreibung der ZIP Datei _rels-VerzeichnisseAbhängigkeiten der einzelnen Teile desDokuments, z.B. eingebettete Bilddateien, Text,etc. voneinander docProps-Verzeichnis: core.xml, app.xml undcustom.xmlDokumenteigenschaften, d.h. Metadaten: Autor,Speicherdatum, etc. DokumentdatenverzeichnisEigentliche Dokumentdatendocx: Aufbau
  49. 49. docx: Aufbau
  50. 50. docx: Aufbau
  51. 51. /

×