Wir haben unsere Datenschutzbestimmungen aktualisiert. Klicke hier, um dir die _Einzelheiten anzusehen. Tippe hier, um dir die Einzelheiten anzusehen.
Aktiviere deine kostenlose 30-tägige Testversion, um unbegrenzt zu lesen.
Erstelle deine kostenlose 30-tägige Testversion, um weiterzulesen.
Herunterladen, um offline zu lesen
If you have one or two files, you can take the time to manually work out what they are, what they contain, and how to get the useful bits out (probably....). However, this approach really doesn't scale, mechanical turks or no! Luckily, there are Apache projects out there which can help!
In this talk, we'll first look at how we can work out what a given blob of 1s and 0s actually is, be it textual or binary. We'll then see how to extract common metadata from it, along with text, embedded resources, images, and maybe even the kitchen sink! We'll see how to do all of this with Apache Tika, and how to dive down to the underlying libraries (including its Apache friends like POI and PDFBox) for specialist cases. Finally, we'll look a little bit about how to roll this all out on a Big Data or Large-Search case.
If you have one or two files, you can take the time to manually work out what they are, what they contain, and how to get the useful bits out (probably....). However, this approach really doesn't scale, mechanical turks or no! Luckily, there are Apache projects out there which can help!
In this talk, we'll first look at how we can work out what a given blob of 1s and 0s actually is, be it textual or binary. We'll then see how to extract common metadata from it, along with text, embedded resources, images, and maybe even the kitchen sink! We'll see how to do all of this with Apache Tika, and how to dive down to the underlying libraries (including its Apache friends like POI and PDFBox) for specialist cases. Finally, we'll look a little bit about how to roll this all out on a Big Data or Large-Search case.
Sie haben diese Folie bereits ins Clipboard „“ geclippt.
Sie haben Ihre erste Folie geclippt!
Durch Clippen können Sie wichtige Folien sammeln, die Sie später noch einmal ansehen möchten. Passen Sie den Namen des Clipboards an, um Ihre Clips zu speichern.Die SlideShare-Familie hat sich gerade vergrößert. Genießen Sie nun Zugriff auf Millionen eBooks, Bücher, Hörbücher, Zeitschriften und mehr von Scribd.
Jederzeit kündbar.Unbegrenztes Lesevergnügen
Lerne schneller und intelligenter von Spitzenfachleuten
Unbegrenzte Downloads
Lade es dir zum Lernen offline und unterwegs herunter
Außerdem erhältst du auch kostenlosen Zugang zu Scribd!
Sofortiger Zugriff auf Millionen von E-Books, Hörbüchern, Zeitschriften, Podcasts und mehr.
Lese und höre offline mit jedem Gerät.
Kostenloser Zugang zu Premium-Diensten wie TuneIn, Mubi und mehr.
Wir haben unsere Datenschutzbestimmungen aktualisiert, um den neuen globalen Regeln zum Thema Datenschutzbestimmungen gerecht zu werden und dir einen Einblick in die begrenzten Möglichkeiten zu geben, wie wir deine Daten nutzen.
Die Einzelheiten findest du unten. Indem du sie akzeptierst, erklärst du dich mit den aktualisierten Datenschutzbestimmungen einverstanden.
Vielen Dank!