SlideShare ist ein Scribd-Unternehmen logo
1 von 28
Downloaden Sie, um offline zu lesen
Big Data dla informacji
niestrukturalnych
Darek Śliwa, HPE Big Data Solutions
2016/02/25
HPE dla Big Data -
podstawy
Czy tylko platforma sprzętowa?
2
HPE oferuje sporo więcej niż tylko platformę sprzętową!
Nasze fundamenty: 'Data Centric Foundation':
Petabytes/Batch-ModeTerabytes/Real-time
Data Lake
Analityka Human data
skala: PB dziennie
Analityka Machine/IoT
skala: PB dziennie
Rozwiązania
BI/wizualizacyjne firm
trzecich
Analityka czasu rzeczywistego
skala: TB dziennie
JSON
Hewlett Packard Enterprise
IDOLEnterprise
HAVEn
Social media IT/OT ImagesAudioVideo
Transactional
dataMobile Search engineEmail Texts
Kataloguje
olbrzymie masywy
rozproszonych
danych
Hadoop/
HDFS
Procesuje i
indeksuje całą
informację
Autonomy
IDOL
Analizuje w
czasie
rzeczywistym na
olbrzymią skalę
Vertica
Korporacyjne
bezpieczeństwo.
Zbiera i unifikuje
dane maszynowe
Enterprise
Security
nApps
Documents
n aplikacji:
połączy
rozwiązania HP
+ Twoje aplikacje
– Platforma Big Data
HP HAVEn 2.0
HPE Vertica - zaawansowana analityka
Pierwsza komercyjnie dostępna
kolumnowa baza danych.
Pierwsi używaliśmy architekturę
MPP. Byliśmy big data zanim Big
Data stała się cool.
Natywna integracja z Hadoop
Opcje SaaS oraz chmura AMI
Najnowsze innowacje do obsługi
nowych architektur jak Kafka i Spark
Katalizator innowacji
Integracja Hadoop – Vertica
Przechowuj w Hadoop Data Lake lub w (optymalizowanym) storage HPE Vertica
Hadoop storage
HPE Vertica optimized storage
Vertica ANSI SQL
Fastest
Fast
Analitycy nie muszą się
przejmować, gdzie umieszczone
są dane lub jak są sformatowane.
DBAs mogą używać wielu
zasobów storage w zależności od
potrzeb, wydajności i kosztów.
Inżynierowie danych mają wiele
opcji pozyskania i przenoszenia
danych pomiędzy Vertica i
Hadoop, zachowując balans
pomiędzy kosztami i wydajnością.
6
A co z informacją
niestrukturalną?
Przecież codziennie komunikujemy się i tworzymy w języku dalekim od
maszynowego...
7
Volume
Value
Raz jeszcze zdefiniujmy Big Data
“Big Data” is high-volume, -velocity and –variety information assets that demand cost-effective,
innovative forms of information processing for enhanced insight and decision-making.
¹Source: Gartner, The Importance of 'Big Data': A Definition, June 2012
Information
sources Transactional data SearchTextsCRM, SCM, ERP ImagesEmail Social mediaIT ops AudioVideo Mobile
Variety
Velocity
Big
Data
8
Enterprise Security
Krajobraz Big Data
Machine Data Human Information
Business
Data
HPE IDOL
HPE Vertica
Hadoop
HP IDOL: technologia pozwalająca rozumieć
– bazujący na algorytmach i matematyce
– ponad 15 lat i $280M inwestycji w R&D
– >170 patentów
– niezależny od języka komunikacji z
człowiekiem
– wszystkie typy plików, wszystkie typy
mediów (głos/wideo)
– skalowalny i bezpieczny
– niezależny od platformy/OS
Clickstream
Data
Transactional
Data
Logs
ERP CRM
HRMS ProcurementSupply Chain
Management/
Inventory
Mgmt
Human information - wyzwanie i szansa dla Big Data
“Missed opportunity” “Increased risk” “Cost & complexity”
Social Media Video
Audio
Email
Texts Messages
Word, Excel
Images
Musimy umieć obsłużyć 100% informacji
Niestrukturalne Strukturalne
500 funkcji & 400 konektorów
– rozumienie Różnicy Pojęciowej
(Conceptual Distance)
– ekstrakcja Znaczenia (Meaning)
– zaawansowane mechanizmy
bezpieczeństwa
– niezależność od języka komunikacji z
człowiekiem
– wsparcie dla 1,000 typów plików i 400
repozytoriów danych
– automatyzacja procesów w czasie
rzeczywistym
– media społecznościowe, audio,
wideo, tekst
– petabajtowa skalowalność
Over 400 Connectors
HP IDOL: technologia pozwalająca rozumieć
Ponad 500 funkcji IDOL'a poszerzających inteligencję
Automatic hyperlinking
Conceptual search
Keyword search
Fieldtext search
Phrase search
Phonetic search
Field modulation
Fuzzy matching
Implicit profiling
Explicit profiling
Community and
expertise network
Agents
Intent-based ranking
Alerting
Social feedback
Eduction
Automatic clustering
Clustering 2D/3D
Autoclassification
Auto language detection
Sentiment analysis
Automatic taxonomy
generation
Automatic query guidance
Highlighting
Parametric refinement
Summarization
Real-time predictive query
Metadata extraction
Automatic tagging
Faceted navigation
Inquire
Search your data
Investigate
Analyze your data
Interact
Personalize your data
Improve
Enhance your data
Integracja Hadoop – IDOL
14
HPE IDOL oferuje konektory do pozyskania danych z ponad 400 typów
repozytoriów. Wynikiem są znormalizowane, strukturalne dane które mogą być
następnie składowane w systemie plików Hadoop, gotowe do dalszej analizy.
CFS HDFS CFS
IDOL Content
Cluster
IDOL index
tasks
IDOL HDFS
Connector
IDOL HDFS
Connector
HPE ControlPoint dla
informacji niestrukturalnej
Big Data dla dotychczas niezrozumiałych danych
15
HPE ControlPoint do obsługi informacji niestrukturalnej
Email
SharePoint
Współdzielenie
ECM Systems
Archives
HP ControlPoint
Wybiera rekordy bazując na politykach 'deklaracji'
powiązanych z kategoriami IDOL'a
HP Records Manager
Przydziela miejsce składowania na podstawie
klasyfikacji powiązanej z kategoriami IDOL'a oraz
regułami automatycznego tworzenia folderów
Policy
Categories
Filing
Categories
Auto-Declaration
Auto-Classification
Wykorzystanie możliwości HPE IDOL do automatycznego deklarowania i
klasyfikowania informacji rozproszonej po repozytoriach organizacji.
Etapy analizy ControlPoint
Etap 'Identify and Index'
– Rejestracja repozytorium
– Systemy plików, MS Exchange, HP RM czy SharePoint mogą zostać dodane i
skonfigurowane do indeksowania wprost w interfejsie ControlPoint'a
– Lista dodatkowych repozytoriów jest dłuuuga (Lotus Notes, Documentum, …)
– Indeksowanie
– Dostępne są różne poziomy (głębokości) indeksowania
– Prekonfigurowane zadanie szuka danych osobowych
– Wyjście z OCR (tekst) łączone jest z metadanymi i przekazywane do procesu
indeksującego
OCR of Technical Drawings
Etapy analizy ControlPoint
Analiza zebranych danych
• Przykłady analizy datasetów po czasie (powyżej) i po typie (po prawej)
• Ponad 50% dokumentów po prawej jest typu 'obraz'
• Inne kryteria analizy: zakresy dat, users/groups, właściciele, …
Etapy analizy ControlPoint
Automatyczne grupowanie podobnych danych
Kategoryzacja bazująca na zawartości
• Możliwość przygotowania złożonych kategorii za pomocą kombinacji metadanych, wyszukiwania słów
kluczowych, ekstrakcji, operacji logicznych, itp.
• Możliwość zarządzania kategoriami w ramach zorganizowanej systematyki/taksonomii
• Poniższy przykład: znajdź dokumenty zawierające słowa 'PIG' i 'Launcher' oraz numer rysunku
Etapy analizy ControlPoint
Etapy analizy ControlPoint
Wizja HPE w zakresie Information Management & Governance
Unstructured enterprise
data repositories
Structured enterprise
data repositories
Cloud-based
repositories
Other key repositories
Offsite or removable
data repositories
Address business &
operational objectives
Document Management
Enterprise Search & Collaboration
Legacy Data Cleanup
Legal HoldsInformation Archiving
Records ManagementeDiscovery
Address legal &
compliance objectives
Backup & Recovery
Disaster Recovery
Address information
management objectives
Common policy framework
Business Resiliency
Long-Term Retention
Migration to the Cloud
Zarządzaj danymi 'w miejscu' (in place) lub w skonsolidowanym repozytorium
Leverage & Take ActionAccess & Understand Organize & Control
Dziękuję za uwagę
Darek Śliwa
dariusz.sliwa@hpe.com
28

Weitere ähnliche Inhalte

Ähnlich wie Big Data for unstructured data Dariusz Śliwa

20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacji20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacjiHubert Kobierzewski
 
Open Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCNOpen Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCNPlatforma Otwartej Nauki
 
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019Deloitte Polska
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
 
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aOracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aData Science Warsaw
 
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...Krzysztof Binkowski
 
BiznesWiki - zarządzanie wiedzą w stylu web 2.0
BiznesWiki - zarządzanie wiedzą w stylu web 2.0BiznesWiki - zarządzanie wiedzą w stylu web 2.0
BiznesWiki - zarządzanie wiedzą w stylu web 2.0Tomasz Karwatka
 
Michał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychMichał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychAnalyticsConf
 
Innovative Methods in Chemistry Education
Innovative Methods in Chemistry EducationInnovative Methods in Chemistry Education
Innovative Methods in Chemistry EducationPiotr Peszko
 
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...Filip Dębowski
 
Zastosowania systemu BCC ECM
Zastosowania systemu BCC ECMZastosowania systemu BCC ECM
Zastosowania systemu BCC ECMBCC_Group
 
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiNarzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiTomasz Karwatka
 
System Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny PrezentacjaSystem Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny PrezentacjaMaciek1111
 
Podążając śladami użytkownika Windows – elementy informatyki śledczej
Podążając śladami użytkownika Windows –elementy informatyki śledczejPodążając śladami użytkownika Windows –elementy informatyki śledczej
Podążając śladami użytkownika Windows – elementy informatyki śledczejKrzysztof Binkowski
 
MARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowaniaMARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowaniabartekel
 

Ähnlich wie Big Data for unstructured data Dariusz Śliwa (20)

20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacji20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacji
 
Open Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCNOpen Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCN
 
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019
Trendy technologiczne 2019 - Deloitte, prezentacja 26.02.2019
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aOracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'a
 
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
 
WebCenter Suite 11g
WebCenter Suite 11gWebCenter Suite 11g
WebCenter Suite 11g
 
BiznesWiki - zarządzanie wiedzą w stylu web 2.0
BiznesWiki - zarządzanie wiedzą w stylu web 2.0BiznesWiki - zarządzanie wiedzą w stylu web 2.0
BiznesWiki - zarządzanie wiedzą w stylu web 2.0
 
Michał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychMichał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonych
 
Innovative Methods in Chemistry Education
Innovative Methods in Chemistry EducationInnovative Methods in Chemistry Education
Innovative Methods in Chemistry Education
 
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
 
Transformacja cyfrowa
Transformacja cyfrowaTransformacja cyfrowa
Transformacja cyfrowa
 
WHUG Azure HDInsight
WHUG Azure HDInsightWHUG Azure HDInsight
WHUG Azure HDInsight
 
8 jaromir dzialo
8 jaromir dzialo8 jaromir dzialo
8 jaromir dzialo
 
Zastosowania systemu BCC ECM
Zastosowania systemu BCC ECMZastosowania systemu BCC ECM
Zastosowania systemu BCC ECM
 
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiNarzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
 
System Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny PrezentacjaSystem Informacyjny A System Informatyczny Prezentacja
System Informacyjny A System Informatyczny Prezentacja
 
Agregacja 17 źródeł danych jak wdrożyć i nie zwariować
Agregacja 17 źródeł danych jak wdrożyć i nie zwariowaćAgregacja 17 źródeł danych jak wdrożyć i nie zwariować
Agregacja 17 źródeł danych jak wdrożyć i nie zwariować
 
Podążając śladami użytkownika Windows – elementy informatyki śledczej
Podążając śladami użytkownika Windows –elementy informatyki śledczejPodążając śladami użytkownika Windows –elementy informatyki śledczej
Podążając śladami użytkownika Windows – elementy informatyki śledczej
 
MARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowaniaMARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowania
 

Mehr von Evention

The Factorization Machines algorithm for building recommendation system - Paw...
The Factorization Machines algorithm for building recommendation system - Paw...The Factorization Machines algorithm for building recommendation system - Paw...
The Factorization Machines algorithm for building recommendation system - Paw...Evention
 
A/B testing powered by Big data - Saurabh Goyal, Booking.com
A/B testing powered by Big data - Saurabh Goyal, Booking.comA/B testing powered by Big data - Saurabh Goyal, Booking.com
A/B testing powered by Big data - Saurabh Goyal, Booking.comEvention
 
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...Evention
 
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...Evention
 
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...Evention
 
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, AdformBuilding a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, AdformEvention
 
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data ArtisansApache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data ArtisansEvention
 
Privacy by Design - Lars Albertsson, Mapflat
Privacy by Design - Lars Albertsson, MapflatPrivacy by Design - Lars Albertsson, Mapflat
Privacy by Design - Lars Albertsson, MapflatEvention
 
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...Evention
 
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...Evention
 
Enhancing Spark - increase streaming capabilities of your applications - Kami...
Enhancing Spark - increase streaming capabilities of your applications - Kami...Enhancing Spark - increase streaming capabilities of your applications - Kami...
Enhancing Spark - increase streaming capabilities of your applications - Kami...Evention
 
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...Evention
 
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...Evention
 
Stream processing with Apache Flink - Maximilian Michels Data Artisans
Stream processing with Apache Flink - Maximilian Michels Data ArtisansStream processing with Apache Flink - Maximilian Michels Data Artisans
Stream processing with Apache Flink - Maximilian Michels Data ArtisansEvention
 
Scaling Cassandra in all directions - Jimmy Mardell Spotify
Scaling Cassandra in all directions - Jimmy Mardell SpotifyScaling Cassandra in all directions - Jimmy Mardell Spotify
Scaling Cassandra in all directions - Jimmy Mardell SpotifyEvention
 
Elastic development. Implementing Big Data search Grzegorz Kołpuć
Elastic development. Implementing Big Data search Grzegorz KołpućElastic development. Implementing Big Data search Grzegorz Kołpuć
Elastic development. Implementing Big Data search Grzegorz KołpućEvention
 
H2 o deep water making deep learning accessible to everyone -jo-fai chow
H2 o deep water   making deep learning accessible to everyone -jo-fai chowH2 o deep water   making deep learning accessible to everyone -jo-fai chow
H2 o deep water making deep learning accessible to everyone -jo-fai chowEvention
 
That won’t fit into RAM - Michał Brzezicki
That won’t fit into RAM -  Michał  BrzezickiThat won’t fit into RAM -  Michał  Brzezicki
That won’t fit into RAM - Michał BrzezickiEvention
 
Stream Analytics with SQL on Apache Flink - Fabian Hueske
Stream Analytics with SQL on Apache Flink - Fabian HueskeStream Analytics with SQL on Apache Flink - Fabian Hueske
Stream Analytics with SQL on Apache Flink - Fabian HueskeEvention
 
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...Evention
 

Mehr von Evention (20)

The Factorization Machines algorithm for building recommendation system - Paw...
The Factorization Machines algorithm for building recommendation system - Paw...The Factorization Machines algorithm for building recommendation system - Paw...
The Factorization Machines algorithm for building recommendation system - Paw...
 
A/B testing powered by Big data - Saurabh Goyal, Booking.com
A/B testing powered by Big data - Saurabh Goyal, Booking.comA/B testing powered by Big data - Saurabh Goyal, Booking.com
A/B testing powered by Big data - Saurabh Goyal, Booking.com
 
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
Near Real-Time Fraud Detection in Telecommunication Industry - Burak Işıklı, ...
 
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
Assisting millions of active users in real-time - Alexey Brodovshuk, Kcell; K...
 
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
Machine learning security - Pawel Zawistowski, Warsaw University of Technolog...
 
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, AdformBuilding a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
Building a Modern Data Pipeline: Lessons Learned - Saulius Valatka, Adform
 
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data ArtisansApache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
Apache Flink: Better, Faster & Uncut - Piotr Nowojski, data Artisans
 
Privacy by Design - Lars Albertsson, Mapflat
Privacy by Design - Lars Albertsson, MapflatPrivacy by Design - Lars Albertsson, Mapflat
Privacy by Design - Lars Albertsson, Mapflat
 
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
Elephants in the cloud or how to become cloud ready - Krzysztof Adamski, GetI...
 
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
Deriving Actionable Insights from High Volume Media Streams - Jörn Kottmann, ...
 
Enhancing Spark - increase streaming capabilities of your applications - Kami...
Enhancing Spark - increase streaming capabilities of your applications - Kami...Enhancing Spark - increase streaming capabilities of your applications - Kami...
Enhancing Spark - increase streaming capabilities of your applications - Kami...
 
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
7 Days of Playing Minesweeper, or How to Shut Down Whistleblower Defense with...
 
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
Big Data Journey at a Big Corp - Tomasz Burzyński, Maciej Czyżowicz, Orange P...
 
Stream processing with Apache Flink - Maximilian Michels Data Artisans
Stream processing with Apache Flink - Maximilian Michels Data ArtisansStream processing with Apache Flink - Maximilian Michels Data Artisans
Stream processing with Apache Flink - Maximilian Michels Data Artisans
 
Scaling Cassandra in all directions - Jimmy Mardell Spotify
Scaling Cassandra in all directions - Jimmy Mardell SpotifyScaling Cassandra in all directions - Jimmy Mardell Spotify
Scaling Cassandra in all directions - Jimmy Mardell Spotify
 
Elastic development. Implementing Big Data search Grzegorz Kołpuć
Elastic development. Implementing Big Data search Grzegorz KołpućElastic development. Implementing Big Data search Grzegorz Kołpuć
Elastic development. Implementing Big Data search Grzegorz Kołpuć
 
H2 o deep water making deep learning accessible to everyone -jo-fai chow
H2 o deep water   making deep learning accessible to everyone -jo-fai chowH2 o deep water   making deep learning accessible to everyone -jo-fai chow
H2 o deep water making deep learning accessible to everyone -jo-fai chow
 
That won’t fit into RAM - Michał Brzezicki
That won’t fit into RAM -  Michał  BrzezickiThat won’t fit into RAM -  Michał  Brzezicki
That won’t fit into RAM - Michał Brzezicki
 
Stream Analytics with SQL on Apache Flink - Fabian Hueske
Stream Analytics with SQL on Apache Flink - Fabian HueskeStream Analytics with SQL on Apache Flink - Fabian Hueske
Stream Analytics with SQL on Apache Flink - Fabian Hueske
 
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
 

Big Data for unstructured data Dariusz Śliwa

  • 1. Big Data dla informacji niestrukturalnych Darek Śliwa, HPE Big Data Solutions 2016/02/25
  • 2. HPE dla Big Data - podstawy Czy tylko platforma sprzętowa? 2
  • 3. HPE oferuje sporo więcej niż tylko platformę sprzętową! Nasze fundamenty: 'Data Centric Foundation': Petabytes/Batch-ModeTerabytes/Real-time Data Lake Analityka Human data skala: PB dziennie Analityka Machine/IoT skala: PB dziennie Rozwiązania BI/wizualizacyjne firm trzecich Analityka czasu rzeczywistego skala: TB dziennie JSON Hewlett Packard Enterprise IDOLEnterprise
  • 4. HAVEn Social media IT/OT ImagesAudioVideo Transactional dataMobile Search engineEmail Texts Kataloguje olbrzymie masywy rozproszonych danych Hadoop/ HDFS Procesuje i indeksuje całą informację Autonomy IDOL Analizuje w czasie rzeczywistym na olbrzymią skalę Vertica Korporacyjne bezpieczeństwo. Zbiera i unifikuje dane maszynowe Enterprise Security nApps Documents n aplikacji: połączy rozwiązania HP + Twoje aplikacje – Platforma Big Data HP HAVEn 2.0
  • 5. HPE Vertica - zaawansowana analityka Pierwsza komercyjnie dostępna kolumnowa baza danych. Pierwsi używaliśmy architekturę MPP. Byliśmy big data zanim Big Data stała się cool. Natywna integracja z Hadoop Opcje SaaS oraz chmura AMI Najnowsze innowacje do obsługi nowych architektur jak Kafka i Spark Katalizator innowacji
  • 6. Integracja Hadoop – Vertica Przechowuj w Hadoop Data Lake lub w (optymalizowanym) storage HPE Vertica Hadoop storage HPE Vertica optimized storage Vertica ANSI SQL Fastest Fast Analitycy nie muszą się przejmować, gdzie umieszczone są dane lub jak są sformatowane. DBAs mogą używać wielu zasobów storage w zależności od potrzeb, wydajności i kosztów. Inżynierowie danych mają wiele opcji pozyskania i przenoszenia danych pomiędzy Vertica i Hadoop, zachowując balans pomiędzy kosztami i wydajnością. 6
  • 7. A co z informacją niestrukturalną? Przecież codziennie komunikujemy się i tworzymy w języku dalekim od maszynowego... 7
  • 8. Volume Value Raz jeszcze zdefiniujmy Big Data “Big Data” is high-volume, -velocity and –variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision-making. ¹Source: Gartner, The Importance of 'Big Data': A Definition, June 2012 Information sources Transactional data SearchTextsCRM, SCM, ERP ImagesEmail Social mediaIT ops AudioVideo Mobile Variety Velocity Big Data 8
  • 9. Enterprise Security Krajobraz Big Data Machine Data Human Information Business Data HPE IDOL HPE Vertica Hadoop
  • 10. HP IDOL: technologia pozwalająca rozumieć – bazujący na algorytmach i matematyce – ponad 15 lat i $280M inwestycji w R&D – >170 patentów – niezależny od języka komunikacji z człowiekiem – wszystkie typy plików, wszystkie typy mediów (głos/wideo) – skalowalny i bezpieczny – niezależny od platformy/OS
  • 11. Clickstream Data Transactional Data Logs ERP CRM HRMS ProcurementSupply Chain Management/ Inventory Mgmt Human information - wyzwanie i szansa dla Big Data “Missed opportunity” “Increased risk” “Cost & complexity” Social Media Video Audio Email Texts Messages Word, Excel Images Musimy umieć obsłużyć 100% informacji Niestrukturalne Strukturalne
  • 12. 500 funkcji & 400 konektorów – rozumienie Różnicy Pojęciowej (Conceptual Distance) – ekstrakcja Znaczenia (Meaning) – zaawansowane mechanizmy bezpieczeństwa – niezależność od języka komunikacji z człowiekiem – wsparcie dla 1,000 typów plików i 400 repozytoriów danych – automatyzacja procesów w czasie rzeczywistym – media społecznościowe, audio, wideo, tekst – petabajtowa skalowalność Over 400 Connectors HP IDOL: technologia pozwalająca rozumieć
  • 13. Ponad 500 funkcji IDOL'a poszerzających inteligencję Automatic hyperlinking Conceptual search Keyword search Fieldtext search Phrase search Phonetic search Field modulation Fuzzy matching Implicit profiling Explicit profiling Community and expertise network Agents Intent-based ranking Alerting Social feedback Eduction Automatic clustering Clustering 2D/3D Autoclassification Auto language detection Sentiment analysis Automatic taxonomy generation Automatic query guidance Highlighting Parametric refinement Summarization Real-time predictive query Metadata extraction Automatic tagging Faceted navigation Inquire Search your data Investigate Analyze your data Interact Personalize your data Improve Enhance your data
  • 14. Integracja Hadoop – IDOL 14 HPE IDOL oferuje konektory do pozyskania danych z ponad 400 typów repozytoriów. Wynikiem są znormalizowane, strukturalne dane które mogą być następnie składowane w systemie plików Hadoop, gotowe do dalszej analizy. CFS HDFS CFS IDOL Content Cluster IDOL index tasks IDOL HDFS Connector IDOL HDFS Connector
  • 15. HPE ControlPoint dla informacji niestrukturalnej Big Data dla dotychczas niezrozumiałych danych 15
  • 16. HPE ControlPoint do obsługi informacji niestrukturalnej Email SharePoint Współdzielenie ECM Systems Archives HP ControlPoint Wybiera rekordy bazując na politykach 'deklaracji' powiązanych z kategoriami IDOL'a HP Records Manager Przydziela miejsce składowania na podstawie klasyfikacji powiązanej z kategoriami IDOL'a oraz regułami automatycznego tworzenia folderów Policy Categories Filing Categories Auto-Declaration Auto-Classification Wykorzystanie możliwości HPE IDOL do automatycznego deklarowania i klasyfikowania informacji rozproszonej po repozytoriach organizacji.
  • 18. Etap 'Identify and Index' – Rejestracja repozytorium – Systemy plików, MS Exchange, HP RM czy SharePoint mogą zostać dodane i skonfigurowane do indeksowania wprost w interfejsie ControlPoint'a – Lista dodatkowych repozytoriów jest dłuuuga (Lotus Notes, Documentum, …) – Indeksowanie – Dostępne są różne poziomy (głębokości) indeksowania – Prekonfigurowane zadanie szuka danych osobowych – Wyjście z OCR (tekst) łączone jest z metadanymi i przekazywane do procesu indeksującego
  • 19. OCR of Technical Drawings
  • 21. Analiza zebranych danych • Przykłady analizy datasetów po czasie (powyżej) i po typie (po prawej) • Ponad 50% dokumentów po prawej jest typu 'obraz' • Inne kryteria analizy: zakresy dat, users/groups, właściciele, …
  • 24. Kategoryzacja bazująca na zawartości • Możliwość przygotowania złożonych kategorii za pomocą kombinacji metadanych, wyszukiwania słów kluczowych, ekstrakcji, operacji logicznych, itp. • Możliwość zarządzania kategoriami w ramach zorganizowanej systematyki/taksonomii • Poniższy przykład: znajdź dokumenty zawierające słowa 'PIG' i 'Launcher' oraz numer rysunku
  • 27. Wizja HPE w zakresie Information Management & Governance Unstructured enterprise data repositories Structured enterprise data repositories Cloud-based repositories Other key repositories Offsite or removable data repositories Address business & operational objectives Document Management Enterprise Search & Collaboration Legacy Data Cleanup Legal HoldsInformation Archiving Records ManagementeDiscovery Address legal & compliance objectives Backup & Recovery Disaster Recovery Address information management objectives Common policy framework Business Resiliency Long-Term Retention Migration to the Cloud Zarządzaj danymi 'w miejscu' (in place) lub w skonsolidowanym repozytorium Leverage & Take ActionAccess & Understand Organize & Control
  • 28. Dziękuję za uwagę Darek Śliwa dariusz.sliwa@hpe.com 28