Źródłami dla Big Data są zwykle ustrukturalizowane dane, pochodzące z innych systemów i z mechanizmów śledzących kanały interakcji z klientami (lub urządzeniami w przypadku M2M). A co z olbrzymim potencjałem drzemiącym w przepastnych zasobach informacji nieustrukturalizowanej? Jak wydobyć biznesową wartość i zamienić koszt (składowania) takich danych na rzeczywiste aktywa firmy? Poza tradycyjnymi narzędziami analizy Big Data (HPE IDOL czy Vertica) firma Hewlett Packard Enterprise oferuje technologie dla informacji niestrukturalnych. Klasyfikacja i analityka plików oferowana przez HPE ControlPoint pozwala na łatwą ocenę jakości informacji niestrukturalnych oraz na szybkie odsianie zbędnych danych (redundant, obsolete, trivial and dark data). HPE Investigative Analytics łączy źródła danych i analizy nie tylko za pomocą modeli behavioralnych, ale uzupełnia ten obraz o Analizę Nastroju (Sentiment Analysis) oraz Intencje (Intent)
Hopsworks Secure Streaming as-a-service with Kafka Flinkspark - Theofilos Kak...
Big Data for unstructured data Dariusz Śliwa
1. Big Data dla informacji
niestrukturalnych
Darek Śliwa, HPE Big Data Solutions
2016/02/25
2. HPE dla Big Data -
podstawy
Czy tylko platforma sprzętowa?
2
3. HPE oferuje sporo więcej niż tylko platformę sprzętową!
Nasze fundamenty: 'Data Centric Foundation':
Petabytes/Batch-ModeTerabytes/Real-time
Data Lake
Analityka Human data
skala: PB dziennie
Analityka Machine/IoT
skala: PB dziennie
Rozwiązania
BI/wizualizacyjne firm
trzecich
Analityka czasu rzeczywistego
skala: TB dziennie
JSON
Hewlett Packard Enterprise
IDOLEnterprise
4. HAVEn
Social media IT/OT ImagesAudioVideo
Transactional
dataMobile Search engineEmail Texts
Kataloguje
olbrzymie masywy
rozproszonych
danych
Hadoop/
HDFS
Procesuje i
indeksuje całą
informację
Autonomy
IDOL
Analizuje w
czasie
rzeczywistym na
olbrzymią skalę
Vertica
Korporacyjne
bezpieczeństwo.
Zbiera i unifikuje
dane maszynowe
Enterprise
Security
nApps
Documents
n aplikacji:
połączy
rozwiązania HP
+ Twoje aplikacje
– Platforma Big Data
HP HAVEn 2.0
5. HPE Vertica - zaawansowana analityka
Pierwsza komercyjnie dostępna
kolumnowa baza danych.
Pierwsi używaliśmy architekturę
MPP. Byliśmy big data zanim Big
Data stała się cool.
Natywna integracja z Hadoop
Opcje SaaS oraz chmura AMI
Najnowsze innowacje do obsługi
nowych architektur jak Kafka i Spark
Katalizator innowacji
6. Integracja Hadoop – Vertica
Przechowuj w Hadoop Data Lake lub w (optymalizowanym) storage HPE Vertica
Hadoop storage
HPE Vertica optimized storage
Vertica ANSI SQL
Fastest
Fast
Analitycy nie muszą się
przejmować, gdzie umieszczone
są dane lub jak są sformatowane.
DBAs mogą używać wielu
zasobów storage w zależności od
potrzeb, wydajności i kosztów.
Inżynierowie danych mają wiele
opcji pozyskania i przenoszenia
danych pomiędzy Vertica i
Hadoop, zachowując balans
pomiędzy kosztami i wydajnością.
6
7. A co z informacją
niestrukturalną?
Przecież codziennie komunikujemy się i tworzymy w języku dalekim od
maszynowego...
7
8. Volume
Value
Raz jeszcze zdefiniujmy Big Data
“Big Data” is high-volume, -velocity and –variety information assets that demand cost-effective,
innovative forms of information processing for enhanced insight and decision-making.
¹Source: Gartner, The Importance of 'Big Data': A Definition, June 2012
Information
sources Transactional data SearchTextsCRM, SCM, ERP ImagesEmail Social mediaIT ops AudioVideo Mobile
Variety
Velocity
Big
Data
8
10. HP IDOL: technologia pozwalająca rozumieć
– bazujący na algorytmach i matematyce
– ponad 15 lat i $280M inwestycji w R&D
– >170 patentów
– niezależny od języka komunikacji z
człowiekiem
– wszystkie typy plików, wszystkie typy
mediów (głos/wideo)
– skalowalny i bezpieczny
– niezależny od platformy/OS
11. Clickstream
Data
Transactional
Data
Logs
ERP CRM
HRMS ProcurementSupply Chain
Management/
Inventory
Mgmt
Human information - wyzwanie i szansa dla Big Data
“Missed opportunity” “Increased risk” “Cost & complexity”
Social Media Video
Audio
Email
Texts Messages
Word, Excel
Images
Musimy umieć obsłużyć 100% informacji
Niestrukturalne Strukturalne
12. 500 funkcji & 400 konektorów
– rozumienie Różnicy Pojęciowej
(Conceptual Distance)
– ekstrakcja Znaczenia (Meaning)
– zaawansowane mechanizmy
bezpieczeństwa
– niezależność od języka komunikacji z
człowiekiem
– wsparcie dla 1,000 typów plików i 400
repozytoriów danych
– automatyzacja procesów w czasie
rzeczywistym
– media społecznościowe, audio,
wideo, tekst
– petabajtowa skalowalność
Over 400 Connectors
HP IDOL: technologia pozwalająca rozumieć
13. Ponad 500 funkcji IDOL'a poszerzających inteligencję
Automatic hyperlinking
Conceptual search
Keyword search
Fieldtext search
Phrase search
Phonetic search
Field modulation
Fuzzy matching
Implicit profiling
Explicit profiling
Community and
expertise network
Agents
Intent-based ranking
Alerting
Social feedback
Eduction
Automatic clustering
Clustering 2D/3D
Autoclassification
Auto language detection
Sentiment analysis
Automatic taxonomy
generation
Automatic query guidance
Highlighting
Parametric refinement
Summarization
Real-time predictive query
Metadata extraction
Automatic tagging
Faceted navigation
Inquire
Search your data
Investigate
Analyze your data
Interact
Personalize your data
Improve
Enhance your data
14. Integracja Hadoop – IDOL
14
HPE IDOL oferuje konektory do pozyskania danych z ponad 400 typów
repozytoriów. Wynikiem są znormalizowane, strukturalne dane które mogą być
następnie składowane w systemie plików Hadoop, gotowe do dalszej analizy.
CFS HDFS CFS
IDOL Content
Cluster
IDOL index
tasks
IDOL HDFS
Connector
IDOL HDFS
Connector
16. HPE ControlPoint do obsługi informacji niestrukturalnej
Email
SharePoint
Współdzielenie
ECM Systems
Archives
HP ControlPoint
Wybiera rekordy bazując na politykach 'deklaracji'
powiązanych z kategoriami IDOL'a
HP Records Manager
Przydziela miejsce składowania na podstawie
klasyfikacji powiązanej z kategoriami IDOL'a oraz
regułami automatycznego tworzenia folderów
Policy
Categories
Filing
Categories
Auto-Declaration
Auto-Classification
Wykorzystanie możliwości HPE IDOL do automatycznego deklarowania i
klasyfikowania informacji rozproszonej po repozytoriach organizacji.
18. Etap 'Identify and Index'
– Rejestracja repozytorium
– Systemy plików, MS Exchange, HP RM czy SharePoint mogą zostać dodane i
skonfigurowane do indeksowania wprost w interfejsie ControlPoint'a
– Lista dodatkowych repozytoriów jest dłuuuga (Lotus Notes, Documentum, …)
– Indeksowanie
– Dostępne są różne poziomy (głębokości) indeksowania
– Prekonfigurowane zadanie szuka danych osobowych
– Wyjście z OCR (tekst) łączone jest z metadanymi i przekazywane do procesu
indeksującego
21. Analiza zebranych danych
• Przykłady analizy datasetów po czasie (powyżej) i po typie (po prawej)
• Ponad 50% dokumentów po prawej jest typu 'obraz'
• Inne kryteria analizy: zakresy dat, users/groups, właściciele, …
24. Kategoryzacja bazująca na zawartości
• Możliwość przygotowania złożonych kategorii za pomocą kombinacji metadanych, wyszukiwania słów
kluczowych, ekstrakcji, operacji logicznych, itp.
• Możliwość zarządzania kategoriami w ramach zorganizowanej systematyki/taksonomii
• Poniższy przykład: znajdź dokumenty zawierające słowa 'PIG' i 'Launcher' oraz numer rysunku
27. Wizja HPE w zakresie Information Management & Governance
Unstructured enterprise
data repositories
Structured enterprise
data repositories
Cloud-based
repositories
Other key repositories
Offsite or removable
data repositories
Address business &
operational objectives
Document Management
Enterprise Search & Collaboration
Legacy Data Cleanup
Legal HoldsInformation Archiving
Records ManagementeDiscovery
Address legal &
compliance objectives
Backup & Recovery
Disaster Recovery
Address information
management objectives
Common policy framework
Business Resiliency
Long-Term Retention
Migration to the Cloud
Zarządzaj danymi 'w miejscu' (in place) lub w skonsolidowanym repozytorium
Leverage & Take ActionAccess & Understand Organize & Control