SlideShare a Scribd company logo
1 of 25
Download to read offline
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Discovery...
...ludzka twarz Hadoop'a
Oracle Confidential – Internal
Filip Kaznowski – Cloud & Big Data Lead–ECE Region, Consulting
Michał Grochowski – BI Architect, Pre-sales
Data Science Meetup, 12 maja 2015
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Świat cyfrowej rewolucji – nowe wyzwania dla analizy
danych
3
Przeanalizujmy ilość
danych
generowanych w jedną
minutęw globalnym
internecie oraz
aktywność ludzi i
organizacji.
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Struktura danych„on Write” vs „on Read”
• Tradycyjna struktura danych “on Write”
– Dane muszą być zidentyfikowane i zamodelowane
w określonej strukturze
– W kolejnych krokach dane są przetwarzane i
ładowane w procesie ETL
– Analiza danych możliwa po zakończeniu
przetwarzania
• Struktura danych Big Data “on Read”
– Dane źródłowe bezpośrednio dostępne w
narzędziach analitycznych
– Przetwarzanie danych poprzez algorytmy
map/reduce lub rozproszone przetwarzanie w
pamięci
Elastyczność i szybkość analizy danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Analiza dużych wolumenów danych niestrukturalnych
Szczegółowa analiza danych niezagregowanych
=
Odkrycia nowych związków i zależności
=
Skuteczniejsze decyzje
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Mężczyzna, urodzony w
1948
• Wychowany w Anglii
• Dwukrotnie żonaty,
dziecko
• Bogaty celebryta
• Kocha psy
• Uwielbia spędzać czas w
Alpach
Jak dobrze znamy własnych klientów?
Oracle Confidential – Internal/Restricted/Highly Restricted | #BeyondBigData
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 7
DNA Klienta
Analiza zachowania i interakcji
Szczegółowe profilowanie
Analiza danych społecznościowych
"We don’t have better algorithms.
We just have more data.“
Peter Norvig, Google's Research Director
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Czy potrafimy wystarczająco szybko analizować strumień danych?
8
Złożoność narzędzi
• Większość narzędzi Hadoop wymaga wiedzy
eksperckiej
• Narzędzia BI nie są dostowane do specyfiki Hadoop
• Nowe technologie nie są wystarczająco wszechstronne
Duże nakłady pracy:
ocena przydatności i
przygotowanie
danych
Złożoność danych
• Różnorodność i wielkość danych
• Przydatność danych trudna do oszacowania
• Wymagane złożone transformacje
Niebędne
specjalistyczne
kompetencje
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 9
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Jakie narzędzia są wykorzystywane w analizie danych?
Source: O’Reilly: 2013 Data Science Salary Survey
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Proces analizy danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
RAPORTOWANIE
POZYSKANIE PRZEKSZTAŁCANIE
WYCIĄGANIE WNIOSKÓW
ODKRYWANIE
WARTOŚCI
DANYCH
Independency, correlation,
dimensionality, missing values,
relevancy
Objectives, Modeling, Simulation,
Optimization, Visualization
Transactions, Web-scraping, Web-clicks
& logs, Sensor Data, Mobile Data, Docs,
Emails, XLS, Social Feeds, Flume & Sink
HDFS
MapReduce, ETL, Data Wrangle,
Data Cleansing, Data Jujitsu,
Dimensionality Reduction,
Sample, Select, Join, Bind
MODELOWANIEODKRYCIA
Actionable, Predictive, Immediate
Impact, Business Value, Easy to
explain
Description & Inference, Data &
Algorithm models, Machine
Learning, Regression & Prediction,
Classification & Clustering
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group
Proces analizy danych – wąskie gardła
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
RAPORTOWANIE
POZYSKANIE PRZEKSZTAŁCANIE
WYCIĄGANIE WNIOSKÓW
ODKRYWANIE
WARTOŚCI
DANYCH
Independency, correlation,
dimensionality, missing values,
relevancy
Transactions, Web-scraping, Web-clicks
& logs, Sensor Data, Mobile Data, Docs,
Emails, XLS, Social Feeds, Flume & Sink
HDFS
MapReduce, ETL, Data Wrangle,
Data Cleansing, Data Jujitsu,
Dim Reduction, Sample, Select,
Join, Bind
MODELOWANIEODKRYCIA80% czasu jest poświęcone
na
Przekształcanie,
Transformacje,
& Modelowanie
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Analityka biznesowa i Data Discovery
Uzupełnienie koncepcji analitycznych
Oracle Confidential 13
Znane zależności
Analityka biznesowa
Odpowiedzi na zdefiniowane pytania
Nowe pytania
wymagają dalszej
analizy danych i
odkryć
Nowe zależności
Data Discovery
Odkrycia nowych znaczeń i związków w
danych
Okrycia pozwalają
zbudować nowe
metryki i kryteria do
monitorowania
Analityk biznesowy
Data Scientist
Pytania mogą wynikać z danych
Testowanie hipotez na całym
dostępnym zbiorze
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Potrzebne są narzędzia nowej generacji
14
Szybkiego
przekształcenia i
wzbogacenia danych
Dokonywania odkryć i
udostępniania
wniosków dla wielu
użytkowników
Przejrzysty i intuicyjny kokpit do pracy z danymi w celu...
Łatwej identyfikacji
danych i zrozumienia
ich potencjału do
analizy
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 15
Big Data Discovery. The Visual Face of Hadoop
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
16
find explore transform discover share
Analiza potencjału pozyskanych danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Katalog
17
• Interaktywny katalog
danych składowanych
w Hadoop
• Przyjazny i łatwy w
użyciu interfejs
• Możliwość
umieszczania
komentarzy i
rekomendacji
• Zarządzanie zbiorami
danych prywatnymi i
publicznymi
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Explore
18
• Wizualizacja
atrybutów
• Sortowanie
atrybutów zgodnie
z potencjałem
danych
• Statystyki, miary
jakości danych,
elementy
odstające
• Wstępna korelacja
pomiędzy
atrybutami
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
19
find explore transform discover share
Szybkie przekształcanie i
wzbogacanie danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 2020
• Intuicyjny interfejs
• Rozbudowana
biblioteka
transformacji i
wzbogacania danych
• Symulacja działania,
możliwość
wycofywania i
powtarzania
transformacji
• Testowanie na
próbkach, a potem
na zbiorze danych
w Hadoop
Transform
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Discovery. The Visual Face of Hadoop
21
find explore transform discover share
Odkrycia i udostępnianie wniosków
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 22
• Łączenie danych i
szukanie związków i
relacji
• Konfigurowalne
kokpity analityczne
• Silniki zapytań do
wyszukiwania
danych
• Odkrywanie nowych
wzorców poprzez
interaktywne
wizualizacje
Discover
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 23
• Współdzielenie
projektów
pomiędzy
użytkownikami
• Budowa
reużywalnych
galerii wzorców
• Współpraca w
ramach zespołu
analityków
• Publikacja danych
do innych narzędzi
Share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Efektywne połączenie dwóch środowisk danych
24
• Kompletna platforma
analityczna
• Oszczędność czasu na
procesach
pomocniczych
• Wydajne
przetwarzanie w
pamięci
Data Warehouse
Dane operacyjne Dane niestrukturalne
Ocean danychHurtownia danych
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 25
Jeżeli pasjonujesz się „data science”, masz praktyczne
doświadczenia z obszarem Big Data, jesteś kreatywny i
lubisz wyzwania, serdecznie zapraszamy do kontaktu:
Wojciech Wcisło: wojciech.wcislo@oracle.com
Rekrutujemy
pracowników do regionalnego zespołu Big Data!

More Related Content

Similar to Oracle Big Data Discovery - ludzka twarz Hadoop'a

Open Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCNOpen Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCNPlatforma Otwartej Nauki
 
Dane powiązane - wprowadzenie
Dane powiązane - wprowadzenieDane powiązane - wprowadzenie
Dane powiązane - wprowadzenieOpen Data Support
 
Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...
Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...
Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...Ewa Stepien
 
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaOprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaAlicja Sieminska
 
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiNarzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiTomasz Karwatka
 
Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...Ewa Stepien
 
Wdrożenia Big Data - Seminarium
Wdrożenia Big Data - SeminariumWdrożenia Big Data - Seminarium
Wdrożenia Big Data - SeminariumTomasz Sobczak
 
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business IntelligenceBartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business IntelligenceBartosz Pacuszka
 
Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...Ewa Stepien
 
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416   Azure Boot Camp 2016- Azure Data Lake Storage and Analytics20060416   Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and AnalyticsŁukasz Grala
 
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...Ewa Stepien
 
20160405 Cloud Community Poznań - Cloud Analytics on Azure
20160405  Cloud Community Poznań - Cloud Analytics on Azure20160405  Cloud Community Poznań - Cloud Analytics on Azure
20160405 Cloud Community Poznań - Cloud Analytics on AzureŁukasz Grala
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Piotr Czarnas
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Ireneusz Chmielak
 
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danychkalaxq
 
Big Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz ŚliwaBig Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz ŚliwaEvention
 
Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...Ewa Stepien
 
Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...
Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...
Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...Biznes to Rozmowy
 

Similar to Oracle Big Data Discovery - ludzka twarz Hadoop'a (20)

Bazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligenceBazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligence
 
Open Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCNOpen Data - zarządzanie danymi w projektach badawczych NCN
Open Data - zarządzanie danymi w projektach badawczych NCN
 
Dane powiązane - wprowadzenie
Dane powiązane - wprowadzenieDane powiązane - wprowadzenie
Dane powiązane - wprowadzenie
 
Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...
Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...
Jarosław Poręba @ "Szybki sukces w finansach" - "I Manewry w Chmurze Partneró...
 
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierającaOprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
Oprogramowanie. Sprzęt. Komplet.-prezentacja otwierająca
 
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacjiNarzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
Narzedzia technologiczne, ktore umozliwiaja zachowanie wiedzy w organizacji
 
Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...
Steruj swoim biznesem we właściwym kierunku z Oracle Planning and Budgeting C...
 
Wdrożenia Big Data - Seminarium
Wdrożenia Big Data - SeminariumWdrożenia Big Data - Seminarium
Wdrożenia Big Data - Seminarium
 
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business IntelligenceBartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
Bartosz Pacuszka Wprowadzenie do Hurtowni Danych i Business Intelligence
 
Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
Jarosław Nowakowski @ "Czego jeszcze nie wiecie o Oracle EPM?"- "I Manewry w ...
 
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416   Azure Boot Camp 2016- Azure Data Lake Storage and Analytics20060416   Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
20060416 Azure Boot Camp 2016- Azure Data Lake Storage and Analytics
 
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...
Dostarcz energii swoim projektom z Oracle Project Cloud, Ryszard Krawczyński,...
 
20160405 Cloud Community Poznań - Cloud Analytics on Azure
20160405  Cloud Community Poznań - Cloud Analytics on Azure20160405  Cloud Community Poznań - Cloud Analytics on Azure
20160405 Cloud Community Poznań - Cloud Analytics on Azure
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.
 
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
 
Azure - Duże zbiory w chmurze
Azure - Duże zbiory w chmurzeAzure - Duże zbiory w chmurze
Azure - Duże zbiory w chmurze
 
Big Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz ŚliwaBig Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz Śliwa
 
Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
Sławomir Koźluk @ "Zarządzanie projektami w Chmurze"- "I Manewry w Chmurze Pa...
 
Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...
Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...
Szybszy dostęp do informacji, czyli jak narzędzia analityczne mogą zwiększyć ...
 

More from Data Science Warsaw

Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia SeahorseWizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia SeahorseData Science Warsaw
 
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...Data Science Warsaw
 
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining ProjectsCRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining ProjectsData Science Warsaw
 
Online content popularity prediction
Online content popularity predictionOnline content popularity prediction
Online content popularity predictionData Science Warsaw
 
Rozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnychRozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnychData Science Warsaw
 
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big  Data, Wearable, sztuczna inteligencja i ekonomia współpracyBig  Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracyData Science Warsaw
 
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!Data Science Warsaw
 
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chainData Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chainData Science Warsaw
 
Metody logiczne w analizie danych
Metody logiczne w analizie danych Metody logiczne w analizie danych
Metody logiczne w analizie danych Data Science Warsaw
 
Data science warsaw inaugural meetup
Data science warsaw   inaugural meetupData science warsaw   inaugural meetup
Data science warsaw inaugural meetupData Science Warsaw
 

More from Data Science Warsaw (20)

Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia SeahorseWizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
Wizualne budowanie aplikacji na Sparku przy pomocy narzędzia Seahorse
 
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
Neptune - narzędzie do monitorowania i zarządzania eksperymentami Machine Lea...
 
CRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining ProjectsCRISP-DM Agile Approach to Data Mining Projects
CRISP-DM Agile Approach to Data Mining Projects
 
Online content popularity prediction
Online content popularity predictionOnline content popularity prediction
Online content popularity prediction
 
Rozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnychRozwiązywanie problemów optymalizacyjnych
Rozwiązywanie problemów optymalizacyjnych
 
Ile informacji jest w danych?
Ile informacji jest w danych?Ile informacji jest w danych?
Ile informacji jest w danych?
 
Analiza języka naturalnego
Analiza języka naturalnegoAnaliza języka naturalnego
Analiza języka naturalnego
 
Otwarte Miasta
Otwarte MiastaOtwarte Miasta
Otwarte Miasta
 
How to build your own google
How to build your own googleHow to build your own google
How to build your own google
 
To się w ram ie nie zmieści
To się w ram ie nie zmieściTo się w ram ie nie zmieści
To się w ram ie nie zmieści
 
Data Science Warsaw
Data Science WarsawData Science Warsaw
Data Science Warsaw
 
Data science w ubezpieczeniach
Data science w ubezpieczeniachData science w ubezpieczeniach
Data science w ubezpieczeniach
 
As simple as Apache Spark
As simple as Apache SparkAs simple as Apache Spark
As simple as Apache Spark
 
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big  Data, Wearable, sztuczna inteligencja i ekonomia współpracyBig  Data, Wearable, sztuczna inteligencja i ekonomia współpracy
Big Data, Wearable, sztuczna inteligencja i ekonomia współpracy
 
Ask Data Anything
Ask Data AnythingAsk Data Anything
Ask Data Anything
 
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
Geolokalizacja i analizy przestrzenne: trzy wymiary a ile pracy dla analityka!
 
Data Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chainData Exchange - the missing link in the big data value chain
Data Exchange - the missing link in the big data value chain
 
Metody logiczne w analizie danych
Metody logiczne w analizie danych Metody logiczne w analizie danych
Metody logiczne w analizie danych
 
Haven 2 0
Haven 2 0 Haven 2 0
Haven 2 0
 
Data science warsaw inaugural meetup
Data science warsaw   inaugural meetupData science warsaw   inaugural meetup
Data science warsaw inaugural meetup
 

Oracle Big Data Discovery - ludzka twarz Hadoop'a

  • 1.
  • 2. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data Discovery... ...ludzka twarz Hadoop'a Oracle Confidential – Internal Filip Kaznowski – Cloud & Big Data Lead–ECE Region, Consulting Michał Grochowski – BI Architect, Pre-sales Data Science Meetup, 12 maja 2015
  • 3. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Świat cyfrowej rewolucji – nowe wyzwania dla analizy danych 3 Przeanalizujmy ilość danych generowanych w jedną minutęw globalnym internecie oraz aktywność ludzi i organizacji.
  • 4. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Struktura danych„on Write” vs „on Read” • Tradycyjna struktura danych “on Write” – Dane muszą być zidentyfikowane i zamodelowane w określonej strukturze – W kolejnych krokach dane są przetwarzane i ładowane w procesie ETL – Analiza danych możliwa po zakończeniu przetwarzania • Struktura danych Big Data “on Read” – Dane źródłowe bezpośrednio dostępne w narzędziach analitycznych – Przetwarzanie danych poprzez algorytmy map/reduce lub rozproszone przetwarzanie w pamięci Elastyczność i szybkość analizy danych
  • 5. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Analiza dużych wolumenów danych niestrukturalnych Szczegółowa analiza danych niezagregowanych = Odkrycia nowych związków i zależności = Skuteczniejsze decyzje
  • 6. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • Mężczyzna, urodzony w 1948 • Wychowany w Anglii • Dwukrotnie żonaty, dziecko • Bogaty celebryta • Kocha psy • Uwielbia spędzać czas w Alpach Jak dobrze znamy własnych klientów? Oracle Confidential – Internal/Restricted/Highly Restricted | #BeyondBigData
  • 7. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal/Restricted/Highly Restricted 7 DNA Klienta Analiza zachowania i interakcji Szczegółowe profilowanie Analiza danych społecznościowych "We don’t have better algorithms. We just have more data.“ Peter Norvig, Google's Research Director
  • 8. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Czy potrafimy wystarczająco szybko analizować strumień danych? 8 Złożoność narzędzi • Większość narzędzi Hadoop wymaga wiedzy eksperckiej • Narzędzia BI nie są dostowane do specyfiki Hadoop • Nowe technologie nie są wystarczająco wszechstronne Duże nakłady pracy: ocena przydatności i przygotowanie danych Złożoność danych • Różnorodność i wielkość danych • Przydatność danych trudna do oszacowania • Wymagane złożone transformacje Niebędne specjalistyczne kompetencje
  • 9. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 9
  • 10. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group Jakie narzędzia są wykorzystywane w analizie danych? Source: O’Reilly: 2013 Data Science Salary Survey
  • 11. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group Proces analizy danych Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | RAPORTOWANIE POZYSKANIE PRZEKSZTAŁCANIE WYCIĄGANIE WNIOSKÓW ODKRYWANIE WARTOŚCI DANYCH Independency, correlation, dimensionality, missing values, relevancy Objectives, Modeling, Simulation, Optimization, Visualization Transactions, Web-scraping, Web-clicks & logs, Sensor Data, Mobile Data, Docs, Emails, XLS, Social Feeds, Flume & Sink HDFS MapReduce, ETL, Data Wrangle, Data Cleansing, Data Jujitsu, Dimensionality Reduction, Sample, Select, Join, Bind MODELOWANIEODKRYCIA Actionable, Predictive, Immediate Impact, Business Value, Easy to explain Description & Inference, Data & Algorithm models, Machine Learning, Regression & Prediction, Classification & Clustering
  • 12. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential | Business Analytics Product Group Proces analizy danych – wąskie gardła Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | RAPORTOWANIE POZYSKANIE PRZEKSZTAŁCANIE WYCIĄGANIE WNIOSKÓW ODKRYWANIE WARTOŚCI DANYCH Independency, correlation, dimensionality, missing values, relevancy Transactions, Web-scraping, Web-clicks & logs, Sensor Data, Mobile Data, Docs, Emails, XLS, Social Feeds, Flume & Sink HDFS MapReduce, ETL, Data Wrangle, Data Cleansing, Data Jujitsu, Dim Reduction, Sample, Select, Join, Bind MODELOWANIEODKRYCIA80% czasu jest poświęcone na Przekształcanie, Transformacje, & Modelowanie
  • 13. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Analityka biznesowa i Data Discovery Uzupełnienie koncepcji analitycznych Oracle Confidential 13 Znane zależności Analityka biznesowa Odpowiedzi na zdefiniowane pytania Nowe pytania wymagają dalszej analizy danych i odkryć Nowe zależności Data Discovery Odkrycia nowych znaczeń i związków w danych Okrycia pozwalają zbudować nowe metryki i kryteria do monitorowania Analityk biznesowy Data Scientist Pytania mogą wynikać z danych Testowanie hipotez na całym dostępnym zbiorze
  • 14. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Potrzebne są narzędzia nowej generacji 14 Szybkiego przekształcenia i wzbogacenia danych Dokonywania odkryć i udostępniania wniosków dla wielu użytkowników Przejrzysty i intuicyjny kokpit do pracy z danymi w celu... Łatwej identyfikacji danych i zrozumienia ich potencjału do analizy find explore transform discover share
  • 15. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 15 Big Data Discovery. The Visual Face of Hadoop find explore transform discover share
  • 16. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery. The Visual Face of Hadoop 16 find explore transform discover share Analiza potencjału pozyskanych danych
  • 17. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Katalog 17 • Interaktywny katalog danych składowanych w Hadoop • Przyjazny i łatwy w użyciu interfejs • Możliwość umieszczania komentarzy i rekomendacji • Zarządzanie zbiorami danych prywatnymi i publicznymi
  • 18. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Explore 18 • Wizualizacja atrybutów • Sortowanie atrybutów zgodnie z potencjałem danych • Statystyki, miary jakości danych, elementy odstające • Wstępna korelacja pomiędzy atrybutami
  • 19. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery. The Visual Face of Hadoop 19 find explore transform discover share Szybkie przekształcanie i wzbogacanie danych
  • 20. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 2020 • Intuicyjny interfejs • Rozbudowana biblioteka transformacji i wzbogacania danych • Symulacja działania, możliwość wycofywania i powtarzania transformacji • Testowanie na próbkach, a potem na zbiorze danych w Hadoop Transform
  • 21. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery. The Visual Face of Hadoop 21 find explore transform discover share Odkrycia i udostępnianie wniosków
  • 22. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 22 • Łączenie danych i szukanie związków i relacji • Konfigurowalne kokpity analityczne • Silniki zapytań do wyszukiwania danych • Odkrywanie nowych wzorców poprzez interaktywne wizualizacje Discover
  • 23. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 23 • Współdzielenie projektów pomiędzy użytkownikami • Budowa reużywalnych galerii wzorców • Współpraca w ramach zespołu analityków • Publikacja danych do innych narzędzi Share
  • 24. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Efektywne połączenie dwóch środowisk danych 24 • Kompletna platforma analityczna • Oszczędność czasu na procesach pomocniczych • Wydajne przetwarzanie w pamięci Data Warehouse Dane operacyjne Dane niestrukturalne Ocean danychHurtownia danych
  • 25. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – Internal 25 Jeżeli pasjonujesz się „data science”, masz praktyczne doświadczenia z obszarem Big Data, jesteś kreatywny i lubisz wyzwania, serdecznie zapraszamy do kontaktu: Wojciech Wcisło: wojciech.wcislo@oracle.com Rekrutujemy pracowników do regionalnego zespołu Big Data!