SlideShare ist ein Scribd-Unternehmen logo
1 von 26
Downloaden Sie, um offline zu lesen
Sådan bruges Big Data til
Business Intelligence
- fra store data til store forretningsfordele
Torben Bach Pedersen
Center for Data-intensive Systemer (Daisy)
Aalborg Universitet
kan


bruges


Sådan bruges Big Data til
Business Intelligence
- fra store data til store forretningsfordele
Torben Bach Pedersen
Center for Data-intensive Systemer (Daisy)
Aalborg Universitet
Hvad er Business Intelligence?
• Business intelligence is “the ability to apprehend the interrelationships of
presented facts in such a way as to guide action towards a desired goal”

H. P. Luhn, A Business Intelligence System, IBM Journal of
Research and Development. Vol. 2(4), 1958
• “Business intelligence (BI) is a business management term, which refers
to a set of tools and techniques that enable a company to transform its
business data into timely and accurate information for the decisional
process, to be made available to the right persons in the most suitable
form.”

S. Rizzi, Springer Encyclopedia of Database Systems, 2009.
• Business intelligence is “an umbrella term that includes the applications,
infrastructure and tools, and best practices that enable access to and
analysis of information to improve and optimize decisions and
performance”

Gartner Reports, IT Glossary, 2013

• Så det er noget med at optimere sin forretning via data…
Big Data og data-intensive systemer i Danmark, 15. januar 2014

3
Hvad er Big Data?
• ”Big data er et begreb indenfor datalogi, der bredt dækker
over indsamling, opbevaring, analyse, processering og
fortolkning af enorme mængder af data. Som mange
andre IT-ord har Big data ingen dansk oversættelse.”


http://da.wikipedia.org/wiki/Big_data

• ”Big data is the term for a collection of data sets so large
and complex that it becomes difficult to process using onhand database management tools or traditional data
processing applications.”


http://en.wikipedia.org/wiki/Big_data

• Så det skal være så ”stort” at det bliver ”svært” at gøre
som man plejer…

Big Data og data-intensive systemer i Danmark, 15. januar 2014

4
Big Data karakteristika
• Man taler ofte om ”de 3 V-er” (eller 4)
• Volume


Meget store datamængder

• Velocity


Data ankommer meget hurtigt (datastrømme)

• Variety


Data har meget forskellige/komplekse formater/typer/mening

• Det kan godt være ”Big Data”, selv med kun 1-2 V’er…
• Veracity


Hvor meget kan vi ”stole på” data ?

Big Data og data-intensive systemer i Danmark, 15. januar 2014

5
BI versus Big Data
• Ligheder





Man indsamler, integrerer, og analyserer data for at få ny viden
Man har store mængder data
Data ankommer (ofte) hurtigt

• Forskelle
BI

Big Data

Datatyper

Strukturerede (mest)

Ustrukturerede (også)

Datakilder

Mest interne

Mest eksterne

Bruger

Økonomiperson

Data scientist

Præcision

Eksakte resultater

Tilnærmede resultater

Privacy

Ikke kritisk

Meget kritisk

Kontrol med data

Stor kontrol

Lille eller ingen kontrol

Big Data og data-intensive systemer i Danmark, 15. januar 2014

6
Business Intelligence at a Glance

Malú Castellanos, HP Labs
Big Data og data-intensive systemer i
Danmark, 15. januar 2014

7
(Typiske) Typer af Big Data
• Søgedata



Data om websider, søgninger, rankings, osv.
Google’s data, den første slags Big Data

• Sociale netværks data



Opdateringer fra Twitter, Facebook, LinkedIn, brugerfora,….
Tekst, billeder, brugerinfo, Likes, lokation, venne/netværks-graf,…

• Linked/Open Data


Data delt/publiceret på web f.eks. via Semantic Web teknologier

• Men det er ikke kun fra web…
• Big Sensor Data





Big Science Data (har vi hørt om)
Big GPS/Location Data – i 2 andre sessioner
Big RFID Data
Big Energy Data
Big Data og data-intensive systemer i Danmark, 15. januar 2014

8
Bruges Big Data til BI i Danmark ?
• Godt spørgsmål…helt uvidenskabelig undersøgelse
• LinkedIn opdatering Nov. 2013 til mine 481 forbindelser


”Er der nogen der har et godt eksempel på brug af Big Data til BI i
Danmark?”

• 1(!) svar, fra en konsulent




Ikke nogle gode eksempler på brug af ”rigtig store” data
Nogle få er på forsøgsstadiet
Big Data er ”bagud” i Danmark

• Måske er vi for konservative?
• Men lad os da se på nogle eksempler jeg kender


Ikke dækkende…
Big Data og data-intensive systemer i Danmark, 15. januar 2014

9
BI på Twitter og søgedata
• Twitter – meget simpelt, mange muligheder



160 karakters tekst – med hashtags, forkortelser, referencer…
Megen ”behandling” nødvendig for at få fuldt udbytte

• Sentiment analysis - standard analyse på (korte) tekster



Er teksten/udsagnet positivt/negativt/neutralt ?
Interessant f.eks. i.f.t. produktomtaler

• Hvordan får man fat på Twitter data ?



Sample via Twitter Streaming API (gratis)
Firehose: ALT der matcher, betaling til Gnip/Datasift (også FB,…)

• Eksempler fra TARGIT, grundslides lånt af



Morten Middelfart (søgedata)
Steen Kjøng Paulsen (Twitter)

• Full disclosure: jeg har samarbejdet med TARGIT siden
2001 og får ikke procenter…men de ligger jo i Hjørring!
Big Data og data-intensive systemer i Danmark, 15. januar 2014

10
Structure and concept
ETL

The key concept
of #SocialAnalytics
is to measure and
visualize impact
on social networks
over time

Server

Other data
sources
(internal or
external)

Building
relations
between users
and networks
while adding
extra info such
as geo-location
and CRM data

Since we cannot
capture the
entire internet,
we stick to
sampling

11
12
13
14
15
Twitter data hos TARGIT
• Bruges internt til at holde øje med artikler/produktomtaler..


Lige nu: observer re-tweet aktivitet på studielicenser

• Muliggør et godt historisk overblik over aktiviteten



Hvilke dage folk er mest aktive omkring forskellige typer tweets?
Hvor længe har en re-tweet bølge varet?

Big Data og data-intensive systemer i Danmark, 15. januar 2014

16
Search data hos TARGIT
• Ønske om at holde øje med ”targit.com” placering i Google
søge ranking for forskellige kombinationer af søgeord


Mere detaljeret end man kan med Google Trends

• Ikke muligt at få Google’s data
• Sampling-baseret tilgang





Fyr (mange) søgninger afsted fra en query node
Opsaml resultaterne (HTML sider)
Parse og find TARGIT’s placering for hver kombination
Transformer og overfør data

Big Data og data-intensive systemer i Danmark, 15. januar 2014

17
Inverted Data Warehouse (IDW)
o
o
o

Inspiration from CERN’s LHC
“Shotgun Approach”; equal to formulating
hypotheses; data scientist
No single point of failure
(parallel Query Nodes have also been tested)
Big Energy Data i Smart Grids
• Måledata


integrates

Komplekse tidsserier skal
forecast’es

• Opsamle og håndtere
eksplicitte fleksibiliteter
• Balancer forbrug og
produktion i realtid
• Forudsig produktion,
forbrug og fleksibilitet
ned på apparatniveau
• Komplekst system med
megen BI

1

Balance Responsible Party
(acquirer of flexibility)

Flex-Offer

specifies flexibility in
Power

Time

Intermittent Supply and Demand
volatility
past

future

2
3

uncertainty

Prosumer
(provider of flexibility)

Acceptance
Assignment

controls

specifies how flexibility is
to be exercised (schedule)

Renewable Energy Sources
Renewable Energy Sources
Inflexible Demand
Inflexible Demand
...
...

Flexible Demand and Supply
Heat pumps
Heat pumps
Combined Heat
Combined Heat
Smart White Goods
Smart White Goods
...
...

Aggregation

Scheduling

Disaggregation

Aggregation

Big Data og data-intensive systemer i Danmark, 15. januar 2014

Disaggregation

22
Big RFID Data
• BagTrack – styr på bagagen






HTF: Daisy, Lyngsoe, SAS, IATA, AAL, …
Bagagestrimler med RFID chips i – læs på afstand
Nummerplade (ID), rute, datp
Vision: verdensomspændede bagageinformation i
realtid – reducer bagageproblemer med 50% i
2020 og spar 1.2 mia. US$/år

• Daisy BI forskning






Rensning af data – mening af RFID læsninger
Realtids data og forespørgsler
OLAP/DW – analyser processer og målinger
Data mining: problemer og årsager i event sekv.
Store og komplekse data, 1000+ lokationer
Departure

Transfer

Arrival

Big Data og data-intensive systemer i Danmark, 15. januar 2014

23
Open/Linked Data – hvad findes?

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/
Big Data og data-intensive systemer i Danmark, 15. januar 2014

24
BI på Big Linked/Open Data
• Brug for eksterne data



Format/betydning?
Tilgang/forespørgsler?

• Løsning: Semantic Web






Formelle ontologier
angiver mening
Kan linke til andre
ontologier/begreber
(Linked Data)
SPARQL forespørgsler

• Self-service BI


Ex: Fusion cubes

A. Abello et al. Fusion Cubes: Towards Self-Service Business
Intelligence. IJDWM 9(2), 2013.

Big Data og data-intensive systemer i Danmark, 15. januar 2014

25
Hvad mangler vi ?
• Erfaringer, viden, lovgivning,…
• Skalerbare, effektive og brugervenlige BI+Big Data
værktøjer og teknologier


Relevant forskning hos Daisy?

• ”Programmerbar ETL” til MapReduce/Hadoop



Kraftfuld: opdater slowly changing snowflaked dim med 1 linje kode
Skalerbar: Automatisk scale-out parallelisering

• All-RiTE


INSERT/UPDATE-like data tilgængelig med bulk load hastighed

• Komprimerede bitmap indeks – PLWAH


Effektive søgninger for komplekse kriterier på Big Data (Algorhyme)

• Fusion Cubes


Brugerdrevet self-service BI på interne og Linked/Open Big Data
Big Data og data-intensive systemer i Danmark, 15. januar 2014

26

Weitere ähnliche Inhalte

Ähnlich wie Tbp big dataogbi_tbp

Morten Jensby, Convergens Intranet fungerer og ser godt ud men kan du finde...
Morten Jensby, Convergens Intranet fungerer og ser godt ud   men kan du finde...Morten Jensby, Convergens Intranet fungerer og ser godt ud   men kan du finde...
Morten Jensby, Convergens Intranet fungerer og ser godt ud men kan du finde...VidenDanmark
 
VidenDanmark seminar: Dan Thomsen 310311
VidenDanmark seminar: Dan Thomsen 310311VidenDanmark seminar: Dan Thomsen 310311
VidenDanmark seminar: Dan Thomsen 310311VidenDanmark
 
TING præsentation i Esbjerg 2. juli 2010
TING præsentation i Esbjerg 2. juli 2010TING præsentation i Esbjerg 2. juli 2010
TING præsentation i Esbjerg 2. juli 2010Bo Fristed
 
Lad data styre din forretning
Lad data styre din forretningLad data styre din forretning
Lad data styre din forretningMicrosoft
 
Internet of Things. Morgeninspiration Juni 2017
Internet of Things. Morgeninspiration Juni 2017Internet of Things. Morgeninspiration Juni 2017
Internet of Things. Morgeninspiration Juni 2017Peytz & Co
 
Fra Big Data Til Big Business - opdagelsesrejse formiddag
Fra Big Data Til Big Business  - opdagelsesrejse formiddagFra Big Data Til Big Business  - opdagelsesrejse formiddag
Fra Big Data Til Big Business - opdagelsesrejse formiddagCBS Competitiveness Platform
 
Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25
Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25
Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25VidenDanmark
 
Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...
Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...
Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...Mikael Elbæk
 
Microsoft Internet of Things konference 2015 - Morten Fanø, Partner, Next Agenda
Microsoft Internet of Things konference 2015 - Morten Fanø, Partner, Next AgendaMicrosoft Internet of Things konference 2015 - Morten Fanø, Partner, Next Agenda
Microsoft Internet of Things konference 2015 - Morten Fanø, Partner, Next AgendaMicrosoft
 
Digitale organisationer Magnus Christensson
Digitale organisationer Magnus ChristenssonDigitale organisationer Magnus Christensson
Digitale organisationer Magnus ChristenssonSocialsquare
 
Learning Analytics og Big Data i et kritisk perspektiv (men også med muligheder)
Learning Analytics og Big Data i et kritisk perspektiv(men også med muligheder)Learning Analytics og Big Data i et kritisk perspektiv(men også med muligheder)
Learning Analytics og Big Data i et kritisk perspektiv (men også med muligheder)Thomas Ryberg
 
Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...
Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...
Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...Mads Bjørn-Møldrup
 
Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...
Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...
Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...Mads Bjørn-Møldrup
 
IA Search
IA SearchIA Search
IA SearchSigaard
 
Enterprise Search Introduktion
Enterprise Search IntroduktionEnterprise Search Introduktion
Enterprise Search IntroduktionVidenDanmark
 
Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...
Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...
Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...Dansk BiblioteksCenter
 

Ähnlich wie Tbp big dataogbi_tbp (20)

Morten Jensby, Convergens Intranet fungerer og ser godt ud men kan du finde...
Morten Jensby, Convergens Intranet fungerer og ser godt ud   men kan du finde...Morten Jensby, Convergens Intranet fungerer og ser godt ud   men kan du finde...
Morten Jensby, Convergens Intranet fungerer og ser godt ud men kan du finde...
 
VidenDanmark seminar: Dan Thomsen 310311
VidenDanmark seminar: Dan Thomsen 310311VidenDanmark seminar: Dan Thomsen 310311
VidenDanmark seminar: Dan Thomsen 310311
 
TING præsentation i Esbjerg 2. juli 2010
TING præsentation i Esbjerg 2. juli 2010TING præsentation i Esbjerg 2. juli 2010
TING præsentation i Esbjerg 2. juli 2010
 
Lad data styre din forretning
Lad data styre din forretningLad data styre din forretning
Lad data styre din forretning
 
Internet of Things. Morgeninspiration Juni 2017
Internet of Things. Morgeninspiration Juni 2017Internet of Things. Morgeninspiration Juni 2017
Internet of Things. Morgeninspiration Juni 2017
 
Implementering af databeskyttelsesforordningen i københavns kommune
Implementering af databeskyttelsesforordningen i københavns kommuneImplementering af databeskyttelsesforordningen i københavns kommune
Implementering af databeskyttelsesforordningen i københavns kommune
 
Fra Big Data Til Big Business - opdagelsesrejse formiddag
Fra Big Data Til Big Business  - opdagelsesrejse formiddagFra Big Data Til Big Business  - opdagelsesrejse formiddag
Fra Big Data Til Big Business - opdagelsesrejse formiddag
 
Gartner analytics session
Gartner analytics sessionGartner analytics session
Gartner analytics session
 
Kommunikasjon: Brugerne i centrum
Kommunikasjon: Brugerne i centrumKommunikasjon: Brugerne i centrum
Kommunikasjon: Brugerne i centrum
 
Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25
Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25
Gitte svendsen arbejdsgangsbanken viden danmark 2012.01.25
 
Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...
Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...
Præsentation af DEFF projektet forskningsdokumentation og -kommunikation for ...
 
Microsoft Internet of Things konference 2015 - Morten Fanø, Partner, Next Agenda
Microsoft Internet of Things konference 2015 - Morten Fanø, Partner, Next AgendaMicrosoft Internet of Things konference 2015 - Morten Fanø, Partner, Next Agenda
Microsoft Internet of Things konference 2015 - Morten Fanø, Partner, Next Agenda
 
Digitale organisationer Magnus Christensson
Digitale organisationer Magnus ChristenssonDigitale organisationer Magnus Christensson
Digitale organisationer Magnus Christensson
 
Data om, data for data som praksis, av Maja Plum
Data om, data for data som praksis, av Maja PlumData om, data for data som praksis, av Maja Plum
Data om, data for data som praksis, av Maja Plum
 
Learning Analytics og Big Data i et kritisk perspektiv (men også med muligheder)
Learning Analytics og Big Data i et kritisk perspektiv(men også med muligheder)Learning Analytics og Big Data i et kritisk perspektiv(men også med muligheder)
Learning Analytics og Big Data i et kritisk perspektiv (men også med muligheder)
 
Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...
Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...
Mads Bjørn-Møldrup - Datafordeleren og de frie geodata - Landinspektørernes å...
 
Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...
Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...
Mads Bjørn-Møldrup - Frie Grunddata og Datafordeleren - Landinspektørernes År...
 
IA Search
IA SearchIA Search
IA Search
 
Enterprise Search Introduktion
Enterprise Search IntroduktionEnterprise Search Introduktion
Enterprise Search Introduktion
 
Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...
Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...
Autoritetsposter- en national autoritetsbase, hvordan fungerer den? Forholdet...
 

Mehr von InfinIT - Innovationsnetværket for it

Mehr von InfinIT - Innovationsnetværket for it (20)

Erfaringer med-c kurt-noermark
Erfaringer med-c kurt-noermarkErfaringer med-c kurt-noermark
Erfaringer med-c kurt-noermark
 
Object orientering, test driven development og c
Object orientering, test driven development og cObject orientering, test driven development og c
Object orientering, test driven development og c
 
Embedded softwaredevelopment hcs
Embedded softwaredevelopment hcsEmbedded softwaredevelopment hcs
Embedded softwaredevelopment hcs
 
C og c++-jens lund jensen
C og c++-jens lund jensenC og c++-jens lund jensen
C og c++-jens lund jensen
 
201811xx foredrag c_cpp
201811xx foredrag c_cpp201811xx foredrag c_cpp
201811xx foredrag c_cpp
 
C som-programmeringssprog-bt
C som-programmeringssprog-btC som-programmeringssprog-bt
C som-programmeringssprog-bt
 
Infinit seminar 060918
Infinit seminar 060918Infinit seminar 060918
Infinit seminar 060918
 
DCR solutions
DCR solutionsDCR solutions
DCR solutions
 
Not your grandfathers BPM
Not your grandfathers BPMNot your grandfathers BPM
Not your grandfathers BPM
 
Kmd workzone - an evolutionary approach to revolution
Kmd workzone - an evolutionary approach to revolutionKmd workzone - an evolutionary approach to revolution
Kmd workzone - an evolutionary approach to revolution
 
EcoKnow - oplæg
EcoKnow - oplægEcoKnow - oplæg
EcoKnow - oplæg
 
Martin Wickins Chatbots i fronten
Martin Wickins Chatbots i frontenMartin Wickins Chatbots i fronten
Martin Wickins Chatbots i fronten
 
Marie Fenger ai kundeservice
Marie Fenger ai kundeserviceMarie Fenger ai kundeservice
Marie Fenger ai kundeservice
 
Mads Kaysen SupWiz
Mads Kaysen SupWizMads Kaysen SupWiz
Mads Kaysen SupWiz
 
Leif Howalt NNIT Service Support Center
Leif Howalt NNIT Service Support CenterLeif Howalt NNIT Service Support Center
Leif Howalt NNIT Service Support Center
 
Jan Neerbek NLP og Chatbots
Jan Neerbek NLP og ChatbotsJan Neerbek NLP og Chatbots
Jan Neerbek NLP og Chatbots
 
Anders Soegaard NLP for Customer Support
Anders Soegaard NLP for Customer SupportAnders Soegaard NLP for Customer Support
Anders Soegaard NLP for Customer Support
 
Stephen Alstrup infinit august 2018
Stephen Alstrup infinit august 2018Stephen Alstrup infinit august 2018
Stephen Alstrup infinit august 2018
 
Innovation og værdiskabelse i it-projekter
Innovation og værdiskabelse i it-projekterInnovation og værdiskabelse i it-projekter
Innovation og værdiskabelse i it-projekter
 
Rokoko infin it presentation
Rokoko infin it presentation Rokoko infin it presentation
Rokoko infin it presentation
 

Tbp big dataogbi_tbp

  • 1. Sådan bruges Big Data til Business Intelligence - fra store data til store forretningsfordele Torben Bach Pedersen Center for Data-intensive Systemer (Daisy) Aalborg Universitet
  • 2. kan  bruges  Sådan bruges Big Data til Business Intelligence - fra store data til store forretningsfordele Torben Bach Pedersen Center for Data-intensive Systemer (Daisy) Aalborg Universitet
  • 3. Hvad er Business Intelligence? • Business intelligence is “the ability to apprehend the interrelationships of presented facts in such a way as to guide action towards a desired goal”  H. P. Luhn, A Business Intelligence System, IBM Journal of Research and Development. Vol. 2(4), 1958 • “Business intelligence (BI) is a business management term, which refers to a set of tools and techniques that enable a company to transform its business data into timely and accurate information for the decisional process, to be made available to the right persons in the most suitable form.”  S. Rizzi, Springer Encyclopedia of Database Systems, 2009. • Business intelligence is “an umbrella term that includes the applications, infrastructure and tools, and best practices that enable access to and analysis of information to improve and optimize decisions and performance”  Gartner Reports, IT Glossary, 2013 • Så det er noget med at optimere sin forretning via data… Big Data og data-intensive systemer i Danmark, 15. januar 2014 3
  • 4. Hvad er Big Data? • ”Big data er et begreb indenfor datalogi, der bredt dækker over indsamling, opbevaring, analyse, processering og fortolkning af enorme mængder af data. Som mange andre IT-ord har Big data ingen dansk oversættelse.”  http://da.wikipedia.org/wiki/Big_data • ”Big data is the term for a collection of data sets so large and complex that it becomes difficult to process using onhand database management tools or traditional data processing applications.”  http://en.wikipedia.org/wiki/Big_data • Så det skal være så ”stort” at det bliver ”svært” at gøre som man plejer… Big Data og data-intensive systemer i Danmark, 15. januar 2014 4
  • 5. Big Data karakteristika • Man taler ofte om ”de 3 V-er” (eller 4) • Volume  Meget store datamængder • Velocity  Data ankommer meget hurtigt (datastrømme) • Variety  Data har meget forskellige/komplekse formater/typer/mening • Det kan godt være ”Big Data”, selv med kun 1-2 V’er… • Veracity  Hvor meget kan vi ”stole på” data ? Big Data og data-intensive systemer i Danmark, 15. januar 2014 5
  • 6. BI versus Big Data • Ligheder    Man indsamler, integrerer, og analyserer data for at få ny viden Man har store mængder data Data ankommer (ofte) hurtigt • Forskelle BI Big Data Datatyper Strukturerede (mest) Ustrukturerede (også) Datakilder Mest interne Mest eksterne Bruger Økonomiperson Data scientist Præcision Eksakte resultater Tilnærmede resultater Privacy Ikke kritisk Meget kritisk Kontrol med data Stor kontrol Lille eller ingen kontrol Big Data og data-intensive systemer i Danmark, 15. januar 2014 6
  • 7. Business Intelligence at a Glance Malú Castellanos, HP Labs Big Data og data-intensive systemer i Danmark, 15. januar 2014 7
  • 8. (Typiske) Typer af Big Data • Søgedata   Data om websider, søgninger, rankings, osv. Google’s data, den første slags Big Data • Sociale netværks data   Opdateringer fra Twitter, Facebook, LinkedIn, brugerfora,…. Tekst, billeder, brugerinfo, Likes, lokation, venne/netværks-graf,… • Linked/Open Data  Data delt/publiceret på web f.eks. via Semantic Web teknologier • Men det er ikke kun fra web… • Big Sensor Data     Big Science Data (har vi hørt om) Big GPS/Location Data – i 2 andre sessioner Big RFID Data Big Energy Data Big Data og data-intensive systemer i Danmark, 15. januar 2014 8
  • 9. Bruges Big Data til BI i Danmark ? • Godt spørgsmål…helt uvidenskabelig undersøgelse • LinkedIn opdatering Nov. 2013 til mine 481 forbindelser  ”Er der nogen der har et godt eksempel på brug af Big Data til BI i Danmark?” • 1(!) svar, fra en konsulent    Ikke nogle gode eksempler på brug af ”rigtig store” data Nogle få er på forsøgsstadiet Big Data er ”bagud” i Danmark • Måske er vi for konservative? • Men lad os da se på nogle eksempler jeg kender  Ikke dækkende… Big Data og data-intensive systemer i Danmark, 15. januar 2014 9
  • 10. BI på Twitter og søgedata • Twitter – meget simpelt, mange muligheder   160 karakters tekst – med hashtags, forkortelser, referencer… Megen ”behandling” nødvendig for at få fuldt udbytte • Sentiment analysis - standard analyse på (korte) tekster   Er teksten/udsagnet positivt/negativt/neutralt ? Interessant f.eks. i.f.t. produktomtaler • Hvordan får man fat på Twitter data ?   Sample via Twitter Streaming API (gratis) Firehose: ALT der matcher, betaling til Gnip/Datasift (også FB,…) • Eksempler fra TARGIT, grundslides lånt af   Morten Middelfart (søgedata) Steen Kjøng Paulsen (Twitter) • Full disclosure: jeg har samarbejdet med TARGIT siden 2001 og får ikke procenter…men de ligger jo i Hjørring! Big Data og data-intensive systemer i Danmark, 15. januar 2014 10
  • 11. Structure and concept ETL The key concept of #SocialAnalytics is to measure and visualize impact on social networks over time Server Other data sources (internal or external) Building relations between users and networks while adding extra info such as geo-location and CRM data Since we cannot capture the entire internet, we stick to sampling 11
  • 12. 12
  • 13. 13
  • 14. 14
  • 15. 15
  • 16. Twitter data hos TARGIT • Bruges internt til at holde øje med artikler/produktomtaler..  Lige nu: observer re-tweet aktivitet på studielicenser • Muliggør et godt historisk overblik over aktiviteten   Hvilke dage folk er mest aktive omkring forskellige typer tweets? Hvor længe har en re-tweet bølge varet? Big Data og data-intensive systemer i Danmark, 15. januar 2014 16
  • 17. Search data hos TARGIT • Ønske om at holde øje med ”targit.com” placering i Google søge ranking for forskellige kombinationer af søgeord  Mere detaljeret end man kan med Google Trends • Ikke muligt at få Google’s data • Sampling-baseret tilgang     Fyr (mange) søgninger afsted fra en query node Opsaml resultaterne (HTML sider) Parse og find TARGIT’s placering for hver kombination Transformer og overfør data Big Data og data-intensive systemer i Danmark, 15. januar 2014 17
  • 18. Inverted Data Warehouse (IDW) o o o Inspiration from CERN’s LHC “Shotgun Approach”; equal to formulating hypotheses; data scientist No single point of failure (parallel Query Nodes have also been tested)
  • 19.
  • 20.
  • 21.
  • 22. Big Energy Data i Smart Grids • Måledata  integrates Komplekse tidsserier skal forecast’es • Opsamle og håndtere eksplicitte fleksibiliteter • Balancer forbrug og produktion i realtid • Forudsig produktion, forbrug og fleksibilitet ned på apparatniveau • Komplekst system med megen BI 1 Balance Responsible Party (acquirer of flexibility) Flex-Offer specifies flexibility in Power Time Intermittent Supply and Demand volatility past future 2 3 uncertainty Prosumer (provider of flexibility) Acceptance Assignment controls specifies how flexibility is to be exercised (schedule) Renewable Energy Sources Renewable Energy Sources Inflexible Demand Inflexible Demand ... ... Flexible Demand and Supply Heat pumps Heat pumps Combined Heat Combined Heat Smart White Goods Smart White Goods ... ... Aggregation Scheduling Disaggregation Aggregation Big Data og data-intensive systemer i Danmark, 15. januar 2014 Disaggregation 22
  • 23. Big RFID Data • BagTrack – styr på bagagen     HTF: Daisy, Lyngsoe, SAS, IATA, AAL, … Bagagestrimler med RFID chips i – læs på afstand Nummerplade (ID), rute, datp Vision: verdensomspændede bagageinformation i realtid – reducer bagageproblemer med 50% i 2020 og spar 1.2 mia. US$/år • Daisy BI forskning      Rensning af data – mening af RFID læsninger Realtids data og forespørgsler OLAP/DW – analyser processer og målinger Data mining: problemer og årsager i event sekv. Store og komplekse data, 1000+ lokationer Departure Transfer Arrival Big Data og data-intensive systemer i Danmark, 15. januar 2014 23
  • 24. Open/Linked Data – hvad findes? Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/ Big Data og data-intensive systemer i Danmark, 15. januar 2014 24
  • 25. BI på Big Linked/Open Data • Brug for eksterne data   Format/betydning? Tilgang/forespørgsler? • Løsning: Semantic Web    Formelle ontologier angiver mening Kan linke til andre ontologier/begreber (Linked Data) SPARQL forespørgsler • Self-service BI  Ex: Fusion cubes A. Abello et al. Fusion Cubes: Towards Self-Service Business Intelligence. IJDWM 9(2), 2013. Big Data og data-intensive systemer i Danmark, 15. januar 2014 25
  • 26. Hvad mangler vi ? • Erfaringer, viden, lovgivning,… • Skalerbare, effektive og brugervenlige BI+Big Data værktøjer og teknologier  Relevant forskning hos Daisy? • ”Programmerbar ETL” til MapReduce/Hadoop   Kraftfuld: opdater slowly changing snowflaked dim med 1 linje kode Skalerbar: Automatisk scale-out parallelisering • All-RiTE  INSERT/UPDATE-like data tilgængelig med bulk load hastighed • Komprimerede bitmap indeks – PLWAH  Effektive søgninger for komplekse kriterier på Big Data (Algorhyme) • Fusion Cubes  Brugerdrevet self-service BI på interne og Linked/Open Big Data Big Data og data-intensive systemer i Danmark, 15. januar 2014 26