SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Downloaden Sie, um offline zu lesen
Introducere în Data Mining
Curs 1: Prezentare generală
Lucian Sasu, Ph.D.
Universitatea Transilvania din Braşov, Facultatea de Matematică şi Informatică
April 7, 2014
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 1 / 42
Outline
1 Bibliografia recomandată
Bibliografie pentru curs
Bibliografie pentru laborator
2 Data Mining - introducere
Definiţii, exemple şi motivaţie
Data Mining şi Knowledge Discovery
Puncte de dificultate
Originile DM
Tipuri de aplicaţii DM
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 2 / 42
Bibliografie pentru curs
1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining, Addison-Wesley, 2006
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
Bibliografie pentru curs
1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining, Addison-Wesley, 2006
2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of
Data Mining, MIT Press, 2001
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
Bibliografie pentru curs
1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining, Addison-Wesley, 2006
2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of
Data Mining, MIT Press, 2001
3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and
Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
Bibliografie pentru curs
1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to
Data Mining, Addison-Wesley, 2006
2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of
Data Mining, MIT Press, 2001
3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and
Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011
4 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of
Statistical Learning: Data Mining, Inference, and Prediction, 2nd
edition, Springer 2009, liberă la download
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
Bibliografie pentru laborator
1 RapidMiner: http://rapidminerresources.com
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
Bibliografie pentru laborator
1 RapidMiner: http://rapidminerresources.com
2 RapidMiner: http://rapidminer.com/learning/getting-started/
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
Bibliografie pentru laborator
1 RapidMiner: http://rapidminerresources.com
2 RapidMiner: http://rapidminer.com/learning/getting-started/
3 Weka: Ian H. Witten, Eibe Frank: Data Mining: Practical Machine
Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
Bibliografie pentru laborator
1 RapidMiner: http://rapidminerresources.com
2 RapidMiner: http://rapidminer.com/learning/getting-started/
3 Weka: Ian H. Witten, Eibe Frank: Data Mining: Practical Machine
Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005
4 Weka: Curs Weka la
https://weka.waikato.ac.nz/dataminingwithweka/course
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
Unelte folosite la laborator (1)
Weka: Data Mining Software in Java, Download de aici
Weka is a collection of machine learning algorithms for data mining tasks. The algorithms
can either be applied directly to a dataset or called from your own Java code. Weka
contains tools for data pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new machine learning
schemes.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 5 / 42
Unelte folosite la laborator (1)
Weka: Data Mining Software in Java, Download de aici
Weka is a collection of machine learning algorithms for data mining tasks. The algorithms
can either be applied directly to a dataset or called from your own Java code. Weka
contains tools for data pre-processing, classification, regression, clustering, association
rules, and visualization. It is also well-suited for developing new machine learning
schemes.
Software multiplatformă dezvoltat în Java; poate fi folosit din GUI sau prin API-ul expus;
posibil să se apeleze din .NET via ikvm.net.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 5 / 42
Unelte folosite la laborator (2)
RapidMiner Community Edition
The main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading
open-source system for data and text mining.
Mecanisme: Data Integration, Analytical ETL, Data Analysis, and
Reporting; graphical user interface for the design of analysis
processes; Repositories for process, data and meta data handling;
Hundreds of data loading, data transformation, data modeling, and
data visualization methods [. . . ]
Alte softuri larg folosite, dar neabordate la laborator:
http://www.kdnuggets.com/software/index.html,
http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html
http://www-users.cs.umn.edu/~kumar/dmbook/resources.htm
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 6 / 42
Outline
1 Bibliografia recomandată
Bibliografie pentru curs
Bibliografie pentru laborator
2 Data Mining - introducere
Definiţii, exemple şi motivaţie
Data Mining şi Knowledge Discovery
Puncte de dificultate
Originile DM
Tipuri de aplicaţii DM
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 7 / 42
Definiţii
Definiţie
Data Mining este procesul descoperirii (semi)automate a informaţiilor utile
în depozite mari de date (Tan et al).
Definiţie
Data Mining este analiza seturilor de date – deseori de dimensiuni mari –
rezultate prin observaţii pentru a găsi relaţii noi şi pentru sumarizarea
datelor în moduri care sunt atât uşor de înţeles cât şi utile celui ce deţine
datele (Hand et al).
Definiţie
Data mining este procesul netrivial de extragere a informaţiei implicite,
anterior necunoscute, interesante şi potenţial utile din date, de regulă sub
forma de modele şi şabloane de cunoaştere (Schapiro et al).
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 8 / 42
Termeni alternativi:
mineritul cunoştinţelor din date
extragere de cunoştinţe (eng: Knowledge Discovery) – sinonim
discutabil
analiza date/şabloane
Ce NU e Data Mining:
găsirea datelor complete privind o persoană folosind interogare într–o
bază de date;
găsirea paginilor web care conţin anumiţi termeni;
Acestea sunt activităţi de regăsire a informaţiei.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 9 / 42
Ce poate fi Data Mining:
să descoperi că anumite nume sunt mai frecvente în unele zone:
O’Brien, O’Rurke, O’Reilly în zona Boston;
gruparea clienţilor pe baza unui profil de consum comun;
gruparea paginilor dintr-un motor de căutare pe baza similarităţilor:
motorul http://clusty.com/;
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 10 / 42
Clustering de pagini web in Clusty
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 11 / 42
Farecast: să cumpăr sau nu acum un bilet de avion?
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 12 / 42
De ce Data Mining: din punctul de vedere al afacerilor (1)
O mulţime de date sunt colectate şi depozitate prin sisteme de data
warehouse
date din Web, comerţ electronic
cumpărături în magazine/lanţuri de desfacere
tranzacţii financiare, carduri de debit/credit
Calculatoarele au devenit tot mai ieftine şi mai puternice; procesarea
distribuită este ceva comun.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 13 / 42
De ce Data Mining: din punctul de vedere al afacerilor (2)
Presiunea impusă de competiţie este motivantă: aducerea unui nou
client într–o reţea de telefonie este de până la 4 ori mai scumpă decât
păstrarea lui: Customer attrition
Cerinţe specifice mediului de afaceri: customer profiling, targetted
marketing, fraud detection
Probleme stringente: “Care sunt cei mai profitabili clienţi?”, “Care
produse cumpărate atrag achiziţia altor produse?”, “Care va fi evoluţia
companiei/pieţei pe segmentul . . . ?”, “Care sunt nişele de piaţă?”
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 14 / 42
De ce Data Mining: din punct de vedere ştiinţific
În domenii precum medicina, inginerie şi ştiinţă se acumulează rapid
date ce trebuie exploatate pentru a duce la noi descoperiri;
Exemplu: dezvoltarea de sisteme de sateliţi pentru observaţii
climatice;
Date genetice generate prin “microarrays”; se doreşte decodificarea
completă a genomului uman, determinarea genelor care cauzează
diferite afecţiuni, înţelegerea structurii şi funcţionalităţii genelor;
DM e unealtă de bază pentru bioinformatică = “aplicarea statisticii şi
a informaticii în domeniul biologiei moleculare”.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 15 / 42
Competiţii
Neflix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru
17.770 filme
KDDCup:
2013: Author-Paper Identification Challenge
2012: User Modeling based on Microblog Data and Search Click Data
2011: Recomandare de muzică
2010: Evaluarea performanţelor studenţilor
2009: Predicţia relaţiei cu clienţii
competiţia merge până în 1997
Alte competiţii —www.kdnuggets.com, kaggle
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 16 / 42
Paşii unui proces de extragere de cunoştinţe (1)
Data Mining este parte integrantă a domeniului Knowledge discovery
in databases (KDD), care e un întreg proces de conversie a datelor
primare în cunoştinţe (informaţie).
Procesul constă într–o succesiune de paşi:
Datele de intrare se pot găsi într-o largă varietate de formate: fişiere
text, baze de date relaţionale, date semistructurate (e.g. XML,
HTML), imagini, filme etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 17 / 42
Paşii unui proces de extragere de cunoştinţe (2)
Datele se selectează din multitudinea de surse;
Preprocesarea şi transformarea pot include: selectarea dimensiunilor,
reducerea dimensionalităţii, tratarea datelor incomplete, normalizarea;
Preprocesarea şi transformarea pot lua chiar şi 60% din durata totală
a unui proces de extragere a cunoştinţelor;
Partea de Data Mining se face printr–o varietate de tehnici; deseori se
testează mai multe metode;
La final, cunoştinţele rezultate sunt post–procesate (e.g. se elimină
rezultatele invalide sau neinteresante) şi trebuie prezentate într–o
formă inteligibilă factorilor de decizie (e.g. vizualizare sau reguli de
forma “if–then”), sau integrate în alte sisteme (e.g. sistemele utilizate
pentru detectare de fraude);
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 18 / 42
Atenţie la ce se obţine
Tehnici folosite la preprocesare: testarea ipotezelor prin metode
statistice – se elimină rezultatele nerealiste;
Eliminarea cunoştinţelor “neinteresante” — element subiectiv,
dependent de cunoştinţele anterioare;
Limitarea complexităţii modelelor folosite în procesul de DM: “If you
torture the data long enough, it will confess” (Ronald Harry Coase,
economist);
Principiul lui Bonferroni: if you look harder than the quantity of data
supports, you will find a pattern that “fits”.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 19 / 42
Principiul lui Bonferroni: paradoxul Rhine (1)
Joseph Rhine: parapsiholog în anii ’50 care a încercat să dovedească
faptul că unii oameni au percepţie extra-senzorială;
“experimentul” lui Rhine: a cerut unor oameni să ghicească culorile a
10 cartonaşe ascunse – se ştiau cele două posibilităţi: roşu şi albastru;
a “descoperit” că aproximativ 1/1000 din oameni au ghicit toate cele
10 cartoane
a spus oamenilor respectivi că au abilităţi extrasenzoriale şi i-a chemat
pentru alte experimente
la un nou experiment, oamenii de la pasul anterior nu au mai ghicit
aproape deloc culoarea cartoanelor.
“Concluzia”:
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 20 / 42
Principiul lui Bonferroni: paradoxul Rhine (2)
Nu ar fi trebuit să le spună oamenilor că au capacităţi
extra-senzoriale: asta îi face să şi le piardă!!
Un calcul probabilistic simplu arată că raportul de aproximativ 1/1000
poate fi explicat prin evenimente aleatoare şi legea numerelor mari;
Cunoaşterea principiului lui Bonferroni poate să salveze de astfel de
“descoperiri”.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 21 / 42
Scalabilitatea şi dimensiunea datelor
A leading retail bank is using Cloudera and Datameer to validate data
accuracy and quality to comply with regulations like Dodd-Frank;
1TB of data / month; studiu de caz
A health IT company instituted a policy of saving seven years of
historical claims and remit data, but its in-house database systems
had trouble meeting the data retention requirement while processing
millions of claims every day; 1TB of data / day; studiu de caz
Storing billions of mobile call records and providing real time access
to the call records and billing information to customers. Traditional
storage/database systems couldn’t scale to the loads and provide a
cost effective solution; 30TB of data is added monthly; studiu de caz
Proiectul genomului uman: 3.4 miliarde de perechi şi între 20000 şi
25000 gene;
Experimentul “Compact Muon Solenoid” la CERN’s Large Hadron
Collider generează 40 de terabytes de date pe secundă.
Primele 3 exemple sunt preluate de aici.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 22 / 42
Scalabilitatea şi dimensiunea datelor (2)
variante: structuri de date specifice, care să uşureze interogarea
datelor
scalarea pe orizontală sau pe verticală a resurselor hardware;
scalarea pe verticală: rareori suficientă, datele nu încap în RAM
scalarea pe orizontală – cazuri remarcabile: Apache Hadoop, Apache
Mahout — proiecte open–source.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 23 / 42
Date eterogene şi complexe
atribute eterogene: numerice, categoriale;
ce faci cu datele lipsă? eliminarea înregistrărilor cu goluri de date nu e
întotdeauna o opţiune;
colecţii de documente (e.g. pagini Web); date ADN cu structură
spaţială şi secvenţială; serii de timp
tehnicile de DM trebuie să ia în considerare relaţiile dintre date
(corelaţie spaţială şi temporală; conectivitate de grafuri; relaţie
părinte–copil).
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 24 / 42
Gestiunea şi distribuirea datelor
datele pot fi prezente în locaţii multiple, nu doar într–o organizaţie;
necesitate: DM distribuit sau suport de tip Data Warehouse
în caz de distribuire: comunicarea necesară poate să domine timpul
de calcul
în caz de data warehouse: integrarea datelor necesită timp îndelungat
“data privacy”: problemă delicată, diferite aspecte legislative pot
interveni
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 25 / 42
Analiză nestandard
Statistica: enuntarea de ipoteze şi apoi testarea lor;
Problemă evidentă: procesul este laborios
DM are ca scop tocmai determinarea pe cât posibil automată a astfel
de ipoteze;
În timp ce statistica este în mare măsură tributară modelelor
parametrice, datele reale pot avea cu totul alte distribuţii decât cele
presupuse;
Dar statistica oferă unelte utile – de exemplu metode de testare,
determinarea intervalelor de confidenţă, inferenţa statistică etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 26 / 42
Originile DM
Statistică – eşantionare, estimare, testarea ipotezelor, modele
parametrice;
Inteligenţă artificială — tehnici de raţionament probabilist şi
management al incertitudinii
Învăţare automată (machine learning) — pornind de la date se
creează modele adecvate
Recunoaştere de şabloane (pattern recognition)
Sisteme de baze de date – suport pentru stocarea (eventual
distribuită a ) datelor; probleme pot apărea din cauză că nu toate
datele se pot reprezenta uşor sub model relaţional;
Calcul paralel—distribuit — pentru a rezolva problema scalabilităţii
aplicaţiilor de DM;
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 27 / 42
Sunt două categorii majore de aplicaţii:
Predicţia — scopul e de a prezice valoarea concretă a unui atribut pe
baza altor atribute. Atributul ce urmează a fi prezis se
numeşte variabilă dependentă sau ţintă; cele care se folosesc
pentru predicţie sunt variabile independente sau explicative;
Descrierea — determinarea de şabloane, e.g. corelaţii, tendinţe, grupări,
traiectorii, anomalii
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 28 / 42
Clasificare — predicţie
Grupare (Clustering) — descriere
Determinarea relaţiilor de asociere — descriere
Descoperirea şabloanelor secvenţiale — descriere
Regresie — predicţie
Detectarea deviaţiilor — predicţie
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 29 / 42
Clasificarea: definiţie
Se pleacă de la o colecţie de înregistrări = setul de antrenare
Fiecare înregistrare e formată din atribute, dintre care unul este
“clasa”: bun/rau, risc mare/risc moderat/risc mic;
Scopul este găsirea unui model (a unui mecanism, a unei funcţii) care
să determine clasa pe baza atributelor;
Modelul trebuie să facă o clasificare cât mai fidelă pentru înregistrări
care nu fac parte din setul de test = date din setul de testare;
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 30 / 42
Clasificarea: exemplu
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 31 / 42
Clasificarea: aplicaţia 1
Marketing direct:
scopul: reducerea costurilor de trimitere a reclamelor prin poştă prin
alegerea unui set de consumatori pentru care şansele de achiziţie a
unui produs sunt mari
modalitate de lucru:
se pleacă de la produse similare
pentru aceste produse ştim dacă au fost sau nu cumpărate de către
consumatorii în cauză; asta dă clasa unei înregistrări, ca valoare
posibilă din mulţimea {a cumpărat, nu a cumpărat}
se colectează date demografice despre clienţi, istoricul tranzacţiilor etc.
se folosesc aceste date pentru a construi un clasificator.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 32 / 42
Clasificarea: aplicaţia 2
Prevenirea migrării clientului:
Scop: să se determine dacă un client al serviciilor oferite este pe cale
de a pleca la un competitor
modalitate de lucru:
se folosesc înregistrări detaliate despre tranzacţiile făcute de client (e.g.
telefonie: apelurile efectuate, reţelele către care s–au efectuat, durata,
frecvenţa);
se folosesc date demografice: situaţia financiară, starea civilă etc.
se etichetează clientul ca fiind loial sau nu
plecând de la acest set de antrenare se creează un clasificator care să
fie utilizat pentru alţi clienţi
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 33 / 42
Clasificarea: aplicaţia 3
Clasificarea obiectelor cereşti
Scop: să se prezică clasa unor obiecte cereşti pe baza imaginilor luate
de telescoape
modalitate de lucru:
se pleacă de la o colecţie de imagini; caz concret: 3000 imagini cu
23040 x 23040 pixeli pe imagine
se segmentează imaginea
se măsoară anumite trăsături
se construieşte un clasificator plecând de la aceste segmente de imagini
cu clase ataşate - pentru fiecare segment se ştie exact ce reprezintă
poveste de succes: s–au găsit 16 noi quasari, elemente greu de
descoperit şi catalogat prin mijloace tradiţionale.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 34 / 42
Clasificarea: aplicaţia 4
Clasificarea galaxiilor în: galaxii tinere, de vârstă medie, vechi.
Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere,
de nivel intermediar, stadiu final;
set de date: 20 de milioane de galaxii, 72 de milioane de stele
baza de date de 150 GB
atribute: trăsături extrase din imagini, caracteristicile lungimilor de
undă primite etc.
sursa: http://aps.umn.edu
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 35 / 42
Clustering: definiţie
Dându–se un set de puncte, fiecare având un set de atribute şi o
măsură de similaritate, să se găsească grupări (cluster–e) cu
proprietatea:
punctele care aparţin unui aceluiaşi cluster sunt similare între ele
punctele din clustere separate sunt mai puţin similare
măsură de similaritate: distanţa Euclidiană sau alte măsuri specifice
deosebire faţă de clasificare: printre atributele considerate nu există
un atribut de clasă
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 36 / 42
Clustering: exemplu
Gruparea automată de documente
scop: găsirea grupurilor de documente care sunt similare pe baza
termenilor pe care îi conţin
modalitate de lucru
se contorizează cuvintele
se formează o măsură de similaritate între documente pe baza
frecvenţelor
pe baza similarităţii se formează grupurile
utilitate: pentru un nou document se descoperă rapid care este
clusterul căruia îi aparţine în mod natural;
utilitate: detectare de plagiate, căutare de documente similare etc.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 37 / 42
Analiza asocierilor: definiţie
Dându–se un set de colecţii de înregistrări, să se producă regulile de
dependenţă care prezic apariţia unui item pe baza apariţiei altor itemi
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 38 / 42
Analiza asocierilor: exemple
găsirea grupurilor de gene care au funcţii înrudite
identificarea paginilor Web dintr–un site care sunt accesate împreună
Market Basket Analysis: care sunt produsele care se vând bine
împreună; în funcţie de aceste grupări se poate specula partea de
cross-selling (ieftineşti un produs dar îl scumpeşti pe un altul) sau
dispunerea pe raft a lor (cele care se vând împreună să fie dispuse
apropiat);
echiparea maşinilor care participă la reparaţii cu anumite unelte,
pentru a reduce numărul de deplasări la client
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 39 / 42
Descoperirea şabloanelor secvenţiale: definiţie
Dându–se un set de obiecte, fiecare cu timpul la care apare, să se
găsească regulile care pot prezice dependinţele secvenţiale dintre
evenimente;
Spre deosebire de analiza asocierilor: apariţia evenimentelor este
reglată de restricţii de timp.
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 40 / 42
Regresie: definiţie, exemple
Prezicerea unui atribut continuu pe baza unor atribute independente;
Similar cu clasificarea, dar la regresie valorile variabilei dependente
sunt numerice
Intens studiată în statistică şi reţele neurale artificiale
Exemple:
prezicerea volumului de vânzări
prezicerea vitezei vântului pe baza umidităţii, presiunii, temperaturii
etc.
prezicerea consumului de curent într–o anumită perioadă, pe o zonă
specificată
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 41 / 42
Detectarea anomaliilor
detectarea deviaţiilor semnificative de la comportamentul normal
aplicaţii:
detectarea fraudelor cu card bancar
detectarea intruziunilor în reţele de calculatoare
lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 42 / 42

Weitere ähnliche Inhalte

Was ist angesagt?

Latent factor models for Collaborative Filtering
Latent factor models for Collaborative FilteringLatent factor models for Collaborative Filtering
Latent factor models for Collaborative Filtering
sscdotopen
 
როგორ ინახება ინფორმაცია
როგორ ინახება ინფორმაციაროგორ ინახება ინფორმაცია
როგორ ინახება ინფორმაცია
Lela Beridze-geradze
 
Group presentation 2018-2019
Group presentation 2018-2019Group presentation 2018-2019
Group presentation 2018-2019
Classic Moulds And Dies Sheet metal Tool Room
 
ホフステードの6次元モデル紹介
ホフステードの6次元モデル紹介ホフステードの6次元モデル紹介
ホフステードの6次元モデル紹介
Masako Kato
 

Was ist angesagt? (19)

Latent factor models for Collaborative Filtering
Latent factor models for Collaborative FilteringLatent factor models for Collaborative Filtering
Latent factor models for Collaborative Filtering
 
Mes iot ai in smart factory
Mes iot ai in smart factoryMes iot ai in smart factory
Mes iot ai in smart factory
 
Recommendation system
Recommendation systemRecommendation system
Recommendation system
 
როგორ ინახება ინფორმაცია
როგორ ინახება ინფორმაციაროგორ ინახება ინფორმაცია
როგორ ინახება ინფორმაცია
 
Practical machine learning - Part 1
Practical machine learning - Part 1Practical machine learning - Part 1
Practical machine learning - Part 1
 
COVID-19第五波疫情消費者面行為即時調查
COVID-19第五波疫情消費者面行為即時調查COVID-19第五波疫情消費者面行為即時調查
COVID-19第五波疫情消費者面行為即時調查
 
Recommendation System Explained
Recommendation System ExplainedRecommendation System Explained
Recommendation System Explained
 
What’s next for deep learning for Search?
What’s next for deep learning for Search?What’s next for deep learning for Search?
What’s next for deep learning for Search?
 
Algorithme de suggestion: Vos données au service de Netflix
Algorithme de suggestion: Vos données au service de NetflixAlgorithme de suggestion: Vos données au service de Netflix
Algorithme de suggestion: Vos données au service de Netflix
 
Labinot Rexhaj
Labinot RexhajLabinot Rexhaj
Labinot Rexhaj
 
Submarine patents
Submarine patentsSubmarine patents
Submarine patents
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
Group presentation 2018-2019
Group presentation 2018-2019Group presentation 2018-2019
Group presentation 2018-2019
 
Deep neural networks for Youtube recommendations
Deep neural networks for Youtube recommendationsDeep neural networks for Youtube recommendations
Deep neural networks for Youtube recommendations
 
Movie recommendation Engine using Artificial Intelligence
Movie recommendation Engine using Artificial IntelligenceMovie recommendation Engine using Artificial Intelligence
Movie recommendation Engine using Artificial Intelligence
 
ホフステードの6次元モデル紹介
ホフステードの6次元モデル紹介ホフステードの6次元モデル紹介
ホフステードの6次元モデル紹介
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
Genadij Petrovic Malahov-Zdravlje mushkarca
Genadij Petrovic Malahov-Zdravlje mushkarcaGenadij Petrovic Malahov-Zdravlje mushkarca
Genadij Petrovic Malahov-Zdravlje mushkarca
 
Movie Recommender System Using Artificial Intelligence
Movie Recommender System Using Artificial Intelligence Movie Recommender System Using Artificial Intelligence
Movie Recommender System Using Artificial Intelligence
 

Andere mochten auch (12)

Baze de date si functii in excel asociate
Baze de date si functii in excel asociateBaze de date si functii in excel asociate
Baze de date si functii in excel asociate
 
Curs 2 Data Mining
Curs 2 Data MiningCurs 2 Data Mining
Curs 2 Data Mining
 
Curs 6 Data Mining
Curs 6 Data MiningCurs 6 Data Mining
Curs 6 Data Mining
 
Curs 8 Data Mining
Curs 8 Data MiningCurs 8 Data Mining
Curs 8 Data Mining
 
Curs 7 Data Mining
Curs 7 Data MiningCurs 7 Data Mining
Curs 7 Data Mining
 
Curs 3 Data Mining
Curs 3 Data MiningCurs 3 Data Mining
Curs 3 Data Mining
 
SLIQ
SLIQSLIQ
SLIQ
 
Curs 5 Data Mining
Curs 5 Data MiningCurs 5 Data Mining
Curs 5 Data Mining
 
AgoraDMS - Registratura electronica si Managementul documentelor
AgoraDMS - Registratura electronica si Managementul documentelorAgoraDMS - Registratura electronica si Managementul documentelor
AgoraDMS - Registratura electronica si Managementul documentelor
 
Curs 4 Data Mining
Curs 4 Data MiningCurs 4 Data Mining
Curs 4 Data Mining
 
Curs 2. econometrie (2)
Curs 2. econometrie (2)Curs 2. econometrie (2)
Curs 2. econometrie (2)
 
3. biblioteci de programare
3. biblioteci de programare3. biblioteci de programare
3. biblioteci de programare
 

Ähnlich wie Curs 1 Data Mining

Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...
Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...
Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...
Vasilica Victoria
 
Date structurate, aplicarea modelului linked data
Date structurate, aplicarea modelului linked dataDate structurate, aplicarea modelului linked data
Date structurate, aplicarea modelului linked data
ionut_ignatescu
 

Ähnlich wie Curs 1 Data Mining (20)

Managementul datelor științifice deschise
Managementul datelor științifice deschiseManagementul datelor științifice deschise
Managementul datelor științifice deschise
 
Depozite digitale pentru instituții de cercetare și surse de informații priv...
Depozite digitale pentru instituții de cercetare și surse de informații  priv...Depozite digitale pentru instituții de cercetare și surse de informații  priv...
Depozite digitale pentru instituții de cercetare și surse de informații priv...
 
Inventar instrumente TIC in consiliere
Inventar instrumente TIC in consiliereInventar instrumente TIC in consiliere
Inventar instrumente TIC in consiliere
 
Sabin Buraga: Date de 5 stele
Sabin Buraga: Date de 5 steleSabin Buraga: Date de 5 stele
Sabin Buraga: Date de 5 stele
 
Științe deschise - evoluție europeană a cadrului de gestionare a informației ...
Științe deschise - evoluție europeană a cadrului de gestionare a informației ...Științe deschise - evoluție europeană a cadrului de gestionare a informației ...
Științe deschise - evoluție europeană a cadrului de gestionare a informației ...
 
Platforme de invatare si comunicare modul 2 suport de curs_ ccd ilfov_ mai20...
Platforme de invatare si comunicare  modul 2 suport de curs_ ccd ilfov_ mai20...Platforme de invatare si comunicare  modul 2 suport de curs_ ccd ilfov_ mai20...
Platforme de invatare si comunicare modul 2 suport de curs_ ccd ilfov_ mai20...
 
Second session of the Workshop YESdigital ”Economia Verde, PBL & Video pentru...
Second session of the Workshop YESdigital ”Economia Verde, PBL & Video pentru...Second session of the Workshop YESdigital ”Economia Verde, PBL & Video pentru...
Second session of the Workshop YESdigital ”Economia Verde, PBL & Video pentru...
 
13 ani de RED în România
13 ani de RED în România13 ani de RED în România
13 ani de RED în România
 
Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...
Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...
Evaluarea necesităţilor informaţionale ale comunităţii. identificarea soluţii...
 
Resurse educaționale deschise - repere practice
Resurse educaționale deschise - repere practiceResurse educaționale deschise - repere practice
Resurse educaționale deschise - repere practice
 
STAVER, Mihaela. Cultura Informaţiei - Modulul - cheie în LNSS.
STAVER, Mihaela. Cultura Informaţiei - Modulul - cheie în LNSS. STAVER, Mihaela. Cultura Informaţiei - Modulul - cheie în LNSS.
STAVER, Mihaela. Cultura Informaţiei - Modulul - cheie în LNSS.
 
Resurse educaționale deschise și Cursuri online masive deschise. Cum le pot f...
Resurse educaționale deschise și Cursuri online masive deschise. Cum le pot f...Resurse educaționale deschise și Cursuri online masive deschise. Cum le pot f...
Resurse educaționale deschise și Cursuri online masive deschise. Cum le pot f...
 
Date structurate, aplicarea modelului linked data
Date structurate, aplicarea modelului linked dataDate structurate, aplicarea modelului linked data
Date structurate, aplicarea modelului linked data
 
CNIV 2009, Conferinţa Naţională de Învăţământ Virtual by Marin Vlada
CNIV 2009, Conferinţa Naţională de Învăţământ Virtual by Marin VladaCNIV 2009, Conferinţa Naţională de Învăţământ Virtual by Marin Vlada
CNIV 2009, Conferinţa Naţională de Învăţământ Virtual by Marin Vlada
 
Solutii software testate si implementate la BUDJG
Solutii software testate si implementate la BUDJGSolutii software testate si implementate la BUDJG
Solutii software testate si implementate la BUDJG
 
Implementarea tehnologiei IR
Implementarea tehnologiei IRImplementarea tehnologiei IR
Implementarea tehnologiei IR
 
Virtual Technical Univ Iasi, RO, VIRTUiS
Virtual Technical Univ Iasi, RO, VIRTUiSVirtual Technical Univ Iasi, RO, VIRTUiS
Virtual Technical Univ Iasi, RO, VIRTUiS
 
Cum instrumente de PR pot fi (create si) folosite online
Cum instrumente de PR pot fi (create si) folosite onlineCum instrumente de PR pot fi (create si) folosite online
Cum instrumente de PR pot fi (create si) folosite online
 
Workshop YESdigital ”Economia Verde, PBL & Video pentru ÎPT” VET Students - ...
 Workshop YESdigital ”Economia Verde, PBL & Video pentru ÎPT” VET Students - ... Workshop YESdigital ”Economia Verde, PBL & Video pentru ÎPT” VET Students - ...
Workshop YESdigital ”Economia Verde, PBL & Video pentru ÎPT” VET Students - ...
 
SYNERGY Induction to Pedagogy Programme - Evaluation of the Learning Resource...
SYNERGY Induction to Pedagogy Programme - Evaluation of the Learning Resource...SYNERGY Induction to Pedagogy Programme - Evaluation of the Learning Resource...
SYNERGY Induction to Pedagogy Programme - Evaluation of the Learning Resource...
 

Curs 1 Data Mining

  • 1. Introducere în Data Mining Curs 1: Prezentare generală Lucian Sasu, Ph.D. Universitatea Transilvania din Braşov, Facultatea de Matematică şi Informatică April 7, 2014 lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 1 / 42
  • 2. Outline 1 Bibliografia recomandată Bibliografie pentru curs Bibliografie pentru laborator 2 Data Mining - introducere Definiţii, exemple şi motivaţie Data Mining şi Knowledge Discovery Puncte de dificultate Originile DM Tipuri de aplicaţii DM lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 2 / 42
  • 3. Bibliografie pentru curs 1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
  • 4. Bibliografie pentru curs 1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
  • 5. Bibliografie pentru curs 1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011 lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
  • 6. Bibliografie pentru curs 1 Pang-Ning Tan, Michael Steinbach, Vipin Kumar: Introduction to Data Mining, Addison-Wesley, 2006 2 David J. Hand, Heikki Mannila and Padhraic Smyth: Principles of Data Mining, MIT Press, 2001 3 Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, 3rd ed., Morgan Kaufmann Publishers, 2011 4 Trevor Hastie, Robert Tibshirani, Jerome Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2nd edition, Springer 2009, liberă la download lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 3 / 42
  • 7. Bibliografie pentru laborator 1 RapidMiner: http://rapidminerresources.com lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
  • 8. Bibliografie pentru laborator 1 RapidMiner: http://rapidminerresources.com 2 RapidMiner: http://rapidminer.com/learning/getting-started/ lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
  • 9. Bibliografie pentru laborator 1 RapidMiner: http://rapidminerresources.com 2 RapidMiner: http://rapidminer.com/learning/getting-started/ 3 Weka: Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005 lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
  • 10. Bibliografie pentru laborator 1 RapidMiner: http://rapidminerresources.com 2 RapidMiner: http://rapidminer.com/learning/getting-started/ 3 Weka: Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufmann, 2005 4 Weka: Curs Weka la https://weka.waikato.ac.nz/dataminingwithweka/course lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 4 / 42
  • 11. Unelte folosite la laborator (1) Weka: Data Mining Software in Java, Download de aici Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 5 / 42
  • 12. Unelte folosite la laborator (1) Weka: Data Mining Software in Java, Download de aici Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes. Software multiplatformă dezvoltat în Java; poate fi folosit din GUI sau prin API-ul expus; posibil să se apeleze din .NET via ikvm.net. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 5 / 42
  • 13. Unelte folosite la laborator (2) RapidMiner Community Edition The main product of Rapid-I, the data analysis solution RapidMiner, is the world-leading open-source system for data and text mining. Mecanisme: Data Integration, Analytical ETL, Data Analysis, and Reporting; graphical user interface for the design of analysis processes; Repositories for process, data and meta data handling; Hundreds of data loading, data transformation, data modeling, and data visualization methods [. . . ] Alte softuri larg folosite, dar neabordate la laborator: http://www.kdnuggets.com/software/index.html, http://www.kdnuggets.com/polls/2010/data-mining-analytics-tools.html http://www-users.cs.umn.edu/~kumar/dmbook/resources.htm lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 6 / 42
  • 14. Outline 1 Bibliografia recomandată Bibliografie pentru curs Bibliografie pentru laborator 2 Data Mining - introducere Definiţii, exemple şi motivaţie Data Mining şi Knowledge Discovery Puncte de dificultate Originile DM Tipuri de aplicaţii DM lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 7 / 42
  • 15. Definiţii Definiţie Data Mining este procesul descoperirii (semi)automate a informaţiilor utile în depozite mari de date (Tan et al). Definiţie Data Mining este analiza seturilor de date – deseori de dimensiuni mari – rezultate prin observaţii pentru a găsi relaţii noi şi pentru sumarizarea datelor în moduri care sunt atât uşor de înţeles cât şi utile celui ce deţine datele (Hand et al). Definiţie Data mining este procesul netrivial de extragere a informaţiei implicite, anterior necunoscute, interesante şi potenţial utile din date, de regulă sub forma de modele şi şabloane de cunoaştere (Schapiro et al). lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 8 / 42
  • 16. Termeni alternativi: mineritul cunoştinţelor din date extragere de cunoştinţe (eng: Knowledge Discovery) – sinonim discutabil analiza date/şabloane Ce NU e Data Mining: găsirea datelor complete privind o persoană folosind interogare într–o bază de date; găsirea paginilor web care conţin anumiţi termeni; Acestea sunt activităţi de regăsire a informaţiei. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 9 / 42
  • 17. Ce poate fi Data Mining: să descoperi că anumite nume sunt mai frecvente în unele zone: O’Brien, O’Rurke, O’Reilly în zona Boston; gruparea clienţilor pe baza unui profil de consum comun; gruparea paginilor dintr-un motor de căutare pe baza similarităţilor: motorul http://clusty.com/; lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 10 / 42
  • 18. Clustering de pagini web in Clusty lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 11 / 42
  • 19. Farecast: să cumpăr sau nu acum un bilet de avion? lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 12 / 42
  • 20. De ce Data Mining: din punctul de vedere al afacerilor (1) O mulţime de date sunt colectate şi depozitate prin sisteme de data warehouse date din Web, comerţ electronic cumpărături în magazine/lanţuri de desfacere tranzacţii financiare, carduri de debit/credit Calculatoarele au devenit tot mai ieftine şi mai puternice; procesarea distribuită este ceva comun. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 13 / 42
  • 21. De ce Data Mining: din punctul de vedere al afacerilor (2) Presiunea impusă de competiţie este motivantă: aducerea unui nou client într–o reţea de telefonie este de până la 4 ori mai scumpă decât păstrarea lui: Customer attrition Cerinţe specifice mediului de afaceri: customer profiling, targetted marketing, fraud detection Probleme stringente: “Care sunt cei mai profitabili clienţi?”, “Care produse cumpărate atrag achiziţia altor produse?”, “Care va fi evoluţia companiei/pieţei pe segmentul . . . ?”, “Care sunt nişele de piaţă?” lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 14 / 42
  • 22. De ce Data Mining: din punct de vedere ştiinţific În domenii precum medicina, inginerie şi ştiinţă se acumulează rapid date ce trebuie exploatate pentru a duce la noi descoperiri; Exemplu: dezvoltarea de sisteme de sateliţi pentru observaţii climatice; Date genetice generate prin “microarrays”; se doreşte decodificarea completă a genomului uman, determinarea genelor care cauzează diferite afecţiuni, înţelegerea structurii şi funcţionalităţii genelor; DM e unealtă de bază pentru bioinformatică = “aplicarea statisticii şi a informaticii în domeniul biologiei moleculare”. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 15 / 42
  • 23. Competiţii Neflix prize: 100.480.507 rating-uri date de 480.189 utilizatori pentru 17.770 filme KDDCup: 2013: Author-Paper Identification Challenge 2012: User Modeling based on Microblog Data and Search Click Data 2011: Recomandare de muzică 2010: Evaluarea performanţelor studenţilor 2009: Predicţia relaţiei cu clienţii competiţia merge până în 1997 Alte competiţii —www.kdnuggets.com, kaggle lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 16 / 42
  • 24. Paşii unui proces de extragere de cunoştinţe (1) Data Mining este parte integrantă a domeniului Knowledge discovery in databases (KDD), care e un întreg proces de conversie a datelor primare în cunoştinţe (informaţie). Procesul constă într–o succesiune de paşi: Datele de intrare se pot găsi într-o largă varietate de formate: fişiere text, baze de date relaţionale, date semistructurate (e.g. XML, HTML), imagini, filme etc. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 17 / 42
  • 25. Paşii unui proces de extragere de cunoştinţe (2) Datele se selectează din multitudinea de surse; Preprocesarea şi transformarea pot include: selectarea dimensiunilor, reducerea dimensionalităţii, tratarea datelor incomplete, normalizarea; Preprocesarea şi transformarea pot lua chiar şi 60% din durata totală a unui proces de extragere a cunoştinţelor; Partea de Data Mining se face printr–o varietate de tehnici; deseori se testează mai multe metode; La final, cunoştinţele rezultate sunt post–procesate (e.g. se elimină rezultatele invalide sau neinteresante) şi trebuie prezentate într–o formă inteligibilă factorilor de decizie (e.g. vizualizare sau reguli de forma “if–then”), sau integrate în alte sisteme (e.g. sistemele utilizate pentru detectare de fraude); lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 18 / 42
  • 26. Atenţie la ce se obţine Tehnici folosite la preprocesare: testarea ipotezelor prin metode statistice – se elimină rezultatele nerealiste; Eliminarea cunoştinţelor “neinteresante” — element subiectiv, dependent de cunoştinţele anterioare; Limitarea complexităţii modelelor folosite în procesul de DM: “If you torture the data long enough, it will confess” (Ronald Harry Coase, economist); Principiul lui Bonferroni: if you look harder than the quantity of data supports, you will find a pattern that “fits”. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 19 / 42
  • 27. Principiul lui Bonferroni: paradoxul Rhine (1) Joseph Rhine: parapsiholog în anii ’50 care a încercat să dovedească faptul că unii oameni au percepţie extra-senzorială; “experimentul” lui Rhine: a cerut unor oameni să ghicească culorile a 10 cartonaşe ascunse – se ştiau cele două posibilităţi: roşu şi albastru; a “descoperit” că aproximativ 1/1000 din oameni au ghicit toate cele 10 cartoane a spus oamenilor respectivi că au abilităţi extrasenzoriale şi i-a chemat pentru alte experimente la un nou experiment, oamenii de la pasul anterior nu au mai ghicit aproape deloc culoarea cartoanelor. “Concluzia”: lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 20 / 42
  • 28. Principiul lui Bonferroni: paradoxul Rhine (2) Nu ar fi trebuit să le spună oamenilor că au capacităţi extra-senzoriale: asta îi face să şi le piardă!! Un calcul probabilistic simplu arată că raportul de aproximativ 1/1000 poate fi explicat prin evenimente aleatoare şi legea numerelor mari; Cunoaşterea principiului lui Bonferroni poate să salveze de astfel de “descoperiri”. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 21 / 42
  • 29. Scalabilitatea şi dimensiunea datelor A leading retail bank is using Cloudera and Datameer to validate data accuracy and quality to comply with regulations like Dodd-Frank; 1TB of data / month; studiu de caz A health IT company instituted a policy of saving seven years of historical claims and remit data, but its in-house database systems had trouble meeting the data retention requirement while processing millions of claims every day; 1TB of data / day; studiu de caz Storing billions of mobile call records and providing real time access to the call records and billing information to customers. Traditional storage/database systems couldn’t scale to the loads and provide a cost effective solution; 30TB of data is added monthly; studiu de caz Proiectul genomului uman: 3.4 miliarde de perechi şi între 20000 şi 25000 gene; Experimentul “Compact Muon Solenoid” la CERN’s Large Hadron Collider generează 40 de terabytes de date pe secundă. Primele 3 exemple sunt preluate de aici. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 22 / 42
  • 30. Scalabilitatea şi dimensiunea datelor (2) variante: structuri de date specifice, care să uşureze interogarea datelor scalarea pe orizontală sau pe verticală a resurselor hardware; scalarea pe verticală: rareori suficientă, datele nu încap în RAM scalarea pe orizontală – cazuri remarcabile: Apache Hadoop, Apache Mahout — proiecte open–source. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 23 / 42
  • 31. Date eterogene şi complexe atribute eterogene: numerice, categoriale; ce faci cu datele lipsă? eliminarea înregistrărilor cu goluri de date nu e întotdeauna o opţiune; colecţii de documente (e.g. pagini Web); date ADN cu structură spaţială şi secvenţială; serii de timp tehnicile de DM trebuie să ia în considerare relaţiile dintre date (corelaţie spaţială şi temporală; conectivitate de grafuri; relaţie părinte–copil). lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 24 / 42
  • 32. Gestiunea şi distribuirea datelor datele pot fi prezente în locaţii multiple, nu doar într–o organizaţie; necesitate: DM distribuit sau suport de tip Data Warehouse în caz de distribuire: comunicarea necesară poate să domine timpul de calcul în caz de data warehouse: integrarea datelor necesită timp îndelungat “data privacy”: problemă delicată, diferite aspecte legislative pot interveni lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 25 / 42
  • 33. Analiză nestandard Statistica: enuntarea de ipoteze şi apoi testarea lor; Problemă evidentă: procesul este laborios DM are ca scop tocmai determinarea pe cât posibil automată a astfel de ipoteze; În timp ce statistica este în mare măsură tributară modelelor parametrice, datele reale pot avea cu totul alte distribuţii decât cele presupuse; Dar statistica oferă unelte utile – de exemplu metode de testare, determinarea intervalelor de confidenţă, inferenţa statistică etc. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 26 / 42
  • 34. Originile DM Statistică – eşantionare, estimare, testarea ipotezelor, modele parametrice; Inteligenţă artificială — tehnici de raţionament probabilist şi management al incertitudinii Învăţare automată (machine learning) — pornind de la date se creează modele adecvate Recunoaştere de şabloane (pattern recognition) Sisteme de baze de date – suport pentru stocarea (eventual distribuită a ) datelor; probleme pot apărea din cauză că nu toate datele se pot reprezenta uşor sub model relaţional; Calcul paralel—distribuit — pentru a rezolva problema scalabilităţii aplicaţiilor de DM; lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 27 / 42
  • 35. Sunt două categorii majore de aplicaţii: Predicţia — scopul e de a prezice valoarea concretă a unui atribut pe baza altor atribute. Atributul ce urmează a fi prezis se numeşte variabilă dependentă sau ţintă; cele care se folosesc pentru predicţie sunt variabile independente sau explicative; Descrierea — determinarea de şabloane, e.g. corelaţii, tendinţe, grupări, traiectorii, anomalii lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 28 / 42
  • 36. Clasificare — predicţie Grupare (Clustering) — descriere Determinarea relaţiilor de asociere — descriere Descoperirea şabloanelor secvenţiale — descriere Regresie — predicţie Detectarea deviaţiilor — predicţie lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 29 / 42
  • 37. Clasificarea: definiţie Se pleacă de la o colecţie de înregistrări = setul de antrenare Fiecare înregistrare e formată din atribute, dintre care unul este “clasa”: bun/rau, risc mare/risc moderat/risc mic; Scopul este găsirea unui model (a unui mecanism, a unei funcţii) care să determine clasa pe baza atributelor; Modelul trebuie să facă o clasificare cât mai fidelă pentru înregistrări care nu fac parte din setul de test = date din setul de testare; lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 30 / 42
  • 39. Clasificarea: aplicaţia 1 Marketing direct: scopul: reducerea costurilor de trimitere a reclamelor prin poştă prin alegerea unui set de consumatori pentru care şansele de achiziţie a unui produs sunt mari modalitate de lucru: se pleacă de la produse similare pentru aceste produse ştim dacă au fost sau nu cumpărate de către consumatorii în cauză; asta dă clasa unei înregistrări, ca valoare posibilă din mulţimea {a cumpărat, nu a cumpărat} se colectează date demografice despre clienţi, istoricul tranzacţiilor etc. se folosesc aceste date pentru a construi un clasificator. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 32 / 42
  • 40. Clasificarea: aplicaţia 2 Prevenirea migrării clientului: Scop: să se determine dacă un client al serviciilor oferite este pe cale de a pleca la un competitor modalitate de lucru: se folosesc înregistrări detaliate despre tranzacţiile făcute de client (e.g. telefonie: apelurile efectuate, reţelele către care s–au efectuat, durata, frecvenţa); se folosesc date demografice: situaţia financiară, starea civilă etc. se etichetează clientul ca fiind loial sau nu plecând de la acest set de antrenare se creează un clasificator care să fie utilizat pentru alţi clienţi lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 33 / 42
  • 41. Clasificarea: aplicaţia 3 Clasificarea obiectelor cereşti Scop: să se prezică clasa unor obiecte cereşti pe baza imaginilor luate de telescoape modalitate de lucru: se pleacă de la o colecţie de imagini; caz concret: 3000 imagini cu 23040 x 23040 pixeli pe imagine se segmentează imaginea se măsoară anumite trăsături se construieşte un clasificator plecând de la aceste segmente de imagini cu clase ataşate - pentru fiecare segment se ştie exact ce reprezintă poveste de succes: s–au găsit 16 noi quasari, elemente greu de descoperit şi catalogat prin mijloace tradiţionale. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 34 / 42
  • 42. Clasificarea: aplicaţia 4 Clasificarea galaxiilor în: galaxii tinere, de vârstă medie, vechi. Scop: clasificarea galaxiilor relativ la stadiul de formare: galaxii tinere, de nivel intermediar, stadiu final; set de date: 20 de milioane de galaxii, 72 de milioane de stele baza de date de 150 GB atribute: trăsături extrase din imagini, caracteristicile lungimilor de undă primite etc. sursa: http://aps.umn.edu lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 35 / 42
  • 43. Clustering: definiţie Dându–se un set de puncte, fiecare având un set de atribute şi o măsură de similaritate, să se găsească grupări (cluster–e) cu proprietatea: punctele care aparţin unui aceluiaşi cluster sunt similare între ele punctele din clustere separate sunt mai puţin similare măsură de similaritate: distanţa Euclidiană sau alte măsuri specifice deosebire faţă de clasificare: printre atributele considerate nu există un atribut de clasă lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 36 / 42
  • 44. Clustering: exemplu Gruparea automată de documente scop: găsirea grupurilor de documente care sunt similare pe baza termenilor pe care îi conţin modalitate de lucru se contorizează cuvintele se formează o măsură de similaritate între documente pe baza frecvenţelor pe baza similarităţii se formează grupurile utilitate: pentru un nou document se descoperă rapid care este clusterul căruia îi aparţine în mod natural; utilitate: detectare de plagiate, căutare de documente similare etc. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 37 / 42
  • 45. Analiza asocierilor: definiţie Dându–se un set de colecţii de înregistrări, să se producă regulile de dependenţă care prezic apariţia unui item pe baza apariţiei altor itemi lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 38 / 42
  • 46. Analiza asocierilor: exemple găsirea grupurilor de gene care au funcţii înrudite identificarea paginilor Web dintr–un site care sunt accesate împreună Market Basket Analysis: care sunt produsele care se vând bine împreună; în funcţie de aceste grupări se poate specula partea de cross-selling (ieftineşti un produs dar îl scumpeşti pe un altul) sau dispunerea pe raft a lor (cele care se vând împreună să fie dispuse apropiat); echiparea maşinilor care participă la reparaţii cu anumite unelte, pentru a reduce numărul de deplasări la client lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 39 / 42
  • 47. Descoperirea şabloanelor secvenţiale: definiţie Dându–se un set de obiecte, fiecare cu timpul la care apare, să se găsească regulile care pot prezice dependinţele secvenţiale dintre evenimente; Spre deosebire de analiza asocierilor: apariţia evenimentelor este reglată de restricţii de timp. lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 40 / 42
  • 48. Regresie: definiţie, exemple Prezicerea unui atribut continuu pe baza unor atribute independente; Similar cu clasificarea, dar la regresie valorile variabilei dependente sunt numerice Intens studiată în statistică şi reţele neurale artificiale Exemple: prezicerea volumului de vânzări prezicerea vitezei vântului pe baza umidităţii, presiunii, temperaturii etc. prezicerea consumului de curent într–o anumită perioadă, pe o zonă specificată lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 41 / 42
  • 49. Detectarea anomaliilor detectarea deviaţiilor semnificative de la comportamentul normal aplicaţii: detectarea fraudelor cu card bancar detectarea intruziunilor în reţele de calculatoare lucian.sasu@ieee.org (UNITBV) Curs 1 April 7, 2014 42 / 42