Contenu connexe Similaire à Mahout, Machine Learning pour Hadoop par Bertrand Dechoux (20) Plus de Modern Data Stack France (20) Mahout, Machine Learning pour Hadoop par Bertrand Dechoux6. Pas juste un algo
DevOps
TDD
A/B Testing
Data cleansing
Anonymisation
Sécurité
6
13. Aperçu de l’API
DataModel dataModel =
new FileDataModel(dataFile);
UserSimilarity userSimilarity =
new PearsonCorrelationSimilarity(dataModel);
UserNeighborhood neighborhood =
new NearestNUserNeighborhood(n, userSimilarity,
dataModel);
UserBasedRecommender recommender =
new GenericUserBasedRecommender(dataModel,
neighborhood, userSimilarity);
List<RecommendedItem> recommendedItems =
recommender.recommend(1, 100);
13
15. Hadoop, realité et matrices
recommendation : solution contre trop de choix
il faut calculer O(n2) similaritées ???
15
16. Hadoop, realité et matrices
s11
s12
p1
X
s21
s22
s11 x p1 + s12 x p2
=
p2
s21 x p1 + s22 x p2
16
17. Hadoop, realité et matrices
I1 I2 I3
I1
-
1
3
I2
1
-
2
I3
3
2
-
User
Score
5
X
?
->
(1x5+2x3)/3 => 3.7
3
17
20. Clustering : un regroupement
detection de caractères
aperçu de news
...
20
21. Un monde en n dimensions
OLAP
fichier excel, csv
modèle entité-association (ERD)
filtrage collaboratif
...
21
22. la base : k-means (Lloyd’s)
http://en.wikipedia.org/wiki/K-means_clustering
22
24. mahout 0.8 : kmeans amélioré
“Fast and Accurate k-means for Large Data Sets”
http://books.nips.cc/papers/files/nips24/NIPS2011_1271.pdf
Scalable K-Means++
http://theory.stanford.edu/~sergei/papers/vldb12-kmpar.pdf
https://issues.apache.org/jira/browse/MAHOUT-1154
http://blog.cloudera.com/blog/2013/03/
cloudera_ml_data_science_tools/
24
27. Prenons du recul
les modèles probabilistes
On veut connaitre : P( Monde )
Pour demander : P( interet | observation)
27
30. Evaluation : Matrice de confusion
prediction :
TRUE
prediction :
FALSE
réalité :
TRUE
true
positive
false
negative
réalité :
FALSE
false
positive
true
negative
30
31. Le tour est fini!
=
+
Machine Learning
=
Recommendation
Clustering
Classification
31