Mahout, Machine Learning pour Hadoop par Bertrand Dechoux

•

3 j'aime•2,742 vues

Modern Data Stack France

Un introduction à Mahout, la première librairie de Machine Learning pour Hadoop.

Technologie

Mahout

machine learning pour Hadoop

Bertrand Dechoux

Mercredi
11 Decembre
2013

Réseaux Bayésiens

Bertrand Dechoux
@BertrandDechoux
Certiﬁed trainer
2

L’écosystème : une menagerie

ZooKeeper

PIG

Impala
3

Le programme



Recommendation





user/item-based recommender

Clustering




filtrage collaborative

kmeans

Classification



naive bayes network

5

Pas juste un algo








DevOps
TDD
A/B Testing
Data cleansing
Anonymisation
Sécurité

6

Marketing 1.0

http://www.flickr.com/photos/mpk/4310357482/

9

Collaborative filtering

Item 1

item 2

item 3

4

user 1
user 2

item 2

1

3

item 5

1

...

4

2

?

item 4

4

user 3
user 4

1

user 5

5

user 6

1

4
5

...

11

item-based / user-based

calculer la similarité entre tous
▶ trouver le voisinage
▶ calculer les prediction
▶

12

Aperçu de l’API
DataModel dataModel =
new FileDataModel(dataFile);
UserSimilarity userSimilarity =
new PearsonCorrelationSimilarity(dataModel);

UserNeighborhood neighborhood =
new NearestNUserNeighborhood(n, userSimilarity,
dataModel);

UserBasedRecommender recommender =
new GenericUserBasedRecommender(dataModel,
neighborhood, userSimilarity);

List<RecommendedItem> recommendedItems =
recommender.recommend(1, 100);

13

Evaluation et Optimisation



différence entre prédiction et observation



comme un moteur de recherche



precision, recall ...

14

Hadoop, realité et matrices




recommendation : solution contre trop de choix
il faut calculer O(n2) similaritées ???

15

Hadoop, realité et matrices

s11

s12

p1
X

s21

s22

s11 x p1 + s12 x p2
=

p2

s21 x p1 + s22 x p2

16

Hadoop, realité et matrices

I1 I2 I3
I1

-

1

3

I2

1

-

2

I3

3

2

-

User

Score

5
X

?

->

(1x5+2x3)/3 => 3.7

3

17

MAHOUT-1288 : recommendation = recherche

18

Clustering : un regroupement





detection de caractères
aperçu de news
...

20

Un monde en n dimensions







OLAP
fichier excel, csv
modèle entité-association (ERD)
filtrage collaboratif
...

21

la base : k-means (Lloyd’s)

http://en.wikipedia.org/wiki/K-means_clustering

22

preclustering : canopy

https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering

23

mahout 0.8 : kmeans amélioré



“Fast and Accurate k-means for Large Data Sets”




http://books.nips.cc/papers/files/nips24/NIPS2011_1271.pdf

Scalable K-Means++


http://theory.stanford.edu/~sergei/papers/vldb12-kmpar.pdf



https://issues.apache.org/jira/browse/MAHOUT-1154



http://blog.cloudera.com/blog/2013/03/
cloudera_ml_data_science_tools/

24

Classification

le cousin ‘supervisé’ du Clustering







associer une lettre à un groupe de pixels
filtre anti-spam
detection de fraudes
classification de tumeurs
...

26

Prenons du recul

les modèles probabilistes



On veut connaitre : P( Monde )



Pour demander : P( interet | observation)

27

Evaluation : Matrice de confusion

prediction :
TRUE

prediction :
FALSE

réalité :
TRUE

true
positive

false
negative

réalité :
FALSE

false
positive

true
negative

30

Le tour est fini!

=
+

Machine Learning

=




Recommendation
Clustering
Classification

31

Contenu connexe

Similaire à Mahout, Machine Learning pour Hadoop par Bertrand Dechoux

Atelier hadoop-single-sign-on

sahar dridi

Installer et configurer NAGIOS sous linux

Zakariyaa AIT ELMOUDEN

Présentation donnée au Breizhcamp le 23 juin 2014 Le monitoring d'applications ... pas vraiment hype comme sujet. Et pourtant c'est un domaine en mutation parce que le déploiement continu et la démarche DevOps modifient les échanges d'informations avec la production et aussi parce qu'il est maintenant possible stocker massivement les informations collectées. Je vous propose d'explorer ces sujets autour de quelques exemples.

Le monitoring à l'heure de DevOps et Big Data

Claude Falguiere

20100221 my phingtool - blog

PHPPRO

Journée DevOps : Puppet, un outil pour les installer tous

Publicis Sapient Engineering

Reprendre le contrôle de ses données

Geeks Anonymes

Guide de securite php

belfkih

Il y a 2 ans, le document understanding était commercialisé. Mais qu'est-ce que c'est concrètement, et pourquoi ça vaut le coup de s'y intéresser ? On va découvrir ensemble ce que c'est. Speakers: 👨🏽‍💻 Reda Marzouk, UiPath MVP 2022, RPA & AI Senior Developer @Ginini Antipode 👨🏽‍💻 Abdelaziz Zaiter, UiPath MVP 2022, RPA Consultant @Capgemini 👨🏽‍💻 Franck Mongo, Intelligent Automation Specialist @Boundaryless Group

Document Understanding.pdf

Cristina Vidu

Open source et microsoft azure reve ou realite ?

Christophe Villeneuve

Xhprof

Martin Supiot

Optimiser son environnement de développement PHP (Tuto NetBeans v4.4)

Nicolas Defay

Framework Hibernate

Ines Ouaz

Prérequis au développement google android

Thierry Gayet

Play framework - Human Talks Grenoble - 12.02.2013

Xavier NOPRE

WordCamp Lyon 2015 - WordPress, Git et l'intégration continue

Stéphane HULARD

Une bonne analyse et synthèse sur le domaine Big Data Beaucoup de pratique sur Hadoop avec différentes méthodes : HDFS, Map Reduce, YARN, Spark, Hive, NoSQL, HDFS, HBase, zookeeper, MESOS et plusieurs autres outils Les points forts de la formation Une analyse globale sur le domaine Big Data et sur les outils liés à Hadoop avec beaucoup de pratique Contenu de la formation • Une bonne analyse de chaque concept illustré par de la pratique • Les outils à installer sont à disposition • Toutes les ressources sont à disposition Résultats attendus • Découvrir les formidables possibilités du Big Data avec Hadoop • Comprendre parfaitement le périmètre de chaque outil de l'écosystème Hadoop • Etre au fait de pouvoir utiliser Azure, AWS, et Google pour faire de l'Hadoop dans le Cloud • Utiliser directement Hadoop sur de très nombreux exemples • Découvrir le périmètre des bases NoSQL • Comprendre comment faire du traitement temps réel avec Spark

Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

Alphorm

DrupalCamp Paris 2013 : Faire une GED sous Drupal

Actency

BBL - TDD pour les DevOps - Puppet

Olivier BAZOUD

DrupalCamp Paris 2013 - Drupal : un CMS orienté métier

Actency

DrupalCamp Paris 2013 - Drupal un cms oriente metier

Romain Jarraud

Similaire à Mahout, Machine Learning pour Hadoop par Bertrand Dechoux (20)

Atelier hadoop-single-sign-on

Installer et configurer NAGIOS sous linux

Le monitoring à l'heure de DevOps et Big Data

20100221 my phingtool - blog

Journée DevOps : Puppet, un outil pour les installer tous

Reprendre le contrôle de ses données

Guide de securite php

Document Understanding.pdf

Open source et microsoft azure reve ou realite ?

Xhprof

Optimiser son environnement de développement PHP (Tuto NetBeans v4.4)

Framework Hibernate

Prérequis au développement google android

Play framework - Human Talks Grenoble - 12.02.2013

WordCamp Lyon 2015 - WordPress, Git et l'intégration continue

Alphorm.com Formation Big Data & Hadoop : Le Guide Complet

DrupalCamp Paris 2013 : Faire une GED sous Drupal

BBL - TDD pour les DevOps - Puppet

DrupalCamp Paris 2013 - Drupal : un CMS orienté métier

DrupalCamp Paris 2013 - Drupal un cms oriente metier

Plus de Modern Data Stack France

FinOps Data - FR - par Matthieu Rousseau & Ismael Goulani Matthieu Rousseau, CEO & Data Engineer Modeo. Ismael Goulani, CTO & Data Engineer Modeo. Retour sur le premier prix dans la catégorie "Solution Innovante" du challenge #LaNuitdelaData avec leur solution Stach, plateforme qui aide les équipes Data à mieux comprendre l'utilisation des données par les "consumers", son coût, et son impact carbone.

Stash - Data FinOPS

Modern Data Stack France

Dremio, une architecture simple et performance pour votre data lakehouse. Dans le monde de la donnée, Dremio, est inclassable ! C’est à la fois une plateforme de diffusion des données, un moteur SQL puissant basé sur Apache Arrow, Apache Calcite, Apache Parquet, un catalogue de données actif et aussi un Data Lakehouse ouvert ! Après avoir fait connaissance avec cette plateforme, il s’agira de préciser comment Dremio aide les organisations à relever les défis qui sont les leurs en matière de gestion et gouvernance des données facilitant l’exécution de leurs analyses dans le cloud (et/ou sur site) sans le coût, la complexité et le verrouillage des entrepôts de données.

Vue d'ensemble Dremio

Modern Data Stack France

Tomer Shiran est le fondateur et chef de produit (CPO) de Dremio. Tomer était le 4e employé et vice-président produit de MapR, un pionnier de l'analyse du Big Data. Il a également occupé de nombreux postes de gestion de produits et d'ingénierie chez IBM Research et Microsoft, et a fondé plusieurs sites Web qui ont servi des millions d'utilisateurs. Il est titulaire d'un Master en génie informatique de l'Université Carnegie Mellon et d'un Bachelor of Science en informatique du Technion - Israel Institute of Technology. Le Modern Data Stack meetup est ravi d'accueillir Tomer Shiran. Depuis Apache Drill, Apache Arrow maintenant Apache Iceberg, il ancre avec ses équipes des choix pour Dremio avec une vision de la plateforme de données “ouverte” basée sur des technologies open source. En plus, de ces valeurs qui évitent le verrouillage de clients dans des formats propriétaires, il a aussi le souci des coûts qu’engendrent de telles plateformes. Il sait aussi proposer un certain nombre de fonctionnalités qui transforment la gestion de données grâce à des initiatives telles Nessie qui ouvre la route du Data As Code et du transactionnel multi-processus. Le Modern Data Stack Meetup laisse “carte blanche” à Tomer Shiran afin qu’il nous partage son expérience et sa vision quant à l’Open Data Lakehouse.

From Data Warehouse to Lakehouse

Modern Data Stack France

Talend spark meetup 03042017 - Paris Spark Meetup

Modern Data Stack France

Paris Spark Meetup - Trifacta - 03_04_2017

Modern Data Stack France

Construire le cluster le plus rapide pour l'analyse des datas : benchmarks sur un régresseur par Christopher Bourez (Axa Global Direct) Les toutes dernières technologies de calcul parallèle permettent de calculer des modèles de prédiction sur des big datas en des temps records. Avec le cloud est facilité l'accès à des configurations hardware modernes avec la possibilité d'une scalabilité éphémère durant les calculs. Des benchmarks sont réalisés sur plusieurs configuration hardware, allant de 1 instance à un cluster de 100 instances. Christopher Bourez, développeur & manager expert en systèmes d'information modernes chez Axa Global Direct. Alien thinker. Blog : http://christopher5106.github.io/

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

Modern Data Stack France

Migration de données structurées entre Hadoop et RDBMS par Louis Rabiet (Squid Solution) Avec l'extraction de données stockées dans une base de données relationnelle à l'aide d'un outil de BI avancé, et avec l'envoi via Kafka des données vers Tachyon, plusieurs sessions Spark peuvent travailler sur le même dataset en limitant la duplication. On obtient grâce à cela une communication à coût contrôlé entre la base de données d'origine et Spark ce qui permet de réintroduire de manière dynamique les données modifiées avec MLlib tout en travaillant sur des données à jour. Les résultats préliminaires seront partagés durant cette présentation.

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Modern Data Stack France

Système de recommandations de produits sur un site marchand par Koby KARP, Data Scientist (Equancy) & Hervé MIGNOT, Partner at Equancy La recommandation reste un outil clé pour la personnalisation des sites marchands et le sujet est loin d’être épuisé. La prise en compte de la particularité d’un marché peut nécessité d’adapter le traitement et les algorithmes utilisés. Après une revue des techniques de recommandations, nous présenterons la démarche spécifique que nous avons adopté. Le système a été développé sous Spark pour la préparation des données et le calcul des modèles de recommandations. Une API simple et son service ont été développé pour délivrer les recommandations aux applications clientes.

Hadoop France meetup Feb2016 : recommendations with spark

Modern Data Stack France

L'approche Model as Code par Benoit Grossin (EDF-R&D) et Matthieu Vautrot (Quantmetry) La mise en production de modèles est une étape charnière du cycle de vie d’un projet Data Science mené au sein d’une entreprise. On observe que cette partie est encore rarement industrialisée alors qu’elle est indispensable pour l’exploitation continue des résultats des modèles. Lorsque qu’un modèle finalisé présente un pouvoir prédictif satisfaisant en phase de développement, l'industrialisation de sa mise en production permet de le déployer et de l’exploiter de manière continue et automatique et ce, en minimisant la charge de travail. Notre intervention présentera notre retour d'expérience dans le contexte EDF sur la mise en place d'une approche capable de raccourcir voire d'annuler le temps de mise en production dans un environnement Hadoop et plus particulièrement Hive. Benoit Grossin est Ingénieur de Recherche chez EDF-R&D ICAM Matthieu Vautrot est Consultant Analytics & Big Data chez Quantmetry

Hug janvier 2016 -EDF

Modern Data Stack France

Industrialisation des processus Big Data chez CANAL+ par Pascal PERISSEAU et Stephen CLAIRVILLE (CanalPlus) L'intégration de la brique technique Big Data au sein d'une architecture décisionnelle déjà existante. Retour d’expérience sur les développements réalisés afin de faciliter l’intégration, la supervision, et l’exploitation des flux Hadoop dans notre écosystème décisionnel / présentation de la phase préparatoire de la mise à disposition des données aux data analysts et data scientists. Pascal PERISSEAU, responsable technique du pôle décisionnel et Big Data chez CANAL+ depuis 10 ans Stephen CLAIRVILLE, chef de projet tech. lead Big Data depuis 2 ans chez CANAL+

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Modern Data Stack France

Presentation faite lors du Hadoop User Group France du 14 janvier 2016. L’analytique temps réel avec Riak et Spark par Michael Carney (Basho) et Olivier Girardot de Lateral Thoughts Selon un rapport de Salesforce, le nombre de sources de données analysées par les entreprises progressera de 83% au cours des cinq prochaines années, ainsi les organisations veulent désormais fournir des connaissances en temps réel même sur les appareils mobiles. Le traitement temps réel est donc, le futur de l’analyse big data. Ce talk présentera des nouveautés en matière de l’analyse temps réel autour de la famille SGBD Riak et Spark. Michael Carney est le Directeur Commercial de Basho pour le Sud d’Europe. Fondateur de MySQL France et de MariaDB, Michael a rejoint Basho en janvier 2015 pour explorer le monde de données sans tables ! Olivier Girardot est le CTO de Lateral Thoughts, il est développeur et formateur au sujet de Spark et également spécialiste de Java/Python dans le domaine de la finance de marché.

Hugfr SPARK & RIAK -20160114_hug_france

Modern Data Stack France

HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO) Le traitement et l’analyse de grand volume de données sont au cœur des activités des banques. Bon nombre d’acteurs des marchés financiers ont déjà adopté Hadoop sur de nombreux cas d’usage : gestion des risques, identification des opportunités commerciales, détection de fraude, surveillance des marchés… Une incroyable diversité de format doit être gérée. De ce point de vue, HBase est un choix naturel de base de données distribuée grâce à son modèle de donnée dynamique. Après une présentation générale des caractéristiques d’HBase, ce talk présente comment modéliser les informations traitées pour s’adapter à différents contextes d’utilisation. Pierre Bittner est le CTO de Scaled Risk, éditeur d’une plateforme Big Data dédiée aux institutions financières. Scaled Risk est bâtie sur HBase. Pierre intervient depuis 10 ans sur les SI bancaires.

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Modern Data Stack France

Démarrer rapidement avec Apache Flink par Bilal Baltagi - Présentation de l'éco Système Apache Flink - Prise en main rapide Bilal Baltagi a obtenu un master en analyse des données à l'Université Paris Nord - Paris 13. Il est actuellement consultant décisionnel chez Sarenza à Paris. Il intervient sur toutes les phases d'un projet décisionnel et Big data: recueil des besoins, conceptions, réalisations et accompagnement des utilisateurs. Bilal est de plus en plus intéressé à l'intersection de la Big Data avec la Business Intelligence et aime jouer avec Apache Flink!

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Modern Data Stack France

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy Retour d'expérience sur la mise en place d'un Datalab avec Hadoop, Spark et ElasticSearch dans un environnement contraint. Nous allons exposer les méthodes qui nous ont permis d'améliorer la conception, le développement, les performances et la recette d'une application complexe en Spark. Jonathan Winandy est MOE, développeur Java/Scala spécialisé dans les pipelines de données.

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Modern Data Stack France

Record Linkage, un cas d’utilisation en Spark ML par Alexis Seigneurin Le Record Linkage est le process qui consiste à trouver, dans un data set, les enregistrements qui représentent la même entité. Cette opération est particulièrement compliquée quand, comme nous, vous travaillez avec des données anonymisées. C’est là que le Machine Learning vient en renfort ! Nous avons implémenté un algorithme de Record Linkage en Spark SQL (DataFrames) et Spark ML plutôt que d’utiliser des règles statiques. Nous verrons le process de Feature Engineering, pourquoi nous avons dû étendre Spark DataFrames pour préserver des méta-données au travers du pipeline de traitement, et comment nous avons utilisé le Machine Learning pour réconcilier les enregistrements. Nous verrons enfin comment nous avons industrialisé cette application. Alexis Seigneurin : Développeur depuis 15 ans, j'attache beaucoup d'importance aux problématiques de traitement, d'analyse et de stockage de la donnée.Chez Ippon, j'interviens principalement sur des missions de conseil et d'architecture autour de technologies big data. Par ailleurs, j'anime la formation Spark chez Ippon.

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Modern Data Stack France

Spark dataframe

Modern Data Stack France

June Spark meetup : search as recommandation

Modern Data Stack France

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Modern Data Stack France

Spark meetup at viadeo

Modern Data Stack France

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Modern Data Stack France

Plus de Modern Data Stack France (20)

Stash - Data FinOPS

Vue d'ensemble Dremio

From Data Warehouse to Lakehouse

Talend spark meetup 03042017 - Paris Spark Meetup

Paris Spark Meetup - Trifacta - 03_04_2017

Hadoop meetup : HUGFR Construire le cluster le plus rapide pour l'analyse des...

HUG France Feb 2016 - Migration de données structurées entre Hadoop et RDBMS ...

Hadoop France meetup Feb2016 : recommendations with spark

Hug janvier 2016 -EDF

HUG France - 20160114 industrialisation_process_big_data CanalPlus

Hugfr SPARK & RIAK -20160114_hug_france

HUG France : HBase in Financial Industry par Pierre Bittner (Scaled Risk CTO)

Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015

Datalab 101 (Hadoop, Spark, ElasticSearch) par Jonathan Winandy - Paris Spark...

Record linkage, a real use case with spark ml - Paris Spark meetup Dec 2015

Spark dataframe

June Spark meetup : search as recommandation

Spark ML par Xebia (Spark Meetup du 11/06/2015)

Spark meetup at viadeo

Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel

Mahout, Machine Learning pour Hadoop par Bertrand Dechoux

1. Mahout machine learning pour Hadoop Bertrand Dechoux Mercredi 11 Decembre 2013

2. Réseaux Bayésiens Bertrand Dechoux @BertrandDechoux Certiﬁed trainer 2

3. L’écosystème : une menagerie ZooKeeper PIG Impala 3

4. Machine learning ? Pour Hadoop? 4

5. Le programme  Recommendation    user/item-based recommender Clustering   filtrage collaborative kmeans Classification  naive bayes network 5

6. Pas juste un algo       DevOps TDD A/B Testing Data cleansing Anonymisation Sécurité 6

7. Bachotage -> overfitting 7

8. 1 : Recommendation 8

9. Marketing 1.0 http://www.flickr.com/photos/mpk/4310357482/ 9

10. Marketing 2.0 10

11. Collaborative filtering Item 1 item 2 item 3 4 user 1 user 2 item 2 1 3 item 5 1 ... 4 2 ? item 4 4 user 3 user 4 1 user 5 5 user 6 1 4 5 ... 11

12. item-based / user-based calculer la similarité entre tous ▶ trouver le voisinage ▶ calculer les prediction ▶ 12

13. Aperçu de l’API DataModel dataModel = new FileDataModel(dataFile); UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel); UserNeighborhood neighborhood = new NearestNUserNeighborhood(n, userSimilarity, dataModel); UserBasedRecommender recommender = new GenericUserBasedRecommender(dataModel, neighborhood, userSimilarity); List<RecommendedItem> recommendedItems = recommender.recommend(1, 100); 13

14. Evaluation et Optimisation  différence entre prédiction et observation  comme un moteur de recherche  precision, recall ... 14

15. Hadoop, realité et matrices   recommendation : solution contre trop de choix il faut calculer O(n2) similaritées ??? 15

16. Hadoop, realité et matrices s11 s12 p1 X s21 s22 s11 x p1 + s12 x p2 = p2 s21 x p1 + s22 x p2 16

17. Hadoop, realité et matrices I1 I2 I3 I1 - 1 3 I2 1 - 2 I3 3 2 - User Score 5 X ? -> (1x5+2x3)/3 => 3.7 3 17

18. MAHOUT-1288 : recommendation = recherche 18

19. 2 : Clustering 19

20. Clustering : un regroupement    detection de caractères aperçu de news ... 20

21. Un monde en n dimensions      OLAP fichier excel, csv modèle entité-association (ERD) filtrage collaboratif ... 21

22. la base : k-means (Lloyd’s) http://en.wikipedia.org/wiki/K-means_clustering 22

23. preclustering : canopy https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering 23

24. mahout 0.8 : kmeans amélioré  “Fast and Accurate k-means for Large Data Sets”   http://books.nips.cc/papers/files/nips24/NIPS2011_1271.pdf Scalable K-Means++  http://theory.stanford.edu/~sergei/papers/vldb12-kmpar.pdf  https://issues.apache.org/jira/browse/MAHOUT-1154  http://blog.cloudera.com/blog/2013/03/ cloudera_ml_data_science_tools/ 24

25. 3 : Classification 25

26. Classification le cousin ‘supervisé’ du Clustering      associer une lettre à un groupe de pixels filtre anti-spam detection de fraudes classification de tumeurs ... 26

27. Prenons du recul les modèles probabilistes  On veut connaitre : P( Monde )  Pour demander : P( interet | observation) 27

28. Réseau Bayésien : un framework 28

29. Naive Bayes Classifier 29

30. Evaluation : Matrice de confusion prediction : TRUE prediction : FALSE réalité : TRUE true positive false negative réalité : FALSE false positive true negative 30

31. Le tour est fini! = + Machine Learning =    Recommendation Clustering Classification 31

32. Merci ! 32

33. Et pour (vraiment) finir 33

Mahout, Machine Learning pour Hadoop par Bertrand Dechoux

Recommandé

Recommandé

Contenu connexe

Similaire à Mahout, Machine Learning pour Hadoop par Bertrand Dechoux

Similaire à Mahout, Machine Learning pour Hadoop par Bertrand Dechoux (20)

Plus de Modern Data Stack France

Plus de Modern Data Stack France (20)

Mahout, Machine Learning pour Hadoop par Bertrand Dechoux