Hortonworks est l'éditeur d'Hortonworks Data Platform (HDP), une plate-forme de données basée sur Hadoop qui comprend entre autres les systèmes Hadoop Distributed File System (HDFS), Hadoop MapReduce, Apache Pig, Apache Hive, Apache HBase et Apache ZooKeeper.
3. Introduction
• Hortonworks a été formé en juin 2011 par des
membres de l’équipe Yahoo en charge du projet
Hadoop.
• but est de faciliter l’adoption de la plate-forme
Hadoop d’Apache, c’est pourquoi tous les
composants sont open source et sous licence
Apache.
• Cette distribution est la plus conforme à la plate-
forme Hadoop d’Apache et Hortonworks est le gros
contributeur Apache Hadoop.
6. Composants de la distribution
Hortonworks
• HDFS : stockage distribué. - MapReduce : Traitements parallélisés.
• HBase : Base NoSQL orientée colonnes sur HDFS.
• Pig : plate-forme de scripts d’interrogation HDFS.
• Hive : Requêtage et Méta-données HDFS.
• Oozie : Planification de traitements.
• ZooKeeper : Coordination du cluster.
• Ambari : Gestion et supervision.
• WebHDFS : Accès web aux données. - Ingestion de données :
• Talend Open Studio for Big Data.
• Sqoop : Interactions avec les SGBD.
• Flume : Gestion distribuée des logs.
• Mahout : Apprentissage
7. Composants non Apache Hadoop
• Hortonworks Cloudbreak (licence Apache) : Solution agnostique de
dimensionnement, de gestion et de monitoring d’un cluster HDP,
compatible avec Microsoft Azure, Amazon AWS, Google Cloud Platform,
OpenStack pour les offres cloud ainsi qu’Apache Ambari, Docker, Swarm et
Consul.
• Hortonworks SmartSense (nécessite une licence) : Maintenance
proactive d’un cluster HDP, recommandations, optimisation de l’utilisation
des ressources.
• Solr on YARN (licence Apache) : C’est une version entièrement
compatible avec Hadoop, ce qui permet de déployer Solr au sein du
cluster et évite de déployer des machines dédiées à Solr