SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
Le	
  moteur	
  de	
  recherche,	
  
inspirateur	
  technologique	
  
         du	
  Big	
  Data	
  ?	
  	
  
Emmanuel	
  Keller,	
  CEO	
  OpenSearchServer	
  
Ainsi	
  naquît	
  Google…	
  




                 Avril	
  1998	
  
hEp://infolab.stanford.edu/pub/papers/google.pdf	
  
Google	
  1.0	
  

24	
  millions	
  de	
  pages	
  
«	
  It	
  is	
  foreseeable	
  that	
  by	
  the	
  year	
  2000,	
  a	
  
comprehensive	
  index	
  of	
  the	
  Web	
  will	
  contain	
  
over	
  a	
  billion	
  documents.	
  »	
  
PageRank	
  
«	
  Also,	
  a	
  PageRank	
  for	
  26	
  million	
  web	
  pages	
  can	
  
be	
  computed	
  in	
  a	
  few	
  hours	
  on	
  a	
  medium	
  size	
  
workstaFon.	
  »	
  
	
  
Google	
  1.0	
  




                                        1997	
  -­‐	
  IBM	
  Deskstar	
  16GP	
  




«	
  We	
  intend	
  to	
  speed	
  up	
  Google	
  considerably	
  
through	
  distribuFon	
  and	
  hardware,	
  soHware,	
  
and	
  algorithmic	
  improvements	
  »	
  
Google	
  1.0	
  
Rappel	
  


Informa5que	
  n.f.	
  
	
  


Science	
  du	
  traitement	
  automaFque	
  
et	
  raFonnel	
  de	
  l'informaFon	
  
meLant	
  en	
  œuvre	
  des	
  matériels	
  et	
  
des	
  logiciels.	
  
L’art	
  de	
  jongler…	
  
…c’est	
  pas	
  nouveau	
  

•  Bayer,	
  Rudolf;	
  McCreight,	
  E.	
  (July	
  1970),	
  
   Organizaon	
  and	
  Maintenance	
  of	
  Large	
  
   Ordered	
  Indices,	
  Mathemacal	
  

•  Bayer,	
  Rudolf	
  (1971),	
  "Binary	
  B-­‐Trees	
  for	
  
   Virtual	
  Memory	
  »	
  
La	
  structure	
  en	
  arbre	
  




Réduire	
  le	
  nombre	
  
de	
  lectures	
  physiques	
  
sur	
  le	
  disque	
  dur	
  
Une	
  forêt	
  d’arbres	
  

•  Un	
  système	
  de	
  fichiers	
  (FAT,	
  NTFS,	
  EXT3,	
  ZFS)	
  
   est	
  avant	
  tout	
  une	
  structure	
  en	
  arbre.	
  
•  Les	
  bases	
  de	
  données	
  basent	
  leurs	
  index	
  sur	
  la	
  
   taille	
  des	
  blocs	
  du	
  disque	
  dur	
  
•  La	
  mémoire	
  virtuelle	
  
Quand	
  au	
  calcul	
  

•  Les	
  fondeurs	
  peinent	
  à	
  suivre	
  la	
  
   loi	
  de	
  Moore:	
  la	
  technologie	
  du	
  
   silicium	
  aEeint	
  ses	
  limites	
  

•  Les	
  cœurs	
  mulples	
  compliquent	
  
   les	
  développements:	
  obligaon	
  
   d’intégrer	
  le	
  parallélisme	
  
Distributed	
  compung	
  
Google	
  2.0	
  
MapReduce:	
  
«	
  Simplified	
  Data	
  Processing	
  on	
  Large	
  Clusters	
  »	
  
By	
  Jeffrey	
  Dean	
  and	
  Sanjay	
  Ghemawat	
  (Google	
  Inc.)	
  
San	
  Francisco,	
  CA,	
  December,	
  2004	
  
hEp://research.google.com/archive/mapreduce.html	
  
	
  
Hadoop:	
  Implémentaon	
  open	
  source	
  sous	
  
licence	
  Apache	
  2.0	
  
	
  
Map	
  Reduce	
  
MAP	
  
Réparr	
  la	
  charge	
  sur	
  
plusieurs	
  nœuds	
  
	
  
(WORK)	
  
Chaque	
  nœud	
  travaille	
  sur	
  
une	
  pare	
  des	
  données	
  
	
  
REDUCE	
  
Le	
  résultat	
  de	
  chaque	
  nœud	
  
est	
  consolidé	
  pour	
  constuer	
      Source:	
  hEp://www.gridgainsystems.com	
  
le	
  résultat	
  final	
  
No	
  SQL	
  Database	
  

•  Une	
  approche	
  simplifiée	
  de	
  l’accès	
  aux	
  données	
  
•  Principe	
  Clé	
  /	
  Valeur	
  
•  Se	
  «	
  cloudise	
  »	
  très	
  bien	
  



Redis,	
  HBase,	
  Cassandra,	
  
Mongo	
  DB,	
  MemCache	
  DB,	
  
Berkeley	
  DB,	
  Big	
  Table,…	
  
Vers	
  un	
  nouveau	
  paradigme	
  
•    Applicaons	
  (Pentaho)	
  
•    JAVA,	
  C	
  /	
  C++	
  ?	
  L	
  
•    API,	
  API,	
  API,	
  API…	
  
•    Système	
  de	
  fichiers	
  
      –  XtreemFS	
  
      –  Sector/Sphere	
  
      –  Oracle	
  Clustered	
  File	
  
         System	
  (GPL	
  !!!!)	
  
      –  Disques	
  SSD	
  
Q	
  	
  &	
  	
  A	
  


   Merci	
  pour	
  votre	
  aEenon	
  
                     	
  
ekeller@open-­‐search-­‐server.com	
  

Weitere ähnliche Inhalte

Was ist angesagt?

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.ithibnico
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Vincent Heuschling
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMathieu Dumoulin
 
PostgreSQL, plus qu'une base de données, une plateforme aux multiples usages
PostgreSQL, plus qu'une base de données, une plateforme aux multiples usagesPostgreSQL, plus qu'une base de données, une plateforme aux multiples usages
PostgreSQL, plus qu'une base de données, une plateforme aux multiples usagesOpen Source Experience
 
Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Alexis Seigneurin
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherLilia Sfaxi
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop QuébecMathieu Dumoulin
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlusModern Data Stack France
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielModern Data Stack France
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctionsMICHRAFY MUSTAFA
 

Was ist angesagt? (20)

Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
Stats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.itStats web avec Hive chez Scoop.it
Stats web avec Hive chez Scoop.it
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013Feedback du EMEA Hadoop Summit 2013
Feedback du EMEA Hadoop Summit 2013
 
MapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifiéMapReduce: Traitement de données distribué à grande échelle simplifié
MapReduce: Traitement de données distribué à grande échelle simplifié
 
PostgreSQL, plus qu'une base de données, une plateforme aux multiples usages
PostgreSQL, plus qu'une base de données, une plateforme aux multiples usagesPostgreSQL, plus qu'une base de données, une plateforme aux multiples usages
PostgreSQL, plus qu'une base de données, une plateforme aux multiples usages
 
Introduction spark
Introduction sparkIntroduction spark
Introduction spark
 
Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)Spark - Alexis Seigneurin (Français)
Spark - Alexis Seigneurin (Français)
 
BigData_Chp5: Putting it all together
BigData_Chp5: Putting it all togetherBigData_Chp5: Putting it all together
BigData_Chp5: Putting it all together
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
HADOOP + R
HADOOP + RHADOOP + R
HADOOP + R
 
Presentation Hadoop Québec
Presentation Hadoop QuébecPresentation Hadoop Québec
Presentation Hadoop Québec
 
Spark - Ippevent 19-02-2015
Spark - Ippevent 19-02-2015Spark - Ippevent 19-02-2015
Spark - Ippevent 19-02-2015
 
HUG France - 20160114 industrialisation_process_big_data CanalPlus
HUG France -  20160114 industrialisation_process_big_data CanalPlusHUG France -  20160114 industrialisation_process_big_data CanalPlus
HUG France - 20160114 industrialisation_process_big_data CanalPlus
 
Hadoop unit
Hadoop unitHadoop unit
Hadoop unit
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamielParis Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
Paris Spark meetup : Extension de Spark (Tachyon / Spark JobServer) par jlamiel
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Spark SQL principes et fonctions
Spark SQL principes et fonctionsSpark SQL principes et fonctions
Spark SQL principes et fonctions
 

Andere mochten auch

Bluenove_Yoann Gaudry_Open Data
Bluenove_Yoann Gaudry_Open DataBluenove_Yoann Gaudry_Open Data
Bluenove_Yoann Gaudry_Open DataMetro'num 2011
 
L'approche OpenDataSoft : API First
L'approche OpenDataSoft : API FirstL'approche OpenDataSoft : API First
L'approche OpenDataSoft : API FirstOpenDataSoft
 
OpenDataSoft au Workshop Open Data Cap Digital
OpenDataSoft au Workshop Open Data Cap DigitalOpenDataSoft au Workshop Open Data Cap Digital
OpenDataSoft au Workshop Open Data Cap DigitalOpenDataSoft
 
L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"
L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"
L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"Vladimir Moshnyager
 

Andere mochten auch (7)

Guia word
Guia wordGuia word
Guia word
 
Bluenove_Yoann Gaudry_Open Data
Bluenove_Yoann Gaudry_Open DataBluenove_Yoann Gaudry_Open Data
Bluenove_Yoann Gaudry_Open Data
 
Evaluation4
Evaluation4Evaluation4
Evaluation4
 
OWF13 - Open hardware
OWF13 - Open hardwareOWF13 - Open hardware
OWF13 - Open hardware
 
L'approche OpenDataSoft : API First
L'approche OpenDataSoft : API FirstL'approche OpenDataSoft : API First
L'approche OpenDataSoft : API First
 
OpenDataSoft au Workshop Open Data Cap Digital
OpenDataSoft au Workshop Open Data Cap DigitalOpenDataSoft au Workshop Open Data Cap Digital
OpenDataSoft au Workshop Open Data Cap Digital
 
L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"
L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"
L’innovation aujourd'hui : un panorama "3dprinting" et "internet of things"
 

Ähnlich wie OWF12/BIG DATA OWF OpenSearchServer light

P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentationrajiasellami
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessingPierre-Marie Brunet
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solutionJEMLI Fathi
 
Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Mathias Kluba
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologyImad ALILAT
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016Julien BLAIZE
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptxAhmed rebai
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprisesAymen ZAAFOURI
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - IntroductionBlandine Larbret
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfMissaouiWissal
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfAhmedToujani1
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinPALO IT
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureMicrosoft
 

Ähnlich wie OWF12/BIG DATA OWF OpenSearchServer light (20)

P8 03 presentation
P8 03 presentationP8 03 presentation
P8 03 presentation
 
20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing20160216 - From BigData to BigProcessing
20160216 - From BigData to BigProcessing
 
Big data: NoSQL comme solution
Big data: NoSQL comme solutionBig data: NoSQL comme solution
Big data: NoSQL comme solution
 
Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...Analytics et Big Data, une histoire de cubes...
Analytics et Big Data, une histoire de cubes...
 
Social Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data TechnologySocial Network Analysis Utilizing Big Data Technology
Social Network Analysis Utilizing Big Data Technology
 
Spad big data - sfds - 2016
Spad   big data - sfds - 2016Spad   big data - sfds - 2016
Spad big data - sfds - 2016
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)Quel hadoop (#quelhadoop)
Quel hadoop (#quelhadoop)
 
Soutenance ysance
Soutenance ysanceSoutenance ysance
Soutenance ysance
 
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka StreamsTraitement distribue en BIg Data - KAFKA Broker and Kafka Streams
Traitement distribue en BIg Data - KAFKA Broker and Kafka Streams
 
Distributed programing (hadoop && java) version finale.pptx
Distributed programing  (hadoop && java) version finale.pptxDistributed programing  (hadoop && java) version finale.pptx
Distributed programing (hadoop && java) version finale.pptx
 
Base de données
Base de donnéesBase de données
Base de données
 
La "Data science" au service des entreprises
La "Data science" au service des entreprisesLa "Data science" au service des entreprises
La "Data science" au service des entreprises
 
Hadoop Hbase - Introduction
Hadoop Hbase - IntroductionHadoop Hbase - Introduction
Hadoop Hbase - Introduction
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Afterwork hadoop
Afterwork hadoopAfterwork hadoop
Afterwork hadoop
 
BigData_Technologies_PL.pdf
BigData_Technologies_PL.pdfBigData_Technologies_PL.pdf
BigData_Technologies_PL.pdf
 
Big Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foinBig Data ou comment retrouver une aiguille dans une botte de foin
Big Data ou comment retrouver une aiguille dans une botte de foin
 
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows AzureBig Data: Hadoop Map / Reduce sur Windows et Windows Azure
Big Data: Hadoop Map / Reduce sur Windows et Windows Azure
 

Mehr von Paris Open Source Summit

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...Paris Open Source Summit
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...Paris Open Source Summit
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...Paris Open Source Summit
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, ArduinoParis Open Source Summit
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...Paris Open Source Summit
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...Paris Open Source Summit
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, ZabbixParis Open Source Summit
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, InriaParis Open Source Summit
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...Paris Open Source Summit
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...Paris Open Source Summit
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...Paris Open Source Summit
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...Paris Open Source Summit
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...Paris Open Source Summit
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...Paris Open Source Summit
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...Paris Open Source Summit
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...Paris Open Source Summit
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données Paris Open Source Summit
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...Paris Open Source Summit
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...Paris Open Source Summit
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...Paris Open Source Summit
 

Mehr von Paris Open Source Summit (20)

#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
#OSSPARIS19 : Control your Embedded Linux remotely by using WebSockets - Gian...
 
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
#OSSPARIS19 : A virtual machine approach for microcontroller programming : th...
 
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
#OSSPARIS19 : RIOT: towards open source, secure DevOps on microcontroller-bas...
 
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
#OSSPARIS19 : The evolving (IoT) security landscape - Gianluca Varisco, Arduino
 
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
#OSSPARIS19: Construire des applications IoT "secure-by-design" - Thomas Gaza...
 
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
#OSSPARIS19 : Detecter des anomalies de séries temporelles à la volée avec Wa...
 
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
#OSSPARIS19 : Supervision d'objets connectés industriels - Eric DOANE, Zabbix
 
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
#OSSPARIS19: Introduction to scikit-learn - Olivier Grisel, Inria
 
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
#OSSPARIS19 - Fostering disruptive innovation in AI with JEDI - André Loesekr...
 
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches  ...
#OSSPARIS19 : Comment ONLYOFFICE aide à organiser les travaux de recherches ...
 
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
#OSSPARIS19 : MDPH : une solution collaborative open source pour l'instructio...
 
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
#OSSPARIS19 - Understanding Open Source Governance - Gilles Gravier, Wipro Li...
 
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
#OSSPARIS19 : Publier du code Open Source dans une banque : Mission impossibl...
 
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
#OSSPARIS19 : Libre à vous ! Raconter les libertés informatiques à la radio -...
 
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
#OSSPARIS19 - Le logiciel libre : un enjeu politique et social - Etienne Gonn...
 
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
#OSSPARIS19 - Conflits d’intérêt & concurrence : la place de l’éditeur dans l...
 
#OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données #OSSPARIS19 - Table ronde : souveraineté des données
#OSSPARIS19 - Table ronde : souveraineté des données
 
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
#OSSPARIS19 - Comment financer un projet de logiciel libre - LUDOVIC DUBOST, ...
 
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
#OSSPARIS19 - BlueMind v4 : les dessous technologiques de 10 ans de travail p...
 
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
#OSSPARIS19 - Tuto de première installation de VITAM, un système d'archivage ...
 

OWF12/BIG DATA OWF OpenSearchServer light

  • 1. Le  moteur  de  recherche,   inspirateur  technologique   du  Big  Data  ?     Emmanuel  Keller,  CEO  OpenSearchServer  
  • 2. Ainsi  naquît  Google…   Avril  1998   hEp://infolab.stanford.edu/pub/papers/google.pdf  
  • 3. Google  1.0   24  millions  de  pages   «  It  is  foreseeable  that  by  the  year  2000,  a   comprehensive  index  of  the  Web  will  contain   over  a  billion  documents.  »   PageRank   «  Also,  a  PageRank  for  26  million  web  pages  can   be  computed  in  a  few  hours  on  a  medium  size   workstaFon.  »    
  • 4. Google  1.0   1997  -­‐  IBM  Deskstar  16GP   «  We  intend  to  speed  up  Google  considerably   through  distribuFon  and  hardware,  soHware,   and  algorithmic  improvements  »  
  • 6. Rappel   Informa5que  n.f.     Science  du  traitement  automaFque   et  raFonnel  de  l'informaFon   meLant  en  œuvre  des  matériels  et   des  logiciels.  
  • 8. …c’est  pas  nouveau   •  Bayer,  Rudolf;  McCreight,  E.  (July  1970),   Organizaon  and  Maintenance  of  Large   Ordered  Indices,  Mathemacal   •  Bayer,  Rudolf  (1971),  "Binary  B-­‐Trees  for   Virtual  Memory  »  
  • 9. La  structure  en  arbre   Réduire  le  nombre   de  lectures  physiques   sur  le  disque  dur  
  • 10. Une  forêt  d’arbres   •  Un  système  de  fichiers  (FAT,  NTFS,  EXT3,  ZFS)   est  avant  tout  une  structure  en  arbre.   •  Les  bases  de  données  basent  leurs  index  sur  la   taille  des  blocs  du  disque  dur   •  La  mémoire  virtuelle  
  • 11. Quand  au  calcul   •  Les  fondeurs  peinent  à  suivre  la   loi  de  Moore:  la  technologie  du   silicium  aEeint  ses  limites   •  Les  cœurs  mulples  compliquent   les  développements:  obligaon   d’intégrer  le  parallélisme  
  • 13. Google  2.0   MapReduce:   «  Simplified  Data  Processing  on  Large  Clusters  »   By  Jeffrey  Dean  and  Sanjay  Ghemawat  (Google  Inc.)   San  Francisco,  CA,  December,  2004   hEp://research.google.com/archive/mapreduce.html     Hadoop:  Implémentaon  open  source  sous   licence  Apache  2.0    
  • 14. Map  Reduce   MAP   Réparr  la  charge  sur   plusieurs  nœuds     (WORK)   Chaque  nœud  travaille  sur   une  pare  des  données     REDUCE   Le  résultat  de  chaque  nœud   est  consolidé  pour  constuer   Source:  hEp://www.gridgainsystems.com   le  résultat  final  
  • 15. No  SQL  Database   •  Une  approche  simplifiée  de  l’accès  aux  données   •  Principe  Clé  /  Valeur   •  Se  «  cloudise  »  très  bien   Redis,  HBase,  Cassandra,   Mongo  DB,  MemCache  DB,   Berkeley  DB,  Big  Table,…  
  • 16. Vers  un  nouveau  paradigme   •  Applicaons  (Pentaho)   •  JAVA,  C  /  C++  ?  L   •  API,  API,  API,  API…   •  Système  de  fichiers   –  XtreemFS   –  Sector/Sphere   –  Oracle  Clustered  File   System  (GPL  !!!!)   –  Disques  SSD  
  • 17. Q    &    A   Merci  pour  votre  aEenon     ekeller@open-­‐search-­‐server.com