SlideShare ist ein Scribd-Unternehmen logo
1 von 24
Downloaden Sie, um offline zu lesen
#sgvirtual	
  

h"p://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg	
  	
  

@abxda	
  
#sgvirtual	
  

@abxda	
  
#sgvirtual	
  

Según	
  Gartner:	
  
	
  	
  
Big	
  data	
  is	
  high-­‐volume,	
  high-­‐velocity	
  and	
  high-­‐
variety	
  informaEon	
  assets	
  that	
  demand	
  cost-­‐
effecEve,	
  innovaEve	
  forms	
  of	
  informaEon	
  
processing	
  for	
  enhanced	
  insight	
  and	
  decision	
  
making.	
  

h"p://www.G.com/intl/cms/e91a32d0-­‐2bac-­‐11e3-­‐bfe2-­‐00144feab7de.pdf	
  	
  

@abxda	
  
#sgvirtual	
  

Big	
  Data	
  y	
  Ciencia	
  de	
  Datos	
  
¿quién?	
  
¿cuántos?	
  
¿por	
  qué?	
  
¿qué?	
  
¿dónde?	
  

Internet	
  de	
  las	
  Cosas	
  
Internet	
  de	
  las	
  Personas	
  
Volumen	
  
Internet	
  de	
  las	
  Ideas	
  
Internet	
  de	
  todo	
  
…	
  

Datos	
  	
  
Crudos	
  

d	
  

Ciencia	
  de	
  
Datos	
  
(Transforma	
  =>)	
  

Información	
  
(Significado)	
  

da
Varie

Análisis	
  de	
  Datos	
  
EstadísEca	
  
Minería	
  de	
  Datos	
  

h"p://www.datascienceassn.org/	
  	
  
h"p://en.wikipedia.org/wiki/DIKW_Pyramid	
  	
  

Machine	
  Learning	
  

Análisis	
  de	
  Redes	
  (Grafos)	
  
Muestreo	
  
EstraEficaciones	
  
Mucho	
  mas…	
  
Análisis	
  de	
  Regresión	
  

Tomar	
  
Decisiones	
  
Y	
  Actuar	
  
@abxda	
  
#sgvirtual	
  

Cienjfico	
  de	
  Datos	
  

h"p://drewconway.com/zia/2013/3/26/the-­‐data-­‐science-­‐venn-­‐diagram	
  	
  

@abxda	
  
#sgvirtual	
  

¿Qué	
  tanto	
  es	
  tanEto?	
  
8 Bits = 1Byte!
1024 Bytes = 1 Kilobyte!
1024 Kilobytes = 1 Megabyte!
1024 Megabytes = 1 Gigabyte!
1024 Gigabytes = 1 Terabyte!
1024 Terabytes = 1 Petabyte!
1024 Petabytes = 1 Exabyte!

@abxda	
  
#sgvirtual	
  

Era	
  MulEcore	
  

35	
  años	
  de	
  Historia	
  del	
  Microprocesador	
  

Primavera	
  2005	
  Inicia	
  la	
  era	
  mulEcore	
  
Diciembre	
  2004	
  -­‐>	
  MapReduce	
  

@abxda	
  
#sgvirtual	
  

Computo	
  en	
  Paralelo	
  

Discil	
  de	
  
Programar	
  

MapReduce	
  
(2004)	
  
Google,	
  Inc.	
  
Fácil	
  de	
  
Programar	
  	
  

h"p://theory.stanford.edu/~sergei/papers/soda10-­‐mrc.pdf	
  	
  
h"p://www.sciencedirect.com/science/arEcle/pii/S1877050912001470	
  	
  
h"p://research.google.com/archive/mapreduce.html	
  	
  

@abxda	
  
#sgvirtual	
  

MapReduce	
  

Cientos	
  o	
  Miles	
  
De	
  Computadoras	
  

Cientos	
  o	
  Miles	
  
De	
  Computadoras	
  

h"p://research.google.com/archive/mapreduce.html	
  	
  

@abxda	
  
#sgvirtual	
  

MapReduce	
  
(Pseudocódigo	
  para	
  contar	
  palabras)	
  

map(String input_key, String input_value):!
// input_key: document name!
// input_value: document contents!
for each word w in input_value:!
EmitIntermediate(w, "1");!
!
!
reduce(String output_key, Iterator intermediate_values):!
// output_key: a word!
// output_values: a list of counts!
int result = 0;!
for each v in intermediate_values:!
result += ParseInt(v);!
Emit(AsString(result));!
@abxda	
  
#sgvirtual	
  

Herramientas	
  
STANDALONE	
  
	
  
MULTICORE	
  

	
  
CLUSTER	
  
	
  
BIG	
  DATA	
  
	
  

	
  
PARALLEL	
  PROGRAMMING	
  

PARALLEL	
  PROGRAMMING	
  

HADOOP	
  
MAPREDUCE	
  

SCALA,PYTHON,JAVA	
  
	
  

SPARK	
  

RDD,	
  MAPREDUCE	
  
SCALA,PYTHON,JAVA	
  
	
  
•  FAULT	
  TOLERANCE	
  
•  LOAD	
  BALANCING	
  
•  SYNCHRONISATION	
  
R	
  

h"p://hadoop.apache.org/	
  	
  
h"p://spark.incubator.apache.org/	
  	
  

PYTHON	
  

JAVA	
  

•  FAULT	
  TOLERANCE	
  
•  LOAD	
  BALANCING	
  
•  SYNCHRONISATION	
  
R	
  

PYTHON	
  

JAVA	
  

@abxda	
  
#sgvirtual	
  

Spark	
  una	
  plataforma	
  Big	
  Data	
  

h"ps://amplab.cs.berkeley.edu/soGware/	
  	
  
h"p://strataconf.com/strata2013/public/schedule/detail/27438	
  	
  

@abxda	
  
#sgvirtual	
  

Ciencia	
  de	
  Datos	
  en	
  Acción	
  

www.inegi.org.mx/est/contenidos/Proyectos/estraEficador/	
  	
  

@abxda	
  
#sgvirtual	
  

Tecnologías	
  Involucradas	
  

@abxda	
  
#sgvirtual	
  

Big	
  Data	
  en	
  el	
  Laboratorio	
  

@abxda	
  
#sgvirtual	
  

Tecnologías	
  Involucradas	
  

@abxda	
  
#sgvirtual	
  

Spark	
  y	
  MLBase	
  

	
  
import org.apache.spark.mllib.clustering._!
!
val manzanas = sc.textFile("/Users/abxda/…/datos.csv")!
val subconjunto = manzanas.map(manzana => extractColumn(manzana))!
points_nacional.cache!
var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)!
val out = new PrintWriter("/Users/abxda/…/salida.csv")!
subconjunto.collect.foreach(x => out.println(modelo.predict(x)))!
out.close()!

@abxda	
  
#sgvirtual	
  

Shark	
  
select !
estrato,!
avg(p_autom),!
avg(p_pc),!
avg(p_cel),!
avg(p_inter),!
count(*) !
from salida group by estrato;!
!

estrato	
  
4	
  
3	
  
2	
  
1	
  
0	
  

p_autom	
  
0.536577059	
  
0.851219807	
  
0.254049418	
  
0.20981258	
  
0.693759231	
  

p_pc	
  
0.46087735	
  
0.777557128	
  
0.139711048	
  
0.055136755	
  
0.176546203	
  

0.9"
0.8"
0.7"
0.6"
4"
0.5"

3"
2"

0.4"

1"
0"

0.3"
0.2"
0.1"
0"
p_autom"

p_cel	
  
0.76176366	
  
0.833951292	
  
0.683405158	
  
0.160281722	
  
0.788936165	
  

p_inter	
  
0.340057367	
  
0.712273104	
  
0.076031984	
  
0.030043591	
  
0.084017414	
  

p_pc"

p_cel"

p_inter"

count(*)	
  
308206	
  
192934	
  
376060	
  
169243	
  
174737	
  
1’221,180	
  

@abxda	
  
#sgvirtual	
  

Promedios	
  por	
  variable	
  

@abxda	
  
#sgvirtual	
  

Equipo	
  Big	
  Data	
  
–  CienBficos	
  de	
  Datos,	
  expertos	
  en	
  integracion	
  de	
  soluciones	
  Big	
  
Data	
  (MapReduce,	
  Scala,	
  Machine	
  Learning,	
  Spark,	
  R,	
  EstadísEca).	
  
–  EstadísBcos,	
  expertos	
  en	
  modelado	
  estadisEco,	
  enfoque	
  en	
  
aprendizaje	
  estadísEco	
  (R).	
  
–  Desarrolladores	
  de	
  SoGware,	
  expertos	
  en	
  desarrollo	
  de	
  soGware	
  
(JavaScript,	
  Arquitecturas	
  de	
  SoGware,	
  Patrones	
  de	
  Diseño,	
  Api’s	
  
REST).	
  
–  Diseñadores	
  Gráficos,	
  expertos	
  en	
  presentación	
  de	
  información	
  
(HTML5,	
  CSS3,	
  JavaScript,	
  Twi"er	
  Bootstrap).	
  
–  Administradores	
  de	
  Sistemas,	
  expertos	
  en	
  arquitecturas	
  de	
  
computo,	
  infraestructura.	
  Desde	
  redes	
  a	
  clusters	
  de	
  
computadoras	
  (Linux).	
  
@abxda	
  
#sgvirtual	
  

La	
  tarea	
  
•  Programación	
  funcional	
  
–  Scala	
  
–  Akka	
  

•  EstadísEca	
  
– 
– 
– 
– 

Probabilidad	
  y	
  EstadísEca	
  
Muestreo	
  
Machine	
  Learning	
  
R	
  

•  Almacenes	
  de	
  Datos	
  NoSQL	
  
– 
– 
– 
– 

Cassandra	
  
MongoDB	
  
Hbase	
  
Neo4j	
  

•  Plataformas	
  Big	
  Data	
  	
  
–  Hadoop	
  
–  Spark	
  

•  Visualización	
  de	
  Datos	
  
–  D3.js	
  

@abxda	
  
GRACIAS	
  
	
  
	
  
Abel	
  Alejandro	
  Coronado	
  Iruegas	
  
Twi"er	
  :	
  @abxda	
  
h"p://abxda.wordpress.com/	
  

Weitere ähnliche Inhalte

Andere mochten auch

Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con HadoopSoftware Guru
 
Introduction To Big Data & Hadoop
Introduction To Big Data & HadoopIntroduction To Big Data & Hadoop
Introduction To Big Data & HadoopBlackvard
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?Carla Buj
 

Andere mochten auch (8)

Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con Hadoop
 
Introduction To Big Data & Hadoop
Introduction To Big Data & HadoopIntroduction To Big Data & Hadoop
Introduction To Big Data & Hadoop
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?
 

Ähnlich wie Big data

Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014Abel Alejandro Coronado Iruegas
 
Big Data: Revelando los Secretos de Twitter en México
Big Data: Revelando los Secretos de Twitter en MéxicoBig Data: Revelando los Secretos de Twitter en México
Big Data: Revelando los Secretos de Twitter en MéxicoSoftware Guru
 
Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)Ernesto Crespo
 
[Public] gplusextractor #7arquetipos15 [español]
[Public] gplusextractor #7arquetipos15 [español][Public] gplusextractor #7arquetipos15 [español]
[Public] gplusextractor #7arquetipos15 [español]Nicolas Bortolotti
 
Angular 6 + Angular Elements: Write once, run anywhere
Angular 6 + Angular Elements: Write once, run anywhereAngular 6 + Angular Elements: Write once, run anywhere
Angular 6 + Angular Elements: Write once, run anywhereFrancisco Javier Barrena
 
iDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a Google
iDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a GoogleiDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a Google
iDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a GoogleMiguel Ángel Pau
 
gvSIG - projeto, associação e comunidade
gvSIG - projeto, associação e comunidadegvSIG - projeto, associação e comunidade
gvSIG - projeto, associação e comunidadeGeoLivre Conference
 

Ähnlich wie Big data (20)

¿Qué es big data?
¿Qué es big data?¿Qué es big data?
¿Qué es big data?
 
Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014Revelando los secretos de twitter, Festival de Software Libre 2014
Revelando los secretos de twitter, Festival de Software Libre 2014
 
Big Data: Revelando los Secretos de Twitter en México
Big Data: Revelando los Secretos de Twitter en MéxicoBig Data: Revelando los Secretos de Twitter en México
Big Data: Revelando los Secretos de Twitter en México
 
Big data lead colmex
Big data lead colmexBig data lead colmex
Big data lead colmex
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
(2) Curso sobre el software estadístico R: La librería googleVis
(2) Curso sobre el software estadístico R: La librería googleVis(2) Curso sobre el software estadístico R: La librería googleVis
(2) Curso sobre el software estadístico R: La librería googleVis
 
Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)Extracción de datos de páginas web con Python (webscraping)
Extracción de datos de páginas web con Python (webscraping)
 
PROYECTO DE LISTA LINEAL DOBLE
PROYECTO DE LISTA LINEAL DOBLEPROYECTO DE LISTA LINEAL DOBLE
PROYECTO DE LISTA LINEAL DOBLE
 
Arduino day
Arduino dayArduino day
Arduino day
 
Machine learning automatizado
Machine learning automatizadoMachine learning automatizado
Machine learning automatizado
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
[Public] gplusextractor #7arquetipos15 [español]
[Public] gplusextractor #7arquetipos15 [español][Public] gplusextractor #7arquetipos15 [español]
[Public] gplusextractor #7arquetipos15 [español]
 
Angular 6 + Angular Elements: Write once, run anywhere
Angular 6 + Angular Elements: Write once, run anywhereAngular 6 + Angular Elements: Write once, run anywhere
Angular 6 + Angular Elements: Write once, run anywhere
 
WordPress para Pymes
WordPress para PymesWordPress para Pymes
WordPress para Pymes
 
iDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a Google
iDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a GoogleiDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a Google
iDay Feb 2017 - Marcado de datos estructurados. Pónselo fácil a Google
 
Guiapractica de bd completa
Guiapractica de bd completaGuiapractica de bd completa
Guiapractica de bd completa
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
gvSIG - projeto, associação e comunidade
gvSIG - projeto, associação e comunidadegvSIG - projeto, associação e comunidade
gvSIG - projeto, associação e comunidade
 
[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)
[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)
[Run Reloaded] Innovación y liderazgo (Pablo C. García + Jorge Rodríguez)
 
Explorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUsExplorando Big Data y Ciencia de Datos con GPUs
Explorando Big Data y Ciencia de Datos con GPUs
 

Mehr von Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

Mehr von Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Kürzlich hochgeladen

Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 

Kürzlich hochgeladen (20)

Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 

Big data

  • 1.
  • 2.
  • 5. #sgvirtual   Según  Gartner:       Big  data  is  high-­‐volume,  high-­‐velocity  and  high-­‐ variety  informaEon  assets  that  demand  cost-­‐ effecEve,  innovaEve  forms  of  informaEon   processing  for  enhanced  insight  and  decision   making.   h"p://www.G.com/intl/cms/e91a32d0-­‐2bac-­‐11e3-­‐bfe2-­‐00144feab7de.pdf     @abxda  
  • 6. #sgvirtual   Big  Data  y  Ciencia  de  Datos   ¿quién?   ¿cuántos?   ¿por  qué?   ¿qué?   ¿dónde?   Internet  de  las  Cosas   Internet  de  las  Personas   Volumen   Internet  de  las  Ideas   Internet  de  todo   …   Datos     Crudos   d   Ciencia  de   Datos   (Transforma  =>)   Información   (Significado)   da Varie Análisis  de  Datos   EstadísEca   Minería  de  Datos   h"p://www.datascienceassn.org/     h"p://en.wikipedia.org/wiki/DIKW_Pyramid     Machine  Learning   Análisis  de  Redes  (Grafos)   Muestreo   EstraEficaciones   Mucho  mas…   Análisis  de  Regresión   Tomar   Decisiones   Y  Actuar   @abxda  
  • 7. #sgvirtual   Cienjfico  de  Datos   h"p://drewconway.com/zia/2013/3/26/the-­‐data-­‐science-­‐venn-­‐diagram     @abxda  
  • 8. #sgvirtual   ¿Qué  tanto  es  tanEto?   8 Bits = 1Byte! 1024 Bytes = 1 Kilobyte! 1024 Kilobytes = 1 Megabyte! 1024 Megabytes = 1 Gigabyte! 1024 Gigabytes = 1 Terabyte! 1024 Terabytes = 1 Petabyte! 1024 Petabytes = 1 Exabyte! @abxda  
  • 9. #sgvirtual   Era  MulEcore   35  años  de  Historia  del  Microprocesador   Primavera  2005  Inicia  la  era  mulEcore   Diciembre  2004  -­‐>  MapReduce   @abxda  
  • 10. #sgvirtual   Computo  en  Paralelo   Discil  de   Programar   MapReduce   (2004)   Google,  Inc.   Fácil  de   Programar     h"p://theory.stanford.edu/~sergei/papers/soda10-­‐mrc.pdf     h"p://www.sciencedirect.com/science/arEcle/pii/S1877050912001470     h"p://research.google.com/archive/mapreduce.html     @abxda  
  • 11. #sgvirtual   MapReduce   Cientos  o  Miles   De  Computadoras   Cientos  o  Miles   De  Computadoras   h"p://research.google.com/archive/mapreduce.html     @abxda  
  • 12. #sgvirtual   MapReduce   (Pseudocódigo  para  contar  palabras)   map(String input_key, String input_value):! // input_key: document name! // input_value: document contents! for each word w in input_value:! EmitIntermediate(w, "1");! ! ! reduce(String output_key, Iterator intermediate_values):! // output_key: a word! // output_values: a list of counts! int result = 0;! for each v in intermediate_values:! result += ParseInt(v);! Emit(AsString(result));! @abxda  
  • 13. #sgvirtual   Herramientas   STANDALONE     MULTICORE     CLUSTER     BIG  DATA       PARALLEL  PROGRAMMING   PARALLEL  PROGRAMMING   HADOOP   MAPREDUCE   SCALA,PYTHON,JAVA     SPARK   RDD,  MAPREDUCE   SCALA,PYTHON,JAVA     •  FAULT  TOLERANCE   •  LOAD  BALANCING   •  SYNCHRONISATION   R   h"p://hadoop.apache.org/     h"p://spark.incubator.apache.org/     PYTHON   JAVA   •  FAULT  TOLERANCE   •  LOAD  BALANCING   •  SYNCHRONISATION   R   PYTHON   JAVA   @abxda  
  • 14. #sgvirtual   Spark  una  plataforma  Big  Data   h"ps://amplab.cs.berkeley.edu/soGware/     h"p://strataconf.com/strata2013/public/schedule/detail/27438     @abxda  
  • 15. #sgvirtual   Ciencia  de  Datos  en  Acción   www.inegi.org.mx/est/contenidos/Proyectos/estraEficador/     @abxda  
  • 17. #sgvirtual   Big  Data  en  el  Laboratorio   @abxda  
  • 19. #sgvirtual   Spark  y  MLBase     import org.apache.spark.mllib.clustering._! ! val manzanas = sc.textFile("/Users/abxda/…/datos.csv")! val subconjunto = manzanas.map(manzana => extractColumn(manzana))! points_nacional.cache! var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)! val out = new PrintWriter("/Users/abxda/…/salida.csv")! subconjunto.collect.foreach(x => out.println(modelo.predict(x)))! out.close()! @abxda  
  • 20. #sgvirtual   Shark   select ! estrato,! avg(p_autom),! avg(p_pc),! avg(p_cel),! avg(p_inter),! count(*) ! from salida group by estrato;! ! estrato   4   3   2   1   0   p_autom   0.536577059   0.851219807   0.254049418   0.20981258   0.693759231   p_pc   0.46087735   0.777557128   0.139711048   0.055136755   0.176546203   0.9" 0.8" 0.7" 0.6" 4" 0.5" 3" 2" 0.4" 1" 0" 0.3" 0.2" 0.1" 0" p_autom" p_cel   0.76176366   0.833951292   0.683405158   0.160281722   0.788936165   p_inter   0.340057367   0.712273104   0.076031984   0.030043591   0.084017414   p_pc" p_cel" p_inter" count(*)   308206   192934   376060   169243   174737   1’221,180   @abxda  
  • 21. #sgvirtual   Promedios  por  variable   @abxda  
  • 22. #sgvirtual   Equipo  Big  Data   –  CienBficos  de  Datos,  expertos  en  integracion  de  soluciones  Big   Data  (MapReduce,  Scala,  Machine  Learning,  Spark,  R,  EstadísEca).   –  EstadísBcos,  expertos  en  modelado  estadisEco,  enfoque  en   aprendizaje  estadísEco  (R).   –  Desarrolladores  de  SoGware,  expertos  en  desarrollo  de  soGware   (JavaScript,  Arquitecturas  de  SoGware,  Patrones  de  Diseño,  Api’s   REST).   –  Diseñadores  Gráficos,  expertos  en  presentación  de  información   (HTML5,  CSS3,  JavaScript,  Twi"er  Bootstrap).   –  Administradores  de  Sistemas,  expertos  en  arquitecturas  de   computo,  infraestructura.  Desde  redes  a  clusters  de   computadoras  (Linux).   @abxda  
  • 23. #sgvirtual   La  tarea   •  Programación  funcional   –  Scala   –  Akka   •  EstadísEca   –  –  –  –  Probabilidad  y  EstadísEca   Muestreo   Machine  Learning   R   •  Almacenes  de  Datos  NoSQL   –  –  –  –  Cassandra   MongoDB   Hbase   Neo4j   •  Plataformas  Big  Data     –  Hadoop   –  Spark   •  Visualización  de  Datos   –  D3.js   @abxda  
  • 24. GRACIAS       Abel  Alejandro  Coronado  Iruegas   Twi"er  :  @abxda   h"p://abxda.wordpress.com/