SlideShare ist ein Scribd-Unternehmen logo
1 von 29
Downloaden Sie, um offline zu lesen
Python 3 +
Apache Hadoop
Eduardo Mendes (z4r4tu5tr4)
z4r4tu5tr4@Babbage: whoami
● Eduardo Mendes
● Fatec Americana
● github.com/z4r4tu5tr4
● mendesxeduardo@gmail.com
Estrutura
● Problemas
○ Metereologia
○ Linguística de Corpus
● Soluções
○ Celery + NFS
○ Python + Mongo
○ Disco
○ Hadoop
Problemas
Metereologia e Linguística de Corpus
Metereologia
● Cruzamento de duas bases de dados
● Atualizadas de 15 em 15 minutos
● Durante 100 anos
● Tabelas xls
● Mudança de padrão com o passar dos anos
Linguística de Corpus [0]
Linguística de corpus ocupa-se ela da coleta e da exploração de corpora, ou
conjutos de dados linguísticos textuais coletados criteriosamente, com o
propósito de servirem para a pesquisa de uma língua ou variedade linguística.
Como tal, dedica-se à exploração da linguagem por meio de evidências
empíricas, extraídas de computadores
(Sardinha, 2014)
Linguística de Corpus [1]
● O que esperar?
○ Não é PLN
○ Não é mineração de dados
○ Não é aprendizado de máquina
Linguística de Corpus [2]
Operações básicas esperadas LC (Mike Scott):
● Contagem de palavras (WordList)
● Concordância (Concord)
● Comparação (KeyWords)
● Etiquetagem (Tagging)
“Soluções”
Parciais
Celery + NFS
● Complexibilidade de código
● Problemas com logs
● NFS não particiona arquivos
○ Problemas de leitura e armazenamento
Python + Mongo
● Uma solução excelente com metereologia e
péssima com Linguística.
Soluções
O que deu certo
Sistema de arquivos distribuído
● Google File System
○ Particiona arquivos em partes de 64mb
○ Três cópias de cada replicação
○ Arquitetura ‘Master - slave’
Sistema de arquivos distribuído
MapReduce
Disco
● Framework para processamento distribuído
● Feito em Python
● Projeto ‘Jovem’
● “Não tem a melhor documentação do
mundo”
Apache Hadoop [0]
● Framework livre
● Escrito em Java
● Adaptação do Google File System (GFS)
● Adaptação do algorítimo de MapReduce
● “Pode ser programado em qualquer
linguagem” - Streaming
Apache Hadoop [1]
● Tolerância a falhas
● Interface amigável
● Boa documentação
● YARN
Apache Hadoop [2]
MapReduceLib [1]
Hadoop Streaming [0]
● Boa interface para se trabalhar com
qualquer linguagem quando usamos shell
script
● Código ‘simples’
Python + Hadoop [0]
● Pydoop (CRS4)
● Hadoopy
● MrJob (Yelp)
● Dumbo (LastFm)
Nenhuma funciona com Python 3+
Python + Hadoop [1]
MapReduceLib [0]
● Uma maneira de não mexer mais com Shell e
Java
● Uma abstração simples com um único import
● Funcionar bem com o modo interativo
● Acessar o sistema de arquivos distribuído
● Executar funções administrativas
● Fosse compatível com Spark
Obrigado
mendesxeduardo@gmail.com
github.com/z4r4tu5tr4

Weitere ähnliche Inhalte

Andere mochten auch

Precipitación, heliofania, nubosidad
Precipitación, heliofania,  nubosidadPrecipitación, heliofania,  nubosidad
Precipitación, heliofania, nubosidadVerónica Yadira
 
6 precipitacion
6 precipitacion6 precipitacion
6 precipitacionJuan Soto
 
Mapas conceptuales de Metereología
Mapas conceptuales de MetereologíaMapas conceptuales de Metereología
Mapas conceptuales de MetereologíaWido Mf
 
What's new in hadoop 3.0
What's new in hadoop 3.0What's new in hadoop 3.0
What's new in hadoop 3.0Heiko Loewe
 
Learn Hadoop Administration
Learn Hadoop AdministrationLearn Hadoop Administration
Learn Hadoop AdministrationEdureka!
 
Hadoop Administration pdf
Hadoop Administration pdfHadoop Administration pdf
Hadoop Administration pdfEdureka!
 
Como se forma la lluvia
Como se forma la lluviaComo se forma la lluvia
Como se forma la lluviaenoc gomez
 
FENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑAFENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑAdanielvare
 

Andere mochten auch (14)

Precipitación, heliofania, nubosidad
Precipitación, heliofania,  nubosidadPrecipitación, heliofania,  nubosidad
Precipitación, heliofania, nubosidad
 
Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIA
Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIAReciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIA
Reciclaje -CURSO CLIMATOLOGÍA Y METEREOLOGIA
 
6 precipitacion
6 precipitacion6 precipitacion
6 precipitacion
 
Climatologia
ClimatologiaClimatologia
Climatologia
 
Mapas conceptuales de Metereología
Mapas conceptuales de MetereologíaMapas conceptuales de Metereología
Mapas conceptuales de Metereología
 
Climatologia geral ( luiz andré)
Climatologia geral ( luiz andré)Climatologia geral ( luiz andré)
Climatologia geral ( luiz andré)
 
Precipitacion
PrecipitacionPrecipitacion
Precipitacion
 
Climatologia geográfica
Climatologia geográficaClimatologia geográfica
Climatologia geográfica
 
What's new in hadoop 3.0
What's new in hadoop 3.0What's new in hadoop 3.0
What's new in hadoop 3.0
 
Learn Hadoop Administration
Learn Hadoop AdministrationLearn Hadoop Administration
Learn Hadoop Administration
 
Hadoop Administration pdf
Hadoop Administration pdfHadoop Administration pdf
Hadoop Administration pdf
 
Como se forma la lluvia
Como se forma la lluviaComo se forma la lluvia
Como se forma la lluvia
 
Apache Hadoop 3.0 What's new in YARN and MapReduce
Apache Hadoop 3.0 What's new in YARN and MapReduceApache Hadoop 3.0 What's new in YARN and MapReduce
Apache Hadoop 3.0 What's new in YARN and MapReduce
 
FENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑAFENOMENO DEL NIÑO Y LA NIÑA
FENOMENO DEL NIÑO Y LA NIÑA
 

Ähnlich wie Python 3 + apache hadoop

Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6William Colen
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Desenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando PythonDesenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando PythonFlávio Ribeiro
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
MEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupMEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupAndré Cruz
 
Doctrine 2 camada de persistência para php
Doctrine 2   camada de persistência para phpDoctrine 2   camada de persistência para php
Doctrine 2 camada de persistência para phpFabio B. Silva
 
Explorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open SourceExplorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open SourceRafael Jaques
 
PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011Evaldo Junior
 
OpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlayOpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlayDiego Santos
 
Open ldap criando e explorando um overlay
Open ldap   criando e explorando um overlayOpen ldap   criando e explorando um overlay
Open ldap criando e explorando um overlayMarcelo Fleury
 
Hadoop - TDC 2012
Hadoop - TDC 2012Hadoop - TDC 2012
Hadoop - TDC 2012wchevreuil
 
Extreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe DelphiExtreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe DelphiMario Guedes
 

Ähnlich wie Python 3 + apache hadoop (20)

Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6Processamento Automático da Língua Portuguesa - Campus Party Br 6
Processamento Automático da Língua Portuguesa - Campus Party Br 6
 
Hadoop
HadoopHadoop
Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Linguagem Python
Linguagem PythonLinguagem Python
Linguagem Python
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Desenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando PythonDesenvolvimento de aplicações embarcadas utilizando Python
Desenvolvimento de aplicações embarcadas utilizando Python
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
MEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon MeetupMEO Cloud - Python Lisbon Meetup
MEO Cloud - Python Lisbon Meetup
 
Doctrine 2 camada de persistência para php
Doctrine 2   camada de persistência para phpDoctrine 2   camada de persistência para php
Doctrine 2 camada de persistência para php
 
Explorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open SourceExplorando O Potencial Das Linguagens De Programação Open Source
Explorando O Potencial Das Linguagens De Programação Open Source
 
PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011PHP Turbinado com CodeIgniter - Conisli 2011
PHP Turbinado com CodeIgniter - Conisli 2011
 
OpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlayOpenLDAP, criando e explorando um overlay
OpenLDAP, criando e explorando um overlay
 
Open ldap criando e explorando um overlay
Open ldap   criando e explorando um overlayOpen ldap   criando e explorando um overlay
Open ldap criando e explorando um overlay
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Intro linux
Intro linuxIntro linux
Intro linux
 
Postgres, a "Metamorfose Ambulante"
Postgres, a "Metamorfose Ambulante"Postgres, a "Metamorfose Ambulante"
Postgres, a "Metamorfose Ambulante"
 
Hadoop - TDC 2012
Hadoop - TDC 2012Hadoop - TDC 2012
Hadoop - TDC 2012
 
Drupal + Rex
Drupal + RexDrupal + Rex
Drupal + Rex
 
Extreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe DelphiExtreme Experience 2018 | Python para quem sabe Delphi
Extreme Experience 2018 | Python para quem sabe Delphi
 

Python 3 + apache hadoop