5. Metereologia
● Cruzamento de duas bases de dados
● Atualizadas de 15 em 15 minutos
● Durante 100 anos
● Tabelas xls
● Mudança de padrão com o passar dos anos
6. Linguística de Corpus [0]
Linguística de corpus ocupa-se ela da coleta e da exploração de corpora, ou
conjutos de dados linguísticos textuais coletados criteriosamente, com o
propósito de servirem para a pesquisa de uma língua ou variedade linguística.
Como tal, dedica-se à exploração da linguagem por meio de evidências
empíricas, extraídas de computadores
(Sardinha, 2014)
7. Linguística de Corpus [1]
● O que esperar?
○ Não é PLN
○ Não é mineração de dados
○ Não é aprendizado de máquina
8. Linguística de Corpus [2]
Operações básicas esperadas LC (Mike Scott):
● Contagem de palavras (WordList)
● Concordância (Concord)
● Comparação (KeyWords)
● Etiquetagem (Tagging)
13. Sistema de arquivos distribuído
● Google File System
○ Particiona arquivos em partes de 64mb
○ Três cópias de cada replicação
○ Arquitetura ‘Master - slave’
16. Disco
● Framework para processamento distribuído
● Feito em Python
● Projeto ‘Jovem’
● “Não tem a melhor documentação do
mundo”
17. Apache Hadoop [0]
● Framework livre
● Escrito em Java
● Adaptação do Google File System (GFS)
● Adaptação do algorítimo de MapReduce
● “Pode ser programado em qualquer
linguagem” - Streaming
26. MapReduceLib [0]
● Uma maneira de não mexer mais com Shell e
Java
● Uma abstração simples com um único import
● Funcionar bem com o modo interativo
● Acessar o sistema de arquivos distribuído
● Executar funções administrativas
● Fosse compatível com Spark