1. UNIVERSIDADE ESTADUAL PAULISTA
“JÚLIO DE MESQUITA FILHO”
FACULDADE DE FILOSOFIA E CIÊNCIAS
DE MARÍLIA
Visualização de
Dados
Aluno: Msc. Lisandro Rogério Modesto
Disciplina: Aspectos Tecnológicos do Acesso a Dados
Abertos
Professor: Dr. Ricardo César Gonçalves Santana
2. Assuntos
• Capítulo 9:
– Aquisição de Dados.
• Capítulo 10:
– Análise / Tratamento de Dados.
3. Aquisição de Dados
• Primeiro passo para visualização de dados: colocá-
los à sua disposição e na sua aplicação.
• Fontes típicas de dados:
– Arquivo em um disco;
– Um fluxo de uma rede;
– Um sinal digitalizado (leituras, por exemplo,
áudio, vídeo ou sensor);
– Resultado: CONFUSÃO !!!
4. Aquisição de Dados
• Perguntas interessantes:
– Como processar semanas de vídeo de
vigilância?
– Como adquirir dados de uma reunião de uma
hora de duração, que envolveu uma discussão
verbal, desenhos em um quadro branco e
anotações feitas pelos participantes ?
5. Dificuldades para a Aquisição de Dados
• Encontrar uma fonte de dados segura, boa e
confiável ou gerar seus próprios dados.
• Obter os direitos de utilização dos dados.
• Criar meios alternativos para extração de dados de
uma página web ou de outra fonte que não foi
criada para esse fim.
• Utilizar dados que estão em constantes mutações
ou grande volume de dados.
• Solução: utilização de linguagens de programação
e algorítmos para higienização dos dados para
futuro processamento.
6. Como encontrar Dados
• Utilizar uma boa ferramenta e um bom motor de
busca.
• Especificação correta dos termos para a busca.
• Exemplo 1: "download 5ª sinfonia de Betoven" .
– Correto: Download 5ª Sinfonia de Beethoven
• Exemplo 2: "as estatísticas da fome do mundo
download“.
• Exemplo 3: "estatísticas mundiais xls fome“.
• Para que os dados possam ser utilizados, o
produtor deve disponibilizar em formatos
acessíveis.
7. Ética na Aquisição de dados
• Na busca de dados é importante saber o terreno
em que se pisa, pois pode se sofrer penas leves ou
até mesmo prisão.
• Situação de risco: Baixar muitas imagens Google
Maps por vários dias resulta em IP banido ou
restrito.
11. Ferramentas para Aquisição de dados na
Internet
• Métodos:
– loadStrings ();
– loadBytes ();
– loadImage ().
– Protocolos: http, https, FTP, etc.
• Manipulação direta de links:
– Salvar Destino Como: Internet Explorer;
– Salvar link como: Firefox ou Chrome;
– Salvar como: Safari.
12. Formas de Manipulação Direta
• Wget e Curl:
– http://www.oreilly.com/catalog/covers/978059651
5935_cat.gif
• WebCopier
• Extrator de E-mail
13. Manipulação de Formulários WEB
• Consultas de dados usando formulários WEB.
• Problema: em alguns casos não é permitida busca
diretamente no código.
• Exemplos:
– http://www.olympic.org/uk/athletes/
– http://www.cipedya.com/web/FileDownload.aspx
?IDFile=155453
– http://support.acer-euro.com/drivers/
– http://support.acer-euro.com/drivers/ftp/ftp.html
14. Manipulação de Banco de Dados
• Banco de dados (ou base de dados), é um
conjunto de registros dispostos em estrutura
regular que possibilita a reorganização dos
mesmos e produção de informação. Um banco de
dados normalmente agrupa registros utilizáveis
para um mesmo fim. (Wikipedia)
• Situação: uma tabela de “endereços” contendo
colunas para primeiro e último nome, rua, cidade,
estado e CEP.
• Exemplos:
– SELECT * FROM enderecos WHERE PrimeiroNome=‘Ricardo';
15. Análise / Tratamento de Dados
• A análise de dados converte um fluxo de dados
bruto em uma estrutura que pode ser manipulado
pelo software / máquina.
• A Visualização de dados está intimamente ligada à
Aquisição de Dados e Análise de Dados.
• Problema: Aquisição de determinada massa de
dados em uma fonte que não está sob controle.
Após obtidos os dados gasta-se muito tempo
tentando descobrir como usar os dados que foram
adquiridos.
16. Cenários para Análise de Dados
• Análise simples: dados estáveis / sem mutação.
– Procura de "caminho" de dados.
• Análise de Base: utilizado para códigos não muito
grandes, por isso pode ser implementado através
da WEB.
• Análise completa da API (Interface de
Programação de Aplicações): análise completa
envolvendo o desenvolvimento de aplicações
capazes de “LER” todo o código a ser analisado.
17. Ferramentas para Obtenção de Dados
• Windows:
– UltraEdit;
– TextPad;
– HexEdit;
– HexWorkshop.
• Mac OS X:
– TextWrangler;
– HexFiend.
18. Formato de Dados
• Texto (ideal);
• Separação por tabulação (TSV);
• Separação por vírgulas (CSV);
• Estrutura linhas X colunas (BD / Excel);
• Linguagens de Marcação de Texto (HTML, XML,
etc).
19. Formato de Dados
• Formatos:
– XML;
– XLS;
– DOC;
– HTML;
– DOC;
– TXT;
– HTML;
– Etc.
25. Referências
• CAPLAN, Priscilla. Metadata fundamentals for all librarians. Chicago:
American Library Association, 2003.
• FÁVERO, Luiz Paulo; BELFIORE, Patrícia; SILVA, Fabiana Lopes da;
CHAN, Betty Lilian. Análise de Dados: Modelagem Multivalorada para
Tomada de Decisões. Campus: São Paulo, SP. 2009.
• FRY, Ben. Visualizing Data: exploring and explaining data with the
processing environment. O'Reilly: Sebastopol, CA. 2007.
<Visualizing_Data.pdf>
• GARFINKEL, Simson. Database Nation: the death of privacy in the 21st
century. O'Reilly: Sebastopol, CA. 2001. ,<Database_Nation.pdf>
• HAYNES, David. Metadata for information management and retrieval.
London: Facet Publishing, 2004.
• ILIINSKY, Noah. On Beauty. Cap. 1. In STEELE, Julie; ILIINSK Noah.
Beautiful Visualization: looking at data through the eyes of experts. O'Reilly:
Sebastopol, CA. 2010. <Beautiful_Visualization.pdf>
• MINSKY, M. A framework to represent knowledge. In: In The Psychology
of Computer Vision, 1975. Anais. McGraw-Hill, 1975. p.211.277.