Apresentação de qualificação de mestrado com o título "Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina". Mostra algumas características e resultados do projeto TIC Web e uma proposta de utilização de seus dados em algoritmos de aprendizado de máquina para uma melhor classificação de sítios Web.
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina
1. METODOLOGIA PARA A ANÁLISE DA
QUALIDADE DE WEB SITES BASEADA EM
TÉCNICAS DE APRENDIZADO DE MÁQUINA
Exame de Qualificação em Mestrado Engenharia Elétrica
Área de Concentração: Engenharia de Sistemas Digitais
Orientador: Profa. Dra. Graça Bressan
Heitor de Souza Ganzeli
2. Objetivo
Conclusões Metodologia Indicadores Introdução
Metodologia para aperfeiçoar o processo de
análise de dados sobre a qualidade de
Web sites, mais especificamente, dos dados
extraídos pelo projeto TIC Web
3. Projeto TIC Web
Conclusões Metodologia Indicadores Introdução
• Iniciado em 2009
• Publicação de dados
do domínio .gov.br
em 2010
• Publicação na
WebMedia 2012
5. Diferenciais
Conclusões Metodologia Indicadores Introdução
• Estudo de diversas camadas da Internet
• Foco no uso de padrões abertos
• Análises periódicas
• Indicadores Qualitativos
• Indicadores Quantitativos
8. Exemplos encontrados
Conclusões Metodologia Indicadores Introdução
• Número de sites e páginas
• Quantidade de páginas únicas
• Idade dos documentos
• Tamanho total das páginas
• Tamanho dos arquivos de mídia
• Número de arquivos de mídia
12. Outros indicadores
Sites Páginas
Conclusões Metodologia Indicadores Introdução
número total de páginas tamanho
tamanho total das páginas tamanho total das páginas
quantidade de páginas dinâmicas página dinâmica
quantidade de páginas estáticas Idade
idade da página mais antiga tamanho do conteúdo extraído da página
idade da página mais nova grau de entrada
média das idades das páginas grau de saída
possui arquivo robots.txt válido profundidade
grau de entrada
grau de saída
links internos
profundidade máxima das páginas
grupo em que se encontra na estrutura
macroscópica da Web
14. Exemplos encontrados
Conclusões Metodologia Indicadores Introdução
• Validação de páginas HTML
• Validação de acessibilidade
• Contabilização do WAI
• Avaliação de segurança
• Análise de metadados
16. Aderência à padrões Web
Conclusões Metodologia Indicadores Introdução
Validação HTML
• Universalidade de acesso
• Validador W3C
• Medida da quantidade de erros por página
Validação de Acessibilidade – E-MAG
• Acesso Universal
• ASES
• Erros e Avisos de nível 1, 2 e 3
17. Método
Conclusões Metodologia Indicadores Introdução
• ConNeCTOR
(Convenient Network Characteristics Testing Organized Routines)
• Open Source
• Principais funcionalidades:
• Verificação de suporte à IPv6
• Validação de páginas
• Sincronização de Tempo
http://sf.net/projects/connector-nic
20. Motivação
Conclusões Metodologia Indicadores Introdução
• Rastreamento de incidentes de segurança
• Sistemas de distribuição de conteúdo
• Gerenciadores de arquivos
• Agendadores de eventos
• Criptografia
• Protocolos de comunicação e aplicações de
tempo real
• Sistemas transacionais e bancos de dados
22. Resultados
Sincronização de tempo dos servidores
Conclusões Metodologia Indicadores Introdução
60,00%
50,00%
40,00%
30,00% 2010
2011
20,00%
10,00%
0,00%
sinc 1 sec - 1 - 10 10 - 30 30 min - 1 - 2 h mais de
1 min min min 1h 2h
24. Método e Resultados
Conclusões Metodologia Indicadores Introdução
Possuem endereço IPv6 3
Possuem endereço IPv6 para URL alternativa 2
Respondem à requisições GET 3
Respondem à requisições PING 2
Seu servidor DNS possui endereço IPv6 3
O DNS dos domínios alternativos possuem endereç IPv6 2
26. Motivação
Conclusões Metodologia Indicadores Introdução
• Verificação de tendências servidores
mais utilizados
• Escolha do foco de:
• Projetos
• Tutoriais
• Busca de falhas de segurança
28. Resultados
Conclusões Metodologia Indicadores Introdução
Localização Geográfica dos Servidores
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00% 2010
30,00% 2011
20,00%
10,00%
0,00%
Endereço IP Endereço IP Localização não
localizado no localizado no identificada
Brasil exterior
29. Resultados
Localização dos servidores por seu tipo
Conclusões Metodologia Indicadores Introdução
100,00%
90,00%
80,00%
70,00%
60,00%
50,00% Brasil
40,00% Exterior
30,00%
20,00%
10,00%
0,00%
Apache Microsoft IIS Nginx
33. Processo
Conclusões Metodologia Indicadores Introdução
• Seleção de parâmetros
• Adaptação de parâmetros
• Normalização de Parâmetros
• Priorização
• PCA, particle filtering, linearization
• Clusterização
• K-means, Expectation Maximization
• Visualização
• 2D, 3D
• Análise
34. Exemplo – Seleção de parâmetros
Conclusões Metodologia Indicadores Introdução
• Dados referentes a sites
• Tipo de servidor
• Suporte a IPv6
• Consolidações de dados de páginas
• Quantidade de páginas válidas
• Profundidade média das páginas
• Tamanho médio
35. Exemplo – Adaptação de parâmetros
Conclusões Metodologia Indicadores Introdução
• Tipo de servidor
• String “Apache, IIS, Zope, ...”
• Suporte a IPv6
• Campo único parâmetros relevantes
36. Exemplo - Normalização de Parâmetros
Conclusões Metodologia Indicadores Introdução
• Variáveis com range muito grande podem
enviesar a execução dos algoritmos
• Tamanho total do site
• Diferença de tempo com o UTC
• Normalização da média
• Normalização da variação
𝒙 − 𝑿
𝝈
37. Exemplo - Priorização
Conclusões Metodologia Indicadores Introdução
• Agiliza processamento dos algoritmos de
aprendizado de máquina
• Bastante utilizados em casos de milhares
de parâmetros
• No caso foram utilizados 48 parâmetros
para definir cada site
38. Exemplo – Clusterização
Conclusões Metodologia Indicadores Introdução
• Escolha do número de clusters
• Escolha dos centroides iniciais
• Escolha randômica
• Avalição da função de custo múltiplos testes
• 3 clusters, comparação da melhor opção
entre 1000 execuções
41. Exemplo - Análise
Conclusões Metodologia Indicadores Introdução
• Desnormalização dos centroides
encontrados
• Quais diferenças são perceptíveis
• Diferenças estão relacionadas aos
parâmetros que indicam qualidade
43. Sumarizando
Conclusões Metodologia Indicadores Introdução
• Extensão do projeto TIC Web
• Foco na análise de dados
• Transição entre estudo de domínios para
estudo de características de sites
44. Também...
Conclusões Metodologia Indicadores Introdução
• Aprofundamento no estudo dos
indicadores
• Método computacionalmente inteligente
para a seleção de parâmetros
• Construção de metodologia para a
avaliação da qualidade de um site
45. Próximos Passos
Conclusões Metodologia Indicadores Introdução
1. Aprofundamento teórico em técnicas de
aprendizado de máquina
2. Seleção e adaptação dos parâmetros
3. Análise dos algoritmos e resultados,
conseguidos com diferentes técnicas
4. Análise das categorias de sites obtidas
46. Cronograma
Conclusões Metodologia Indicadores Introdução
tarefa/sema 1 1 1 1 1 1 1 1 1 1 2
na 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0
Fase 1
Fase 2
Fase 3
Fase 4
Dissertação
Artigo
47. Conclusões
Conclusões Metodologia Indicadores Introdução
• Área de pesquisa abrangente, com riqueza em
trabalhos acadêmicos
• Definição de métodos e ferramentas de estudo de
domínios Web
• Método para a classificação da qualidade de um sites
com base em dados aprendidos
49. Referências Bibliográficas
• 7498-1:1994 ISO/IEC. Information technology - Open Systems Interconnection - Basic Reference Model: The Basic
Conclusões Metodologia Indicadores Introdução
Model. . [S.l.]: International Organization for Standardization. Disponível em: <http://www.iso.org/>. , 1994
• BACH, C. F. et al. Diretrizes de acessibilidade: uma abordagem comparativa entre WCAG e E-MAG. Revista Eletrônica
de Sistemas de Informação ISSN 1677-3071, v. 1, n. 1, p. 14, 2009. Disponível em:
<http://revistas.facecla.com.br/index.php/reinfo/article/view/271/233>.
• BAILEY, P.; CRASWELL, N.; HAWKING, D. Engineering a multi-purpose test collection for Web retrieval experiments.
Information Processing & Management, v. 39, n. 6, p. 853-871, nov. 2003. Disponível em:
<http://linkinghub.elsevier.com/retrieve/pii/S0306457302000845>. Acesso em: 16 jan. 2013.
• BAUER, C.; SCHARL, A. Quantitive evaluation of Web site content and structure. Internet Reseach, v. 10, n. 1, p. 31-44,
2000.
• CAFARELLA, M.; CUTTING, D. Building Nutch. Queue, v. 2, n. 2, p. 54, 1 abr. 2004. Disponível em:
<http://dl.acm.org/ft_gateway.cfm?id=988408&type=html>. Acesso em: 7 nov. 2011.
• CALDWELL, B. et al. Understanding WCAG 2.0. Group. [S.l: s.n.]. Disponível em:
<http://www.w3.org/TR/UNDERSTANDING-WCAG20/>. , 2008
• CANALI, D.; COVA, M.; VIGNA, G. Prophiler : A Fast Filter for the Large-Scale Detection of Malicious Web Pages
Categories and Subject Descriptors. 2011, Hyderabad, India: ACM, 2011. p. 197-206. Disponível em:
<http://delivery.acm.org/10.1145/1970000/1963436/p197-
canali.pdf?ip=143.107.252.164&CFID=31764117&CFTOKEN=39507299&__acm__=1310326474_ffaa331fbc24e4c4ef4fd
acb5d2cbd0b>.
• CASTILLO, C. Effective web crawling. ACM SIGIR Forum, v. 39, n. 1, p. 55, 1 jun. 2005. Disponível em:
<http://portal.acm.org/citation.cfm?doid=1067268.1067287>.
• CASTILLO, C. et al. Um novo retrato da Web brasileira. 2005, [S.l: s.n.], 2005. p. 2005-2017. Disponível em:
<http://chato.cl/papers/modesto_05_novo_retrato_web_brasileira.pdf>.
• CASTILLO, C.; STAROSTA, B.; SYDOW, M. Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web.
Studia Informatica, v. 1, n. 8, p. 43-73, 2007. Disponível em: <http://www.chato.cl/papers/css_2007_polish_web.pdf>.
• CHEN, S.; HONG, D.; SHEN, V. Y. An Experimental Study on Validation Problems with Existing HTML Webpages. 2005,
[S.l: s.n.], 2005.
51. Referências Bibliográficas
• LAWRENCE, S.; GILES, C. L. Accessibility of information on the web. Nature, v. 400, n. 6740, p. 107-9, 8 jul. 1999.
Conclusões Metodologia Indicadores Introdução
Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/10428673>.
• MENDES, E.; MOSLEY, N.; COUNSELL, S. Comparison of Web size measures for predicting Web design and authoring
effort. 2002, [S.l: s.n.], 2002. p. 86-92.
• MINISTÉRIO DO PLANEJAMENTO. Padrões de Interoperabilidade de Governo Eletrônico. Disponível em:
<http://eping.governoeletronico.gov.br/>. Acesso em: 22 maio 2012.
• MINISTÉRIO DO PLANEJAMENTO; SECRETARIA DE LOGÍSTICA E TECNOLOGIA DA INFORMAÇÃO. Modelo de
Acessibilidade em Governo Eletrônico. Brasília: MP, SLTI, 2011, 2011. p. 69
• MITCHELL, T. M. Machine Learning. McGraw Hill: McGraw-Hill, 1997. p. 432Disponível em:
<http://www.ncbi.nlm.nih.gov/pubmed/21452981>.
• MOHR, G. et al. An Introduction to Heritrix: An Open Source Archival Quality Web Crawler. 2004, [S.l: s.n.], 2004.
Disponível em:
<http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:An+Introduction+to+Heritrix:+An+Open+Source+Archiv
al+Quality+Web+Crawler#0>.
• MULLER, A.; SCHWARZ, M. HTML Validation of Context-Free Languages. n. 274, p. 426-440, 2011.
• OFUONYE, E. et al. Prevalence and classification of web page defects. Online Information Review, v. 34, n. 1, p. 160-174,
2010.
• PALMER, J. W. Performance Metrics. Information Systems Research, v. 13, n. 2, p. 151-167, 2002.
• REESE, W. Nginx: the high-performance web server and reverse proxy. Linux Journal, v. 2008, n. 173, p. 2, 1 set. 2008.
Disponível em: <http://dl.acm.org/ft_gateway.cfm?id=1412204&type=html>. Acesso em: 8 nov. 2011.
• ROSE, G. M.; STRAUB, D. W. The Effect of Download Time on Consumer Attitude Toward the e-Service Retailer. e-
Service Journal, v. 1, n. 1, p. 55-76, 2001. Disponível em:
<http://muse.jhu.edu/content/crossref/journals/eservice_journal/v001/1.1rose.html>. Acesso em: 26 jan. 2013.
• RYBACZYK, P. Expert Network Time Protocol. New York, New York, USA: Apress, 2005.
• SAVOIA, A. Web Page Response Time 101. Software Testing and Quality Engineering Magazine, n. August, p. 48–53,
2001.
52. Referências Bibliográficas
• SLOAN, D. et al. Accessible accessibility. Proceedings on the 2000 conference on Universal Usability - CUU ’00, p. 96-
Conclusões Metodologia Indicadores Introdução
101, 2000. Disponível em: <http://portal.acm.org/citation.cfm?doid=355460.355480>.
• TANENBAUM, A. S. Computer networks. [S.l.]: Prentice Hall PTR, 2003. p. 891Disponível em:
<http://books.google.com/books?id=DYQoAQAAMAAJ&pgis=1>. Acesso em: 7 nov. 2011.
• TOLOSA, G. et al. Characterization of the Argentinian Web. Cybermetrics: International Journal of Scientometrics,
Informetrics and Bibliometrics, v. 11, n. 1, 2007. Disponível em:
<http://dialnet.unirioja.es/servlet/articulo?codigo=2390583&info=resumen>. Acesso em: 7 nov. 2011.
• W3C. The W3C Markup Validation Service. Disponível em: <http://validator.w3.org/>. Acesso em: 3 nov. 2011.
• YOO, B.; DONTHU, N. Developing a Scale to Measure the Perceived Quality of An Internet Shopping Site ( SITEQUAL ).
Quarterly Journal of Electronic Commerce, v. 2, n. 1, p. 31-47, 2001.
•