SlideShare uma empresa Scribd logo
1 de 53
Baixar para ler offline
METODOLOGIA PARA A ANÁLISE DA
 QUALIDADE DE WEB SITES BASEADA EM
TÉCNICAS DE APRENDIZADO DE MÁQUINA

       Exame de Qualificação em Mestrado Engenharia Elétrica

       Área de Concentração: Engenharia de Sistemas Digitais
                       Orientador: Profa. Dra. Graça Bressan




                                     Heitor de Souza Ganzeli
Objetivo
Conclusões Metodologia Indicadores Introdução




                                                Metodologia para aperfeiçoar o processo de
                                                 análise de dados sobre a qualidade de
                                                Web sites, mais especificamente, dos dados
                                                      extraídos pelo projeto TIC Web
Projeto TIC Web
Conclusões Metodologia Indicadores Introdução




                                                • Iniciado em 2009


                                                • Publicação de dados
                                                  do domínio .gov.br
                                                  em 2010


                                                • Publicação na
                                                  WebMedia 2012
Objetivos
Conclusões Metodologia Indicadores Introdução




                                                • Estudo da Web Brasileira
                                                • Estudo da Web Governamental Brasileira
Diferenciais
Conclusões Metodologia Indicadores Introdução




                                                • Estudo de diversas camadas da Internet
                                                • Foco no uso de padrões abertos
                                                • Análises periódicas
                                                • Indicadores Qualitativos
                                                • Indicadores Quantitativos
Agenda
Conclusões Metodologia Indicadores Introdução




                                                • INDICADORES
                                                 • Qualitativos
                                                 • Quantitativos

                                                • METODOLOGIA
                                                • CRONOGRAMA e CONCLUSÕES
Conclusões Metodologia Indicadores Introdução




                                      Indicadores


            PESQUISAS QUANTITATIVAS
Exemplos encontrados
Conclusões Metodologia Indicadores Introdução




                                                • Número de sites e páginas
                                                • Quantidade de páginas únicas

                                                • Idade dos documentos

                                                • Tamanho total das páginas

                                                • Tamanho dos arquivos de mídia

                                                • Número de arquivos de mídia
Conclusões Metodologia Indicadores Introdução




                             Indicadores


            TAMANHO DA WEB
Motivação
Conclusões Metodologia Indicadores Introdução




                                                • Estudos evolutivos

                                                • Realização de comparações entre
                                                  domínios

                                                • Base para a realização de outras análises
Resultados
Conclusões Metodologia Indicadores Introdução




                                                Volume (GB)      Qt sites (mil)      Qt paginas
                                                         185                         (milhões)
                                                                           18,2
                                                                                              6,9
                                                148                                6,3
                                                                11,8




                                                2010     2011   2010        2011   2010       2011
Outros indicadores
                                                              Sites                                 Páginas
Conclusões Metodologia Indicadores Introdução




                                                      número total de páginas                         tamanho

                                                     tamanho total das páginas                tamanho total das páginas

                                                  quantidade de páginas dinâmicas                  página dinâmica

                                                   quantidade de páginas estáticas                      Idade

                                                     idade da página mais antiga        tamanho do conteúdo extraído da página

                                                     idade da página mais nova                     grau de entrada

                                                    média das idades das páginas                    grau de saída

                                                   possui arquivo robots.txt válido                 profundidade

                                                          grau de entrada

                                                           grau de saída

                                                            links internos

                                                  profundidade máxima das páginas
                                                grupo em que se encontra na estrutura
                                                       macroscópica da Web
Conclusões Metodologia Indicadores Introdução




                                     Indicadores


            PESQUISAS QUALITATIVAS
Exemplos encontrados
Conclusões Metodologia Indicadores Introdução




                                                • Validação de páginas HTML

                                                • Validação de acessibilidade

                                                • Contabilização do WAI

                                                • Avaliação de segurança

                                                • Análise de metadados
Conclusões Metodologia Indicadores Introdução




                                   Indicadores


            VALIDAÇÃO DE PÁGINAS
Aderência à padrões Web
Conclusões Metodologia Indicadores Introdução




                                                Validação HTML
                                                • Universalidade de acesso
                                                • Validador W3C
                                                • Medida da quantidade de erros por página
                                                Validação de Acessibilidade – E-MAG
                                                • Acesso Universal
                                                • ASES
                                                • Erros e Avisos de nível 1, 2 e 3
Método
Conclusões Metodologia Indicadores Introdução




                                                • ConNeCTOR
                                                  (Convenient Network Characteristics Testing Organized Routines)

                                                • Open Source

                                                • Principais funcionalidades:
                                                  •   Verificação de suporte à IPv6
                                                  •   Validação de páginas
                                                  •   Sincronização de Tempo



                                                      http://sf.net/projects/connector-nic
Resultados
Conclusões Metodologia Indicadores Introdução



                                                         Validação de páginas
                                                7,00%

                                                6,00%

                                                5,00%

                                                4,00%
                                                                                             2010
                                                3,00%                                        2011
                                                2,00%

                                                1,00%

                                                0,00%
                                                        HTML           Acessibilidade
Conclusões Metodologia Indicadores Introdução




                                        Indicadores


            SINCRONIZAÇÃO DE RELÓGIOS
Motivação
Conclusões Metodologia Indicadores Introdução




                                                • Rastreamento de incidentes de segurança
                                                • Sistemas de distribuição de conteúdo
                                                • Gerenciadores de arquivos
                                                • Agendadores de eventos
                                                • Criptografia
                                                • Protocolos de comunicação e aplicações de
                                                  tempo real
                                                • Sistemas transacionais e bancos de dados
Métodos
Conclusões Metodologia Indicadores Introdução




                                                HTTP          NTP
                                                 95% dos        7% dos
                                                   sites         sites


                                                Precisão de   Precisão de
                                                 segundos     μ segundos
Resultados
                                                          Sincronização de tempo dos servidores
Conclusões Metodologia Indicadores Introdução




                                                60,00%


                                                50,00%


                                                40,00%


                                                30,00%                                                            2010
                                                                                                                  2011
                                                20,00%


                                                10,00%


                                                0,00%
                                                         sinc   1 sec - 1 - 10 10 - 30 30 min - 1 - 2 h mais de
                                                                 1 min   min    min      1h              2h
Conclusões Metodologia Indicadores Introdução




            IPV6
                          Indicadores
Método e Resultados
Conclusões Metodologia Indicadores Introdução




                                                Possuem endereço IPv6                                        3

                                                Possuem endereço IPv6 para URL alternativa                   2

                                                Respondem à requisições GET                                  3

                                                Respondem à requisições PING                                 2

                                                Seu servidor DNS possui endereço IPv6                        3



                                                O DNS dos domínios alternativos possuem endereç IPv6         2
Conclusões Metodologia Indicadores Introdução




                               Indicadores


            TIPO DE SERVIDOR
Motivação
Conclusões Metodologia Indicadores Introdução




                                                • Verificação de tendências servidores
                                                  mais utilizados

                                                • Escolha do foco de:
                                                  • Projetos

                                                  • Tutoriais

                                                  • Busca de falhas de segurança
Resultados
Conclusões Metodologia Indicadores Introdução




                                                70,00%

                                                60,00%

                                                50,00%

                                                40,00%
                                                                                                       2010
                                                                                                       2011
                                                30,00%

                                                20,00%

                                                10,00%

                                                0,00%
                                                         Apache   Microsoft   Zope   Nginx   Outros
                                                                     IIS
Resultados
Conclusões Metodologia Indicadores Introdução


                                                          Localização Geográfica dos Servidores
                                                100,00%
                                                 90,00%
                                                 80,00%
                                                 70,00%
                                                 60,00%
                                                 50,00%
                                                 40,00%                                                      2010
                                                 30,00%                                                      2011
                                                 20,00%
                                                 10,00%
                                                  0,00%
                                                            Endereço IP     Endereço IP    Localização não
                                                           localizado no   localizado no     identificada
                                                               Brasil         exterior
Resultados
                                                      Localização dos servidores por seu tipo
Conclusões Metodologia Indicadores Introdução




                                                100,00%
                                                90,00%
                                                80,00%
                                                70,00%
                                                60,00%
                                                50,00%                                       Brasil
                                                40,00%                                       Exterior

                                                30,00%
                                                20,00%
                                                10,00%
                                                 0,00%
                                                          Apache   Microsoft IIS   Nginx
Conclusões Metodologia Indicadores Introdução




              Metodologia
Aprendizado de máquina
Conclusões Metodologia Indicadores Introdução




                                                                      Não
                                                Supervisionado
                                                                 Supervisionado
Conclusões Metodologia Indicadores Introdução




                   • R
                                       • Weka

                            • Octave
                                                Ferramentas
Processo
Conclusões Metodologia Indicadores Introdução


                                                • Seleção de parâmetros


                                                • Adaptação de parâmetros


                                                • Normalização de Parâmetros


                                                • Priorização
                                                  • PCA, particle filtering, linearization

                                                • Clusterização
                                                  • K-means, Expectation Maximization

                                                • Visualização
                                                  • 2D, 3D


                                                • Análise
Exemplo – Seleção de parâmetros
Conclusões Metodologia Indicadores Introdução




                                                • Dados referentes a sites
                                                  • Tipo de servidor
                                                  • Suporte a IPv6


                                                • Consolidações de dados de páginas
                                                  • Quantidade de páginas válidas
                                                  • Profundidade média das páginas
                                                  • Tamanho médio
Exemplo – Adaptação de parâmetros
Conclusões Metodologia Indicadores Introdução




                                                • Tipo de servidor
                                                  • String  “Apache, IIS, Zope, ...”



                                                • Suporte a IPv6
                                                  • Campo único  parâmetros relevantes
Exemplo - Normalização de Parâmetros
Conclusões Metodologia Indicadores Introdução




                                                • Variáveis com range muito grande podem
                                                  enviesar a execução dos algoritmos
                                                  • Tamanho total do site
                                                  • Diferença de tempo com o UTC


                                                • Normalização da média
                                                • Normalização da variação

                                                                  𝒙 − 𝑿
                                                                     𝝈
Exemplo - Priorização
Conclusões Metodologia Indicadores Introdução




                                                • Agiliza processamento dos algoritmos de
                                                  aprendizado de máquina

                                                • Bastante utilizados em casos de milhares
                                                  de parâmetros

                                                • No caso foram utilizados 48 parâmetros
                                                  para definir cada site
Exemplo – Clusterização
Conclusões Metodologia Indicadores Introdução




                                                • Escolha do número de clusters

                                                • Escolha dos centroides iniciais
                                                  • Escolha randômica
                                                  • Avalição da função de custo múltiplos testes


                                                • 3 clusters, comparação da melhor opção
                                                  entre 1000 execuções
Conclusões Metodologia Indicadores Introdução
                                                Exemplo – Visualização – PCA 2 dimensões
Conclusões Metodologia Indicadores Introdução
                                                Exemplo – Visualização – PCA 3 dimensões
Exemplo - Análise
Conclusões Metodologia Indicadores Introdução




                                                • Desnormalização dos centroides
                                                  encontrados

                                                • Quais diferenças são perceptíveis

                                                • Diferenças estão relacionadas aos
                                                  parâmetros que indicam qualidade
Conclusões Metodologia Indicadores Introdução




  Cronograma e Conclusões
Sumarizando
Conclusões Metodologia Indicadores Introdução




                                                • Extensão do projeto TIC Web



                                                • Foco na análise de dados



                                                • Transição entre estudo de domínios para
                                                  estudo de características de sites
Também...
Conclusões Metodologia Indicadores Introdução




                                                • Aprofundamento no estudo dos
                                                  indicadores

                                                • Método computacionalmente inteligente
                                                  para a seleção de parâmetros

                                                • Construção de metodologia para a
                                                  avaliação da qualidade de um site
Próximos Passos
Conclusões Metodologia Indicadores Introdução




                                                1. Aprofundamento teórico em técnicas de
                                                   aprendizado de máquina

                                                2. Seleção e adaptação dos parâmetros

                                                3. Análise dos algoritmos e resultados,
                                                   conseguidos com diferentes técnicas

                                                4. Análise das categorias de sites obtidas
Cronograma
Conclusões Metodologia Indicadores Introdução




                                                tarefa/sema                     1 1 1 1 1 1 1 1 1 1 2
                                                na            1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0

                                                Fase 1

                                                Fase 2

                                                Fase 3

                                                Fase 4




                                                Dissertação

                                                Artigo
Conclusões
Conclusões Metodologia Indicadores Introdução




                                                •   Área de pesquisa abrangente, com riqueza em
                                                    trabalhos acadêmicos



                                                •   Definição de métodos e ferramentas de estudo de
                                                    domínios Web



                                                •   Método para a classificação da qualidade de um sites
                                                    com base em dados aprendidos
Obrigado !
                                                                           Perguntas?
Conclusões Metodologia Indicadores Introdução




                                                             Contato:
                                                     heitor.ganzeli@usp.br
                                                        gbressan@larc.usp.br


                                                               Slides:
                                                http://www.slideshare.net/heitorganzeli
Referências Bibliográficas
                                                •   7498-1:1994 ISO/IEC. Information technology - Open Systems Interconnection - Basic Reference Model: The Basic
Conclusões Metodologia Indicadores Introdução


                                                    Model. . [S.l.]: International Organization for Standardization. Disponível em: <http://www.iso.org/>. , 1994
                                                •   BACH, C. F. et al. Diretrizes de acessibilidade: uma abordagem comparativa entre WCAG e E-MAG. Revista Eletrônica
                                                    de Sistemas de Informação ISSN 1677-3071, v. 1, n. 1, p. 14, 2009. Disponível em:
                                                    <http://revistas.facecla.com.br/index.php/reinfo/article/view/271/233>.
                                                •   BAILEY, P.; CRASWELL, N.; HAWKING, D. Engineering a multi-purpose test collection for Web retrieval experiments.
                                                    Information Processing & Management, v. 39, n. 6, p. 853-871, nov. 2003. Disponível em:
                                                    <http://linkinghub.elsevier.com/retrieve/pii/S0306457302000845>. Acesso em: 16 jan. 2013.
                                                •   BAUER, C.; SCHARL, A. Quantitive evaluation of Web site content and structure. Internet Reseach, v. 10, n. 1, p. 31-44,
                                                    2000.
                                                •   CAFARELLA, M.; CUTTING, D. Building Nutch. Queue, v. 2, n. 2, p. 54, 1 abr. 2004. Disponível em:
                                                    <http://dl.acm.org/ft_gateway.cfm?id=988408&type=html>. Acesso em: 7 nov. 2011.
                                                •   CALDWELL, B. et al. Understanding WCAG 2.0. Group. [S.l: s.n.]. Disponível em:
                                                    <http://www.w3.org/TR/UNDERSTANDING-WCAG20/>. , 2008
                                                •   CANALI, D.; COVA, M.; VIGNA, G. Prophiler : A Fast Filter for the Large-Scale Detection of Malicious Web Pages
                                                    Categories and Subject Descriptors. 2011, Hyderabad, India: ACM, 2011. p. 197-206. Disponível em:
                                                    <http://delivery.acm.org/10.1145/1970000/1963436/p197-
                                                    canali.pdf?ip=143.107.252.164&CFID=31764117&CFTOKEN=39507299&__acm__=1310326474_ffaa331fbc24e4c4ef4fd
                                                    acb5d2cbd0b>.
                                                •   CASTILLO, C. Effective web crawling. ACM SIGIR Forum, v. 39, n. 1, p. 55, 1 jun. 2005. Disponível em:
                                                    <http://portal.acm.org/citation.cfm?doid=1067268.1067287>.
                                                •   CASTILLO, C. et al. Um novo retrato da Web brasileira. 2005, [S.l: s.n.], 2005. p. 2005-2017. Disponível em:
                                                    <http://chato.cl/papers/modesto_05_novo_retrato_web_brasileira.pdf>.
                                                •   CASTILLO, C.; STAROSTA, B.; SYDOW, M. Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web.
                                                    Studia Informatica, v. 1, n. 8, p. 43-73, 2007. Disponível em: <http://www.chato.cl/papers/css_2007_polish_web.pdf>.
                                                •   CHEN, S.; HONG, D.; SHEN, V. Y. An Experimental Study on Validation Problems with Existing HTML Webpages. 2005,
                                                    [S.l: s.n.], 2005.
Referências Bibliográficas
                                                •   COVA, M.; KRUEGEL, C.; VIGNA, G. Detection and analysis of drive-by-download attacks and malicious JavaScript code.
Conclusões Metodologia Indicadores Introdução


                                                    Proceedings of the 19th international conference on World wide web - WWW ’10, p. 281, 2010. Disponível em:
                                                    <http://portal.acm.org/citation.cfm?doid=1772690.1772720>.
                                                •   DARDAILLER, D. W3C and Open Standard. Disponível em: <http://www.w3.org/2005/09/dd-osd.html>. Acesso em: 9 dez.
                                                    2011.
                                                •   DEERING, S.; HINDEN, R. Internet Protocol, Version 6 (IPv6) Specification. RFC 2460. [S.l.]: IETF. Disponível em:
                                                    <http://www.ietf.org/rfc/rfc2460.txt>. , 1998
                                                •   EDWARD, T. O.; LAVOIE, B. F.; PATRICK, D. Web Characterization Project. Journal of Library Administration, Artigo
                                                    apresenta interessante comparação entre metadados na home page e em outras páginas internas, v. 34, n. 3-4, p. 359-
                                                    374, 2001.
                                                •   EPPLER, M. J.; MUENZENMAYER, P. Measuring Information Quality in The Web Context: A surve of State-of-the-Art
                                                    Instruments and an Application Methodology. 2002, [S.l: s.n.], 2002. p. 187-196.
                                                •   FREIRE, A. P.; CASTRO, M. DE; FORTES, R. P. DE M. Accessibility of Brazilian state government websites: a
                                                    quantitative analysis between 1996 and 2007. Revista de Administração Pública, v. 43, n. 2, p. 395-414, abr. 2009.
                                                    Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-
                                                    76122009000200006&lng=en&nrm=iso&tlng=pt>. Acesso em: 7 nov. 2011.
                                                •   GANZELI, H. D. S.; MOREIRAS, A. M.; BRESSSAN, G. ICT Web : Analysis of the Brazilian Governmental Web. 2012,
                                                    São Paulo - SP, Brazil: ACM New York, NY, USA ©2012, 2012. p. 383-386.
                                                •   GROUP, N. W. Hypertext Transfer Protocol -- HTTP/1.1. . [S.l: s.n.]. , 1999
                                                •   HENRY, S. L. Introduction to Web Accessibility. Journal of Web Engineering. [S.l: s.n.]. Disponível em:
                                                    <http://www.w3.org/WAI/intro/accessibility.php>. , 2006
                                                •   HTML Tidy Project. Disponível em: <http://tidy.sourceforge.net/>. Acesso em: 22 jan. 2013.
                                                •   HULL, L. Accessibility: it’s not just for disabilities any more. interactions, v. 11, n. 2, p. 36-41, 2004. Disponível em:
                                                    <http://doi.acm.org/10.1145/971258.971270>.
                                                •   KATERATTANAKUL, P.; SIAU, K. MEASURING INFORMATION QUALITY OF WEB SITES : DEVELOPMENT OF AN
                                                    INSTRUMENT. 1999, Charlotte, North Carolina, USA: Association for Information Systems, 1999. p. 279-285. Disponível
                                                    em: <http://dl.acm.org/citation.cfm?id=352925.352951>.
Referências Bibliográficas
                                                •   LAWRENCE, S.; GILES, C. L. Accessibility of information on the web. Nature, v. 400, n. 6740, p. 107-9, 8 jul. 1999.
Conclusões Metodologia Indicadores Introdução


                                                    Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/10428673>.
                                                •   MENDES, E.; MOSLEY, N.; COUNSELL, S. Comparison of Web size measures for predicting Web design and authoring
                                                    effort. 2002, [S.l: s.n.], 2002. p. 86-92.
                                                •   MINISTÉRIO DO PLANEJAMENTO. Padrões de Interoperabilidade de Governo Eletrônico. Disponível em:
                                                    <http://eping.governoeletronico.gov.br/>. Acesso em: 22 maio 2012.
                                                •   MINISTÉRIO DO PLANEJAMENTO; SECRETARIA DE LOGÍSTICA E TECNOLOGIA DA INFORMAÇÃO. Modelo de
                                                    Acessibilidade em Governo Eletrônico. Brasília: MP, SLTI, 2011, 2011. p. 69
                                                •   MITCHELL, T. M. Machine Learning. McGraw Hill: McGraw-Hill, 1997. p. 432Disponível em:
                                                    <http://www.ncbi.nlm.nih.gov/pubmed/21452981>.
                                                •   MOHR, G. et al. An Introduction to Heritrix: An Open Source Archival Quality Web Crawler. 2004, [S.l: s.n.], 2004.
                                                    Disponível em:
                                                    <http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:An+Introduction+to+Heritrix:+An+Open+Source+Archiv
                                                    al+Quality+Web+Crawler#0>.
                                                •   MULLER, A.; SCHWARZ, M. HTML Validation of Context-Free Languages. n. 274, p. 426-440, 2011.
                                                •   OFUONYE, E. et al. Prevalence and classification of web page defects. Online Information Review, v. 34, n. 1, p. 160-174,
                                                    2010.
                                                •   PALMER, J. W. Performance Metrics. Information Systems Research, v. 13, n. 2, p. 151-167, 2002.
                                                •   REESE, W. Nginx: the high-performance web server and reverse proxy. Linux Journal, v. 2008, n. 173, p. 2, 1 set. 2008.
                                                    Disponível em: <http://dl.acm.org/ft_gateway.cfm?id=1412204&type=html>. Acesso em: 8 nov. 2011.
                                                •   ROSE, G. M.; STRAUB, D. W. The Effect of Download Time on Consumer Attitude Toward the e-Service Retailer. e-
                                                    Service Journal, v. 1, n. 1, p. 55-76, 2001. Disponível em:
                                                    <http://muse.jhu.edu/content/crossref/journals/eservice_journal/v001/1.1rose.html>. Acesso em: 26 jan. 2013.
                                                •   RYBACZYK, P. Expert Network Time Protocol. New York, New York, USA: Apress, 2005.
                                                •   SAVOIA, A. Web Page Response Time 101. Software Testing and Quality Engineering Magazine, n. August, p. 48–53,
                                                    2001.
Referências Bibliográficas
                                                •   SLOAN, D. et al. Accessible accessibility. Proceedings on the 2000 conference on Universal Usability - CUU ’00, p. 96-
Conclusões Metodologia Indicadores Introdução


                                                    101, 2000. Disponível em: <http://portal.acm.org/citation.cfm?doid=355460.355480>.
                                                •   TANENBAUM, A. S. Computer networks. [S.l.]: Prentice Hall PTR, 2003. p. 891Disponível em:
                                                    <http://books.google.com/books?id=DYQoAQAAMAAJ&pgis=1>. Acesso em: 7 nov. 2011.
                                                •   TOLOSA, G. et al. Characterization of the Argentinian Web. Cybermetrics: International Journal of Scientometrics,
                                                    Informetrics and Bibliometrics, v. 11, n. 1, 2007. Disponível em:
                                                    <http://dialnet.unirioja.es/servlet/articulo?codigo=2390583&info=resumen>. Acesso em: 7 nov. 2011.
                                                •   W3C. The W3C Markup Validation Service. Disponível em: <http://validator.w3.org/>. Acesso em: 3 nov. 2011.
                                                •   YOO, B.; DONTHU, N. Developing a Scale to Measure the Perceived Quality of An Internet Shopping Site ( SITEQUAL ).
                                                    Quarterly Journal of Electronic Commerce, v. 2, n. 1, p. 31-47, 2001.
                                                •
Links
Conclusões Metodologia Indicadores Introdução




                                                –   http://labs.ceptro.br/topsites
                                                –   http://labs.ceptro.br/brsites
                                                –   http://asa.nic.br
                                                –   http://validator.w3.org/
                                                –   http://sourceforge.net/projects/connector-nic/
                                                –   http://sourceforge.net/projects/wire-nic/
                                                –   http://www.w3.org/WAI/quicktips/
                                                –   http://zappiens.br/portal/VisualizarVideo.do?_InstanceIdentifier=0&_E
                                                    ntityIdentifier=cgiE9WjKruzQGmPy-
                                                    VDyEDDAKPUNxmfYneBOql0VJJOuIg.&idRepositorio=0
                                                –   http://www.cgi.br/publicacoes/pesquisas/govbr/
                                                –   http://www.cs.waikato.ac.nz/ml/weka/
                                                –   http://www.gnu.org/software/octave/
                                                –   http://www.r-project.org/

Mais conteúdo relacionado

Semelhante a Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...
Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...
Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...Marcelo Ramos
 
Webinar: Conhecendo a solução Pentaho, líder em Business Analytics
Webinar: Conhecendo a solução Pentaho, líder em Business AnalyticsWebinar: Conhecendo a solução Pentaho, líder em Business Analytics
Webinar: Conhecendo a solução Pentaho, líder em Business AnalyticsRicardo Gouvêa
 
Seminario Web30 Universidade Fernando Pessoa
Seminario Web30 Universidade Fernando PessoaSeminario Web30 Universidade Fernando Pessoa
Seminario Web30 Universidade Fernando PessoaReinaldo Ferreira
 
O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...
O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...
O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...Italberto Dantas
 
Dheka - Apresentacao Institucional
Dheka - Apresentacao InstitucionalDheka - Apresentacao Institucional
Dheka - Apresentacao Institucionaldheka
 
Termo de Abertura do Projeto
Termo de Abertura do ProjetoTermo de Abertura do Projeto
Termo de Abertura do ProjetoClaudio Barbosa
 
Defesa da Proposta de Projecto de Tese
Defesa da Proposta de Projecto de TeseDefesa da Proposta de Projecto de Tese
Defesa da Proposta de Projecto de TeseLeonardo Pereira
 
Defesa de Proposta de Projecto de Tese
Defesa de Proposta de Projecto de TeseDefesa de Proposta de Projecto de Tese
Defesa de Proposta de Projecto de TeseLeonardo Pereira
 
Metodologia de análise e projeto para sistemas feitos com Drupal
Metodologia de análise e projeto para sistemas feitos com DrupalMetodologia de análise e projeto para sistemas feitos com Drupal
Metodologia de análise e projeto para sistemas feitos com DrupalMarcel Bezerra da Silva
 
TVD- unifor-oficina-luqs
TVD- unifor-oficina-luqsTVD- unifor-oficina-luqs
TVD- unifor-oficina-luqsUNIFOR E UECE
 
Web analytics e o Google Analytics - uma visão geral
Web analytics e o Google Analytics - uma visão geralWeb analytics e o Google Analytics - uma visão geral
Web analytics e o Google Analytics - uma visão geralBunnyConsulting (BunnyCo)
 
Usabilidade e Navegabilidade
Usabilidade e NavegabilidadeUsabilidade e Navegabilidade
Usabilidade e NavegabilidadeDaniel Tavares
 
Apresentação do Módulo de GP de Web
Apresentação do Módulo de GP de WebApresentação do Módulo de GP de Web
Apresentação do Módulo de GP de WebClaudio Barbosa
 
Apresentação Software as a Service
Apresentação Software as a ServiceApresentação Software as a Service
Apresentação Software as a ServiceMarcelo Tavares
 
Aracaju - GP02 - Fundamentos - Rede Farma
Aracaju - GP02 - Fundamentos - Rede FarmaAracaju - GP02 - Fundamentos - Rede Farma
Aracaju - GP02 - Fundamentos - Rede FarmaMarco Coghi
 

Semelhante a Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina (20)

Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...
Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...
Avaliação de Usabilidade e Arquitetura de Informação do do Website da Prefeit...
 
Tdd On Rails
Tdd On RailsTdd On Rails
Tdd On Rails
 
Webinar: Conhecendo a solução Pentaho, líder em Business Analytics
Webinar: Conhecendo a solução Pentaho, líder em Business AnalyticsWebinar: Conhecendo a solução Pentaho, líder em Business Analytics
Webinar: Conhecendo a solução Pentaho, líder em Business Analytics
 
Websites
WebsitesWebsites
Websites
 
Projeto Web
Projeto WebProjeto Web
Projeto Web
 
Seminario Web30 Universidade Fernando Pessoa
Seminario Web30 Universidade Fernando PessoaSeminario Web30 Universidade Fernando Pessoa
Seminario Web30 Universidade Fernando Pessoa
 
O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...
O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...
O Papel das Pessoas dos Sensores no Desenvolvimento das Smart Cities: Uma Rev...
 
Dheka - Apresentacao Institucional
Dheka - Apresentacao InstitucionalDheka - Apresentacao Institucional
Dheka - Apresentacao Institucional
 
Introdução ao RUP
Introdução ao RUPIntrodução ao RUP
Introdução ao RUP
 
Termo de Abertura do Projeto
Termo de Abertura do ProjetoTermo de Abertura do Projeto
Termo de Abertura do Projeto
 
Defesa da Proposta de Projecto de Tese
Defesa da Proposta de Projecto de TeseDefesa da Proposta de Projecto de Tese
Defesa da Proposta de Projecto de Tese
 
Defesa de Proposta de Projecto de Tese
Defesa de Proposta de Projecto de TeseDefesa de Proposta de Projecto de Tese
Defesa de Proposta de Projecto de Tese
 
Metodologia de análise e projeto para sistemas feitos com Drupal
Metodologia de análise e projeto para sistemas feitos com DrupalMetodologia de análise e projeto para sistemas feitos com Drupal
Metodologia de análise e projeto para sistemas feitos com Drupal
 
TVD- unifor-oficina-luqs
TVD- unifor-oficina-luqsTVD- unifor-oficina-luqs
TVD- unifor-oficina-luqs
 
Web analytics e o Google Analytics - uma visão geral
Web analytics e o Google Analytics - uma visão geralWeb analytics e o Google Analytics - uma visão geral
Web analytics e o Google Analytics - uma visão geral
 
Usabilidade e Navegabilidade
Usabilidade e NavegabilidadeUsabilidade e Navegabilidade
Usabilidade e Navegabilidade
 
Apresentação do Módulo de GP de Web
Apresentação do Módulo de GP de WebApresentação do Módulo de GP de Web
Apresentação do Módulo de GP de Web
 
Service Design Patterns - Study Case
Service Design Patterns - Study Case  Service Design Patterns - Study Case
Service Design Patterns - Study Case
 
Apresentação Software as a Service
Apresentação Software as a ServiceApresentação Software as a Service
Apresentação Software as a Service
 
Aracaju - GP02 - Fundamentos - Rede Farma
Aracaju - GP02 - Fundamentos - Rede FarmaAracaju - GP02 - Fundamentos - Rede Farma
Aracaju - GP02 - Fundamentos - Rede Farma
 

Último

Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx2m Assessoria
 

Último (9)

Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 

Metodologia para a Análise da Qualidade de Web Sites Baseada em Técnicas de Aprendizado de Máquina

  • 1. METODOLOGIA PARA A ANÁLISE DA QUALIDADE DE WEB SITES BASEADA EM TÉCNICAS DE APRENDIZADO DE MÁQUINA Exame de Qualificação em Mestrado Engenharia Elétrica Área de Concentração: Engenharia de Sistemas Digitais Orientador: Profa. Dra. Graça Bressan Heitor de Souza Ganzeli
  • 2. Objetivo Conclusões Metodologia Indicadores Introdução Metodologia para aperfeiçoar o processo de análise de dados sobre a qualidade de Web sites, mais especificamente, dos dados extraídos pelo projeto TIC Web
  • 3. Projeto TIC Web Conclusões Metodologia Indicadores Introdução • Iniciado em 2009 • Publicação de dados do domínio .gov.br em 2010 • Publicação na WebMedia 2012
  • 4. Objetivos Conclusões Metodologia Indicadores Introdução • Estudo da Web Brasileira • Estudo da Web Governamental Brasileira
  • 5. Diferenciais Conclusões Metodologia Indicadores Introdução • Estudo de diversas camadas da Internet • Foco no uso de padrões abertos • Análises periódicas • Indicadores Qualitativos • Indicadores Quantitativos
  • 6. Agenda Conclusões Metodologia Indicadores Introdução • INDICADORES • Qualitativos • Quantitativos • METODOLOGIA • CRONOGRAMA e CONCLUSÕES
  • 7. Conclusões Metodologia Indicadores Introdução Indicadores PESQUISAS QUANTITATIVAS
  • 8. Exemplos encontrados Conclusões Metodologia Indicadores Introdução • Número de sites e páginas • Quantidade de páginas únicas • Idade dos documentos • Tamanho total das páginas • Tamanho dos arquivos de mídia • Número de arquivos de mídia
  • 9. Conclusões Metodologia Indicadores Introdução Indicadores TAMANHO DA WEB
  • 10. Motivação Conclusões Metodologia Indicadores Introdução • Estudos evolutivos • Realização de comparações entre domínios • Base para a realização de outras análises
  • 11. Resultados Conclusões Metodologia Indicadores Introdução Volume (GB) Qt sites (mil) Qt paginas 185 (milhões) 18,2 6,9 148 6,3 11,8 2010 2011 2010 2011 2010 2011
  • 12. Outros indicadores Sites Páginas Conclusões Metodologia Indicadores Introdução número total de páginas tamanho tamanho total das páginas tamanho total das páginas quantidade de páginas dinâmicas página dinâmica quantidade de páginas estáticas Idade idade da página mais antiga tamanho do conteúdo extraído da página idade da página mais nova grau de entrada média das idades das páginas grau de saída possui arquivo robots.txt válido profundidade grau de entrada grau de saída links internos profundidade máxima das páginas grupo em que se encontra na estrutura macroscópica da Web
  • 13. Conclusões Metodologia Indicadores Introdução Indicadores PESQUISAS QUALITATIVAS
  • 14. Exemplos encontrados Conclusões Metodologia Indicadores Introdução • Validação de páginas HTML • Validação de acessibilidade • Contabilização do WAI • Avaliação de segurança • Análise de metadados
  • 15. Conclusões Metodologia Indicadores Introdução Indicadores VALIDAÇÃO DE PÁGINAS
  • 16. Aderência à padrões Web Conclusões Metodologia Indicadores Introdução Validação HTML • Universalidade de acesso • Validador W3C • Medida da quantidade de erros por página Validação de Acessibilidade – E-MAG • Acesso Universal • ASES • Erros e Avisos de nível 1, 2 e 3
  • 17. Método Conclusões Metodologia Indicadores Introdução • ConNeCTOR (Convenient Network Characteristics Testing Organized Routines) • Open Source • Principais funcionalidades: • Verificação de suporte à IPv6 • Validação de páginas • Sincronização de Tempo http://sf.net/projects/connector-nic
  • 18. Resultados Conclusões Metodologia Indicadores Introdução Validação de páginas 7,00% 6,00% 5,00% 4,00% 2010 3,00% 2011 2,00% 1,00% 0,00% HTML Acessibilidade
  • 19. Conclusões Metodologia Indicadores Introdução Indicadores SINCRONIZAÇÃO DE RELÓGIOS
  • 20. Motivação Conclusões Metodologia Indicadores Introdução • Rastreamento de incidentes de segurança • Sistemas de distribuição de conteúdo • Gerenciadores de arquivos • Agendadores de eventos • Criptografia • Protocolos de comunicação e aplicações de tempo real • Sistemas transacionais e bancos de dados
  • 21. Métodos Conclusões Metodologia Indicadores Introdução HTTP NTP 95% dos 7% dos sites sites Precisão de Precisão de segundos μ segundos
  • 22. Resultados Sincronização de tempo dos servidores Conclusões Metodologia Indicadores Introdução 60,00% 50,00% 40,00% 30,00% 2010 2011 20,00% 10,00% 0,00% sinc 1 sec - 1 - 10 10 - 30 30 min - 1 - 2 h mais de 1 min min min 1h 2h
  • 23. Conclusões Metodologia Indicadores Introdução IPV6 Indicadores
  • 24. Método e Resultados Conclusões Metodologia Indicadores Introdução Possuem endereço IPv6 3 Possuem endereço IPv6 para URL alternativa 2 Respondem à requisições GET 3 Respondem à requisições PING 2 Seu servidor DNS possui endereço IPv6 3 O DNS dos domínios alternativos possuem endereç IPv6 2
  • 25. Conclusões Metodologia Indicadores Introdução Indicadores TIPO DE SERVIDOR
  • 26. Motivação Conclusões Metodologia Indicadores Introdução • Verificação de tendências servidores mais utilizados • Escolha do foco de: • Projetos • Tutoriais • Busca de falhas de segurança
  • 27. Resultados Conclusões Metodologia Indicadores Introdução 70,00% 60,00% 50,00% 40,00% 2010 2011 30,00% 20,00% 10,00% 0,00% Apache Microsoft Zope Nginx Outros IIS
  • 28. Resultados Conclusões Metodologia Indicadores Introdução Localização Geográfica dos Servidores 100,00% 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% 2010 30,00% 2011 20,00% 10,00% 0,00% Endereço IP Endereço IP Localização não localizado no localizado no identificada Brasil exterior
  • 29. Resultados Localização dos servidores por seu tipo Conclusões Metodologia Indicadores Introdução 100,00% 90,00% 80,00% 70,00% 60,00% 50,00% Brasil 40,00% Exterior 30,00% 20,00% 10,00% 0,00% Apache Microsoft IIS Nginx
  • 30. Conclusões Metodologia Indicadores Introdução Metodologia
  • 31. Aprendizado de máquina Conclusões Metodologia Indicadores Introdução Não Supervisionado Supervisionado
  • 32. Conclusões Metodologia Indicadores Introdução • R • Weka • Octave Ferramentas
  • 33. Processo Conclusões Metodologia Indicadores Introdução • Seleção de parâmetros • Adaptação de parâmetros • Normalização de Parâmetros • Priorização • PCA, particle filtering, linearization • Clusterização • K-means, Expectation Maximization • Visualização • 2D, 3D • Análise
  • 34. Exemplo – Seleção de parâmetros Conclusões Metodologia Indicadores Introdução • Dados referentes a sites • Tipo de servidor • Suporte a IPv6 • Consolidações de dados de páginas • Quantidade de páginas válidas • Profundidade média das páginas • Tamanho médio
  • 35. Exemplo – Adaptação de parâmetros Conclusões Metodologia Indicadores Introdução • Tipo de servidor • String  “Apache, IIS, Zope, ...” • Suporte a IPv6 • Campo único  parâmetros relevantes
  • 36. Exemplo - Normalização de Parâmetros Conclusões Metodologia Indicadores Introdução • Variáveis com range muito grande podem enviesar a execução dos algoritmos • Tamanho total do site • Diferença de tempo com o UTC • Normalização da média • Normalização da variação 𝒙 − 𝑿 𝝈
  • 37. Exemplo - Priorização Conclusões Metodologia Indicadores Introdução • Agiliza processamento dos algoritmos de aprendizado de máquina • Bastante utilizados em casos de milhares de parâmetros • No caso foram utilizados 48 parâmetros para definir cada site
  • 38. Exemplo – Clusterização Conclusões Metodologia Indicadores Introdução • Escolha do número de clusters • Escolha dos centroides iniciais • Escolha randômica • Avalição da função de custo múltiplos testes • 3 clusters, comparação da melhor opção entre 1000 execuções
  • 39. Conclusões Metodologia Indicadores Introdução Exemplo – Visualização – PCA 2 dimensões
  • 40. Conclusões Metodologia Indicadores Introdução Exemplo – Visualização – PCA 3 dimensões
  • 41. Exemplo - Análise Conclusões Metodologia Indicadores Introdução • Desnormalização dos centroides encontrados • Quais diferenças são perceptíveis • Diferenças estão relacionadas aos parâmetros que indicam qualidade
  • 42. Conclusões Metodologia Indicadores Introdução Cronograma e Conclusões
  • 43. Sumarizando Conclusões Metodologia Indicadores Introdução • Extensão do projeto TIC Web • Foco na análise de dados • Transição entre estudo de domínios para estudo de características de sites
  • 44. Também... Conclusões Metodologia Indicadores Introdução • Aprofundamento no estudo dos indicadores • Método computacionalmente inteligente para a seleção de parâmetros • Construção de metodologia para a avaliação da qualidade de um site
  • 45. Próximos Passos Conclusões Metodologia Indicadores Introdução 1. Aprofundamento teórico em técnicas de aprendizado de máquina 2. Seleção e adaptação dos parâmetros 3. Análise dos algoritmos e resultados, conseguidos com diferentes técnicas 4. Análise das categorias de sites obtidas
  • 46. Cronograma Conclusões Metodologia Indicadores Introdução tarefa/sema 1 1 1 1 1 1 1 1 1 1 2 na 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 Fase 1 Fase 2 Fase 3 Fase 4 Dissertação Artigo
  • 47. Conclusões Conclusões Metodologia Indicadores Introdução • Área de pesquisa abrangente, com riqueza em trabalhos acadêmicos • Definição de métodos e ferramentas de estudo de domínios Web • Método para a classificação da qualidade de um sites com base em dados aprendidos
  • 48. Obrigado ! Perguntas? Conclusões Metodologia Indicadores Introdução Contato: heitor.ganzeli@usp.br gbressan@larc.usp.br Slides: http://www.slideshare.net/heitorganzeli
  • 49. Referências Bibliográficas • 7498-1:1994 ISO/IEC. Information technology - Open Systems Interconnection - Basic Reference Model: The Basic Conclusões Metodologia Indicadores Introdução Model. . [S.l.]: International Organization for Standardization. Disponível em: <http://www.iso.org/>. , 1994 • BACH, C. F. et al. Diretrizes de acessibilidade: uma abordagem comparativa entre WCAG e E-MAG. Revista Eletrônica de Sistemas de Informação ISSN 1677-3071, v. 1, n. 1, p. 14, 2009. Disponível em: <http://revistas.facecla.com.br/index.php/reinfo/article/view/271/233>. • BAILEY, P.; CRASWELL, N.; HAWKING, D. Engineering a multi-purpose test collection for Web retrieval experiments. Information Processing & Management, v. 39, n. 6, p. 853-871, nov. 2003. Disponível em: <http://linkinghub.elsevier.com/retrieve/pii/S0306457302000845>. Acesso em: 16 jan. 2013. • BAUER, C.; SCHARL, A. Quantitive evaluation of Web site content and structure. Internet Reseach, v. 10, n. 1, p. 31-44, 2000. • CAFARELLA, M.; CUTTING, D. Building Nutch. Queue, v. 2, n. 2, p. 54, 1 abr. 2004. Disponível em: <http://dl.acm.org/ft_gateway.cfm?id=988408&type=html>. Acesso em: 7 nov. 2011. • CALDWELL, B. et al. Understanding WCAG 2.0. Group. [S.l: s.n.]. Disponível em: <http://www.w3.org/TR/UNDERSTANDING-WCAG20/>. , 2008 • CANALI, D.; COVA, M.; VIGNA, G. Prophiler : A Fast Filter for the Large-Scale Detection of Malicious Web Pages Categories and Subject Descriptors. 2011, Hyderabad, India: ACM, 2011. p. 197-206. Disponível em: <http://delivery.acm.org/10.1145/1970000/1963436/p197- canali.pdf?ip=143.107.252.164&CFID=31764117&CFTOKEN=39507299&__acm__=1310326474_ffaa331fbc24e4c4ef4fd acb5d2cbd0b>. • CASTILLO, C. Effective web crawling. ACM SIGIR Forum, v. 39, n. 1, p. 55, 1 jun. 2005. Disponível em: <http://portal.acm.org/citation.cfm?doid=1067268.1067287>. • CASTILLO, C. et al. Um novo retrato da Web brasileira. 2005, [S.l: s.n.], 2005. p. 2005-2017. Disponível em: <http://chato.cl/papers/modesto_05_novo_retrato_web_brasileira.pdf>. • CASTILLO, C.; STAROSTA, B.; SYDOW, M. Crawl.pl: Measuring Statistical and Structural Properties of the Polish Web. Studia Informatica, v. 1, n. 8, p. 43-73, 2007. Disponível em: <http://www.chato.cl/papers/css_2007_polish_web.pdf>. • CHEN, S.; HONG, D.; SHEN, V. Y. An Experimental Study on Validation Problems with Existing HTML Webpages. 2005, [S.l: s.n.], 2005.
  • 50. Referências Bibliográficas • COVA, M.; KRUEGEL, C.; VIGNA, G. Detection and analysis of drive-by-download attacks and malicious JavaScript code. Conclusões Metodologia Indicadores Introdução Proceedings of the 19th international conference on World wide web - WWW ’10, p. 281, 2010. Disponível em: <http://portal.acm.org/citation.cfm?doid=1772690.1772720>. • DARDAILLER, D. W3C and Open Standard. Disponível em: <http://www.w3.org/2005/09/dd-osd.html>. Acesso em: 9 dez. 2011. • DEERING, S.; HINDEN, R. Internet Protocol, Version 6 (IPv6) Specification. RFC 2460. [S.l.]: IETF. Disponível em: <http://www.ietf.org/rfc/rfc2460.txt>. , 1998 • EDWARD, T. O.; LAVOIE, B. F.; PATRICK, D. Web Characterization Project. Journal of Library Administration, Artigo apresenta interessante comparação entre metadados na home page e em outras páginas internas, v. 34, n. 3-4, p. 359- 374, 2001. • EPPLER, M. J.; MUENZENMAYER, P. Measuring Information Quality in The Web Context: A surve of State-of-the-Art Instruments and an Application Methodology. 2002, [S.l: s.n.], 2002. p. 187-196. • FREIRE, A. P.; CASTRO, M. DE; FORTES, R. P. DE M. Accessibility of Brazilian state government websites: a quantitative analysis between 1996 and 2007. Revista de Administração Pública, v. 43, n. 2, p. 395-414, abr. 2009. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034- 76122009000200006&lng=en&nrm=iso&tlng=pt>. Acesso em: 7 nov. 2011. • GANZELI, H. D. S.; MOREIRAS, A. M.; BRESSSAN, G. ICT Web : Analysis of the Brazilian Governmental Web. 2012, São Paulo - SP, Brazil: ACM New York, NY, USA ©2012, 2012. p. 383-386. • GROUP, N. W. Hypertext Transfer Protocol -- HTTP/1.1. . [S.l: s.n.]. , 1999 • HENRY, S. L. Introduction to Web Accessibility. Journal of Web Engineering. [S.l: s.n.]. Disponível em: <http://www.w3.org/WAI/intro/accessibility.php>. , 2006 • HTML Tidy Project. Disponível em: <http://tidy.sourceforge.net/>. Acesso em: 22 jan. 2013. • HULL, L. Accessibility: it’s not just for disabilities any more. interactions, v. 11, n. 2, p. 36-41, 2004. Disponível em: <http://doi.acm.org/10.1145/971258.971270>. • KATERATTANAKUL, P.; SIAU, K. MEASURING INFORMATION QUALITY OF WEB SITES : DEVELOPMENT OF AN INSTRUMENT. 1999, Charlotte, North Carolina, USA: Association for Information Systems, 1999. p. 279-285. Disponível em: <http://dl.acm.org/citation.cfm?id=352925.352951>.
  • 51. Referências Bibliográficas • LAWRENCE, S.; GILES, C. L. Accessibility of information on the web. Nature, v. 400, n. 6740, p. 107-9, 8 jul. 1999. Conclusões Metodologia Indicadores Introdução Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/10428673>. • MENDES, E.; MOSLEY, N.; COUNSELL, S. Comparison of Web size measures for predicting Web design and authoring effort. 2002, [S.l: s.n.], 2002. p. 86-92. • MINISTÉRIO DO PLANEJAMENTO. Padrões de Interoperabilidade de Governo Eletrônico. Disponível em: <http://eping.governoeletronico.gov.br/>. Acesso em: 22 maio 2012. • MINISTÉRIO DO PLANEJAMENTO; SECRETARIA DE LOGÍSTICA E TECNOLOGIA DA INFORMAÇÃO. Modelo de Acessibilidade em Governo Eletrônico. Brasília: MP, SLTI, 2011, 2011. p. 69 • MITCHELL, T. M. Machine Learning. McGraw Hill: McGraw-Hill, 1997. p. 432Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/21452981>. • MOHR, G. et al. An Introduction to Heritrix: An Open Source Archival Quality Web Crawler. 2004, [S.l: s.n.], 2004. Disponível em: <http://scholar.google.com/scholar?hl=en&btnG=Search&q=intitle:An+Introduction+to+Heritrix:+An+Open+Source+Archiv al+Quality+Web+Crawler#0>. • MULLER, A.; SCHWARZ, M. HTML Validation of Context-Free Languages. n. 274, p. 426-440, 2011. • OFUONYE, E. et al. Prevalence and classification of web page defects. Online Information Review, v. 34, n. 1, p. 160-174, 2010. • PALMER, J. W. Performance Metrics. Information Systems Research, v. 13, n. 2, p. 151-167, 2002. • REESE, W. Nginx: the high-performance web server and reverse proxy. Linux Journal, v. 2008, n. 173, p. 2, 1 set. 2008. Disponível em: <http://dl.acm.org/ft_gateway.cfm?id=1412204&type=html>. Acesso em: 8 nov. 2011. • ROSE, G. M.; STRAUB, D. W. The Effect of Download Time on Consumer Attitude Toward the e-Service Retailer. e- Service Journal, v. 1, n. 1, p. 55-76, 2001. Disponível em: <http://muse.jhu.edu/content/crossref/journals/eservice_journal/v001/1.1rose.html>. Acesso em: 26 jan. 2013. • RYBACZYK, P. Expert Network Time Protocol. New York, New York, USA: Apress, 2005. • SAVOIA, A. Web Page Response Time 101. Software Testing and Quality Engineering Magazine, n. August, p. 48–53, 2001.
  • 52. Referências Bibliográficas • SLOAN, D. et al. Accessible accessibility. Proceedings on the 2000 conference on Universal Usability - CUU ’00, p. 96- Conclusões Metodologia Indicadores Introdução 101, 2000. Disponível em: <http://portal.acm.org/citation.cfm?doid=355460.355480>. • TANENBAUM, A. S. Computer networks. [S.l.]: Prentice Hall PTR, 2003. p. 891Disponível em: <http://books.google.com/books?id=DYQoAQAAMAAJ&pgis=1>. Acesso em: 7 nov. 2011. • TOLOSA, G. et al. Characterization of the Argentinian Web. Cybermetrics: International Journal of Scientometrics, Informetrics and Bibliometrics, v. 11, n. 1, 2007. Disponível em: <http://dialnet.unirioja.es/servlet/articulo?codigo=2390583&info=resumen>. Acesso em: 7 nov. 2011. • W3C. The W3C Markup Validation Service. Disponível em: <http://validator.w3.org/>. Acesso em: 3 nov. 2011. • YOO, B.; DONTHU, N. Developing a Scale to Measure the Perceived Quality of An Internet Shopping Site ( SITEQUAL ). Quarterly Journal of Electronic Commerce, v. 2, n. 1, p. 31-47, 2001. •
  • 53. Links Conclusões Metodologia Indicadores Introdução – http://labs.ceptro.br/topsites – http://labs.ceptro.br/brsites – http://asa.nic.br – http://validator.w3.org/ – http://sourceforge.net/projects/connector-nic/ – http://sourceforge.net/projects/wire-nic/ – http://www.w3.org/WAI/quicktips/ – http://zappiens.br/portal/VisualizarVideo.do?_InstanceIdentifier=0&_E ntityIdentifier=cgiE9WjKruzQGmPy- VDyEDDAKPUNxmfYneBOql0VJJOuIg.&idRepositorio=0 – http://www.cgi.br/publicacoes/pesquisas/govbr/ – http://www.cs.waikato.ac.nz/ml/weka/ – http://www.gnu.org/software/octave/ – http://www.r-project.org/