SlideShare ist ein Scribd-Unternehmen logo
1 von 49
Recovering from a decade: a 
systematic mapping of information 
retrieval approaches to software 
traceability 
Avelino Ferreira Gomes Filho
Rastreabilidade de software 
através de Recuperação da 
Informação
Porque falar 
disso?
“Software é um local onde sonhos são plantados 
e pesadelos são colhidos, um pântano abstrato e 
místico onde terríveis demônios competem em 
uma panaceia mágica, um mundo de 
lobisomens e balas de prata.” 
Roger S. Pressman apud Brad J. Cox (2010) 
Software Engineering: A Practitioner’s Approach, 7th Ed.
Expectativa 
Processo de 
Negócio 
Regras de 
Negócio 
Testes 
Código-fonte 
Binário
Realidade
Rastreabilidade 
• Uma das formas de aumentar a qualidade do 
software é manter a ligação entre 
– Código-fonte 
– Regras de Negócio 
– Processos de Negócio 
– Requisitos 
– Change Request 
– Etc.
Rastreabilidade 
“A habilidade de interrelacionar qualquer 
artefato de engenharia de software que possa 
ser unicamente identificado; manter as ligações 
entre eles através do tempo; e utilizar a rede de 
interrelacionamento para responder a perguntas 
do produto de software e do processo de 
desenvolvimento”. 
Cleland-Huang et al. Apud CoEST (2014) 
Software Traceability: Trends and Future Directions 
Proc. of the 36th International Conference on Software Engineering (ICSE)
Rastreabiliade 
Não é uma tarefa trivial
Fazer Rastreabilidade manualmente 
Planilhas 
http://www.chambers.com.au/glossary/traceability_matrix.php 
Software 
http://www.ibm.com/developerworks/rational/library/5347.html
Fazer Rastreabilidade manualmente 
Boring 
Error Prone
Exemplo
O ARTIGO
O Artigo 
• Escrito por: 
– Borg, Markus 
– Runeson, Per 
– Ardö, Anders 
• Em 2013 
• Publicado na Springer - Empirical Software 
Engineering 
• DOI: 10.1007/s10664-013-9255-y
O Artigo 
• Você deve ler esse artigo porque... 
– está interessado no tema Rastreabilidade e 
Recuperação da Informação. 
– a introdução é um excelente glossário com 
referências sobre Recuperação da Informação 
– o artigo descreve muito bem como fazer um 
mapeamento sistemático.
Introdução 
(Glossário com Referências) 
Dataset 
Bag-of-Words 
Natural Language and NL 
Processing 
Algebraic-IR 
Vector Space Model 
Binary and Frequency Terms 
TF-IDF 
Latent Semantic Indexing 
Rocchio Method 
Binary Independence Retrieval 
Probabilistic IR 
Probabilistic Inference 
Network 
Statistical Language Models 
Thesaurus 
Precision – Recall 
Recovery Effort Index 
Mean Average Precision 
Discounted Cumulative Gain 
ETC…
OBJETIVOS DA PESQUISA
O Artigo 
Objetivo fazer um mapeamento sistemático dos 
modelos de Recuperação da Informação 
utilizados para Rastreabilidade de Software.
O Artigo 
Eles não propõem um novo Modelo 
A contribuição do artigo foi o amplo estudo 
realizado sobre mais de 1000 trabalhos sobre 
quais são os modelos de RI utilizados para 
realizar Rastreabilidade
Perguntas da Pesquisa 
RQ1 Quais modelos de Recuperação da 
Informação e estratégias de aprimoramento 
(enhance) são mais utilizadas para fazer 
rastreabilidade em artefatos de software em 
Linguagem Natural?
Perguntas da Pesquisa 
RQ2 Quais os tipos de artefatos em Linguagem 
Natural que são ligados com maior frequência 
em estudos de Rastreabilidade com 
Recuperação da Informação?
Perguntas da Pesquisa 
RQ3 Quão forte são as evidências com relação 
ao grau de realismo das avaliações dos sistemas 
de Rastreabilidades feito com Recuperação da 
Informação?
TRABALHOS RELACIONADOS
Trabalho Relacionados 
• IR-Based Trace Recovery 
– Borillo et al. 1992 
Os mais relevantes 
• O primeiro trabalho a utilizar técnicas de 
Processamento de Linguagem Natural e Inteligência 
artificial para rastreabilidade.
Trabalho Relacionados 
• IR-Based Trace Recovery 
– De Lucia et al. (2002 – 2014) 
Os mais relevantes 
• Criação de N ferramentas de Rastreabilidade por RI. 
• SCOTCH: Slicing and COupling based Test to Code trace 
Hunter (2014) 
– Rastreabilidade entre Classes do Sistema e Classes de Testes 
– Uso de Stop Class 
– Conceptual Coupling Between Classes (CCBC)
Trabalho Relacionados 
• IR-Based Trace Recovery 
– Baeza-Yates R, Ribeiro-Neto B. (2011) 
Os mais relevantes 
• Pré-processamento 
• Tratamento de camelCase, under_score convention, 
etc.
Trabalho Relacionados 
Os mais relevantes 
• Previous Overviews on IR-Based Trace 
Recovery 
– Mapeamentos Sistemáticos sobre Rastreabilidade 
e RI 
– Cleland-Huang et al. (2012) 
– De Lucia (2009 – 2012) 
– “Nossa análise é mais estruturada e vai mais 
fundo com um escopo mais estreito”.
MÉTODO DE PESQUISA
Método de Pesquisa 
Criação do Protocolo de 
Pesquisa 
Seleção das 
Publicações 
Extração de 
dados e 
mapeamento 
das publicações
Método de Pesquisa 
Criação do Protocolo de 
Pesquisa 
• Parâmetros para Inclusão de Artigos 
Seleção das 
Publicações 
– Em inglês, Revisada por pares, Resultados 
Empíricos sobre o tema. 
• Parâmetros para Exclusão de Artigos 
Extração de 
dados e 
mapeamento das 
publicações 
– Publicações que discutiam mais sobre outras 
formas de rastreabilidade do que por RI. 
– Publicações que discutiam sobre RI, mas falavam 
pouco ou nada de rastreabilidade.
Método de Pesquisa 
• Definição das bases de pesquisa 
• Definição dos termos de Pesquisa 
• Remoção de trabalhos duplicados 
• Refinamento 
– De: 1.241 publicações 
– Para: 76 publicações 
Criação do Protocolo de 
Pesquisa 
Seleção das 
Publicações 
Extração de 
dados e 
mapeamento das 
publicações
Método de Pesquisa 
Criação do Protocolo de 
Pesquisa 
Seleção das 
Publicações 
• Extração das contribuições das publicações 
relevantes 
• Mapeamento 
Extração de 
dados e 
mapeamento das 
publicações
Modelos de Recuperação da Informação aplicados à Rastreabilidade 
(RQ1) 
RESULTADO
Estado da Arte 
Document Parsing, Extraction 
and Pre-Processing 
Corpus indexing with an IR 
method 
Ranked list generation 
Enhance and Analysis of 
candidate links
Document Parsing, Extraction and 
Pre-Processing
Document Parsing, Extraction and 
Pre-Processing 
• Stop words: a, an, to, it... 
– Stop Class: java.lang.*, org.junit.* 
• Stemming: produce, producing, produced, 
producer 
• ID Splitting: Tratamento de camelCase e 
padrões de codificação 
– Baeza-Yates R, Ribeiro-Neto B (2011) 
• Google Translator
Indexing, Filtering and Retrieval
Indexing, Filtering and Retrieval 
• Modelos Algébricos 
– Relevância de um 
documento para o 
resultado de uma consulta 
depende da sua 
semelhança com o termo 
procurado 
– Uso de formas algébricas 
de representação de 
semelhança. 
– Ex.: Uso do Cosseno em 
VSM 
• Modelos Probabilísticos 
– Qual a probabilidade desse 
documento ser relevante 
para essa pesquisa? 
– Dado um termo de busca o 
documento pode ou não 
ser relevante 
– O sistema não pode ter 
certeza sobre o real status 
de relevância do 
documento. 
Zhai C (2007) Abrief review of information retrievalmodels. Technical 
report,University of Illinois at Urbana-Champaign
Ranking
Enhance and Analyze
Enhance and Analyze 
• Relevance Feedback 
– Há indícios de que humanos raramente 
consideram mais de 10 links candidatos. 
Borg M, Pfahl D(2011) Do better IRtools improve the accuracy of engineers’ traceability recovery? In: 
Proceedings of the international workshop on machine learning technologies in software engineering, 
pp 27–34
Tipos de artefatos ligados (RQ2) 
RESULTADO
Artefatos Ligados
Nível de Evidência (RQ3) 
RESULTADO
MINHA ANÁLISE
Minha Análise 
• É um estudo bem abrangente sobre 
Rastreabilidade através de RI. 
• Serve como uma grande fonte de referências 
de RI. 
• Não se aprofunda em nenhum modelo 
específico 
– O que era esperado por se tratar de um SM. 
– Mesmo assim ele apresenta o Estado da arte.
Dúvidas? 
Feedback!

Weitere ähnliche Inhalte

Ähnlich wie IR approaches to software traceability mapping

Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...Ahirton Lopes
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Plano de investigação - Apresentação
Plano de investigação - ApresentaçãoPlano de investigação - Apresentação
Plano de investigação - ApresentaçãoMarduken
 
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Paulo Henrique Santini
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 finalDanusa Ribeiro
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de ClusterizaçãoGabriel Peixe
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicosElaine Naomi
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacaocibeleac
 
Apresentacao kadu
Apresentacao kaduApresentacao kadu
Apresentacao kadukadu neves
 
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Heitor Ganzeli
 
Usabilidade aula-03. Processos: Arquitetura de informação
Usabilidade aula-03. Processos: Arquitetura de informaçãoUsabilidade aula-03. Processos: Arquitetura de informação
Usabilidade aula-03. Processos: Arquitetura de informaçãoAlan Vasconcelos
 
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...JonathanSchneider
 
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosComparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosLeandro Ciuffo
 

Ähnlich wie IR approaches to software traceability mapping (20)

Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Mapping Study
Mapping StudyMapping Study
Mapping Study
 
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Plano de investigação - Apresentação
Plano de investigação - ApresentaçãoPlano de investigação - Apresentação
Plano de investigação - Apresentação
 
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
Apresentação SIMCOP - SIMCOP – Framework para Análise de Similaridade em Sequ...
 
Webmedia2007 V4
Webmedia2007 V4Webmedia2007 V4
Webmedia2007 V4
 
Apresentação defesa de mestrado 2014 final
Apresentação defesa de mestrado 2014   finalApresentação defesa de mestrado 2014   final
Apresentação defesa de mestrado 2014 final
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacao
 
Apresentacao kadu
Apresentacao kaduApresentacao kadu
Apresentacao kadu
 
Análise de Assunto
Análise de Assunto Análise de Assunto
Análise de Assunto
 
Esquemas de metadados utilizados por repositórios digitais científicos latino...
Esquemas de metadados utilizados por repositórios digitais científicos latino...Esquemas de metadados utilizados por repositórios digitais científicos latino...
Esquemas de metadados utilizados por repositórios digitais científicos latino...
 
Avaliação de qualidade de repositórios institucionais brasileiros e portugueses
Avaliação de qualidade de repositórios institucionais brasileiros e portuguesesAvaliação de qualidade de repositórios institucionais brasileiros e portugueses
Avaliação de qualidade de repositórios institucionais brasileiros e portugueses
 
00 apresentacao
00   apresentacao00   apresentacao
00 apresentacao
 
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
Metodologia para a análise da qualidade de Web Sites baseada em técnicas de a...
 
Usabilidade aula-03. Processos: Arquitetura de informação
Usabilidade aula-03. Processos: Arquitetura de informaçãoUsabilidade aula-03. Processos: Arquitetura de informação
Usabilidade aula-03. Processos: Arquitetura de informação
 
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
Apresentação: CRIAÇÃO E CONSUMO DE DADOS NOS PADRÕES DA WEB SEMÂNTICA, UTILIZ...
 
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dadosComparativo de ferramentas tecnológicas para o compartilhamento de dados
Comparativo de ferramentas tecnológicas para o compartilhamento de dados
 

Mehr von Avelino Ferreira Gomes Filho

Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...
Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...
Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...Avelino Ferreira Gomes Filho
 
Metodologia de gestão visual acessível para deficientes visuais
Metodologia de gestão visual acessível para deficientes visuaisMetodologia de gestão visual acessível para deficientes visuais
Metodologia de gestão visual acessível para deficientes visuaisAvelino Ferreira Gomes Filho
 
Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...
Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...
Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...Avelino Ferreira Gomes Filho
 
Levando a Agilidade para além do Desenvolvimento de Software na Administração...
Levando a Agilidade para além do Desenvolvimento de Software na Administração...Levando a Agilidade para além do Desenvolvimento de Software na Administração...
Levando a Agilidade para além do Desenvolvimento de Software na Administração...Avelino Ferreira Gomes Filho
 
One Laptop per Child: Análise sobre as implementações no Brasil e no Uruguai
One Laptop per Child: Análise sobre as implementações no Brasil e no UruguaiOne Laptop per Child: Análise sobre as implementações no Brasil e no Uruguai
One Laptop per Child: Análise sobre as implementações no Brasil e no UruguaiAvelino Ferreira Gomes Filho
 
Pornografia na internet: Come ela chega aos seus filhos e como evitá-la
Pornografia na internet: Come ela chega aos seus filhos e como evitá-laPornografia na internet: Come ela chega aos seus filhos e como evitá-la
Pornografia na internet: Come ela chega aos seus filhos e como evitá-laAvelino Ferreira Gomes Filho
 
Engenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusos
Engenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusosEngenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusos
Engenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusosAvelino Ferreira Gomes Filho
 
Engenharia de Resiliência - Narrando a emergência de um consenso confuso.
Engenharia de Resiliência - Narrando a emergência de um consenso confuso.Engenharia de Resiliência - Narrando a emergência de um consenso confuso.
Engenharia de Resiliência - Narrando a emergência de um consenso confuso.Avelino Ferreira Gomes Filho
 
Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...
Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...
Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...Avelino Ferreira Gomes Filho
 
Engenharia de Resiliência - Complexidade, Emergência e Resiliência
Engenharia de Resiliência - Complexidade, Emergência e ResiliênciaEngenharia de Resiliência - Complexidade, Emergência e Resiliência
Engenharia de Resiliência - Complexidade, Emergência e ResiliênciaAvelino Ferreira Gomes Filho
 
Engenharia de Resiliência - Características Essenciais da Resiliência
Engenharia de Resiliência - Características Essenciais da ResiliênciaEngenharia de Resiliência - Características Essenciais da Resiliência
Engenharia de Resiliência - Características Essenciais da ResiliênciaAvelino Ferreira Gomes Filho
 
Engenharia de Resiliência - Resiliência o Desafio do Instável
Engenharia de Resiliência - Resiliência o Desafio do InstávelEngenharia de Resiliência - Resiliência o Desafio do Instável
Engenharia de Resiliência - Resiliência o Desafio do InstávelAvelino Ferreira Gomes Filho
 

Mehr von Avelino Ferreira Gomes Filho (17)

Lean kanban Polo digital de manaus
Lean kanban   Polo digital de manausLean kanban   Polo digital de manaus
Lean kanban Polo digital de manaus
 
Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...
Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...
Despencando do Olimpo: As difíceis lições que aprendi ao tentar implantar Mét...
 
Metodologia de gestão visual acessível para deficientes visuais
Metodologia de gestão visual acessível para deficientes visuaisMetodologia de gestão visual acessível para deficientes visuais
Metodologia de gestão visual acessível para deficientes visuais
 
Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...
Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...
Agilequebrando mais paradigmas: a inclusão de um desenvolvedor cego em um tim...
 
Levando a Agilidade para além do Desenvolvimento de Software na Administração...
Levando a Agilidade para além do Desenvolvimento de Software na Administração...Levando a Agilidade para além do Desenvolvimento de Software na Administração...
Levando a Agilidade para além do Desenvolvimento de Software na Administração...
 
One Laptop per Child: Análise sobre as implementações no Brasil e no Uruguai
One Laptop per Child: Análise sobre as implementações no Brasil e no UruguaiOne Laptop per Child: Análise sobre as implementações no Brasil e no Uruguai
One Laptop per Child: Análise sobre as implementações no Brasil e no Uruguai
 
Pornografia na internet: Come ela chega aos seus filhos e como evitá-la
Pornografia na internet: Come ela chega aos seus filhos e como evitá-laPornografia na internet: Come ela chega aos seus filhos e como evitá-la
Pornografia na internet: Come ela chega aos seus filhos e como evitá-la
 
Visual Management and Blind Software Developer
Visual Management and Blind Software DeveloperVisual Management and Blind Software Developer
Visual Management and Blind Software Developer
 
Agilidade no governo 02
Agilidade no governo 02Agilidade no governo 02
Agilidade no governo 02
 
Iscram 2014 Presentation
Iscram 2014 PresentationIscram 2014 Presentation
Iscram 2014 Presentation
 
Engenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusos
Engenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusosEngenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusos
Engenharia de Resiliência - Estrutura para a gestão de sinais fracos e difusos
 
Engenharia de Resiliência - Narrando a emergência de um consenso confuso.
Engenharia de Resiliência - Narrando a emergência de um consenso confuso.Engenharia de Resiliência - Narrando a emergência de um consenso confuso.
Engenharia de Resiliência - Narrando a emergência de um consenso confuso.
 
Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...
Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...
Engenharia de Resiliência - Incidentes, indicadores de resiliência ou fragili...
 
Engenharia de Resiliência - Complexidade, Emergência e Resiliência
Engenharia de Resiliência - Complexidade, Emergência e ResiliênciaEngenharia de Resiliência - Complexidade, Emergência e Resiliência
Engenharia de Resiliência - Complexidade, Emergência e Resiliência
 
Engenharia de Resiliência - Características Essenciais da Resiliência
Engenharia de Resiliência - Características Essenciais da ResiliênciaEngenharia de Resiliência - Características Essenciais da Resiliência
Engenharia de Resiliência - Características Essenciais da Resiliência
 
Engenharia de Resiliência - Resiliência o Desafio do Instável
Engenharia de Resiliência - Resiliência o Desafio do InstávelEngenharia de Resiliência - Resiliência o Desafio do Instável
Engenharia de Resiliência - Resiliência o Desafio do Instável
 
Coding Dojo Aplicado ao Ambiente Organizacional
Coding Dojo Aplicado ao Ambiente OrganizacionalCoding Dojo Aplicado ao Ambiente Organizacional
Coding Dojo Aplicado ao Ambiente Organizacional
 

IR approaches to software traceability mapping

  • 1. Recovering from a decade: a systematic mapping of information retrieval approaches to software traceability Avelino Ferreira Gomes Filho
  • 2. Rastreabilidade de software através de Recuperação da Informação
  • 4. “Software é um local onde sonhos são plantados e pesadelos são colhidos, um pântano abstrato e místico onde terríveis demônios competem em uma panaceia mágica, um mundo de lobisomens e balas de prata.” Roger S. Pressman apud Brad J. Cox (2010) Software Engineering: A Practitioner’s Approach, 7th Ed.
  • 5. Expectativa Processo de Negócio Regras de Negócio Testes Código-fonte Binário
  • 7.
  • 8. Rastreabilidade • Uma das formas de aumentar a qualidade do software é manter a ligação entre – Código-fonte – Regras de Negócio – Processos de Negócio – Requisitos – Change Request – Etc.
  • 9. Rastreabilidade “A habilidade de interrelacionar qualquer artefato de engenharia de software que possa ser unicamente identificado; manter as ligações entre eles através do tempo; e utilizar a rede de interrelacionamento para responder a perguntas do produto de software e do processo de desenvolvimento”. Cleland-Huang et al. Apud CoEST (2014) Software Traceability: Trends and Future Directions Proc. of the 36th International Conference on Software Engineering (ICSE)
  • 10. Rastreabiliade Não é uma tarefa trivial
  • 11. Fazer Rastreabilidade manualmente Planilhas http://www.chambers.com.au/glossary/traceability_matrix.php Software http://www.ibm.com/developerworks/rational/library/5347.html
  • 12. Fazer Rastreabilidade manualmente Boring Error Prone
  • 15. O Artigo • Escrito por: – Borg, Markus – Runeson, Per – Ardö, Anders • Em 2013 • Publicado na Springer - Empirical Software Engineering • DOI: 10.1007/s10664-013-9255-y
  • 16. O Artigo • Você deve ler esse artigo porque... – está interessado no tema Rastreabilidade e Recuperação da Informação. – a introdução é um excelente glossário com referências sobre Recuperação da Informação – o artigo descreve muito bem como fazer um mapeamento sistemático.
  • 17. Introdução (Glossário com Referências) Dataset Bag-of-Words Natural Language and NL Processing Algebraic-IR Vector Space Model Binary and Frequency Terms TF-IDF Latent Semantic Indexing Rocchio Method Binary Independence Retrieval Probabilistic IR Probabilistic Inference Network Statistical Language Models Thesaurus Precision – Recall Recovery Effort Index Mean Average Precision Discounted Cumulative Gain ETC…
  • 19. O Artigo Objetivo fazer um mapeamento sistemático dos modelos de Recuperação da Informação utilizados para Rastreabilidade de Software.
  • 20. O Artigo Eles não propõem um novo Modelo A contribuição do artigo foi o amplo estudo realizado sobre mais de 1000 trabalhos sobre quais são os modelos de RI utilizados para realizar Rastreabilidade
  • 21. Perguntas da Pesquisa RQ1 Quais modelos de Recuperação da Informação e estratégias de aprimoramento (enhance) são mais utilizadas para fazer rastreabilidade em artefatos de software em Linguagem Natural?
  • 22. Perguntas da Pesquisa RQ2 Quais os tipos de artefatos em Linguagem Natural que são ligados com maior frequência em estudos de Rastreabilidade com Recuperação da Informação?
  • 23. Perguntas da Pesquisa RQ3 Quão forte são as evidências com relação ao grau de realismo das avaliações dos sistemas de Rastreabilidades feito com Recuperação da Informação?
  • 25. Trabalho Relacionados • IR-Based Trace Recovery – Borillo et al. 1992 Os mais relevantes • O primeiro trabalho a utilizar técnicas de Processamento de Linguagem Natural e Inteligência artificial para rastreabilidade.
  • 26. Trabalho Relacionados • IR-Based Trace Recovery – De Lucia et al. (2002 – 2014) Os mais relevantes • Criação de N ferramentas de Rastreabilidade por RI. • SCOTCH: Slicing and COupling based Test to Code trace Hunter (2014) – Rastreabilidade entre Classes do Sistema e Classes de Testes – Uso de Stop Class – Conceptual Coupling Between Classes (CCBC)
  • 27. Trabalho Relacionados • IR-Based Trace Recovery – Baeza-Yates R, Ribeiro-Neto B. (2011) Os mais relevantes • Pré-processamento • Tratamento de camelCase, under_score convention, etc.
  • 28. Trabalho Relacionados Os mais relevantes • Previous Overviews on IR-Based Trace Recovery – Mapeamentos Sistemáticos sobre Rastreabilidade e RI – Cleland-Huang et al. (2012) – De Lucia (2009 – 2012) – “Nossa análise é mais estruturada e vai mais fundo com um escopo mais estreito”.
  • 30. Método de Pesquisa Criação do Protocolo de Pesquisa Seleção das Publicações Extração de dados e mapeamento das publicações
  • 31. Método de Pesquisa Criação do Protocolo de Pesquisa • Parâmetros para Inclusão de Artigos Seleção das Publicações – Em inglês, Revisada por pares, Resultados Empíricos sobre o tema. • Parâmetros para Exclusão de Artigos Extração de dados e mapeamento das publicações – Publicações que discutiam mais sobre outras formas de rastreabilidade do que por RI. – Publicações que discutiam sobre RI, mas falavam pouco ou nada de rastreabilidade.
  • 32. Método de Pesquisa • Definição das bases de pesquisa • Definição dos termos de Pesquisa • Remoção de trabalhos duplicados • Refinamento – De: 1.241 publicações – Para: 76 publicações Criação do Protocolo de Pesquisa Seleção das Publicações Extração de dados e mapeamento das publicações
  • 33. Método de Pesquisa Criação do Protocolo de Pesquisa Seleção das Publicações • Extração das contribuições das publicações relevantes • Mapeamento Extração de dados e mapeamento das publicações
  • 34. Modelos de Recuperação da Informação aplicados à Rastreabilidade (RQ1) RESULTADO
  • 35. Estado da Arte Document Parsing, Extraction and Pre-Processing Corpus indexing with an IR method Ranked list generation Enhance and Analysis of candidate links
  • 36. Document Parsing, Extraction and Pre-Processing
  • 37. Document Parsing, Extraction and Pre-Processing • Stop words: a, an, to, it... – Stop Class: java.lang.*, org.junit.* • Stemming: produce, producing, produced, producer • ID Splitting: Tratamento de camelCase e padrões de codificação – Baeza-Yates R, Ribeiro-Neto B (2011) • Google Translator
  • 39. Indexing, Filtering and Retrieval • Modelos Algébricos – Relevância de um documento para o resultado de uma consulta depende da sua semelhança com o termo procurado – Uso de formas algébricas de representação de semelhança. – Ex.: Uso do Cosseno em VSM • Modelos Probabilísticos – Qual a probabilidade desse documento ser relevante para essa pesquisa? – Dado um termo de busca o documento pode ou não ser relevante – O sistema não pode ter certeza sobre o real status de relevância do documento. Zhai C (2007) Abrief review of information retrievalmodels. Technical report,University of Illinois at Urbana-Champaign
  • 42. Enhance and Analyze • Relevance Feedback – Há indícios de que humanos raramente consideram mais de 10 links candidatos. Borg M, Pfahl D(2011) Do better IRtools improve the accuracy of engineers’ traceability recovery? In: Proceedings of the international workshop on machine learning technologies in software engineering, pp 27–34
  • 43. Tipos de artefatos ligados (RQ2) RESULTADO
  • 45. Nível de Evidência (RQ3) RESULTADO
  • 46.
  • 48. Minha Análise • É um estudo bem abrangente sobre Rastreabilidade através de RI. • Serve como uma grande fonte de referências de RI. • Não se aprofunda em nenhum modelo específico – O que era esperado por se tratar de um SM. – Mesmo assim ele apresenta o Estado da arte.