SlideShare ist ein Scribd-Unternehmen logo
1 von 30
Learning Better Context Characterizations: an Intelligent Information Retrieval Approach Carlos M Lorenzetti Ana G Maguitman [email_address] [email_address] Universidad Nacional del Sur Av. L.N. Alem 1253 Bahía Blanca - Argentina Grupo de Investigación en Recuperación de Información y Gestión del Conocimiento Laboratorio de Investigación y Desarrollo en Inteligencia Artificial CONICET AGENCIA
Information Retrieval limitations
Information Retrieval limitations Java as an island
Information Retrieval limitations Java as programming language
Problems: ambiguity Java?
Problems: ambiguity Java? Animals Computers Consumables Entertainment Geography Flora Ships
Proposed solutions ,[object Object],[object Object],[object Object]
Context Characterization Words list T1 p1 T2 p2 T3 p3 T4 p4 Tn pn Context Articles Newspapers Others
Context Characterization ,[object Object],[object Object],[object Object],Counts documents’ term ocurrence Penalizes very common terms
Different Role of Terms ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
[object Object],[object Object]
Descriptors and Discriminators Java Language Applets Code Topic: Java Virtual Machine NetBeans Computers JVM Ruby Programming JDK Virtual Machine
Descriptors and Discriminators Java Language Applets Code Topic: Java Virtual Machine NetBeans Computers JVM Ruby Programming JDK Virtual Machine Good descriptors
Descriptors and Discriminators Java Language Applets Code Topic: Java Virtual Machine NetBeans Computers JVM Ruby Programming JDK Virtual Machine Good discriminators
Documents Descriptors and Discriminators Number of   occurrences   of term  j  in document  i Topic: Java Virtual Machine Initial Context H ,[object Object],[object Object],[object Object],[object Object],(1)   (2) (3) (4) 0 3 3 0 0 1 2 0 1 0 0 4 2 0 0 4 3 0 0 3 0 2 2 0 1 1 2 0 0 1 1 0 0 2 3 6 2 5 5 2 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java
Documents  Descriptors Topic: Java Virtual Machine Initial Context Descriptive  power of a term in a  document 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java 0,000 0,000 0,000 0,000 0,000 0,539 0,180 0,180 0,359 0,718
Documents  Discriminators Topic: Java Virtual Machine Initial Context Discriminating  power of a term in a  document 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java 0,000 0,000 0,000 0,000 0,000 0,577 0,500 0,577 0,500 0,447
Documents comparison criteria Documents similarity K 1 K 3 K 2 d 2 d 1  Cosine similarity
Topics Descriptors Topic: Java Virtual Machine Initial Context Term  descriptive  power in a topic of a document 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java 0,014 0,032 0,040 0,040 0,055 0,064 0,089 0,124 0,158 0,385
Topics Discriminators Topic: Java Virtual Machine Initial Context Term  discriminating  power in a topic of a document 0 province 0 island 0 coffee 4 java 1 language 2 machine 3 programming 1 virtual 0 jdk 0 jvm 0,385 0,385 0,385 0,493 0,517 0,524 0,566 0,566 0,848 0,848
Proposed Algorithm Context w 1 w 2 w 3 w 4 w 5 w 6 w 7 w 8 w m-1 w m w m-2 w 9 . . . Roulette query 01 query 02 query 03 query n result 03 result 01 result 02 result n w  0,5 w  0,25 . . . w  0,1 1 2 m DESCRIPTORS DESCRIPTORS w  0,4 w  0,37 . . . w  0,01 1 2 m DISCRIMINATORS DISCRIMINATORS 1 2 4 3 Terms
[object Object]
Evaluation ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],1 st  level 2 nd   level 3 rd   level Top Home Science Arts Cooking Family Childcare
Evaluation – Similarity  Top/Computers/Open_Source/Software 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 120 140 160 180 iteration novelty-driven similarity [0.5866; 0.6073] 0.5970 best [0.0618; 0.0704] 0.0661 1 st 95% CI Mean  N Maximum Average Minimum
Evaluation – Similarity  Context update 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 120 140 160 180 iteration novelty-driven similarity [0.5866; 0.6073] 0.5970 best [0.0618; 0.0704] 0.0661 1 st 95% CI Mean  N Maximum Average Minimum
Evaluation – Similarity  Query formulation and retrieval process 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 120 140 160 180 iteration novelty-driven similarity [0.5866; 0.6073] 0.5970 best [0.0618; 0.0704] 0.0661 1 st 95% CI Mean  N Maximum Average Minimum
Evaluation – Precision 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 first iteration precision best iteration precision Improvement observed (89.18%) No-improvement observed
Evaluation – Recall 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 first iteration recall 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 best iteration recall Improvement observed (89.38%) No-improvement observed
Conclusions ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Thank you! CONICET AGENCIA Laboratorio de Investigación y Desarrollo en Inteligencia Artificial lidia.cs.uns.edu.ar Universidad Nacional del Sur Bahía Blanca www.uns.edu.ar

Weitere ähnliche Inhalte

Andere mochten auch

Czwartek Social Media Katowice - Świat poza Facebookiem
Czwartek Social Media Katowice - Świat poza FacebookiemCzwartek Social Media Katowice - Świat poza Facebookiem
Czwartek Social Media Katowice - Świat poza FacebookiemWojciech
 
130221 alpro event21_feb13_changing consumer behaviour
130221 alpro event21_feb13_changing consumer behaviour130221 alpro event21_feb13_changing consumer behaviour
130221 alpro event21_feb13_changing consumer behaviourKatrien Barrat
 
Pharma sages cancer research plot for children
Pharma sages cancer research plot for childrenPharma sages cancer research plot for children
Pharma sages cancer research plot for childrenPharmaSages
 
Series 9 attachment -extract of relevant pages of satpanth atharv ved
Series 9  attachment -extract of relevant pages of satpanth atharv vedSeries 9  attachment -extract of relevant pages of satpanth atharv ved
Series 9 attachment -extract of relevant pages of satpanth atharv vedSatpanth Dharm
 
Series 9 attachment -photos of original hindu atharv ved pages
Series 9  attachment -photos of original hindu atharv ved pagesSeries 9  attachment -photos of original hindu atharv ved pages
Series 9 attachment -photos of original hindu atharv ved pagesSatpanth Dharm
 
Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...
Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...
Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...Katrien Barrat
 
De nieuwe consument redt zich wel
De nieuwe consument redt zich welDe nieuwe consument redt zich wel
De nieuwe consument redt zich welKatrien Barrat
 

Andere mochten auch (16)

Web application security
Web application securityWeb application security
Web application security
 
DTC THOR Associates
DTC THOR AssociatesDTC THOR Associates
DTC THOR Associates
 
PurpleSearch screenshots
PurpleSearch screenshotsPurpleSearch screenshots
PurpleSearch screenshots
 
Czwartek Social Media Katowice - Świat poza Facebookiem
Czwartek Social Media Katowice - Świat poza FacebookiemCzwartek Social Media Katowice - Świat poza Facebookiem
Czwartek Social Media Katowice - Świat poza Facebookiem
 
130221 alpro event21_feb13_changing consumer behaviour
130221 alpro event21_feb13_changing consumer behaviour130221 alpro event21_feb13_changing consumer behaviour
130221 alpro event21_feb13_changing consumer behaviour
 
Pharma sages cancer research plot for children
Pharma sages cancer research plot for childrenPharma sages cancer research plot for children
Pharma sages cancer research plot for children
 
Series 9 attachment -extract of relevant pages of satpanth atharv ved
Series 9  attachment -extract of relevant pages of satpanth atharv vedSeries 9  attachment -extract of relevant pages of satpanth atharv ved
Series 9 attachment -extract of relevant pages of satpanth atharv ved
 
Dollarbird inc
Dollarbird incDollarbird inc
Dollarbird inc
 
A03n50 avritzer
A03n50 avritzerA03n50 avritzer
A03n50 avritzer
 
Series 9 attachment -photos of original hindu atharv ved pages
Series 9  attachment -photos of original hindu atharv ved pagesSeries 9  attachment -photos of original hindu atharv ved pages
Series 9 attachment -photos of original hindu atharv ved pages
 
Coimbatore
CoimbatoreCoimbatore
Coimbatore
 
Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...
Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...
Recenste resultaten uit onze kwalitatieve onderzoeken, zoals gepresenteerd op...
 
Plan UMC
Plan UMCPlan UMC
Plan UMC
 
Abecedario para niños
Abecedario para niñosAbecedario para niños
Abecedario para niños
 
De nieuwe consument redt zich wel
De nieuwe consument redt zich welDe nieuwe consument redt zich wel
De nieuwe consument redt zich wel
 
Effective googling
Effective googlingEffective googling
Effective googling
 

Ähnlich wie Learning Better Context Characterizations: An Intelligent Information Retrieval Approach

OC Big Data Monthly Meetup #5 - Session 2 - Sumo Logic
OC Big Data Monthly Meetup #5 - Session 2 - Sumo LogicOC Big Data Monthly Meetup #5 - Session 2 - Sumo Logic
OC Big Data Monthly Meetup #5 - Session 2 - Sumo LogicBig Data Joe™ Rossi
 
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...Lucidworks
 
Reflected Intelligence: Lucene/Solr as a self-learning data system
Reflected Intelligence: Lucene/Solr as a self-learning data systemReflected Intelligence: Lucene/Solr as a self-learning data system
Reflected Intelligence: Lucene/Solr as a self-learning data systemTrey Grainger
 
VB2015 Malware Classification meets crowd-sourcing
VB2015 Malware Classification meets crowd-sourcingVB2015 Malware Classification meets crowd-sourcing
VB2015 Malware Classification meets crowd-sourcingJohn D. Park
 
Engineering Highly Maintainable Code: Maintain or Innovate
Engineering Highly Maintainable Code: Maintain or InnovateEngineering Highly Maintainable Code: Maintain or Innovate
Engineering Highly Maintainable Code: Maintain or InnovateSteve Andrews
 
And Then There Are Algorithms
And Then There Are AlgorithmsAnd Then There Are Algorithms
And Then There Are AlgorithmsInfluxData
 
Interpretability and Reproducibility in Production Machine Learning Applicat...
 Interpretability and Reproducibility in Production Machine Learning Applicat... Interpretability and Reproducibility in Production Machine Learning Applicat...
Interpretability and Reproducibility in Production Machine Learning Applicat...Swaminathan Sundararaman
 
Introducing SciaaS @ Sanger
Introducing SciaaS @ SangerIntroducing SciaaS @ Sanger
Introducing SciaaS @ SangerPeter Clapham
 
Virtual Science in the Cloud
Virtual Science in the CloudVirtual Science in the Cloud
Virtual Science in the Cloudthetfoot
 
Real-time Search at Yammer - By Aleksandrovsky Boris
Real-time Search at Yammer - By Aleksandrovsky BorisReal-time Search at Yammer - By Aleksandrovsky Boris
Real-time Search at Yammer - By Aleksandrovsky Borislucenerevolution
 
LLMs in Production: Tooling, Process, and Team Structure
LLMs in Production: Tooling, Process, and Team StructureLLMs in Production: Tooling, Process, and Team Structure
LLMs in Production: Tooling, Process, and Team StructureAggregage
 
R, Data Wrangling & Kaggle Data Science Competitions
R, Data Wrangling & Kaggle Data Science CompetitionsR, Data Wrangling & Kaggle Data Science Competitions
R, Data Wrangling & Kaggle Data Science CompetitionsKrishna Sankar
 
How to Feed a Data Hungry Organization – by Traveloka Data Team
How to Feed a Data Hungry Organization – by Traveloka Data TeamHow to Feed a Data Hungry Organization – by Traveloka Data Team
How to Feed a Data Hungry Organization – by Traveloka Data TeamTraveloka
 
UMich CI Days: Scaling a code in the human dimension
UMich CI Days: Scaling a code in the human dimensionUMich CI Days: Scaling a code in the human dimension
UMich CI Days: Scaling a code in the human dimensionmatthewturk
 
The Relevance of the Apache Solr Semantic Knowledge Graph
The Relevance of the Apache Solr Semantic Knowledge GraphThe Relevance of the Apache Solr Semantic Knowledge Graph
The Relevance of the Apache Solr Semantic Knowledge GraphTrey Grainger
 

Ähnlich wie Learning Better Context Characterizations: An Intelligent Information Retrieval Approach (20)

DL'12 mastro at work
DL'12 mastro at workDL'12 mastro at work
DL'12 mastro at work
 
OC Big Data Monthly Meetup #5 - Session 2 - Sumo Logic
OC Big Data Monthly Meetup #5 - Session 2 - Sumo LogicOC Big Data Monthly Meetup #5 - Session 2 - Sumo Logic
OC Big Data Monthly Meetup #5 - Session 2 - Sumo Logic
 
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
Reflected Intelligence - Lucene/Solr as a self-learning data system: Presente...
 
Reflected Intelligence: Lucene/Solr as a self-learning data system
Reflected Intelligence: Lucene/Solr as a self-learning data systemReflected Intelligence: Lucene/Solr as a self-learning data system
Reflected Intelligence: Lucene/Solr as a self-learning data system
 
VB2015 Malware Classification meets crowd-sourcing
VB2015 Malware Classification meets crowd-sourcingVB2015 Malware Classification meets crowd-sourcing
VB2015 Malware Classification meets crowd-sourcing
 
Engineering Highly Maintainable Code: Maintain or Innovate
Engineering Highly Maintainable Code: Maintain or InnovateEngineering Highly Maintainable Code: Maintain or Innovate
Engineering Highly Maintainable Code: Maintain or Innovate
 
And Then There Are Algorithms
And Then There Are AlgorithmsAnd Then There Are Algorithms
And Then There Are Algorithms
 
Interpretability and Reproducibility in Production Machine Learning Applicat...
 Interpretability and Reproducibility in Production Machine Learning Applicat... Interpretability and Reproducibility in Production Machine Learning Applicat...
Interpretability and Reproducibility in Production Machine Learning Applicat...
 
Introducing SciaaS @ Sanger
Introducing SciaaS @ SangerIntroducing SciaaS @ Sanger
Introducing SciaaS @ Sanger
 
AI Development with H2O.ai
AI Development with H2O.aiAI Development with H2O.ai
AI Development with H2O.ai
 
Virtual Science in the Cloud
Virtual Science in the CloudVirtual Science in the Cloud
Virtual Science in the Cloud
 
Realtime search at Yammer
Realtime search at YammerRealtime search at Yammer
Realtime search at Yammer
 
Real-time Search at Yammer - By Aleksandrovsky Boris
Real-time Search at Yammer - By Aleksandrovsky BorisReal-time Search at Yammer - By Aleksandrovsky Boris
Real-time Search at Yammer - By Aleksandrovsky Boris
 
Real Time Search at Yammer
Real Time Search at YammerReal Time Search at Yammer
Real Time Search at Yammer
 
Sam zhang demo
Sam zhang demoSam zhang demo
Sam zhang demo
 
LLMs in Production: Tooling, Process, and Team Structure
LLMs in Production: Tooling, Process, and Team StructureLLMs in Production: Tooling, Process, and Team Structure
LLMs in Production: Tooling, Process, and Team Structure
 
R, Data Wrangling & Kaggle Data Science Competitions
R, Data Wrangling & Kaggle Data Science CompetitionsR, Data Wrangling & Kaggle Data Science Competitions
R, Data Wrangling & Kaggle Data Science Competitions
 
How to Feed a Data Hungry Organization – by Traveloka Data Team
How to Feed a Data Hungry Organization – by Traveloka Data TeamHow to Feed a Data Hungry Organization – by Traveloka Data Team
How to Feed a Data Hungry Organization – by Traveloka Data Team
 
UMich CI Days: Scaling a code in the human dimension
UMich CI Days: Scaling a code in the human dimensionUMich CI Days: Scaling a code in the human dimension
UMich CI Days: Scaling a code in the human dimension
 
The Relevance of the Apache Solr Semantic Knowledge Graph
The Relevance of the Apache Solr Semantic Knowledge GraphThe Relevance of the Apache Solr Semantic Knowledge Graph
The Relevance of the Apache Solr Semantic Knowledge Graph
 

Kürzlich hochgeladen

Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers:  A Deep Dive into Serverless Spatial Data and FMECloud Frontiers:  A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FMESafe Software
 
A Beginners Guide to Building a RAG App Using Open Source Milvus
A Beginners Guide to Building a RAG App Using Open Source MilvusA Beginners Guide to Building a RAG App Using Open Source Milvus
A Beginners Guide to Building a RAG App Using Open Source MilvusZilliz
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Scriptwesley chun
 
MINDCTI Revenue Release Quarter One 2024
MINDCTI Revenue Release Quarter One 2024MINDCTI Revenue Release Quarter One 2024
MINDCTI Revenue Release Quarter One 2024MIND CTI
 
Polkadot JAM Slides - Token2049 - By Dr. Gavin Wood
Polkadot JAM Slides - Token2049 - By Dr. Gavin WoodPolkadot JAM Slides - Token2049 - By Dr. Gavin Wood
Polkadot JAM Slides - Token2049 - By Dr. Gavin WoodJuan lago vázquez
 
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...apidays
 
Manulife - Insurer Transformation Award 2024
Manulife - Insurer Transformation Award 2024Manulife - Insurer Transformation Award 2024
Manulife - Insurer Transformation Award 2024The Digital Insurer
 
Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...apidays
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonAnna Loughnan Colquhoun
 
DBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDropbox
 
ICT role in 21st century education and its challenges
ICT role in 21st century education and its challengesICT role in 21st century education and its challenges
ICT role in 21st century education and its challengesrafiqahmad00786416
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerThousandEyes
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Drew Madelung
 
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, AdobeApidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobeapidays
 
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...DianaGray10
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024The Digital Insurer
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfsudhanshuwaghmare1
 
presentation ICT roal in 21st century education
presentation ICT roal in 21st century educationpresentation ICT roal in 21st century education
presentation ICT roal in 21st century educationjfdjdjcjdnsjd
 
Strategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a FresherStrategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a FresherRemote DBA Services
 
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost SavingRepurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost SavingEdi Saputra
 

Kürzlich hochgeladen (20)

Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers:  A Deep Dive into Serverless Spatial Data and FMECloud Frontiers:  A Deep Dive into Serverless Spatial Data and FME
Cloud Frontiers: A Deep Dive into Serverless Spatial Data and FME
 
A Beginners Guide to Building a RAG App Using Open Source Milvus
A Beginners Guide to Building a RAG App Using Open Source MilvusA Beginners Guide to Building a RAG App Using Open Source Milvus
A Beginners Guide to Building a RAG App Using Open Source Milvus
 
Automating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps ScriptAutomating Google Workspace (GWS) & more with Apps Script
Automating Google Workspace (GWS) & more with Apps Script
 
MINDCTI Revenue Release Quarter One 2024
MINDCTI Revenue Release Quarter One 2024MINDCTI Revenue Release Quarter One 2024
MINDCTI Revenue Release Quarter One 2024
 
Polkadot JAM Slides - Token2049 - By Dr. Gavin Wood
Polkadot JAM Slides - Token2049 - By Dr. Gavin WoodPolkadot JAM Slides - Token2049 - By Dr. Gavin Wood
Polkadot JAM Slides - Token2049 - By Dr. Gavin Wood
 
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
Apidays New York 2024 - The Good, the Bad and the Governed by David O'Neill, ...
 
Manulife - Insurer Transformation Award 2024
Manulife - Insurer Transformation Award 2024Manulife - Insurer Transformation Award 2024
Manulife - Insurer Transformation Award 2024
 
Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...Apidays New York 2024 - The value of a flexible API Management solution for O...
Apidays New York 2024 - The value of a flexible API Management solution for O...
 
Data Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt RobisonData Cloud, More than a CDP by Matt Robison
Data Cloud, More than a CDP by Matt Robison
 
DBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor PresentationDBX First Quarter 2024 Investor Presentation
DBX First Quarter 2024 Investor Presentation
 
ICT role in 21st century education and its challenges
ICT role in 21st century education and its challengesICT role in 21st century education and its challenges
ICT role in 21st century education and its challenges
 
How to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected WorkerHow to Troubleshoot Apps for the Modern Connected Worker
How to Troubleshoot Apps for the Modern Connected Worker
 
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
Strategies for Unlocking Knowledge Management in Microsoft 365 in the Copilot...
 
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, AdobeApidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
Apidays New York 2024 - Scaling API-first by Ian Reasor and Radu Cotescu, Adobe
 
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
Connector Corner: Accelerate revenue generation using UiPath API-centric busi...
 
Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024Axa Assurance Maroc - Insurer Innovation Award 2024
Axa Assurance Maroc - Insurer Innovation Award 2024
 
Boost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdfBoost Fertility New Invention Ups Success Rates.pdf
Boost Fertility New Invention Ups Success Rates.pdf
 
presentation ICT roal in 21st century education
presentation ICT roal in 21st century educationpresentation ICT roal in 21st century education
presentation ICT roal in 21st century education
 
Strategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a FresherStrategies for Landing an Oracle DBA Job as a Fresher
Strategies for Landing an Oracle DBA Job as a Fresher
 
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost SavingRepurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
Repurposing LNG terminals for Hydrogen Ammonia: Feasibility and Cost Saving
 

Learning Better Context Characterizations: An Intelligent Information Retrieval Approach

  • 1. Learning Better Context Characterizations: an Intelligent Information Retrieval Approach Carlos M Lorenzetti Ana G Maguitman [email_address] [email_address] Universidad Nacional del Sur Av. L.N. Alem 1253 Bahía Blanca - Argentina Grupo de Investigación en Recuperación de Información y Gestión del Conocimiento Laboratorio de Investigación y Desarrollo en Inteligencia Artificial CONICET AGENCIA
  • 4. Information Retrieval limitations Java as programming language
  • 6. Problems: ambiguity Java? Animals Computers Consumables Entertainment Geography Flora Ships
  • 7.
  • 8. Context Characterization Words list T1 p1 T2 p2 T3 p3 T4 p4 Tn pn Context Articles Newspapers Others
  • 9.
  • 10.
  • 11.
  • 12. Descriptors and Discriminators Java Language Applets Code Topic: Java Virtual Machine NetBeans Computers JVM Ruby Programming JDK Virtual Machine
  • 13. Descriptors and Discriminators Java Language Applets Code Topic: Java Virtual Machine NetBeans Computers JVM Ruby Programming JDK Virtual Machine Good descriptors
  • 14. Descriptors and Discriminators Java Language Applets Code Topic: Java Virtual Machine NetBeans Computers JVM Ruby Programming JDK Virtual Machine Good discriminators
  • 15.
  • 16. Documents Descriptors Topic: Java Virtual Machine Initial Context Descriptive power of a term in a document 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java 0,000 0,000 0,000 0,000 0,000 0,539 0,180 0,180 0,359 0,718
  • 17. Documents Discriminators Topic: Java Virtual Machine Initial Context Discriminating power of a term in a document 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java 0,000 0,000 0,000 0,000 0,000 0,577 0,500 0,577 0,500 0,447
  • 18. Documents comparison criteria Documents similarity K 1 K 3 K 2 d 2 d 1  Cosine similarity
  • 19. Topics Descriptors Topic: Java Virtual Machine Initial Context Term descriptive power in a topic of a document 0 jdk 0 jvm 0 province 0 island 0 coffee 3 programming 1 language 1 virtual 2 machine 4 java 0,014 0,032 0,040 0,040 0,055 0,064 0,089 0,124 0,158 0,385
  • 20. Topics Discriminators Topic: Java Virtual Machine Initial Context Term discriminating power in a topic of a document 0 province 0 island 0 coffee 4 java 1 language 2 machine 3 programming 1 virtual 0 jdk 0 jvm 0,385 0,385 0,385 0,493 0,517 0,524 0,566 0,566 0,848 0,848
  • 21. Proposed Algorithm Context w 1 w 2 w 3 w 4 w 5 w 6 w 7 w 8 w m-1 w m w m-2 w 9 . . . Roulette query 01 query 02 query 03 query n result 03 result 01 result 02 result n w 0,5 w 0,25 . . . w 0,1 1 2 m DESCRIPTORS DESCRIPTORS w 0,4 w 0,37 . . . w 0,01 1 2 m DISCRIMINATORS DISCRIMINATORS 1 2 4 3 Terms
  • 22.
  • 23.
  • 24. Evaluation – Similarity Top/Computers/Open_Source/Software 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 120 140 160 180 iteration novelty-driven similarity [0.5866; 0.6073] 0.5970 best [0.0618; 0.0704] 0.0661 1 st 95% CI Mean  N Maximum Average Minimum
  • 25. Evaluation – Similarity Context update 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 120 140 160 180 iteration novelty-driven similarity [0.5866; 0.6073] 0.5970 best [0.0618; 0.0704] 0.0661 1 st 95% CI Mean  N Maximum Average Minimum
  • 26. Evaluation – Similarity Query formulation and retrieval process 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 20 40 60 80 100 120 140 160 180 iteration novelty-driven similarity [0.5866; 0.6073] 0.5970 best [0.0618; 0.0704] 0.0661 1 st 95% CI Mean  N Maximum Average Minimum
  • 27. Evaluation – Precision 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 first iteration precision best iteration precision Improvement observed (89.18%) No-improvement observed
  • 28. Evaluation – Recall 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 first iteration recall 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 best iteration recall Improvement observed (89.38%) No-improvement observed
  • 29.
  • 30. Thank you! CONICET AGENCIA Laboratorio de Investigación y Desarrollo en Inteligencia Artificial lidia.cs.uns.edu.ar Universidad Nacional del Sur Bahía Blanca www.uns.edu.ar

Hinweis der Redaktion

  1. Cuando realizamos una búsqueda, el éxito que obtenemos depende de la efectividad que tenga el método que utilizamos para identificar la información relevante , y por lo tanto, necesita descubrir qué tema nos interesa en ese momento. El primer problema que aparece es la AMBIGÜEDAD que tienen las palabras, como muestra este ejemplo. Si buscamos la palabra Java en un buscador obtendremos resultados que refieren al término dentro de distintos ámbitos.
  2. Vemos la Isla de Java
  3. y Java como lenguaje de programación .
  4. Luego, cuando necesitemos información sobre algún término tendremos que enfrentarnos con este problema.
  5. Por ejemplo si buscamos la palabra Java en Wikipedia, nos muestra 8 tópicos principales dentro de los cuales se puede usar la palabra.
  6. Nosotros proponemos una base teórica para entender mejor el rol del CONTEXTO en la recuperación de información de la Web. Abordamos el problema de identificar los términos que son específicos al contexto que nos interesa, el hallazgo de fuentes de información relevantes y, la generación y refinación incremental de consultas que se envían a un buscador Web.
  7. ¿Cómo obtenemos este contexto, a partir del cual refinaremos las consultas? Existen muchas tareas que se realizan a través de una computadora que nos proveen de la suficiente información como para ayudar en la búsqueda dentro de la Web. Por ejemplo, cuando un usuario está editando un documento o leyendo un diario puede estar interesado en conocer más del tema. Entonces podemos incluir un recomendador que monitoree las actividades del usuario y en el momento en que este le solicita información (directamente o de forma automática), le devuelve documentos relevantes. Al capturar el contexto de este manera lo que obtenemos es un conjunto de palabras que deberán generalizarse a la noción de tópico o, tema de interés, y de esta forma podremos realizar la desambiguación de los términos que pertenezcan a más de un tópico.
  8. La medida que se utiliza mas comunmente para cuantificar la importancia de un término es TF-IDF, que consta de dos partes, la primera, le dá más importancia a las palabras que aparecen con mucha frecuencia en un documento y el segundo compensa el resultado final quitándoles peso a aquellos términos que son frecuentes en todos los documentos del corpus. El principal problema que se presenta al tratar de aplicar este método a un dominio como el de la Web es que es imposible que conocamos la totalidad de los documentos. Por lo tanto, proponemos
  9. Un método incremental basado en la noción de descriptores y discriminadores . Un descriptor es un término que aparece frecuentemente en documentos del mismo tópico y responde a la pregunta: ¿sobre qué trata este tema? Un discriminador es aquel que aparece solo en documentos del tópico. Y responde a la pregunta: ¿qué palabras utilizo para encontrar información similar?
  10. Ahora vamos a mostrar un ejemplo simple en que se pueda apreciar el potencial de estos términos.
  11. Por ejemplo, si tomamos el tópico: máquina virtual de java, podríamos tener en nuestro contexto las siguientes palabras:
  12. Entonces, intuitivamente y de acuerdo a la definición que dimos, podemos decir que buenos descriptores serían palabras como java, máquina y virtual y,
  13. buenos discriminadores serían: jvm y jdk
  14. Ahora veamos cómo calculamos estos pesos con el método incremental a través de un ejemplo. Vemos aquí, un documento (representado en la primer columna) sobre el tópico que tomamos como contexto inicial y un conjunto de páginas que representan los resultados que un motor de búsqueda podría devolvernos a partir de él. Definimos una matriz H que en cada celda nos indica la cantidad de ocurrencias de un término en un documento. En ella tenemos 4 documentos, dos tratando sobre Java y Café y dos sobre Java como lenguaje.
  15. Definimos el poder descriptivo de un término en un documento (como dijimos tomamos un documento del tópico Máquina virtual de java) con esta expresión y esos serían los valores que obtendríamos en el ejemplo. Vemos que los términos que no existen en el contexto inicial, obtienen un valor nulo.
  16. También el poder discriminante de un término en un documento con esta otra expresión y vemos los resultados . Nuestro objetivo es aprender qué necesita el usuario, entonces en lugar de extraer los descriptores y discriminadores de un documento (el contexto del usuario) buscamos encontrar los descriptores y discriminadores del TÓPICO del contexto del usuario. Esto necesita un método incremental que identifique los documentos que son similares con el contexto del usuario. Por esto necesitamos:
  17. El criterio de comparación entre documentos, y el que utilizamos se conoce como Similitud por Coseno. Los documentos pueden verse como conjuntos de palabras, entonces podemos crear un espacio de términos en donde cada documento sea un vector dentro de ese espacio. Luego podremos definir y calcular la similaridad entre dos documentos como el coseno del ángulo que forman los vectores en este espacio. Esta medida puede calcularse a partir de las ecuaciones que presentamos anteriormente. La similaridad por coseno es muy útil ya que con ella definimos la noción de tópico. Un tópico agrupa a aquellos documentos que tiene una similaridad por coseno muy alta.
  18. Utilizando las nociones de descriptores y discriminadores de un documento y el criterio de comparación mencionado podemos definir la noción de poder descriptivo de un término en el tópico de un documento a través de esta ecuación. Vemos que ,como habíamos mencionado, java y máquina son buenos descriptores del tópico que estamos analizando.
  19. También definimos la noción de discriminador de un término en el tópico de un documento a través de esta ecuación y observamos algo muy notable y es que términos como jvm y jdk que no pertenecían al documento inicial resultan ser muy buenos discriminadores del tópico, como habíamos dicho. Los métodos incrementales son muy útiles en los casos en los que contamos con muchas fuentes de información ya que la identificación incremental de los términos, quizás desconocidos de un tópico ayuda a encontrar material relevante dentro de grandes colecciones de documentos.
  20. El algoritmo incremental que mostraremos utiliza las nociones de descriptores y discriminadores, por lo que las consultas las generará a partir de dos listas que nos indican el poder que tiene cada término como descriptor y como discriminador en el tópico del contexto del usuario. El algoritmo trabaja de la siguiente manera: tenemos el contexto del usuario, capturado como dijimos. A partir de él, tenemos un conjunto de términos que serán el punto de partida. Con estos términos generamos el primer conjunto de consultas que se enviarán a un motor de búsqueda. Con estos resultados vamos calculando los pesos que tienen los términos en ambas listas. El Paso 2 es iterativo de forma de contar con suficiente información sobre los términos y su relación con el contexto. Por último, luego de que el algoritmo evolucionó lo suficiente, se actualiza el contexto del usuario con el conocimiento adquirido y el proceso vuelve a comenzar hasta que se alcanza cierto criterio de convergencia.
  21. Con esto terminamos la parte teórica, ahora mostraremos la implementación de un sistema que hace uso de los conceptos definidos
  22. Para realizar la evaluación construímos un Índice local a partir de las páginas de algunos tópicos del directorio DMOZ. El índice se realizó a partir de todos los tópicos que cumplieron con algunas restricciones que se impusieron para asegurar la calidad del conjunto de prueba. Esa restricciones fueron: Páginas en lenguaje inglés Tópicos del 3er nivel de la jerarquía y todos sus subtópicos. Cada tópico tenía que tener al menos 100 páginas. Explicar precision, recall y documento relevante. Similitud entre los documentos recuperados y el contexto del usuario. Precisión de los resultados, que es la cantidad de documentos relevantes recuperados vs la totalidad de los recuperados Recall, que es la cantidad de documentos relevantes recuperados vs la cantidad de documentos relevantes que había en el corpus. Tomamos como contexto inicial la descripción que tiene DMOZ para cada tópico y consideramos que un documento era relevante si pertenecía al tópico o a un subtópico del contexto.
  23. Lo que vemos es un gráfico que nos muestra la evolución de la Similitud de los resultados obtenidos a través de las iteraciones para un tópico que mostramos como ejemplo del comportamiento del algoritmo propuesto.
  24. Podemos apreciar la evolución del algoritmo. Cada salto que se ve, es el momento en que se actualizó el contexto y es en donde se pueden apreciar las mejoras más significativas.
  25. Las partes más planas son aquellas iteraciones en las que el algoritmo está formulando las consultas y recuperando los resultados. Podemos ver que nuestro algoritmos es significativamente mejor que el que tomamos como baseline y el cual genera consultas tomando términos del contexto del usuario.
  26. En este caso vemos un gráfico de la precisión alcanzada por el algoritmo propuesto para TODOS los tópicos analizados, comparados con un algoritmo que tomamos como baseline y que genera las consultas tomando términos del contexto del usuario. Vemos que nuestro algoritmo mejora notablemente los resultados. Los puntos azules son tópicos en los que se observaron mejoras y los puntos rojos son aquellos tópicos en los que no se observan mejoras.
  27. Finalmente vemos el Recall y también vemos mejoras.