Fast Esp搜索系统

FAST ESP 搜索系统技术中心 2009 年 9 月

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object]

系统结构 Administration Services 内容聚合 web DB file 文档处理内容文档索引系统搜索系统查询和结果处理用户

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],相关术语

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

获取内容（ feeding content ） ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Connectors ContentApi crawler File traverser Jdbc connectors 文档处理器 Fast esp 集成的 Fast 软件包 web DB file

Collections ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],pipeline web DB file crawler jdbc File Trav Collection ： Documents

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Document Model

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Web 内容 ---Crawler

File Traverser 其他文件 PDF 文件 XML 文件 File Traverser Document Processing DB collection collection collection

[object Object],[object Object],[object Object],[object Object],File Traverser

JDBC Connector JDBC Connector Document Processing DB Result Set sql 内容分发每行 1 个文档 collection collection collection

文档处理系统 Document Processing Engine 内容 API 内容分发 Search index index QR SFE collection collection collection

文档处理系统 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

内容流 Document Processing Engin Collection 1 内容 API 内容分发 index searchApi SFE Collection n Collection 2 API 客户扩展的处理器

Document 、 Collection 、 Pipeline 、 Stage ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Document Processing Attributes Content Api Document elements Index Document fields Index profile

Document 、 Collection 、 Pipeline 、 Stage ,[object Object],Collection A Collection B

Document 、 Collection 、 Pipeline 、 Stage ,[object Object],[object Object],[object Object],[object Object],Content Doc init Doc Retri eval … Gen fixml Send To Indexer Indexing

Document 、 Collection 、 Pipeline 、 Stage ,[object Object],[object Object],[object Object],[object Object],[object Object]

Entity Extraction ,[object Object],[object Object],[object Object],[object Object],[object Object],电影电视剧动漫动作喜剧剧情刘德华周星 Title ：天若有情 - 主演：刘德华 Title ：电视剧 - 李小龙传奇 Title ： Tag: 刘德华 Title ： Tag: 电视剧

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object],[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],概述

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],概述

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],文档处理相关

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],文档处理相关

搜索处理系统 index 搜索引擎 SFE Search Api Query and Result Server query 结果 Query& 参数 Query& 参数 HTTP client Text/xml 结果 Enhanced 结果 API client 结果处理 pipeline query 处理 pipeline

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关 Prefix ： fas* Full:fas*/*ash/f?st Substring=6 Query:summer D:midsummer

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Query 和结果处理相关

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],讨论内容 ,[object Object],[object Object],[object Object]

Rank Profile ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

相关术语（ Relevancy Terminology ） For muli-term queries:the shorter the distance between query terms in a document,the higher the document’s rank value Proximity Importance of matching a query in a given document field Context Importance of geographical distance between a document’s associated latitude/longitude and a target location specified in a query Geo Assigned importance of a document ， independent of the query Quality Importance of a document determined by the links to it from other documents Authority Age of a document compared to the time when the query is issued Freshness 描述术语

相关术语（ Relevancy Terminology ）计算 context 和 proximity 时额外用到的统计数据。 The greater the number of query terms present in the same field of a matching document, the highter the document’s rank value Completeness The more frequent a query term occurs in the document(term frequency or TF)relative to the term’s frequency in the index(inverse document frequency or IDF),the higher the document’s rank value Frequency The earlier a query term occurs in a field,the highter the document’s rank value Position 描述术语

相关算法（ Relevancy Formula ） R(d,q)=S(d)+F(d,T)+D(d,q) R=query q 在 document d 中的 rank 值 S=document d 的静态 rank 值，与 query 无关 F=freshness of document d at time t D=dynamic rank

相关算法（ Relevancy Formula ） R(d,q)=S(d)+F(d,T)+D(d,q) (boost_coefficient*w_quality/100)*static_rank_field(d) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

相关算法（ Relevancy Formula ） R(d,q)=S(d)+F(d,T)+D(d,q) (w_freshness/100)*fn(time scale,document age) ,[object Object],[object Object],[object Object],[object Object]

相关算法（ Relevancy Formula ） R(d,q)=S(d)+F(d,T)+D(d,q) ,[object Object],(Fn(FO)+fn(NO)+W_authority/100*fn(ExtNO)+single_boost*W_context/100*sum(W_fieldN/100)) /fn(num_matching_docs) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

相关算法（ Relevancy Formula ） R(d,q)=S(d)+F(d,T)+D(d,q) ,[object Object],D(d,q1)+D(d,q2)+…+W_context/100*fn(common context)+fn(operator)+W_proximity/100*fn(term proximity) ,[object Object],[object Object],[object Object],[object Object]

Fast ESP 的语言学特性 ,[object Object],[object Object],分词 Tokenization 符号标准化。 Character normalization 移除停止词 Anti-phrasing 和 stopword 语音搜索 Phonetic search Email 、人名、地名等 Entity Extraction French Open ， John Lervik Proper Name 或 phrase 识别 Car—automobile Synonyms go—goes—going—went—gone Lemmatization sarsh----search spellchecking

Fast ESP 的语言学特性增加索引时间增加内容处理时间增加磁盘使用好的用户体验坏处好处

Fast ESP 的语言学特性不需要重新处理文档需要重新处理文档增加 QPS 省 query 时间 Proper name 和 phrase recognition 不影响 index 增加 index Anti-phrasing 、 stopword Entity extraction Spell checking Tokenization Synonym Synonym Lemmatization Lemmatization Query 时使用内容处理时使用

CJK 语言 ,[object Object],[object Object],[object Object],[object Object]

CJK 语言 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],軟體软件金山詞霸词霸 After character normalization 軟體软件金山詞霸 After qt_synonym 軟體金山詞霸 Original Query Query keywords Stage

CJK 语言 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

CJK 语言中华人民共和国 1.substring=1 中华人民共和国 2.substring=2 中华华人人民民共共和和国 ,[object Object]

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],定义

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],定义

多节点体系获取内容文档处理子系统索引子系统搜索子系统查询与结果处理子系统搜索用户 Admin 组件

多节点体系 - 文档处理子系统文档处理器文档处理器内容分发文档处理器文档处理器内容分发 ,[object Object],[object Object],[object Object],[object Object]

多节点体系 - 索引子系统 indexer indexer 内容分发 indexer 索引分发 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],indexer

多节点体系 - 索引子系统 Indexer （ master ） Indexer （ master ）内容分发 Indexer （ backup ）索引分发 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Indexer （ backup ）

多节点体系 - 索引子系统 Indexer （ master ）内容分发索引分发 ,[object Object],[object Object],[object Object],[object Object],[object Object],Indexer （ backup ） Indexer （ backup ）

多节点体系 - 搜索和 QR 子系统 search R0C0 Top-level 分发（ QR ） ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],search R1C0 search R0C2 search R0C1 search R1C2 search R1C1

多节点体系 - 搜索和 QR 子系统 search R0C0 Top-level 分发（ QR ） ,[object Object],[object Object],search R1C0 search R0C2 search R0C1 search R1C2 search R1C1 搜索用户负载均衡

多节点体系 -index 部署 ,[object Object],[object Object],indexer Master indexer backup search search search indexer indexer indexer search search search

多节点体系 -admin 子系统 ,[object Object],[object Object],CORBA Name Service License Manager Resource Service Log Transformer Log Server Config server Cache Manager Admin Server Relbench Storage service Web server

Index Partitions 机制 ,[object Object],[object Object],[object Object],[object Object],[object Object],0 1 2 docsDistributionPst ： 100 ， 100 ， 100 触发条件： 10000 ， 1000000 2 ： 6

Index Partitions 优化 ,[object Object],[object Object],[object Object],[object Object],[object Object],0 1 2

Index blacklisting ,[object Object],[object Object],[object Object]

Index blacklisting ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],0 1 2 DocumentA-2 DocumentA-1

部署结构 RI RS Ind RS RI RI RS RS RS RS QR Ind CP DP admin QR RT RT search10 search9 search5 search4 search3 search2 search1

部署结构 Ind DP QR QR RS RS RS RS RS RS RI RI RI Ind CP DP

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],数据源

索引字段 UGC- 现有字段：建立专辑时使用 vuploadusername 视频上传用户 uuseeupdate 刷新时间可以根据该字段导航 vsourcesite 来源网站可以根据该字段导航 vtags 标签可排序 vlength 视频长度 vplayurl 视频播放页面地址可以根据该字段导航 vcategorys 类别 vlogo 视频图片可排序 vtitle 视频标题 vevid 原始编码 ID vvid 原始 ID vid 唯一标识备注索引字段名称

索引字段 UGC- 准备扩充字段：建立专辑 vuploaduserid 视频上传用户 ID 计算权重。可排序 vlink 引用次数计算权重。可排序 vcomment 评论次数计算权重。可排序 vpageview 观看次数计算权重。可排序 Vfav 收藏次数可以根据该字段导航 vchannel 频道备注索引字段名称

索引字段专辑 - 现有字段： plvideocount 视频数可以根据该字段导航 plchannel 频道 Vod 还是 ugc pltype 类别 plvideotitles 视频标题 plvideoinfo 视频信息可以根据该字段导航 plsourcesite 来源网站可以根据该字段导航 pltags 标签可排序 pllength 总长度 VOD 时为文件 GUID plplayurl 第 1 个视频播放地址可以根据该字段导航 plcategorys 类型 pllogo 图片可排序 pltitle 标题 plbaikeid 百科 ID plid 唯一标识备注索引字段名称

Fast Esp搜索系统

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Ähnlich wie Fast Esp搜索系统

Ähnlich wie Fast Esp搜索系统 (20)

Fast Esp搜索系统