【崇左seo】搜索引擎CACHE策略研究

释放双眼,带上耳机,听听看~!
【崇左seo】搜索引擎CACHE策略研究 一.关于搜索引擎用户查询得出的结论:(1) 用户查询有很大比例的重复性。有30%到40%的用户查询是重复查询。(2) 大多数重复的用户查询会在较短的间隔时间被再次重复访问。(3) 大多数用户的查询是短查询,大约包含2-5个单词。(4) 用户一般只查看返回结果的前三个页面(前30个返回结果)。58%用户只查看第一个页面(TOP 10),15%用

【崇左seo】搜索引擎CACHE策略研究
【崇左seo】搜索引擎CACHE策略研究
一.关于搜索引擎用户查询得出的定论:

(1) 用户查询有很大份额的重复性。
【崇左seo】搜索引擎CACHE策略研究
有30%到40%的用户查询是重复查询。

(2) 大多数重复的用户查询会在较短的间隔时刻被再次重复拜访。

(3) 大多数用户的查询是短查询,大约包括2-5个单词。

(4) 用户一般只检查回来成果的前三个页面(前30个回来成果)。58%用户只检查第一个页面(TOP 10),15%用户检查第二个页面,不超越12%的用户会检查第三个页面今后的检索成果。

(5) 关于用户查询差异程度。有比较大的查询程度,一百万个用户查询中大约63.7%的用户查询只呈现过一次。别的一方面,会集的重复查询也十分会集:25个高频查询大约占总查询的1.23%-1.5%.

二.CACHE的根本战略

(1) LRU:最近最少运用战略

根本假定:最近很少被重复拜访的缓存记载在最近的将来也不会被拜访。这是最简略的一种CACHE战略。将用户查询依照最近运用时刻进行排序,筛选战略将最老的查询筛选出CACHE。

(2) FBR:不只考虑时刻也考虑引证计数的问题。

FBR在LRU战略的基础大将CACHE分为三个不同的部分:NEW,OLD,MIDDLE

NEW:存储最近被拜访过的记载;

OLD:存储最近最少运用的一批记载;

MIDDLE:存储介于NEW和OLD之间的一批记载;

引证计数的时分不考虑NEW区域的记载,只考虑OLD和MIDDLE两个区域的记载引证计数添加,在替换记载的时分从OLD区域挑选引证计数最少的那个记载进行替换。

(3) LRU/2:关于LRU的改善,核算第2次到最后一次被拜访总的LRU,将老的记载筛选。

(4) SLRU:

CACHE被分为两个部分:非维护区域和维护区域。每个区域的记载都依照最近运用频度由高到低排序,高端叫做MRU,低端叫做LRU。假如某个查询没有在CACHE找到,那么将这个查询放入非维护区域的MRU端;假如某个查询在CACHE射中,则把这个查询记载放到维护区的MRU端;假如维护区已满,则把记载从维护区放入非维护区的MRU,这样维护区的记载最少要被拜访两次。筛选的机制是将非维护区的LRU筛选。

(5) LandLord战略

将一个记载添加到CACHE的时分,给予这个记载一个值(DEADLINE),假如需求筛选记载的时分,挑选CACHE里边DEADLINE最小的那个筛选,一起将CACHE里边其它一切记载减去这个被筛选的记载的DEADLINE值,假如一个记载被射中,则将这个记载的DEADLINE扩大到必定值。

(6) TSLRU:Topic based SLRU:与SLRU战略相同,不过不是依照查询调整替换战略,而是依照查询所属主题进行调整。

(7) TLRU: Topic based LRU

根本战略和LRU相同,差异在于保存查询的主题(TOPIC)信息,关于某个查询来说,不只该主题的检索成果进入CACHE,并且原先在CACHE里边的相同主题的查询及其成果也调整时刻,更新为最新进入CACHE。可以看作是主题LRU,而LRU是查询LRU。

(8) PDC (probability driven cache):针对用户的阅读行为树立概率模型,然后调整CACHE里边的记载优先等级,针对某个查询,将用户阅读数目比较多的文档在CACHE里边的等级进步。

(9) 预取战略

所谓预取,便是体系猜测用户在很短时刻内的行为,然后将该行为涉及到的数据预先存储在CACHE里边。存在不同的预取战略,比方预取战略:由于一般用户在检查完第一页检索成果后会翻看第二页成果,所以将该用户查询的第二页成果首要预取到CACHE里边,这样可以削减存取时刻。

(10) 二级CACHE

有两级CACHE,一级是查询成果CACHE,保存了原始查询以及相关文件;第二级CACHE是倒排文档列表CACHE,也便是查询中某个单词在索引中的倒排列表信息,这个CACHE首要削减了磁盘I/O时刻。替换战略采纳LRU,成果证明该办法进步30%的功能。

(11) 三级CACHE

是对二级CACHE的一种改善战略,除了二级CACHE里边保存的两个CACHE,别的添加一个CACHE,这个CACHE记载了两个单词查询的倒排文档交集记载,这样一个是省去了磁盘I/O时刻,别的一个削减了核算交集的操作,有用的削减了核算量。

三.CACHE办法功能剖析与比较

(1) LRU合适存储比较小的记载作用才好。

(2) 中等巨细的CACHE可以满意很大一部分重复用户查询。(大约20%的查询可以在中等巨细CACHE找到)

(3) 将时刻要素和射中次数结合起来的缓存战略好于只考虑时刻要素的战略。试验标明FBR/LRU2/SLUR功能总是好于LRU战略。

(4) 关于小CACHE来说,静态CACHE战略要好于动态CACHE战略,射中率要高些。

(5) 关于LRU来说,大CACHE的重复射中率大约占30%。

(6) 关于大CACHE来说,TLRU稍微好于LRU,可是不同不太大。关于小CACHE,定论正好相反。

(7) 跟着CACHE逐步增大,射中率逐步添加,关于SLRU来说,其功能跟两个分区区分巨细无关。

(8) PDC的射中率高于LRU变形算法,大约有53%射中率,不过核算复杂度高。

原文标题:【崇左seo】搜索引擎CACHE策略研究

人已赞赏
百度SEO

【seo每日】快速百度收录与快速提升排名的秘诀(2)

2020-3-8 19:10:26

百度SEO

【网站名称大湘seo】黑帽特征码匹配技术|网站SEO|培训

2020-3-15 5:11:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索