近似重复网页举例

搜索引擎近似重复检测流程:

搜索引擎近似重复检测流程

通用网页去重算法框架:

通用网页去重框架

SimHash文档指纹计算方法

SimHash文档指纹计算方法

说明:

1)从文档中提取具有权值的 特征集合来表示文档。如:假设特征都是由词组成的,词的权值由词频TF 来确定。

2)对每一个词,通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

3)在N维(上图为8维)的向量V中,分别对每维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

4)当所有的词都按照上述处理完毕后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。

Jacccard相似性计算方法:

Jacccard相似性计算方法

如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。 A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。

如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

在实际应用中,集合A 和 集合B 的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

对给定的文档A,假设经过特征抽取–哈希指纹运算后的二进制数值是:1 0 0 0 0 0 1 0

对给定的文档B, 假设经过特征抽取—哈希指纹运算后的二进制数值是:0 0 1 0 0 0 0 1

经过比较,文档A 和 B的 第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4. 两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

不同搜索引擎可能会以不同的海明距离值 来判断两个网页内容是否近似重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理.

作者:

相关阅读:

搜索引擎是怎么删除重复网页的

搜索引擎催生网页垃圾内容

谷歌论文:大规模的超文本网页搜索引擎的分析

百度2013年中国网站发展趋势报告

搜索引擎如何抓取你的网页

顶: 1 踩: 0

来源: QQ/微信:13340454 ,转载请注明出处!

本文地址: