皇冠·体育(中国)官方网站-Crown Sports

皇冠体育官网

近似重复网页举例
搜索引擎近似重复检测流程：
搜索引擎近似重复检测流程
通用网页去重算法框架：
通用网页去重框架
SimHash文档指纹计算方法
SimHash文档指纹计算方法
说明：
1)从文档中提取具有权值的特征集合来表示文档。如：假设特征都是由词组成的，词的权值由词频TF 来确定。
2)对每一个词，通过哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图，以生成8位的二进制值为例。每个词都对应各自不同的二进制值。
3)在N维(上图为8维)的向量V中，分别对每维向量进行计算。如果词相应的比特位的二进制数值为1，则对其特征权值进行加法运算;如果比特位数值为0，则进行减法运算，通过这种方式对向量进行更新。
4)当所有的词都按照上述处理完毕后，如果向量V中第i维是正数，则将N位的指纹中第i位设置为1，否则为0。
Jacccard相似性计算方法：
Jacccard相似性计算方法
如上图，A和B代表2个集合，集合C代表集合A和B相同的部分。 A集合包含5个元素，B集合包含4个元素，而两者相同的元素有2个，即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。
如图中，集合A和集合B共有7个不同的元素，相同元素个数2个，所以集合A和集合B的相似性为：2/7
在实际应用中，集合A 和集合B 的特征都会经过哈希计算，转化成N位(64位甚至更多)的二进制数值，从而将集合A和B的相似性比较转化为二进制数值的比较，称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。
对给定的文档A，假设经过特征抽取–哈希指纹运算后的二进制数值是：1 0 0 0 0 0 1 0
对给定的文档B, 假设经过特征抽取—哈希指纹运算后的二进制数值是：0 0 1 0 0 0 0 1
经过比较，文档A 和 B的第1位、第3位、第7位、第8位四个位置的数值不同，即海明距离为4. 两个文档的二进制位数不同的个数越多，海明距离越大。海明距离越大，说明两个文档不相似性越大，反之，则越小。
不同搜索引擎可能会以不同的海明距离值来判断两个网页内容是否近似重复。相关分析认为，一般情况下，对一个64位的二进制数值来说，将海明距离<=3作为判断是否近似重复的标准比较合理.
作者：
相关阅读：
搜索引擎是怎么删除重复网页的
搜索引擎催生网页垃圾内容
谷歌论文：大规模的超文本网页搜索引擎的分析
百度2013年中国网站发展趋势报告
搜索引擎如何抓取你的网页
顶: 1 踩: 0
来源：皇冠·体育(中国)官方网站-Crown Sports皇冠体育官网 QQ/微信：13340454 ，转载请注明出处！

本文地址：http://www.zmthbjt.com/info/post/346.html

名称必填

联系 QQ 微信网址

QQ 选填

◎已有 7 人跟帖，

热门跟帖

最新跟帖

1楼

囧

我和小伙伴们都惊呆了

评论来自电脑端  时间:2014-02-03 15:27:13

顶: 0 踩: 0 回复

2楼

贪狼


谁知道重复文档的处理方式第2条将文档分组是什么意思？
是将转载的文章放入一个相同的小栏目或者大栏目吗？

评论来自电脑端  时间:2013-02-25 09:38:41

顶: 0 踩: 0 回复

3楼

幸凡学习网

讲的太形象了。

评论来自电脑端  时间:2013-02-25 08:29:41

顶: 0 踩: 0 回复

4楼

Rude

数据指纹，第一次看到这么形象的例子了

评论来自电脑端  时间:2013-02-24 12:02:27

顶: 0 踩: 0 回复

5楼

濮阳SEO的皇冠体育官网

这也太复杂了。说白了，就是百度采用一些方法识别没有价值的重复的信息呗。

评论来自电脑端  时间:2013-02-24 10:58:21

顶: 0 踩: 0 回复

6楼

王日天

这么复杂。。。

评论来自电脑端  时间:2013-02-23 21:50:43

顶: 0 踩: 0 回复

7楼

Android开发

讲的不错，大概了解了去重复算法的原理

评论来自电脑端  时间:2013-02-23 20:39:18

顶: 0 踩: 0 回复

相关文章阅读更多：

站内搜索

作者介绍

皇冠·体育(中国)官方网站-Crown Sports

你关注的人，决定你看到的世界！
著有《出奇制胜-互联网营销完全攻略》《做最成功的互联网创业者》两本书……

http://www.zmthbjt.com/reed/1.html

热门推荐

最新文章

视频号打造个人IP，新手如何打造私域流量池

每个电商人最后都希望有家自己的工厂

终极指南：搜索套利0-1快速入门方案

为什么中国程序员普遍加班严重，美国则不怎么加班?

摆脱现状，普通人如何破局

听说公务员降薪，心里很惊讶!

┊ ┊ ┊ ┊ ┊ ┊ ┊ 站长邮箱:13340454@qq.com
Copyright © 2009-2024 zmthbjt.com 北京松松信息技术有限公司 ┊ Powered by：Z-Blog
京公网安备 11011602000576号 ┊ ┊ 增值电信业务经营许可证：京B2-20210852