首页   网站推广   网站优化   网站赚钱   网站运营  门户动态 建站经验 网络安全 DIV+CSS教程 网页设计 站长论坛 站长IDC
 ASP教程  PHP教程   JSP教程  .NET教程   XML教程  SQL教程 鼠标特效 窗口特效 图像特效 按钮特效 站长工具 源码下载
zanox Affiliates find Affiliates
文字广告位招商|文字广告位招商 | 华北站长站 | 文字广告位招商 | 华北站长站 | 文字广告位招商 | 华北站长站 | 文字广告位招商 | 华北站长站| 华北站长站
   北京奥运会倒计时:
当前时间
  当前位置 → 华北站长站网站优化 → 浏览正文
齐宁:搜索引擎知识 网页查重技术
发布时间::2008年04月21日 【字体: 】&  作者:齐宁 [ 加入收藏]

对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。

  网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。

  1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995]。之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。

  网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。
1、两个页面内容格式完全相同。
2、两个页面内容相同,但格式不同。
3、两个页面部分内容相同并且格式相同。
4、两个页面部分重要相同但格式不同。

实现方法:

网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,一、特征抽取。二、相似度计算和评价。三、消重。

1.特征抽取
我们在判断相似物的时候,一般是才能用不变的特征进行对比,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度。
特征抽取有很多方法,我们这里主要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。
“I-Match算法”是不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。
“Shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。

2.相似度计算和评价
特征抽取完毕后,就需要进行特征对比,因网页查重第二步就是相似度计算和评价。
I-Match算法的特征只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些关键特征,即一篇文章中特别高和特别低频的词汇往往不能反应这篇文章的本质。因此通过文档中去掉高频和低频词汇,并且计算出这篇文档的唯一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可得到地址值。),那些Hash值相同的文档就是重复的。

Shingle算法是抽取多个特征进行比较,所以处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard 系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。


3.消重

对于删除重复内容,搜索引擎考虑到众多收录因素,所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。

网页查重工作是系统中不可缺少的,删除了重复的页面,所以搜索引擎的其他环节也会减少很多不必要的麻烦,节省了索引存储空间、减少了查询成本、提高了PageRank计算效率。方便了搜索引擎用户。

  上一篇:没有了
  下一篇:谈谈SEO的无为而治

郑重声明:本文仅代表作者个人观点与本站无关,其原创性与文中所述文字和内容未经本站证实,对本文及其中全部或部分内容、文字的真实性、完整性、及时性本站不作任何保证和承诺,请自行核实相关内容。
620*136广告位出租,联系QQ:513178175 793518
 相关文章
·[门户动态] 揭开国际铁公鸡排行榜背后真相05-30 
·[网站运营] 网站运营之在线客户界面设计05-28 
·[网站优化] 网站优化技巧篇-Title优化准则05-27 
·[网站优化] 沙盒效应在百度中的表现05-27 
·[网站优化] 网站优化技巧-新站考验05-27 
·[网站运营] 增加网站流量的网站推广方法05-10 
·[网站运营] 网站诊断提升网站整体的竞争力05-05 
·[网站推广] 移动互联网首度进百度大联盟“黄金俱乐部”05-05 
·[网站推广] 怎么样解决搜索引擎降权的问题05-05 
·[网站推广] 分类信息网站是重数量还是质量05-05 
  热门文章
百度在今年推出广告营销产品06-09 
google终于制造出其第一台06-09 
windows系统下安装MyS06-08 
中国网站发展的重中之重是创新盈06-08 
使用不着dreamweaver06-08 
杨致远向雅虎员工致信来解读代理06-08 
 我国外交部驳中国特工盗取美部06-08 
微软新购公司涉嫌会计丑闻遭调查06-03 
揭开国际铁公鸡排行榜背后真相05-30 
  推荐文章
[门户动态] 微软新购公司涉嫌会计丑闻遭调
[门户动态] 揭开国际铁公鸡排行榜背后真相
[门户动态] 亚马逊将试水网络视频服务
[门户动态] 马云承诺5000万美元建华南
[建站经验] 国内网络广告市场竞争分析
[建站经验] 搜索引擎向网上社区发力 成为
[网站运营] 网站运营之在线客户界面设计
[门户动态] 中华英才网张建国:规划人生三
[门户动态] 报告称2013年全球网络视频
关于我们 | 用户帮助 | 隐私权政策 | 版权声明 | 意见反馈 | 友情链接 | 广告服务 | 免责条款 |
华北站长站 版权所有 2003-2008
鲁ICP备08006134号 广告合作QQ:793518  广告招商电话:0531-88819137
浏览本站建议选用IE5.0以上浏览器 1024*768分辨率
本站由中华e联提供空间支持
本站基于ACTCMS1.0所建