复制网页是怎样形成的?

复制网页(或者叫重复内容网页)指的是两个或多个网页内容相同,或非常相似。

一般来说,搜索引擎不喜欢复制内容网页,他们会尽量判断哪一个是原始版本,然后把其他的复制网页忽略不计。

有两点值得注意:

1)复制网页的判断并没有一个比例。比如说一个网页上有60%或80%的内容和其他网页相同,就被列为复制网页,如果真有一个比例那就简单多了。

2)复制网页并不会带来惩罚。搜索引擎会丢掉其他的复制网页,但不会惩罚搜索引擎认为的原始出处。

不过这就有可能对真正原始出处产生惩罚。比如搜索引擎判断错误,把原始出处当成复制的,而把复制的当成原始出处。

复制内容网页的出现一般有这些可能性:

1)网址规范化问题所产生的。

2)代理商和零售商的网站经常从产品生产商的网站上抄下产品信息。这倒没什么不对,一般产品生产商也都同意,但是绝大部分代理商,零售商,批发商都会直接copy,而不做改动。所以这些电子商务网站上充斥着大量复制内容网页。

3)打印版本。很多网站提供更适于打印的版本,如果没有用robots.txt文件,那么这些打印版本网页就可能会变成复制网页。

4)网页内容由RSS生成。有很多网站,尤其是新闻类网站,都是用其他网站的RSS feed来生成网站内容的,这些内容在原始出处和很多其他网站上都已经出现了。

5)电子商务网站使用Session ID。搜索引擎蜘蛛在不同时间访问网页的时候,被给了不同的Session ID,但实际上网页内容是一样的。不过由于Session ID的参数不同,就被当成了不同的网页。

6)网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航条,版权声明等等。如果网页的正文部分太少,数量还抵不上这些通用部分,就有可能被认为是复制内容网页。

7)文章抄袭转载等。有的时候是其他人抄袭了你的网站内容,有的时候是善意的转载,有的时候是作者自愿的向不同的网站发送文章,这些都有可能造成复制内容网页。

8)镜象网站。镜象网站曾经很流行,当一个网站太忙太慢的时候,用户可以通过替代镜象来看内容或下载,这也有造成复制内容网页的风险。

9)产品或服务类型之间区别比较小。比如有的网站把自己的产品或服务按地区进行分类,但实际上提供给每个地区的产品或服务都是一样的。在这些按地区分类的网页上,只是把地名改了改,其他内容全都一样。

作者: Zac
原载: 点石互动搜索引擎优化博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明。

Zac的其他文章:
收藏本页到:
365Key | del.icio.us




14 条评论来自

  1. 枫林 on 07月 26th, 2006

    想问哈Zac,现在比较常用的CMS系统算不算是复制网页呢?
    比如一个论坛和一个CMS常用的是同一数据库?帖子内容可以说是一某一样,这样酸不酸是复制呢?
    现在好多公司推出的PHP程序的CMS都能与PHPwind或者Discuz论坛程序结合,他们这样做是不是没有考虑到复制网页的后果呢?

    请及时告知,谢谢Zac

  2. junedream on 07月 26th, 2006

    ZAC你好,我们网站刚好是出现您第9条描述的问题,上海和杭州使用的网站基本相同(域名空间都不一样),想必也是这个原因杭州的网站迟迟没有被任何引擎收录,请教一下有什么办法可以解决吗?难道要重新设计网站吗?谢谢

  3. loserq on 07月 26th, 2006

    ZAC~关于这点我不完全认同!
    6)网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航条,版权声明等等。如果网页的正文部分太少,数量还抵不上这些通用部分,就有可能被认为是复制内容网页。

    搜索引擎的流程中,有个很重要的消重工作,所以这点显得并不是非常准确!

  4. 石头 on 07月 26th, 2006

    其实在具体实践中,我发现很少单单因为类似而被惩罚,比如不收录之类的情况.
    倒是这种情况容易导致那些被搜索引擎认为复制的页面,出现搜索出来只有一个网址,而没有标题描述的情况出现.

  5. Zac on 07月 26th, 2006

    枫林:如果内容一样,应该会被当作复制网页。但有的系统做的好的话,加一些杂七杂八的东西,也可能避免。

    junedream:可以试试把内容做些改变,调挑句子段落顺序,删些字,在不同地方分页,分段,导航部分尽量不同,等等。

    象石头说的,一般不会因复制导致收录等惩罚。收录更多是网站结构,URL,链接和权威度的问题。

    loserq:如果这些该消重的部分(导航等)没被正确检测出来呢?

  6. loserq on 07月 27th, 2006

    ZAC~说的有理~我太过乐观了~看来姜还是老的辣!

  7. 石头 on 07月 27th, 2006

    其实至今我的实践中还没有发现单纯因为类似页面而不被Google收录的案例.事实上如果一个页面没有收录,给它导入高质量的外部连接,则迅速可以收录!!

  8. junedream on 07月 27th, 2006

    thank you very much!

  9. Peter on 08月 29th, 2006

    我现在有个网站(不同国家注册的域名,但放在同一虚拟主机上)一直没有放出来(当时因为种种原因,请了两个朋友帮忙做的),内容基本是一样的,不同的是针对性的关键词有所不同。关键词是同义词,像“笔记本电脑”与“手提电脑”类似的区别。

    我在meta 部分的title,keywords, description两者基本不同,但网站页面内容改动不是太大。
    现在是网站的整体结构不同,(后者更扁平一些),CSS设计风格不一样。

    如果我把后面这个网站放出来,对原网站的影响或许不大吧?但与此同时,我关心的是,后来的网站搜索引擎在收录上会不会认定是复制网页而出现‘石头’所说的“倒是这种情况容易导致那些被搜索引擎认为复制的页面,出现搜索出来只有一个网址,而没有标题描述的情况出现. ”

    我要怎么做呢?后来的网不放出来?或者再改动大些?还是如何呢?希望听听大虾们的看法.

    site 1: http://www.metal-domes.com
    site 2: http://www.metal-dome.biz/aboutus/ (首页没正式放出,但内页全部是可用的,有些内容还在调整中)

  10. SEO资料站 on 04月 14th, 2007

    要形成每天都看点石文章的习惯.
    博客,每贴都要顶.

  11. 商丘网络营销 on 12月 29th, 2007

    每天都要来看看!

  12. dofus on 05月 8th, 2008

    有一点说的挺对。

  13. 佳艺 on 05月 29th, 2008

    这是点石的第一篇文章吗? 膜拜下

  14. 小叫兽 on 06月 16th, 2008

    学习了,虽然是博主很久前更新的东西了,呵呵