复制网页是怎样形成的?
复制网页(或者叫重复内容网页)指的是两个或多个网页内容相同,或非常相似。
一般来说,搜索引擎不喜欢复制内容网页,他们会尽量判断哪一个是原始版本,然后把其他的复制网页忽略不计。
有两点值得注意:
1)复制网页的判断并没有一个比例。比如说一个网页上有60%或80%的内容和其他网页相同,就被列为复制网页,如果真有一个比例那就简单多了。
2)复制网页并不会带来惩罚。搜索引擎会丢掉其他的复制网页,但不会惩罚搜索引擎认为的原始出处。
不过这就有可能对真正原始出处产生惩罚。比如搜索引擎判断错误,把原始出处当成复制的,而把复制的当成原始出处。
复制内容网页的出现一般有这些可能性:
1)网址规范化问题所产生的。
2)代理商和零售商的网站经常从产品生产商的网站上抄下产品信息。这倒没什么不对,一般产品生产商也都同意,但是绝大部分代理商,零售商,批发商都会直接copy,而不做改动。所以这些电子商务网站上充斥着大量复制内容网页。
3)打印版本。很多网站提供更适于打印的版本,如果没有用robots.txt文件,那么这些打印版本网页就可能会变成复制网页。
4)网页内容由RSS生成。有很多网站,尤其是新闻类网站,都是用其他网站的RSS feed来生成网站内容的,这些内容在原始出处和很多其他网站上都已经出现了。
5)电子商务网站使用Session ID。搜索引擎蜘蛛在不同时间访问网页的时候,被给了不同的Session ID,但实际上网页内容是一样的。不过由于Session ID的参数不同,就被当成了不同的网页。
6)网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航条,版权声明等等。如果网页的正文部分太少,数量还抵不上这些通用部分,就有可能被认为是复制内容网页。
7)文章抄袭转载等。有的时候是其他人抄袭了你的网站内容,有的时候是善意的转载,有的时候是作者自愿的向不同的网站发送文章,这些都有可能造成复制内容网页。
8)镜象网站。镜象网站曾经很流行,当一个网站太忙太慢的时候,用户可以通过替代镜象来看内容或下载,这也有造成复制内容网页的风险。
9)产品或服务类型之间区别比较小。比如有的网站把自己的产品或服务按地区进行分类,但实际上提供给每个地区的产品或服务都是一样的。在这些按地区分类的网页上,只是把地名改了改,其他内容全都一样。
作者: Zac
原载: 点石互动搜索引擎优化博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明。
- Google Trends显示网站流量 - 2008-06-21
- Jeremy Zawodny将离开雅虎 - 2008-06-13
- Google定义隐藏页面 - 2008-06-12
- 最权威的Google排名算法解密 - 2008-05-27
- SEO服务前辈们纷纷改行 - 2008-05-23











想问哈Zac,现在比较常用的CMS系统算不算是复制网页呢?
比如一个论坛和一个CMS常用的是同一数据库?帖子内容可以说是一某一样,这样酸不酸是复制呢?
现在好多公司推出的PHP程序的CMS都能与PHPwind或者Discuz论坛程序结合,他们这样做是不是没有考虑到复制网页的后果呢?
请及时告知,谢谢Zac
ZAC你好,我们网站刚好是出现您第9条描述的问题,上海和杭州使用的网站基本相同(域名空间都不一样),想必也是这个原因杭州的网站迟迟没有被任何引擎收录,请教一下有什么办法可以解决吗?难道要重新设计网站吗?谢谢
ZAC~关于这点我不完全认同!
6)网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航条,版权声明等等。如果网页的正文部分太少,数量还抵不上这些通用部分,就有可能被认为是复制内容网页。
搜索引擎的流程中,有个很重要的消重工作,所以这点显得并不是非常准确!
其实在具体实践中,我发现很少单单因为类似而被惩罚,比如不收录之类的情况.
倒是这种情况容易导致那些被搜索引擎认为复制的页面,出现搜索出来只有一个网址,而没有标题描述的情况出现.
枫林:如果内容一样,应该会被当作复制网页。但有的系统做的好的话,加一些杂七杂八的东西,也可能避免。
junedream:可以试试把内容做些改变,调挑句子段落顺序,删些字,在不同地方分页,分段,导航部分尽量不同,等等。
象石头说的,一般不会因复制导致收录等惩罚。收录更多是网站结构,URL,链接和权威度的问题。
loserq:如果这些该消重的部分(导航等)没被正确检测出来呢?
ZAC~说的有理~我太过乐观了~看来姜还是老的辣!
其实至今我的实践中还没有发现单纯因为类似页面而不被Google收录的案例.事实上如果一个页面没有收录,给它导入高质量的外部连接,则迅速可以收录!!
thank you very much!
我现在有个网站(不同国家注册的域名,但放在同一虚拟主机上)一直没有放出来(当时因为种种原因,请了两个朋友帮忙做的),内容基本是一样的,不同的是针对性的关键词有所不同。关键词是同义词,像“笔记本电脑”与“手提电脑”类似的区别。
我在meta 部分的title,keywords, description两者基本不同,但网站页面内容改动不是太大。
现在是网站的整体结构不同,(后者更扁平一些),CSS设计风格不一样。
如果我把后面这个网站放出来,对原网站的影响或许不大吧?但与此同时,我关心的是,后来的网站搜索引擎在收录上会不会认定是复制网页而出现‘石头’所说的“倒是这种情况容易导致那些被搜索引擎认为复制的页面,出现搜索出来只有一个网址,而没有标题描述的情况出现. ”
我要怎么做呢?后来的网不放出来?或者再改动大些?还是如何呢?希望听听大虾们的看法.
site 1: http://www.metal-domes.com
site 2: http://www.metal-dome.biz/aboutus/ (首页没正式放出,但内页全部是可用的,有些内容还在调整中)
要形成每天都看点石文章的习惯.
博客,每贴都要顶.
每天都要来看看!
有一点说的挺对。
这是点石的第一篇文章吗? 膜拜下
学习了,虽然是博主很久前更新的东西了,呵呵