标题: 评论对原创内容的影响
blank (songt)
版主
Rank: 7Rank: 7Rank: 7


UID 229
精华 0
积分 492
帖子 603
阅读权限 100
注册 2006-9-5
来自 浙江水乡
状态 离线
发表于 2008-1-18 21:03  资料  短消息  加为好友  添加 blank 为MSN好友 通过MSN和 blank 交谈 QQ
评论对原创内容的影响


  • 事件1、8月1号风采依扬发现其博客遭他人恶意群发,link结果出现大批量评论垃圾链接
  • 事件2、8月2号点石斑竹群中,枫林曾列出一个评论链接未作限制的网站,该网站PR6,带链接垃圾评论无数


在使用domain指令在百度中查看站点链接时,常能发现网站地址出现在众多文章/博客的评论条目中;这是二年前很多站长朋友十分乐忠于做的事,当时的效果很明显相当于增加外链,但随着建站CMS系统和博客的普及,网站建设的门槛已被降到最低点,技术熟手通过现成的CMS建站系统通常能在一夜时间内建成一个表面上看去十分优秀的门户网站,同时拥有通常网站一年的资讯量;随着这种现象的恶化,搜索引擎算法更新了站点内容的权重,有意的识别“原创内容”与“非原创内容”,虽然仍常有朋友抱怨其自身原创不及被转载站效果好,但总体上效果还是得到原创作者们的认可。  

搜索引擎是如何辨别“内容属原创呢”,点石互动中常被问及的问题,这里Blank大胆的作以下分析

首先让我们了解下搜索引擎的工作流程?其首先从蜘蛛开始,蜘蛛程序每隔一定的时间,自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的网站,将抓取的网页分配一个唯一文档ID(DocId),存入文档数据库。一般在存入文档数据库之前进行一定的压缩处理。并将当前页上的所的超连接存入到URL服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。查询器首先对用户输入的信息进行切词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,最后从文档数据库中提取各网页的摘要信息反馈给查询用户

其次我们分析下搜索引擎蜘蛛会抓取页面的哪些内容?就现搜索引擎结果所表现的,我们能看到的有页面Title、页面description、页面URL和无形中的keywords归类(有说错,还望达人指正),那么这里我们需说明的一项是“被收录的Title、Url”三二天内绝对是不会变的,而description经常会有所改变,风采遇到的问题能说明这些,接下来要说到正题了。

PS:当然枫林的一项观察也有说明页面的Title也常变动,但也声明了这是少数,具体可以去看下当时的截图(http://www.songt.com/2007/12/28/pingrun/ )。

评论功能作为内容页通常匹配的一项功能,其主要作用是

1、提供用户与作者进行互动;可谓是网站增强用户体验的一种手法

2、页面内容的补充,效果相同,但在使用时出发点可能不同,如“事件2”,

在搜索结果中,评论内容也常被当成页面的“description”所引用,但是SEO们一直有重审搜索引擎已将页面“description”对排名的影响降到最低甚至可说无作用,但这里结合上面所述“若作为页面内容的补充”其作用是否也像“robin所述的网站投票机制”一样,把评论内容作为该页面内容的一项投票,这就成了上述所说的常有被转载内容排名高于原创;常有解释原因是1、转载站点有排名优势;2、转载站点在转载该文后,其评论效果超过“原创”,那到这里能否得出个这样的结论,一项被转载的文章在得到更多的有效评论后,其效果将超过“原创”;类同GoogleAd的匹配功能,其根据页面内容所属调用相关广告,从而提高AD暴光效率

PS:在Blank就转载效果问题的调查中,转载后文章排名优于原创页面的原因,原因2占72%以上。

总结:搜索引擎喜欢经常更新的网站,那么经常更新的页面是否拥有同样的对待,评论作为页面最大的变动区域,其有效的更新也被搜索引擎蜘蛛识别为“有效的更新”,评论阻碍搜索引擎蜘蛛“原创内容”的识别,评论功能将改变原创的格局!起码现在是这样!

同时对那些喜欢在评论中加链接的朋友说声:评论中增加链接暂不说其对排名提升是否有帮助,但他对搜索引擎降低其排名权重的效果是显而易见,当然这里指的是恶意

这几天在网上浏览时常能看到站长们对“Google 补充材料取消”的报道,这最早源于ZAC在点石提到关于Google补充材料的问题,补充材料起什么作用?他与非补充材料有何区别? 补充材料是Google特有的,同时我们作个这样的比喻,将Google比作一座桥,那么补充材料与非补充材料就是遥望桥两头的不同群体,补充材料便是那些还在为过桥排队的群体;Google那么这补充材料到底有些什么作用,blank用的不是ZAC所说的那个指令,而是site:abc.com ***-cba 但效果一样,他让我知道我的站还有多少页面在排队,以便更好的规范这些排队中的;然而现在Google取消了他们,当然关于补充材料的问题,暂还没详细研究,也不排除Google已有足够的能力将桥面扩充到不用排队;

作者:木公的互联网观察 => Blank

顶部
tuangouba.com
新手上路
Rank: 1


UID 1511
精华 0
积分 0
帖子 269
阅读权限 10
注册 2006-12-17
来自 北京
状态 离线
发表于 2008-1-18 21:12  资料  主页 短消息  加为好友  QQ
那要是产品类的网站呢,原创不原创有什么影响吗?
网站就是产品,和产品相关的一些东西,也要原创吗?

顶部
yuanam
金牌会员
Rank: 6Rank: 6


UID 17836
精华 0
积分 1780
帖子 1489
阅读权限 70
注册 2007-11-25
状态 离线
发表于 2008-1-18 22:26  资料  短消息  加为好友 
分析角度的很好,第一次看到这方面的文章~

顶部
zac
管理员
Rank: 9Rank: 9Rank: 9



UID 2
精华 0
积分 1793
帖子 2791
阅读权限 200
注册 2006-8-30
来自 新加坡
状态 离线
发表于 2008-1-19 00:24  资料  短消息  加为好友 
值得推荐阅读。

顶部
harryju
新手上路
Rank: 1



UID 18140
精华 0
积分 25
帖子 12
阅读权限 10
注册 2007-12-4
状态 离线
发表于 2008-1-19 07:48  资料  短消息  加为好友  QQ
SEO优化-处理内容复制

内容重复指在不同域名的网站上有相同或非常相似的内容网页,一些网站为了操纵搜索引擎排名,获得更多流行或长尾查询的访问量,大量复制其他网站的内容。



Google的翻译功能,不会把有着相同内容的英文版和西班牙文版看作内容复制。小片段的文章引用也不会被认定为重复内容。



Google希望看到各种原创内容。



Google 在抓取网页和获得搜索结果时,总是力图索引并显示内容不同的页面。这种过滤意味着,譬如说,如果你的网站有文章的正常版和打印版,并且你没有在 robots.txt 里设定 noindex 标记,谷歌就只会选择一个版本显示给谷歌用户。对于企图利用复制内容来操控排名,欺骗谷歌用户的少数情况,我们会对相关页面的索引和排名作出适当调整。当然,我们更愿意把重点放在过滤而不是排名调整上,因此,最坏的结果就是原创者看到了不愿看到的版本出现在我们的索引里。

来自: http://www.pageseo.com/data/cat3/23.html

顶部
kenfairy
注册会员
Rank: 2



UID 17163
精华 0
积分 136
帖子 813
阅读权限 20
注册 2007-11-5
状态 离线
发表于 2008-1-19 09:59  资料  短消息  加为好友  QQ
收藏了,细细看
好文啊!

顶部
nuansediao
注册会员
Rank: 2


UID 10796
精华 0
积分 50
帖子 245
阅读权限 20
注册 2007-10-2
来自 西安
状态 离线
发表于 2008-1-20 17:27  资料  主页 短消息  加为好友  QQ
确是好文呀!

顶部
blank (songt)
版主
Rank: 7Rank: 7Rank: 7


UID 229
精华 0
积分 492
帖子 603
阅读权限 100
注册 2006-9-5
来自 浙江水乡
状态 离线
发表于 2008-1-22 14:49  资料  短消息  加为好友  添加 blank 为MSN好友 通过MSN和 blank 交谈 QQ
呵呵,好早写的,但一直没发出来!之前在VIP发过,但感觉大家不在意,就没丢出来了!

顶部
duanwenjing
中级会员
Rank: 3Rank: 3



UID 17589
精华 0
积分 311
帖子 747
阅读权限 30
注册 2007-11-19
状态 离线
发表于 2008-1-22 15:10  资料  短消息  加为好友 
好文~~就是看得有点累...

顶部
吾型吾塑 (5354)
版主
Rank: 7Rank: 7Rank: 7
闭关再修炼


UID 9958
精华 0
积分 1233
帖子 1647
阅读权限 100
注册 2007-9-4
状态 离线
发表于 2008-1-22 15:28  资料  主页 短消息  加为好友 
摘一段 中科院 张俊林的“搜索引擎重复网页发现技术分析"

QUOTE:
通过分析现有技术,可以归纳出以下几个解决该问题的核心技术点,每个不同的技术基本上是由这几个技术点构成,无非是具体采纳的技术不同而已:

1. 文档对象的特征抽取:将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度.

2. 特征的压缩编码:通过HASH编码等文本向数字串映射方式以方便后续的特征存储以及特征比较.起到减少存储空间,加快比较速度的作用.

3. 文档相似度计算:根据文档特征重合比例来确定是否重复文档.

4. 聚类算法:通过叠代计算算出哪些文档集合是根据相似度计算是相近的;

5. 工程化问题:出于海量数据计算速度的考虑,提出一些速度优化算法以使得算法实用化.

评论应该是被压缩成一个页面的点信息,应该是属于正文的一部分,评论一般会和文章有一定的相关性权重,但不排除"顶"之类的回复,所以影响权重的要素应该分配得不高,但关键是影响了搜索引擎辨别重复网页.所以2的影响会大点.最关键的是转载不仅仅还有评论,比如B转A的文章,B获得比A多的评论,但C有可能把转载的链接指向B,而在不停的转载中,搜索引擎开始有点难判别原创性了,即使B转载留A的链接,搜索引擎的判别性都比较差,本人发过N篇软文,以不同方式留链接测试跟踪过.

[ 本帖最后由 吾型吾塑 于 2008-1-22 15:32 编辑 ]

顶部
blank (songt)
版主
Rank: 7Rank: 7Rank: 7


UID 229
精华 0
积分 492
帖子 603
阅读权限 100
注册 2006-9-5
来自 浙江水乡
状态 离线
发表于 2008-1-22 17:47  资料  短消息  加为好友  添加 blank 为MSN好友 通过MSN和 blank 交谈 QQ
吾型吾塑的分析是原因之一!

顶部
 



当前时区 GMT+8, 现在时间是 2008-12-4 08:49
渝ICP备06007279号


    本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.5.0  © 2001-2007 Comsenz Inc.
清除 Cookies - 联系我们 - 点石互动 - WAP