SEO探讨:与石头再谈网页信噪比
在我写出网页信噪比的一点研究之后,石头老兄在他的研究之上提出了他的网页信噪比我之见。呵呵,说来凑巧,昨天晚上我和他讨论了些问题,不过当时比较晚了,后来我睡觉了,-_-! 没有及时的看到他的文章,今天早上一位网友给我发来地址,上午一直没有时间,中午好好的又研究了一下。 发现石头在文章中的“为有用信息和无用信息,对于搜索引擎来说,是针对具体关键词而言的。所以网页的信噪比跟具体某一关键词的信噪比应该有所区分。具体关键字的信噪比是网页中对该关键字检索有利的信息和干扰信息之比。而网页的信噪比为该页面核心关键字的信噪比。”
这样说是不是不对,但我的认为是这样不该叫做网页信噪比,而是搜索引擎在搜索过程中的文字信息的信噪比。因为在实际的搜索结果对比中,不同的分类是有不同的说法,比如大家在“6e的网页信噪比”这篇文献中可以看到一些端倪,如图:
Result for http://wangxiaohu.org
分类::权重:网页信噪比
linux::![]()
![]()
学校::![]()
![]()
环境::![]()
![]()
中国::![]()
![]()
饮料::![]()
![]()
声音::![]()
![]()
软件::![]()
![]()
考试::![]()
![]()
电脑::![]()
![]()
blog::![]()
![]()
智慧::![]()
![]()
写作::![]()
![]()
物理::![]()
![]()
污染::![]()
![]()
数学::![]()
![]()
视频::![]()
![]()
生活::![]()
![]()
商业::![]()
![]()
论坛::![]()
![]()
旅游::![]()
![]()
在文章中作者也提到:竟然知道我最喜欢的话题是Linux。实际上我的Blog里并没有多少是讲Linux的。按照”网页的信噪比为该页面核心关键字的信噪比“的说法,那么该blog的网页信噪比应该是:
生活::![]()
![]()
电脑::![]()
![]()
环境::![]()
![]()
所以,这样的说法在实际的例子中是不成立的。也就是说狭隘的将网页的信噪比划分到围绕关键字词的定义是有违于算法的基本分类和搜索方法。
另外,如果利用这样狭隘的解释,是无法解释如下例子:
大家在google中输入“ccc认证”

在第二页中的第8位:

http://www.necsl.com.cn/product/touying/product-vt676-2.html 这个里面只有一张图,仔细查看,没有任何的瞄文本,那么google是如何让其有这样排名的呢?如果依靠刚才的信噪比说法,该站和ccc认证是没有任何关系,是和图有关系,当然,这个也不能证明google能获取图片中的3C认证的字样。但是却已经否定了网页的信噪比为该页面核心关键字的信噪比这样的说法。因为这样的说法不代表全面性。
为此我也查阅过一些有关资料,在卢亮的“基于信息噪音模型的分类算法”的ppt中有一段说明:
文本信息的噪音模型
*假设文本是有两部分构成的,由信号和噪音的叠加构成。
*噪音的定义为不能对文本进行有效的分辨的内容,例如传统的停止词,极高频词
*信号的定义为有差别于其它信息的特征内容,为不常见的关键词
然后在其中的 噪音的消除 有这样一个过程说明:
也就是说在相同的关键字词围绕中,算法本身就会去除部分的 的关键字词叠加。
那么究竟什么是网页信噪比,现在也不能马上过早或者单一的下结论,我相信在以后更为深入的探讨和大家的讨论中,会给大家一个满意的答复。请大家继续关注点石博客。
当然,这些例子都是围绕关键字词是否就是网页信噪比而言的,其实我本身通过当时的研究,也正和石头在撰文中所表现在思想一样:即在设计网站的时候,如果需要考虑seo的因素,那么合理的去规划整个网站的整体的素质,突出主题,在具体的设计过程中,去除不合理或者冗杂因素,那么在你方便浏览者的同时,搜索引擎也会给你一个好的排名。
以上为与石头的探讨。如果大家有什么问题或者不同见解, 欢迎可以提出来,大家一起探讨。
作者: 小鹏
原载: 点石互动搜索引擎优化博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明
- 点石第二届SEO大赛筹备情况公告 - 2008-01-07
- 点石公告 - 2007-12-20
- Google在处理内容原创性问题? - 2007-12-12
- Google付费链接政策再次变更 - 2007-11-30
- 探索SEO与电子商务之间的关系 - 2007-11-24












小鹏是误会我的意思了,我提出一个好的网站一般标题和描述会有主题和核心关键字,那么内容最好有相关的来呼应.这样做的目的是为了让搜索引擎能更好的理解核心关键词,同时去掉无用的干扰信息.
而具体的关键词和网站主题,是需要搜索引擎去判断的.包括外部连接,内部的内容等.
当然我们可以把信噪比不针对具体关键词,把那些与主题无关的内容完全当作干扰信息.
但是什么时候与主题无关呢,比如你dunsh,虽然我们的主题是SEO,你可以把站点出现的石头,小鹏等文字当作干扰信息.
但别人就是要搜索"石头",怎么办呢?
这个时候搜索引擎觉得不会把"石头"当作干扰信息了.
那么搜索引擎在搜索图片的时候呢?会把图片的一些信息当作干扰信息??我所谈的信噪比完全是从搜索引擎优化角度来看的.
当然,我知道,角度的出发点不一样,我的这篇研究角度侧重于对算法对基础的研究。
如果从搜索引擎优化角度来看,你那样的理解是对的。让搜索引擎更好的去理解主题,更好的识别核心关键字词,如果针对于文字来说,确实按照你所说的,就会需要内容和标题等等各个方面来进行支撑。
到底这个噪应该读sang还是应该读zao呢?
这个技术还是不错的。尽管我很少提到过Linux,但是我经常提到的内容包括编程、开源与商业软件、软件工程和一些其它应用程序的推荐。能从这些直接的内容间接发现它们在其它网站上多少都跟Linux同一个页面过;而且和其它关键字联系起来,还能返回Linux是最有联系的主题,我觉得6e这个东西很不错。其实我一直觉得这样一个问题是NP Hard的,但是6e的算法返回的速度很快,这事最主要觉得它不错的原因。
NP = Non Polynomial
没想到我引用的作者也来了,是的,我在文章中提到的是算法问题,如果从搜索引擎优化和在网页中的关联来看的话,如何围绕关键字词和联系程度是一个重点和研究方向。