蜘蛛的三集篇,初篇。《论如何学习seo》(第五集)
蜘蛛的三集篇,初篇。--小平导演《论如何学习seo》(第五集)
蜘蛛,对spider程序。
前一段时间在51job上查找招聘seo岗位的信息。都提到过要求对蜘蛛程序的认识。其实蜘蛛是建立在基于tcp协议3次握手的一个程序。由于线程生存时间和下载数据包大小的限制,给我们呈现到眼前的是例如百度最大限度125K的快照。如果超过125K数据包,蜘蛛程序将停止下载。这里要说明的是一般搜索引擎都有很好的容错能力,就算html或者其他网页文件未能下载完成,百度的分析器依然可以分析的出来。很多XX私服由于未使用嵌入的方式来显示广告条,导致大量网站首页都没有完整下载,可谓是seo的失败。因为,多线程的工作方式。收录新站的时候,总是先下载首页文件,分析器来分析收录首页。通过上一次分析出的link地址,放出下一次的蜘蛛爬行网页,如此反复运行。
两个关于蜘蛛爬行的说法。
第一,蜘蛛爬行是从上到下,从左到右。第二,层的嵌套数量影响蜘蛛的爬行。
蜘蛛是一个下载程序,不存在分析能力。
A,如果,非要查从上到下,从左到右的典故的话,这个传说来自有ibm网路研究学院。而且他的网站是确实是这么写的。为什么呢?这个来自于2叉树的正确书写格式。
B,还有一种理解就是写代码时候的思路,把有用的代码写在web文件的前面,把一些非面对搜索的内容写在后面。比如常用的css方法来控制你的版面。
至于嵌套影响蜘蛛爬行更是不可能,ISO七层网络模型下,没有任何协议有数据分析能力。如果,非要说层对搜索引擎的不利,就是seo工作中,操作者对网页内层次的混乱导致各个节点在递归计算时产生的对网页讲述主题的偏离。
编后:由于近来找工作比较忙,本期文章延期了,(本文写于2个月前)。此篇为初篇,将会有次篇和终篇。一共3篇,写一下个人眼中裸露的蜘蛛。可能和别的seoer认为的蜘蛛程序不同,欢迎您来指正。我将会做出合理的修改。好吧,到此感谢您收看小平导演的《蜘蛛的三集篇》,上中下3集的,第一集。
下集预告 未定(继续延期)
[ 本帖最后由 耿小平 于 2008-8-26 14:31 编辑 ] |
-
1
评分人数
-