Google通过提交表单抓取新页面
Google虽然已经是抓取页面最多的搜索引擎,但还是不满足,因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。
现在Google开始提供提交表单(form)发现其后的网页。本想写个详细说明,刚好看到幻灭已经写了,就直接引用主要内容如下。
之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。
据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到
时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。
同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是 会自动略过这些表格的。
这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。
Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站,没有以链接形式列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐藏在表单后面的URL。
这当然给一些网站的收录创造了机会,是否也会对某些公司网站带来一定的安全风险?网站某部分不想被收录的话,赶紧用robots.txt文件禁止吧。
作者: Zac@中新虚拟主机
原载: 点石互动搜索引擎优化博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明。
- Google排名算法异动:大品牌排名全面提升 - 2009-03-02
- 网址规范化问题最新解决方法 - 2009-02-18
- 强大的SEO工具条 - 2009-01-16
- Google Trends显示网站流量 - 2008-06-21
- Jeremy Zawodny将离开雅虎 - 2008-06-13
不知道google是否会穷举?如果会,那我的那个法则需要做调整了~
能识别验证码么?
能知道这个框输email,那个框输电话么?能看懂错误提示么?
很好很强大。太可怕了。
我的天啊,这个语言描述真是难懂啊
“它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。”
好像是表单吧,弄个表格搞得我看了半天不懂啥表格提交,应该是表单提交……
google越来越强悍了。
看了一遍不太明白。能举个例子最好了
看来越来越丰富了,hoho
Google太贪心了,某些商业机密它也要抓?迟早要出事啊~
google真是越来越聪明了
说真的!感觉有些不可思议!
Google比较强,居然要识别图片及视频里的文字
不过这种深度抓取的话,我想的话对我们影响应该不会很大
google技术永远是第一的~~
强者更强!
简单的表单能识别,复杂的就不行了吧
很好.很强大,功能又多了.
Google的数据中心里的服务器太多了,不得不服啊!
这一招 Baidu, yahoo 已经会了吧
尤其是yahoo 尤其的热衷
通过网站访问日志可以看到yahoo 很喜欢去按带有站内搜索网站中的“搜索”按扭, 但好象前提提交是有相关搜索词的链接
从查反链里。能看出来!
Google很可怕....如果网站表单可以产生无数内容,恐怕又绕不出来了....
这属不属于AI技术?
彪悍的google
没看懂呢
但是,抓回去的,会是什么呢?是一个程序吧?
google真是越来越强大了,这意味着google也能自动注册会员并抓取会员才能看到的内容了吧。
很强很牛x,加油吧,google。
太强悍了
岂不是会抓到不少隐私?
难道 GOOGLE 也同样在这里 进行 提交留言??
哈。以后SEO又好混了
GG原来越强 比百度就是强
真是非常强悍啊
se的功能在不断完善,SEO还有潜力吗?!
我的理解是可以抓到一些主要登陆后才能看到的内容。 这个幻灭是谁啊,表格表单都分不清...
google越来越智能化了
将来SEOer们的技术也会越来越复杂
这也许是一件好事情
改变才是好事
google的抓取速度和质量应该是最高的,而且相对来说,google的搜索质量还是最高的。
比如最近大家都在说的baidu不收新站,其实gg还是正常收,为什么gg不怕被qj?因为他有好的算法,你新站我收,但是权重不高。而bd不行,他就干脆不收,一面被qj。
在机制方面,gg明显要强不少。
偏题了,一般站应该都能正常收录。所以我一般让他正常收。
看来功力还是不行。。
有些不明白。
google真是恐怖 啥都抓
我只能说Googlebot太强大了!呵呵,修改robots.txt阻止它。
我还不大会写robots.txt,那位师傅带下就好了,我跟师傅交流学工作心得,我在新浪。。
越来越智能了
Google开始抓视频抓图片,疯狂攫取一切可以攫取的东西,这是一个危险的举措啊
以后看来需要定期提交表单了 哈哈
幸亏只是一个get,这下google要增加不少硬盘了
Google 越来越强大了....
喜欢哦
GOOGLE真的太强了,抓取速度是很快的,
GOOGLE的抓取技术又进一步了,我特别感兴趣的是什么时候能实现图片,FLASH,视频等技术。
虽说不抓取robots.txt中的文件,但我觉得那只是不显示在搜索结果中而已,应该还是被抓取的,那样可以为他们给网站排名提供参考。
这就是我为什么一直用Google而不用百度的原因,它更能懂的人的意思。
危险呀,如果表单里面的数据重要的话,一定要禁了。
Google对外放出风的事情他肯定已经开始做了,我的一个网址,Google的搜索结果中就有:用户名和密码不能为空,紧接着就有:用户名和密码错误。看来Google已经在试图提交我的表单,呵呵~ 大家有兴趣在Google中看看site:qhdcheshi.com第二页第三条。我现在给客户做的后台都用robots把后台禁止掉。我那些客户很多图方便密码设置很简单,不然谁知道哪天Google随便拿个什么111啊123456或者888888什么真的登录进去,再逐个试图点击删除信息的按钮把数据都给删除就麻烦了。-_-!
我相信 google 的技术能达到自动识别图片的效果!哎!google技术就是强大!
以后的以后 google等搜索引擎应该可以识别flash和图片上的文字
只是个时间问题而已
google技术永远是第一
GOOGLE就是牛,我做的网站中在GOOGLE上搜索总是数量最多的,而且是收录时间最早的,百度就是不行,做站做好一个多月都不收录,GOOGLE域名刚一申请下来就收录了
我看明白了,我的站就出现了一些提交评论失败的链接收录。Google会提交表单了。
看不懂.正在学习中.
楼上的说得好啊.我的网站也是.不过我现在碰到一个问题.
就是GOOGLE收录我的网页越来越多.相反我的排名还在原地不动.这是为什么呢?
GOOGLE真是越来越强了,还是看不太懂,这几天我网站收录每天都在增加
GOOGLE的技术就是牛,百度没的比,百度搜索不健康的内容显示找不到信息,人家GOOGLE使用safesearch功能,还有GOOGLE有软件请求屏蔽功能,等等等等好多先进的功能,百度差远了
有一天GOOGLE能干过B.AIDU就有戏看了
Google很可怕....如果网站表单可以产生无数内容,恐怕又绕不出来了....
GOOGLE应该不会
有一天GOOGLE能干过B.AIDU就有戏看了