首页 > Google专题 > Google通过提交表单抓取新页面

Google通过提交表单抓取新页面

作者:Zac 时间:2008年4月14日

Google虽然已经是抓取页面最多的搜索引擎,但还是不满足,因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。

现在Google开始提供提交表单(form)发现其后的网页。本想写个详细说明,刚好看到幻灭已经写了,就直接引用主要内容如下。

之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时(即检测到

时),它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。

同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是 会自动略过这些表格的。

这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。

Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站,没有以链接形式列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐藏在表单后面的URL。

这当然给一些网站的收录创造了机会,是否也会对某些公司网站带来一定的安全风险?网站某部分不想被收录的话,赶紧用robots.txt文件禁止吧。

作者: Zac@中新虚拟主机
原载: 点石互动搜索引擎优化博客
版权所有,转载时必须以链接形式注明作者和原始出处及本声明。

Zac的其他文章:

Google专题

  1. 玖伍贰柒
    2008年4月14日09:58 | #1

    不知道google是否会穷举?如果会,那我的那个法则需要做调整了~

  2. 2008年4月14日10:25 | #2

    能识别验证码么?

    能知道这个框输email,那个框输电话么?能看懂错误提示么?

  3. ding555
    2008年4月14日10:29 | #3

    很好很强大。太可怕了。

  4. 2008年4月14日10:31 | #4

    我的天啊,这个语言描述真是难懂啊

    “它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。”

  5. 2008年4月14日10:34 | #5

    好像是表单吧,弄个表格搞得我看了半天不懂啥表格提交,应该是表单提交……

  6. 2008年4月14日10:48 | #6

    google越来越强悍了。

  7. 2008年4月14日11:23 | #7

    看了一遍不太明白。能举个例子最好了

  8. 2008年4月14日11:25 | #8

    看来越来越丰富了,hoho

  9. 2008年4月14日11:45 | #9

    Google太贪心了,某些商业机密它也要抓?迟早要出事啊~

  10. 2008年4月14日11:54 | #10

    google真是越来越聪明了

  11. 2008年4月14日11:56 | #11

    说真的!感觉有些不可思议!

  12. 2008年4月14日12:44 | #12

    Google比较强,居然要识别图片及视频里的文字
    不过这种深度抓取的话,我想的话对我们影响应该不会很大

  13. 2008年4月14日13:23 | #13

    google技术永远是第一的~~

  14. 2008年4月14日13:23 | #14

    强者更强!

  15. 2008年4月14日14:44 | #15

    简单的表单能识别,复杂的就不行了吧

  16. 2008年4月14日14:52 | #16

    很好.很强大,功能又多了.

  17. 2008年4月14日15:12 | #17

    Google的数据中心里的服务器太多了,不得不服啊!

  18. 2008年4月14日15:12 | #18

    这一招 Baidu, yahoo 已经会了吧
    尤其是yahoo 尤其的热衷
    通过网站访问日志可以看到yahoo 很喜欢去按带有站内搜索网站中的“搜索”按扭, 但好象前提提交是有相关搜索词的链接

  19. chalee
    2008年4月14日15:31 | #19

    从查反链里。能看出来!

  20. 2008年4月14日15:41 | #20

    Google很可怕....如果网站表单可以产生无数内容,恐怕又绕不出来了....

  21. 2008年4月14日16:31 | #21

    这属不属于AI技术?

  22. 2008年4月14日16:48 | #22

    彪悍的google

  23. 2008年4月14日17:02 | #23

    没看懂呢

  24. 2008年4月14日17:41 | #24

    但是,抓回去的,会是什么呢?是一个程序吧?

  25. 2008年4月14日17:49 | #25

    google真是越来越强大了,这意味着google也能自动注册会员并抓取会员才能看到的内容了吧。

  26. 2008年4月14日18:41 | #26

    很强很牛x,加油吧,google。

  27. 2008年4月14日19:09 | #27

    太强悍了

  28. 2008年4月14日20:06 | #28

    岂不是会抓到不少隐私?

  29. qlj
    2008年4月14日20:35 | #29

    难道 GOOGLE 也同样在这里 进行 提交留言??

  30. 2008年4月14日21:45 | #30

    哈。以后SEO又好混了

  31. 2008年4月14日21:48 | #31

    GG原来越强 比百度就是强

  32. 2008年4月15日02:32 | #32

    真是非常强悍啊

  33. 2008年4月15日08:06 | #33

    se的功能在不断完善,SEO还有潜力吗?!

  34. zerty
    2008年4月15日08:20 | #34

    我的理解是可以抓到一些主要登陆后才能看到的内容。 这个幻灭是谁啊,表格表单都分不清...

  35. 2008年4月15日09:06 | #35

    google越来越智能化了
    将来SEOer们的技术也会越来越复杂
    这也许是一件好事情

  36. 2008年4月15日10:39 | #36

    改变才是好事

  37. 2008年4月15日11:02 | #37

    google的抓取速度和质量应该是最高的,而且相对来说,google的搜索质量还是最高的。
    比如最近大家都在说的baidu不收新站,其实gg还是正常收,为什么gg不怕被qj?因为他有好的算法,你新站我收,但是权重不高。而bd不行,他就干脆不收,一面被qj。
    在机制方面,gg明显要强不少。
    偏题了,一般站应该都能正常收录。所以我一般让他正常收。

  38. 2008年4月15日12:08 | #38

    看来功力还是不行。。
    有些不明白。

  39. 2008年4月15日12:27 | #39

    google真是恐怖 啥都抓

  40. 2008年4月15日13:21 | #40

    我只能说Googlebot太强大了!呵呵,修改robots.txt阻止它。

  41. 2008年4月15日21:02 | #41

    我还不大会写robots.txt,那位师傅带下就好了,我跟师傅交流学工作心得,我在新浪。。

  42. 2008年4月15日21:38 | #42

    越来越智能了

  43. 2008年4月15日22:08 | #43

    Google开始抓视频抓图片,疯狂攫取一切可以攫取的东西,这是一个危险的举措啊

  44. 2008年4月15日23:45 | #44

    以后看来需要定期提交表单了 哈哈

  45. 2008年4月16日09:14 | #45

    幸亏只是一个get,这下google要增加不少硬盘了

  46. 2008年4月16日11:40 | #46

    Google 越来越强大了....
    喜欢哦

  47. 2008年4月16日13:49 | #47

    GOOGLE真的太强了,抓取速度是很快的,

  48. 2008年4月16日22:06 | #48

    GOOGLE的抓取技术又进一步了,我特别感兴趣的是什么时候能实现图片,FLASH,视频等技术。

  49. 2008年4月16日22:28 | #49

    虽说不抓取robots.txt中的文件,但我觉得那只是不显示在搜索结果中而已,应该还是被抓取的,那样可以为他们给网站排名提供参考。

  50. 2008年4月17日19:39 | #50

    这就是我为什么一直用Google而不用百度的原因,它更能懂的人的意思。

  51. 2008年4月18日20:48 | #51

    危险呀,如果表单里面的数据重要的话,一定要禁了。

  52. 2008年4月22日09:05 | #52

    Google对外放出风的事情他肯定已经开始做了,我的一个网址,Google的搜索结果中就有:用户名和密码不能为空,紧接着就有:用户名和密码错误。看来Google已经在试图提交我的表单,呵呵~ 大家有兴趣在Google中看看site:qhdcheshi.com第二页第三条。我现在给客户做的后台都用robots把后台禁止掉。我那些客户很多图方便密码设置很简单,不然谁知道哪天Google随便拿个什么111啊123456或者888888什么真的登录进去,再逐个试图点击删除信息的按钮把数据都给删除就麻烦了。-_-!

  53. 2008年4月24日08:59 | #53

    我相信 google 的技术能达到自动识别图片的效果!哎!google技术就是强大!

  54. 2008年4月30日16:55 | #54

    以后的以后 google等搜索引擎应该可以识别flash和图片上的文字
    只是个时间问题而已

  55. 2008年5月2日08:34 | #55

    google技术永远是第一

  56. 2008年5月2日18:57 | #56

    GOOGLE就是牛,我做的网站中在GOOGLE上搜索总是数量最多的,而且是收录时间最早的,百度就是不行,做站做好一个多月都不收录,GOOGLE域名刚一申请下来就收录了

  57. 2008年5月4日00:41 | #57

    我看明白了,我的站就出现了一些提交评论失败的链接收录。Google会提交表单了。

  58. 2008年5月4日01:14 | #58

    看不懂.正在学习中.

    楼上的说得好啊.我的网站也是.不过我现在碰到一个问题.

    就是GOOGLE收录我的网页越来越多.相反我的排名还在原地不动.这是为什么呢?

  59. 2008年5月4日08:52 | #59

    GOOGLE真是越来越强了,还是看不太懂,这几天我网站收录每天都在增加

  60. 2008年5月4日20:24 | #60

    GOOGLE的技术就是牛,百度没的比,百度搜索不健康的内容显示找不到信息,人家GOOGLE使用safesearch功能,还有GOOGLE有软件请求屏蔽功能,等等等等好多先进的功能,百度差远了

  61. 2008年5月5日15:34 | #61

    有一天GOOGLE能干过B.AIDU就有戏看了

  62. 2008年5月6日13:07 | #62

    Google很可怕....如果网站表单可以产生无数内容,恐怕又绕不出来了....
    GOOGLE应该不会

  63. 2008年10月3日10:09 | #63

    有一天GOOGLE能干过B.AIDU就有戏看了

  1. 目前还没有任何 trackbacks 和 pingbacks.
本文的评论功能被关闭了.