返回列表 发帖

中文搜索引擎对discuz收录存在的一些问题

记录一下相继发现的问题 ...

baidu
自2006年11月下旬起,对 thread-(tid)-(page)-(forumdisplay page).html 形式的伪静态地址,最后一项forumdispay page本应是1,但是它会先收录"0"的形式,"1"也会检索的,形成复制网页,最后会根据其它的链接引用将其中一种列为补充。
*今年3月以后的新帖的收录应该没问题了

sogou
今年三月七起对所有 thread-(tid)-(page)-(forumdisplay page).html 链接检索不到内容,标题显示:无标题,快照也无内容
*大约一周时间,恢复正常

[ 本帖最后由 bmt 于 2007-3-28 10:34 AM 编辑 ]

-如果没有0这个形态的url存在于网页中,比如本贴的重复url形式“http://www.dunsh.org/forums/thread-3742-1-0.html”,应该是收录不到这种url的啊...

-sogou没研究,3月之前的收录没问题吧?

TOP

在实际中,确实是找不到thread-3742-1-0.html这个形式的链接,但是baidu的机器人确最先抓这个;
开始我以为是程序改错了,后来查看了 www.dunsh.org/forums/www.discuz.net 的收录情况,才知道是baidu 收录的问题

sogou在3月7日前的收录没问题。
只是检测程序改得有没问题和查看有没有其它的链接才经常观察各搜索引擎对discuz的收录情况

[ 本帖最后由 bmt 于 2007-3-14 01:22 PM 编辑 ]

TOP

嗯,同样的情况我过去处理过,因为担心竞争对手用URL附加随机生产参数的形式 对网站做出破坏,在一个项目中,用php程序模块实现将所有不正当形式的URL访问都301到正当的上,比如“http://www.dunsh.org/forums/thread-3742-1-324234.html”的形式都301转到“http://www.dunsh.org/forums/thread-3742-1-1.html”上。

PS. 同时也考虑到 affiliate 过来的url带来的附加参数是有用的,所以会将某些特定参数保存在session中再301...

TOP

学到个害人的方法

[ 本帖最后由 bmt 于 2007-3-16 10:52 AM 编辑 ]

TOP

大家都在玩PHP了,咱还在JSP上转,落伍了!

TOP

偶翻了十多页,没发现还存在这个问题了~~

TOP

返回列表