我的这个博客在今年5月底的时候,在.htaccess文件中做了一下301转向,主要把www.sheawey.com有关的URL全部转向sheawey.com,代码如下:
RewriteCond %{HTTP_HOST} ^www.sheawey.com [NC]
RewriteRule ^(.*)$ http://sheawey.com/$1 [L,R=301]
在6月份一个月之内,百度只更新我博客的首页(http://sheawey.com/blog/),文章页、分类页却一点也不更新,这一点可以从百度的网页快照可以得知。
在我做301转向之前,百度对我的博客是收录正常的,这个博客也不会涉及到作弊的可能性,所以在6月底的时候把.htaccess文件中的301转向的语句删除了,不到一个礼拜,百度的收录就正常了。
如果仅仅说百度对301转向不够友好,那么思考未免太不深入了。
domain.com和www.domain.com
很多网站的域名如domain.com以及www.domain.com访问的都是同一站点,而互联网上给出的外部链接又有所不同,有的时候链接是domain.com,有的时候的却是www.domain.com,这样就不可避免的造成了“复制网页”,这个不是站长的错,所以搜索引擎不能对其“复制网页”进行惩罚。
首选域名(Preferred domain)
像google,它的”Webmaster Tools“中可以让站长选择其“首选域名(Preferred domain)”,如下图:

事实上,即使你不这么设置,google还是会为你设置一个首选域名(Preferred domain)。这一点,你可以看一下你设置完Preferred domain后google的申明可见一二,他认为你给的只是一个参考,最终由google决定。
从google网站管理员中心了解到一点搜索引擎处理这个问题的方法后,我们来推测百度:虽然百度没有类似于面向网站管理员的系统,但是百度也是会为每个站点确定一个首选域名(Preferred domain)的,而且这个首选域名一旦确定,不会受网页链接url的影响的。
以我的博客为例,百度第一次收录我站点的时候,我给出的url是www.sheawey.com 格式的,因此那时百度确定我的首选域名是www.sheawey.com,后来我建了博客 sheawey.com/blog/,内部链接都是绝对链接,是以sheawey.com相互链接的(你可以查看我这个博客的html代码),但是百度收录我的网页却大多数是www.sheawey.com格式的,只有小部分是sheawey.com。为了避免这种情况,我做了301转向,期望百度里面收录的网址都是 sheawey.com格式的,哪知,百度居然停止收录我的网页了。
为何301后百度不收录我的网页?
文中开头也讲了,百度只是更新我的sheawey.com/blog/这个博客首页,就是不收录我的博客文章,而我博客文章中链接到的别的域名的网页却很快收录了,如这个站点:http://sheawey.jimdo.com/,是我在《“Jimdo建站工具箱”中文版测试 》一文中链接的,但是我的博客文章就是不收录。我能想到的原因大致有二(只是猜测):
1、百度对我的博客的首选域名是“www.sheawey.com”,所以在碰到sheawey.com的网址的时候,百度蜘蛛会自动加上www来访问,在没有301转向之前,这个网址是直接能访问的,在301转向后,又会自动去掉www后访问,然后百度蜘蛛又会加上www,这样就形成了一个死循环了。但是该网页百度蜘蛛确实是访问了,不然我新加的站点链接也不会被百度蜘蛛抓到并且收录了该站点。但是http://sheawey.com/blog/这个博客首页也是这么一种情况,为何百度却能收录了?请看下面第2点猜测。
2、抓取的深度,以http://sheawey.com/blog/为第一层,那么从http://www.sheawey.com/blog/到http://sheawey.com/blog/的310转向为第二层,而http://sheawey.com/blog/xxx.html类的博客文章为第二层,如上面的思路,再301跳转一次,则变成第三层,也就说说,百度蜘蛛不抓第三层,所以这些网页就不收录了。
上面两点原因,是我能想到的,是一种“钻牛角尖”的毛病,这两点,我自己也没法去说服自己相信,但总得找个理由,或者是一种思路,因为正确的思路往往在错误的思路附近,而不是“歧路”。哪位朋友有研究的不妨告知一下。
首选域名(Preferred domain)是可以变化的
在我把301转向去除后,百度对我的博客收录正常了,最新收录的网页关于sheawey.com首选域名的大幅度增加,但是www.sheawey.com还是有很多。这说明:百度对某个站点的首选域名(Preferred domain)的确定不是一成不变的,他会根据实际情况调整的。我接下来要观察的是:百度啥时候能把我的博客的收录网页的首选域名全部变成sheawey.com。
说明:
本文是一篇不成熟之文,只是记录问题的思考,此问题尚未思考成熟。
Leave a comment
Fields in bold are required. Email addresses are never published or distributed.
Some HTML code is allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>URIs must be fully qualified (eg: http://www.dupola.com) and all tags must be properly closed.
Line breaks and paragraphs are automatically converted.
Please keep comments relevant. Off-topic, offensive or inappropriate comments may be edited or removed.