05
May

Google 的过滤算法-Google Filter

SEOer和搜索引擎之间有合作,也有“斗争”,SEOer们利用搜索引擎的漏洞通过一定的作弊手段使自己网站的某个关键字排名靠前,搜索引擎也在不断推出算法来杜绝此类作弊行为的发生。以Google为例,这种算法把它总称为Google Filter吧。下面列举一些比较著名的Google Filter,由于这些内容在网上存在着大量的文章,每个细述的话,有点“炒冷饭”的感觉,所以只是列举,简单说明,具体研究摘录一些网页链接作补充。

1、Google Sandbox(沙盒效应)

Google对新建立的站点在热门关键字上不管你短期内是否弄得大量链接,排名始终上不来。具体信息参考:Google的Sandbox沙盒效应

2、Google 排名下降30位

利用门页、JS跳转的网站的排名下降30位,具体参考:Google排名下降30位惩罚

3、Google炸弹(Google Bombing)

指短期内相同锚文本的大量链接指向一网页,具体参考:Google炸弹又扔向白宫

4、Google Bowling

事实上这并不是Google自动为之,很难归类于Google 的过滤算法,是指竞争对手把大量链接指向你的网页,使你本来排名很好的网页因为SPAM受到Google 的过滤算法的惩罚。具体参考:Google Bowling: 竞争对手能破坏我的网站排名么?

5、复制网页(Duplicate Content)

搜索引擎不希望两篇相同或者相似的网页,复制网页的形成原因你可以参考:复制内容网页是怎样形成的?,搜索引擎判定复制网页的算法参考:搜索引擎判断内容复制的算法

6、补充材料(Supplemental Results)

补充材料问题的很复杂,先前我写过一篇“google的补充材料跟排名无关”,主要从google为啥要弄这个标记上考虑。当时思考的方向应该是对的。因为一个搜索引擎分为三个部分:收集器、索引预处理器、查询器三部分,补充材料更多考虑的是收集器Spider方面的因素。经过一段时间观察,被放入“补充材料”主要是因为复制网页和网站链接结构问题。所以有些网页排名不高,那是复制网页的问题,跟“补充材料”无关,“补充材料”只是一个标记而已,它反映了你的内容本身以及链接结构。你只要设想你是一个搜索引擎的Spider,怎样才能抓取效率提高,就能解释清楚了。

7、域名年龄

域名年龄越长,自然对搜索引擎来说,信任度(trust rank)越高。一般说来,同等条件下,域名时间长的网站的排名要比新域名要好。至于说,这个因素达到多大的比例,这本身是个问题,至少在数学公式上,并不是一个加权平均的结果。

8、省略的结果

我们在google里面输入site:domain.com,翻到最后页的时候总会有下面这么一行文字:

为了提供最相关的结果,我们省略了与已显示的 100 个类似的条目。
根据您的意愿,可将省略的结果纳入搜索范围后再重新搜索。

这些网页形成的原因主要是缺乏链接、复制网页、meta属性或者title描述相同等。

9、Google网页信任指数(Trust Rank)

Trust Rank是PageRank的有效补充,具体参考:什么是Google信任指数TrustRank?

10、links.htm网页

在google里面搜索“links.htm”,出来1,550,000项结果,google过滤了这些以links.htm为网页文件名的互惠链接,所以不要用links.htm做链接了,换一个别的文件名字或者目录名。

11、互惠链接

参考:网站互惠链接与链接广泛度分析

12、链接工厂(Link Farming)

指由大量网页交叉链接而构成的一个网络系统。这些网页可能来自同一个域或多个不同的域,甚至可能来自不同的服务器。一个站点加入这样一个“链接工厂”后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它需要“奉献”自己的链接,籍此方法来提升链接得分,从而达到干预链接得分的目的。

参考:索引擎优化术语解释:link farming

13、短期内大量外链或者网页生成

短期内获得大量外链或者大量网页产生,google就会警觉,然后启用过滤器,通过一定的测试程序判定是否作弊。关于短期内网页生成,有个说法是一个月不超过5000个网页为佳。

14、网页装载时间

如果一个网页装载时间过长,Spider会放弃索引你。

15、过度优化

过度优化包括关键词堆砌(Keyword Stuffing)、过高的关键字密度、Meta标记关键词堆砌等,请不要过度优化,追求一个平衡就行了。

附:
这篇文章参考了:Google Filters, how to get around them and exploit their loop holes

No Comments

Be the first to comment on this entry.

Leave a comment

Name(required)
Mail (will not be published)(required)
Website

Fields in bold are required. Email addresses are never published or distributed.

Some HTML code is allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
URIs must be fully qualified (eg: http://www.dupola.com) and all tags must be properly closed.

Line breaks and paragraphs are automatically converted.

Please keep comments relevant. Off-topic, offensive or inappropriate comments may be edited or removed.

    About

      这是sheawey的blog。原创内容谢绝所有商业媒体转摘。更多介绍请看这里

    Tag Cloud