炉火

内容页关键词布局优化解析

 

关键词是SEO的核心概念之一,SEO实践中很多工作都围绕关键词开展。本文尝试从搜索技术原理和网站优化实践结合,总结内容页关键词布局在SEO中的具体落地方法。

一、搜索引擎技术原理简述

搜索引擎最核心的底层技术基础是将用户查询词切分成自然语言中有意义的词组,然后从索引库找到包含这些词组中全部或部分关键词的内容,返回结果。

正常人的搜索思路是带着关键词,去查找内容中是否包含该关键词。假设要从序号1-10的10个网页查找包含“关键词布局”的网页,分别去这10个网页中全文搜索是否包含“关键词布局”这个词,然后返回包含该词的网页的序号。但如果是从百万、千万个网页中查找呢,速度就很慢了,于是就发明了倒排索引的概念。(以下图中数据皆非实际数据,仅作示意)

, 内容页关键词布局优化解析

如上图示,为一个最简单的倒排索引模型(DocID是搜索引擎为所抓取网页分配的唯一编号)。搜索引擎爬虫每次抓取一个网页的时候,就把网页切分成若干个词组,将这些词一一与倒排索引表比对:如果倒排索引表的“关键词”一列有这个词,就在其对应的倒排列表中增加当前网页的编号DocID;如果没有,就增加一行(涉及到新词识别,此处不展开),给这个关键词分配一个ID,再写入当前网页的编号。这样,当我们查询“关键词1”的时候,很快就能知道相关的网页有(1,2,3,5)。复杂一些的查询词假设被切分成“关键词1”、“关键词3”、“关键词6”这3个词,也能快速查询到相关网页有(1,2,3,5,6,7,9)。

仅仅这样,还不足以对搜索结果进行排序。非作弊的情况下,一个网页出现某关键词次数越多,该关键词越能代表此网页的特征,前提是要过滤停用词(停用词就是几乎每个网页中都有很多,但不能表达任何具体意义的词,比如:“的”、“是”、“了”等等)。如果我们能在倒排索引表里面加入关键词在网页中出现的频率信息(简称:词频–TF),就能对网页进行排序了。如下图所示:当我们的查询词被分词为“关键词1”、“关键词2”时,就能将相关网页排序为(3,5,1,2)。

, 内容页关键词布局优化解析

假设现在有两个网页1、网页2,在倒排索引中的信息如下图:

, 内容页关键词布局优化解析

我们搜索“关键词怎么布局”,搜索词被分词为“关键词”、“怎么”、“布局”,其中网页1中“关键词”、“怎么”、“布局”分别出现2、2、2次,共6次;网页2中“怎么”、“布局”共出现7次,按照前面的逻辑,最终的搜索结果排序为(2,1),这显然不是理想的排序结果,网页2的主题明显是讲“围棋怎么布局”的。此时需要引入IDF(逆文档频率指数)来解决这个问题。

如果一个网页集合中包含某个关键词的网页越少,则该关键词具有越好的网页区分能力,故IDF越大,即具有更高的权重。假设上图中的“关键词”、“怎么”、“布局”、“围棋”的IDF分别为2.5、0.3、0.8、3,每个词的TF乘以IDF后求和,得到网页1、2的相关性分别为:7.2、4.6,所以搜索“关键词怎么布局”的排序结果为(1,2),就比较符合实际了。

关键词的位置信息也是一个重点,一般认为标题中出现关键词比正文部分出现相同的关键词,更能体现一个网页的主题特征,H标签的重要性即在于此。搜索引擎还能够根据代码布局和噪音比例(如停用词出现频率)来判断哪里是导航、哪里是正文、哪里是侧边栏等等。在倒排索引列表中会把这些位置信息都标注进去,参与排序决策。

除此之外,还有一些其他的常用技术方法,如:双词索引/短语索引,“关键词怎么布局”不一定就是切分为三个短词,还可能切分成“关键词布局”、“词怎么”、“怎么布局”等等;关联词合并搜索,“关键词”的关联词“关键字”,“怎么”的关联词“如何”等。

当然,实际中现代大型搜索引擎的倒排索引模型会复杂很多,再融入其他诸多因素(一个重点是超链分析)参与排序算法,限于篇幅和

码字很辛苦,转载请注明来自炉火博客《内容页关键词布局优化解析》

评论