正排索引和倒排索引浅谈

作者:华山SEO 阅读数:

简介互联网每天都会产生数以万计的文章,在我们搜索的时候,如何能快速的找到这些内容,只有了解了这些规则,我们才能更好的进行网站优化和推广,提高网站排名,华山seo用通俗易懂的语言介绍正排索引和倒排索引

互联网每天都会产生数以万计的文章,在我们搜索的时候,如何能快速的找到这些内容,只有了解了这些规则,我们才能更好的进行网站优化和推广,提高网站排名。

搜索引擎工作原理简单介绍:

第一步:搜集,爬取大量的网页,去搜集这些网页内容。

第二部:建立索引,在经历了第一步后,搜集了大批的网页,将这些网页抓取过来后,显然要进行下一步处理,处理过程必然很复杂,简单讲就是建立了正排索引和倒排索引。

第三部就是根据用户搜索,依靠倒排索引技术,提取关键词,展示相关页面。
 

正排索引和倒排索引



正排索引:

简单来说就是将文章按照一定规则,建立目录,类似书本的目录页,或者数据库的ID,

比如我们平常操作软件查询内容的时候,其实是在后台生成了一条SQL查询语句,比如从标题和内容中查询“西安SEO优化”,生成的语句如下

文章表) where title like "%西安SEO优化%"

SQL语句会按数据表逐行检索,并将查询的数据结果反馈给我们,这种查询效率比较低,显然对一款并发量和数据量不大的软件可以这样做,但并不适合海量数据的搜索引擎,这个时候就出现了倒排排索引技术。

倒排索引:

将抓取的文章进行分词,用户输入关键词后,将关键词和网页匹配,快速的提取相关网页,即:关键词=网页。

比如:

西安网站优化推广排名,可以提取关键词为西安+网站+优化+推广+排名。

西安seo培训,可以提取关键词为西安+seo+培训。

利用倒排索引技术,提取关键词后,并记录了关键词出现的位置,频次,将文章归集按照一定规则进行分类存储。

倒排索引的应用:

关键词权重由左到右依次递减

例如:

未优化的标题:西安可以做网站优化排名的公司有哪些?

优化过的标题:西安网站优化排名公司有哪些?

关键词匹配度越高排名越好

例如:

有人搜索西安网站优化,经过倒排索引分词后建立了词库,搜索后则进行匹配,关键词匹配度高,则更可能排在前边。

举个栗子:

西安网站优化,A网页完全匹配:即西安网站优化,B网站只匹配了西安优化4个关键词,在同等条件下,A网页排名要更靠前。

站长简介:

华山SEO,擅长seo和网站优化推广,目前任职于西安一家制造企业集团,负责企业的信息化管理工作,日常工作有网络推广、ERP实施建设、网络数据安全、外贸规划、运维等,借助互联网,通过知识分享输出,实现自己的价值,为社会做出贡献,帮助到更多的人。

相关文章