2020年,你需要一个全网通用的网站平台

东明建站公司谈索引

编辑:东明新城建站 关注: 时间:2019-12-09 10:48:26


温馨提示:专业网站建设、小程序制作、APP开发,尽在新城建站,详询 15544599750(手机、微信、QQ同号)

2.2.3索引

可以使网站整体获得更多的搜索展示机会和 流量。

在这个例子中充分体现了分词技术中的正向最大匹配、逆向最大匹配及最少切分的规律。

如前面所述很多SEO人员知道有中文分词这么回事,但是并不知道怎么运用。如果你 还没有研究过中文分词,那么现在就开始详细 研究吧,有不懂的问题就百度一下,会有很多详细的介绍资料。

搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。

这里先来介绍一下 正向索引。当用户进行查询时,如果对本地文件全面扫描用户所提交的关键词,“查询”的工作量就太大了,而且也是很消耗服务器资源的,所以搜索引擎会把已经处理过的网页先进行索引,

放到数据库中等待网民的搜索查询请求。

一个网页被搜索引擎经过以上处理后,就只剩下能够体现网页主体内容的文本了,此时就 可以对该网页进行索引了。

正向索引指的是文件对应关键词的形式,正向索引数据结构简化示 意如表2?1所示。如果使用这种索引直接参与排名,则与不分词没有太大区别,也需要对所有文 件进行检索,并且如果用户提交的是长尾词,这种索引对文件内容相关度的计算也会非常消耗 资源。

表2-1正向索引结构

表2?1正向索引结构

为了使得索引文件可以直接用于排名,搜索引擎会把上面的对应关系进行转换,做成倒排索引,也就是采用关键词对应文件的形式。倒排索引的数据结构简化示意如表2?2所示。这样的索引结构就可以直接应用于搜索排名了,比如,用户搜索关键词1,那么搜索引擎只会对包含关键词1的文件进行相关度和权重计算;用户搜索“关键词1+关键词2”组合词,那么搜索引擎就会把包含关键词1且包含关键词2的文件调出,进行相关度和权重计算。这样就大大加快了呈现排名的速度。
表2-2正向索引结构
表2?1正向索引结构

倒排索引中不仅仅记录了包含相应关键词文件的ID,还会记录关键词频率、每个关键词对应的文档频率,以及关键词出现在文件中的位置等信息。

在排名过程中,这些信息会被分别进行加权处理,并应用到最终的排名结果中。

在SEO操作中,会有相对应的加大关键词频率、尽量使核心关键词出现在网页的最前面,以及关键词用H标签和变色加粗等着重标识的操作手法,这些都会被倒排索引所记录,并参与 关键词相关度的计算和搜索排名。

勒2.3网页去重原理

在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报 道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而 当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。

抓取这些重复的网页,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。

在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“去重”步骤在整个 搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。

搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。

每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词,比 如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打” “始打击”“打击买”“击 买卖”“买卖链” “卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容 的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做得鬼都读不 通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不 是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流 量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多 次重量级的打击。所以SEO在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对 用户有用的角度去建设,虽然后者的内容不一定全部是原创,一般如果网站权重没有大问题, 都会得到健康的发展。关于原创问题,本书后续会在第12章进行详细讨论。

另外,不仅仅是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。

比如分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重 复,这样不仅在SEO方面表现不好,站内用户体验也会降低很多。又如SEO人员在设计流量产

品大批量产生页面时,也需要做一个重复过滤,否则就会大大降低产品质量。SEO人员所设计的流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。

“去重”算法的大概原理一般就如上所述,有兴趣的朋友可以了解一下I-Match. Shingle.SimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周

的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产岀高质量的“SEO产品”。作为SEO人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节),SEO 人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是万能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果SEO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就 只会提改标题、改链接、改文字之类'无聊'的需求” 了。

拓展阅读:

东明网络优化分享百度不断整顿,谁的错?

东明网站建设公司分享网站制作教你如何利用现有源码

东明建站公司谈网站优化甄别真假蜘蛛

东明网络优化分享网站优化帮您破解SEO优化迷局

东明小程序开发谈seo服务之前要了解自身的运

东明网站建设公司分享搜索引擎原理

东明小程序开发分享Spider是什么?

东明建站谈惠州向阳环保机械设备有限公司跟本公司签订网络推广合

本文由新城建站整理发布,喜欢请收藏,转载请保留链接 东明建站公司谈索引https://www.nccpu.net/heze/dongming/13641.html

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!