模板建站
培恋网博客
企业动态 技术分享 行业动态

东莞网络公司seo预处理相关知识点(二)

seo2023-04-20模板建站分享网站建设网站建设培恋网博客 模板网站优化 seo网站建设 培恋网博客
东莞网络公司seo预处理相关知识点(二)
 
seo中的去停止词,无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“地”、“的”、“得”、“之”等助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。
 
搜索引擎在索引页面之前回去掉这些停止词,使索引数据主题更为突出,减少无所谓的计算量。
 
消除噪声,绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字、导航条、广告等。以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,但是这些页面本身与分类、历史这些词都没有任何关系。用户搜索历史、分类这些关键词时仅仅因为页面有这些词出现而返回博客帖子是毫无意义的,完全不相关。所以这些区块都是属于噪声,对页面主题只能起到分散作用。
 
搜索引擎需要识别并消除这些噪声,排名时不适用噪声内容。消噪的基本方法是根据html标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,在网站上大量重复出现的区块往往属于噪声。对页面镜像消噪后,剩下的才是页面主题内容。
东莞seo
 
seo中的去重
 
搜索引擎还需要对页面进行去重处理。
同一篇文章经过会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了,虽然都是内容相关的。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就称为“去重”。
 
“去重”的基本方法是对页面特征关键词计算指纹,也就是说从页面主体内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。这里的关键词选取是在分词、去停止词、消噪之后。实验表明。通常选取10个特征关键词就可以达到比较高的计算准确性,在选取更多词对去重准去性提高的贡献也就不大了。
 
典型的指纹计算方法如MD5算法。这类指纹算法的特点是,输入有任何微小的变化,都会导致计算出的指纹有很大差距。 了解了搜索引擎的去重算法,seo人员就应该知道简单地增加“的”、“地”、“得”调换段落顺序这种所谓伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键,也就无法改变指纹。而且搜索引擎的去重算法很有可能不止于页面级别,而是镜像到段落级别,混合不同文章、交叉调换段落顺序也不能是转载和抄袭变成原创。
 
什么是正向索引
正向索引也可以简称为索引。
经过文字提取、分词、消遣、去重后,搜索引擎得到的就是独特的、能反映页面主题内容的、以词为单位的字符串。搜索引擎程序将页面及关键词形成词表结构存储进索引库。每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合。实际上在搜索引擎索引库中,关键词也已经转换为关键词ID。这样的数据结构就成为正向索引。
 
倒排索引;正向索引还不能直接用于排名。所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。在倒排索引中关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词时,排序程序在排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。
 
 
通过以上的介绍应该掌握做seo优化时对预处理知识有了几分了解,大致可以从几个方面来入手了。以上内容均来源于东莞网络公司,由东莞培恋网科技整合。东莞市培恋网科技为企业网页建设排名优化,提供企业、个人模板网站制作,国外域名注册和服务器提供商。

培恋网原创版权,网站建设提供网站代运营、模板网站制作转载请注明出处,本文地址:https://www.xiaopeijx.com/news/media/49.html

培恋网网站模板 培恋网 网站模板
培恋网咨询在线咨询
Copyright © 2002-2019 培恋网 版权所有 东莞网站地图 网站相关链接:|SEO优化技巧|成都seo优化| 粤ICP备17138810号