模板建站
培恋网博客
企业动态 技术分享 行业动态

关于SEO搜索引擎蜘蛛的几个知识点

seo2023-04-20模板建站分享网站建设网站建设培恋网博客 模板网站优化 seo网站建设 培恋网博客
关于SEO搜索引擎蜘蛛的几个知识点
一、搜索引擎地址库
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现、但是还没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问,而是将URL存入地址库,然后统一安排抓取。
 
二、地址库中的URL有几个来源:
1、人工录入的种子网站。
2、蜘蛛抓取页面后,从html中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。
3、站长通过搜索引擎网页提交表格进来的网址。
4、站长通过xml网站地图、站长平台提交的网址。
梦幻西游无级别150抢
 
蜘蛛按重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。
大部分主流搜索引擎都提供一个表格,让站长提交网址。不过这些提交来的网址都只是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自己跟踪链接而得到的。可以说提交页面作用微乎其微,搜索引擎更喜欢自己沿着链接发现新页面。
 
三、文件存储
搜索引擎蜘蛛抓取的数据库存入原始页面数据库。其中页面数据与用户浏览得到的html是完全一样的。每个URL都有一个独特的文件编号。
 
四、爬行时的复制内容检测
检测并删除复制内容通常实在下面介绍的预处理过程中进行的,但现在的蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。这也就是有的站长在日志文件中发现了蜘蛛,但页面从来没有被收录过的原因之一。
 
通过以上的介绍应该掌握做seo优化时吸引蜘蛛时,大致可以从几个方面来入手了。以上内容均来源于东莞网络公司,由东莞培恋网科技整合。东莞市培恋网科技为企业网页建设排名优化,提供企业、个人模板网站制作,国外域名注册和服务器提供商。

培恋网原创版权,网站建设提供网站代运营、模板网站制作转载请注明出处,本文地址:https://www.xiaopeijx.com/news/video/48.html

培恋网网站模板 培恋网 网站模板
培恋网咨询在线咨询
Copyright © 2002-2019 培恋网 版权所有 东莞网站地图 网站相关链接:|SEO优化技巧|成都seo优化| 粤ICP备17138810号