万站网分站:

全国服务电话:0769-27192000

亚群旗下建站品牌

扫一扫 联系我们吧

文章分类
搜索

百度搜索抓取到索引入库的工作流程

发表时间: 2021-11-04 11:03:03

作者: 万站网

浏览:

百度搜索引擎工作大致可以分为四步

分别为:1.蜘蛛抓取建库;2.库内检索排序;3.外部链接;4.结果显示。

一、蜘蛛爬行网页抓取内容建库

百度蜘蛛从一些重要的种子URL开始,通过页面上的超链接关系,不断的发现新URL并抓取网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。

二、建立索引,检索排序

抓取入库后,对页面进行分析,页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等。

然后再需要进行分词,分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;

前面的工作完成后,接下来即是建立倒排索引,形成{termàdoc}

接下来就要进行排序,影响搜索结果排序的因素:相关性、权威性、时效性、重要性、丰富度、受欢迎程度,以上便是百度搜索引擎决定搜索结果排序时考虑的六大原则。

三、外部链接,即为外链,正所谓内容为王超链为皇。

通过超链计算得分来体现网页的相关性和重要性,的确曾经是搜索引擎用来评估网页的重要参考因素之一,会直接参与搜索结果排序计算。但随着该技术被越来越多的SEO人员了解,超链已经逐渐失去作为投票的重要意义,无论是谷歌还是百度,对超链数据的依赖程度都越来越低。那么,在现在,超链在发挥着怎样的作用?

大通网络点评

吸引蜘蛛抓取、向搜索引擎传递相关性信息、提升排名,所以外链的作用从未改变~



Copyright © 2021 万站网 All Rights Reserved. 

 粤ICP备18129891号 

Copyright© 万站网 All Rights Reserved. 

粤ICP备18129891号

在线咨询

您好,请点击在线客服进行在线沟通!

联系方式
热线电话
0769-27192000
电子邮箱
xie@yaqun.net
扫一扫二维码
二维码
添加微信好友,详细了解产品
使用企业微信
“扫一扫”加入群聊
复制成功
添加微信好友,详细了解产品
我知道了