您好,欢迎访问本站博客!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧
  • 如有侵权请联系站长删除!

【郑州seo】搜索引擎的蜘蛛是如何爬行网站的,如何吸引蜘蛛来抓取页面

seo优化 郑州seo 2019-01-07 84 次浏览 0个评论
网站分享代码

  【郑州seo】搜索引擎的蜘蛛是如何爬行网站的,如何吸引蜘蛛来抓取页面

 

搜索引擎的工作流程大致可分为四个阶段:


1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面HTML代码并将其存储在数据库中。

 

2)爬行原理:为了提高搜索引擎蜘蛛的效率,通常使用多个蜘蛛来分发爬行。同时,分发爬行分为两种模式:深度优先级和广度优先级。

深度优先:沿着发现的链接爬行,直到没有链接。

广度优先:在抓取此页面上的所有链接后,它们将继续沿第二页抓取。

 image.png

3预处理:索引程序对捕获的页面数据进行文本提取,中文分词,索引,反向索引等,用于对程序调用进行排序。

 

4)排名:用户输入查询词(关键词)后,排名程序调用索引数据,计算相关性,然后以特定格式生成搜索结果页面。

 

抓取是搜索引擎工作的第一步,完成了数据收集的任务。搜索引擎用于抓取页面的程序称为蜘蛛。

 

一个合格的SEOer,为了获得更多自己的页面,必须尝试吸引更多蜘蛛爬行自己的网站

 

蜘蛛抓取页面中有几个因素:

 

1)网站和页面的权重,高质量和长时间网站的权重通常被认为具有更高的权重,爬行的深度很高,那么网站的收录也会越高

 

2)页面的更新频率,蜘蛛每次爬行时都会存储页面数据。如果是第二次,第三次与第一次相同,则表示没有更新。随着时间的推移,蜘蛛将不会爬行这样的页面。如果内容经常更新,蜘蛛将经常访问该页面以抓取新的内容和页面

 

3)导入链接,无论是内部链接还是外部链接,为了被蜘蛛抓取,你必须有一个导入链接才能进入页面,否则蜘蛛就不会知道页面的存在。

image.png

 

(4)首页的点击距离。一般网站上的最高权重是首页。大多数外部链接将指向首页。蜘蛛访问最频繁的页面也会是主页。页面越靠近首页,页面的权重就会越高,爬行的也会越大。

 

复制内容的检测

 

搜索引擎蜘蛛在爬行过程中执行一定程度的复制内容检测。 如果权重比较低的网站上发大量复制的内容,蜘蛛则可能会停止抓取,并且这些网页可能无法抓取导致无法收录

 

但这并不意味着网站不能转载内容,像一些高权重的网站,即使转载一个旧闻排名也会不错的因为高权的网站,搜索引擎蜘蛛会认为即使旧的新闻也可能是高质量的。

 

如何吸引蜘蛛抓取我们的网页?

 

坚持更新网站内容的频率,最好是高质量的原创内容。

 

主动为我们的搜索引擎提供新页面,让蜘蛛更快地发现,例如百度的链接提交,抓取诊断等。

image.png

 

建立外部链接,可以与相关类型的网站交换链接,去其他平台发布高质量的文章锚文本到你的网站,内容应该是相关的。

 

创建站点地图,每个站点都应该有站点地图,站点的所有页面都在站点地图中,方便蜘蛛爬行和抓取


已有 84 位网友参与,快来吐槽:

发表评论

验证码

站点统计