什么是搜索引擎蜘蛛?

Internet搜索引擎使用搜索引擎蜘蛛,有时称为爬行者,以收集有关网站和单个网页的信息。搜索引擎需要来自所有站点和页面的信息;否则,他们将不知道要显示哪些页面以响应搜索查询或优先级。

搜索引擎蜘蛛在互联网上爬网,并创建网站的队列以进一步研究。当特定的网站被蜘蛛覆盖时,蜘蛛读取了所有文本,超链接,元标记(元标记是专门格式格式的关键词,以供蜘蛛为蜘蛛找到和使用的方式插入网页中)和代码)。使用此信息,蜘蛛为搜索引擎提供了配置文件。然后,通过遵循网页上的超链接,蜘蛛收集了其他信息,这使其可以更好地收集有关这些页面的数据。这就是网页上具有链接的原因 - 甚至更好的是,其他网页链接到您的网页 - 对于获取搜索引擎找到您的网站非常有用。

广告

蜘蛛有四种基本的收集信息模式。一种类型的蜘蛛仅用于创建其他蜘蛛搜索的网页队列。该蜘蛛在“选择”模式下工作,优先考虑要通过的页面并检查是否已经下载了页面的较早版本。第二种模式是设计的蜘蛛,尤其是为了浏览已经被蜘蛛爬行的页面。此模式称为“重新验证”。一些搜索引擎担心页面已经被其他蜘蛛彻底爬行,因此他们使用称为“礼貌”的蜘蛛模式,这限制了爬行过度劳累的页面。最后,“并行化”允许蜘蛛与其他在同一页面上爬行的搜索引擎蜘蛛协调其数据收集工作。

特色

广告

加载...