编者按:爬虫是一种程序,或者是一段自动化的脚本,它在网上不停辛苦的跑到各个网站上去。爬虫通过它们所流览的网页上面的链接从一个URL地址爬到另一个URL地址。
主流搜索引擎接连不断地将它们的爬虫派出去浏览广阔的互联网。爬虫首先找到各个页面,然后把页面上的文本和代码复制并储存在它们巨大的索引服务器上,这个过程叫做爬行。这个巨大的索引,实际上就是一个包含搜索引擎爬虫可以成功访问到的所有网站建设页面的数据库。该索引被用来作为当你搜索时,可以非常快速地得到一个结果的仓库。当您在搜索引擎上搜索词并提交时,您实际搜索的是搜索引擎所索引的全部内容,而不是当时互联网的实际内容。
当然,网站建设中网页会发生变化。有时,网页和网站的变化周期非常短。除此以外,新的网站和网页随时都在快速出现。这也是为什么爬虫始终都在那里不停地爬行,一遍又一遍地浏览网页,并且建立和更新搜索引擎的索引信息。
爬虫看到的网页内容和一般的访问者看到的是完全不同的。如果您想查看爬虫看到的某个网页的内容是什么,您可以使用IE浏览器来访问它,然后按下Ctrl+A组合键,把内容复制下来(就是爬虫看到的内容)。
首页也是最重要的是,爬虫将它们爬过的每个页面的字和词组合起来。它们索引文本和链接。当您在搜索框中输入一个词时,搜索引擎尽量精确地找出和搜索词组最匹配的网页。
|