搜索引擎要知道你的網(wǎng)站內(nèi)容,就需要去搜集資料。在Yahoo的創(chuàng)辦初期,有許多編輯天天泡在網(wǎng)上,訪問新站,然后搜集信息集合整理成序。當時的網(wǎng)站沒有現(xiàn)在這么多,所以還能做的過來。而現(xiàn)在的新站的出現(xiàn)數(shù)量,老站的更新都是爆炸式的,靠人工是不可能完成這個任務(wù)的。所以搜索引擎的就設(shè)計了程序,派他們來做這些工作。
探測器有許多種叫法,也叫crawler(爬行器)、spider(蜘蛛)、robot(機器人)。這些形象的叫法是描繪搜索引擎排除的蜘蛛機器人爬行在互聯(lián)網(wǎng)上探測新的信息。Google把這種探測器稱為Googlebot,百度叫做Baiduspiderr,MSN叫做,MSNbot,而Yahoo則叫slurp。這個探測器實際上是人們編制的計算機程序,由它不分晝夜地進入訪問網(wǎng)站,摘取網(wǎng)站內(nèi)容、標簽、圖片等。然后依照搜索引擎的算法給他們制定索引。所以,這里說一下,它不是“爬行”而是光速訪問的。
一個搜索引擎能夠會同時派遣很多探測器。這些探測器或者從站長直接提交的URL去訪問,或者由一個網(wǎng)絡(luò)用戶所裝的搜索引擎工具欄(如Google工具欄)得知用戶去的網(wǎng)站,或者是從一個網(wǎng)站中指向另一個站的鏈接過去。所以說探測器不一定是從網(wǎng)站的首頁進入訪問,為了引來搜索引擎就需要使用一些方法。
但是,探測器對許多的網(wǎng)站是不能完整抓取的,這個大多是由于網(wǎng)站設(shè)計沒有按照搜索引擎探測器的思路來進行優(yōu)化。比如說,如果一個網(wǎng)頁比較大,探測器也只能截取網(wǎng)頁的首部,而且只能跟著少量的鏈接走。Google目前能夠吸收100KB的文件,Yahoo相對多一些。這些都可以通過實驗來測試。將一個搜索關(guān)鍵詞放在一個很長的網(wǎng)頁(約150KB)中的尾部。然后看Google的cache說這個網(wǎng)頁只有100KB,很顯然,有一部分沒有抓取到。
這個現(xiàn)象告訴我們網(wǎng)頁的設(shè)計不要過大,過長。將一個較大的網(wǎng)頁分為若干小的頁面有以下幾個好處。
1.可以使網(wǎng)頁容易被探測器抓取。
2.更容易建立合理的站內(nèi)鏈接關(guān)系。
3.每個頁面可以更加集中關(guān)鍵詞的主題。
4.減少服務(wù)器的負載。
5.對用戶來說,方便閱讀。