一般說來,在網站建設中,總是希望搜索引擎的機器人能夠盡可能地在網站內爬行,收錄網站盡可能多的頁面,要實現這一點,需要在網頁設計與制作時盡可能照顧搜索引擎Spider,避免或減少使用圖片、Flash、JavaScript等。但是,對大多數網站而言,往往也存在著部分私密性數據不想公諸于眾,比如網站的后臺程序部分,比如存放于Internet網站服務器上的企業內部信息頁面等,對這部分不希望被搜索引擎收錄的內容,應如何控制搜索引擎Spider對其的爬行與索引呢?
Matt Cutts近日提供了一個控制Googlebot索引網頁的說明,盡管他所言只是針對Google,但適用于大多數搜索引擎,簡要歸納如下:
在網站/目錄級別,推薦使用 .htaccess文件來對網站的私密部分加以密碼保護,這是最安全的作法,目前各搜索引擎的Spider對密碼保護的內容都是無能為力的。同時,.htaccess也可將初級的入侵者拒之門外。不過,.htaccess文件只在Unix/Linux下起作用,國內流行的Windows 平臺服務器則無法使用這一功能。