在網站/目錄級別,也可以使用robots.txt來控制搜索引擎抓取,這也是不支持.htaccess文件的Windows 平臺服務器下的的必須選擇。不過,與采用.htaccess文件的方式,控制權完全掌握在網站建設者手中相比,robots.txt能否完全控制搜索引擎的Spider取決于搜索引擎是不是嚴格遵循robots.txt文件的要求,如Baidu的Spider就曾多次被質疑。
在網頁級別,在html文件中使用meta標簽,“noindex”標簽將告訴搜索引擎的Spider該頁面拒絕收錄,“nofollow”標簽則告訴搜索引擎的Spider該網頁內的所有鏈接拒絕爬行。同樣地,這些標簽Googlebot能夠很好地辨識并遵循,但有些搜索引擎則未必。
在鏈接級別,可以為某個單獨的鏈接使用“nofollow”標簽。
如果要保護的內容已經被Google收錄,可以使用google的網址刪除系統。一般說來,這是最后的手段,要慎重地使用,在Google索引中被刪除的內容在180天內不會被重新收錄。具體可參考Google的幫助。
當然,要完全杜絕私密內容被搜索引擎、被別人看到,最有效的還是不要將其放在面向公眾訪問的Internet服務器上。