我們了解過什么是搜索引擎蜘蛛后,就應該了解下什么是robots.txt,因為前面介紹搜索引擎蜘蛛是按照鏈接爬行的,有的時候我不希望搜索引擎蜘蛛爬行并抓取,比如網(wǎng)站后臺文件,如果地址被抓取暴露出來,那后果不是很嚴重嗎?那么是否有制約搜索引擎蜘蛛的規(guī)則或文件呢?
什么是robots.txt
當搜索引擎爬行到某個網(wǎng)站的時候,首先第一查看的文件就是robots.txt,查看是否存在,如果存在那么網(wǎng)站的哪些文件不允許爬行,就像道路交通一樣,某些道路無法通行。而robots.txt就像交警的存在,明確指示著某條道路不能通行,如果不存在,那么網(wǎng)站所有頁面將均可以被蜘蛛爬行并收錄。
robots.txt的寫法
robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。格式例如:
User-agent: *
Disallow: /admin/ <后臺管理文件>
Disallow: /require/ <程序文件>
Disallow: /attachment/ <附件>
Disallow: /images/ <圖片>
Disallow: /data/ <數(shù)據(jù)庫文件>
Disallow: /template/ <模板文件>
Disallow: /css/ <樣式表文件>
Disallow: /lang/ <編碼文件>
Disallow: /script/ <腳本文件>
? User-Agent: 遵守的規(guī)則
? Disallow: 要攔截的網(wǎng)頁