深圳SEO公司
歡迎您光臨瀏覽!

robots.txt蜘蛛爬蟲協議詳細指南

什么是robots.txt?

robots.txt 是網站和搜索引擎的協議的純文本文件。當一個搜索引擎蜘蛛來訪問站點時,它首先爬行來檢查該站點根目錄下是否存在robots.txt,如果存在,根據文件內容來確定訪問范圍,如果沒有,蜘蛛就沿著鏈接抓取。robots.txt 放在項目的根目錄下。

robots.txt語法:
1) 允許所有搜索引擎訪問網站的所有部分
robots.txt寫法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注意: 1. 第一個英文要大寫,冒號是英文狀態下,冒號后面有一個空格,這幾點一定不能寫錯。


2) 禁止所有搜索引擎訪問網站的所有部分
robots.txt寫法如下:
User-agent: *
Disallow: /


3) 只需要禁止蜘蛛訪問某個目錄,比如禁止admin、css、images等目錄被索引
robots.txt寫法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
注意:路徑后面有斜杠和沒有斜杠的區別:
比如Disallow: /images/ 有斜杠是禁止抓取images整個文件夾,Disallow: /images 沒有斜杠意思是凡是路徑里面有/images關鍵詞的都會被屏蔽。


4)屏蔽一個文件夾/templets,但是又能抓取其中一個文件的寫法:/templets/main
robots.txt寫法如下:
User-agent: *
Disallow: /templets
Allow: /main


5) 禁止訪問html/目錄下的所有以”.php”為后綴的URL(包含子目錄)
robots.txt寫法如下:
User-agent: *
Disallow: html/*.php


6) 僅允許訪問某目錄下某個后綴的文件,則使用“$”
robots.txt寫法如下:
User-agent: *
Allow: .html$
Disallow: /


7)禁止索引網站中所有的動態頁面 比如這里限制的是有“?”的域名,例如index.php?id=1
robots.txt寫法如下:
User-agent: *
Disallow: /?


8) 禁止搜索引擎抓取我們網站上的所有圖片(如果你的網站使用其他后綴的圖片名稱,在這里也可以直接添加) 有些時候,我們為了節省服務器資源,需要禁止各類搜索引擎來索引我們網站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還 可以采取直接屏蔽圖片后綴名的方式。
robots.txt寫法如下:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

以上就是robots.txt爬蟲協議的寫法,看懂的請扣1,看不懂的請扣2,我再更新一篇。本文就到這里!

相關推薦文章:

本文出自深圳SEO公司,未經允許不得轉載:深圳SEO-微笑SEO服務公司 » robots.txt蜘蛛爬蟲協議詳細指南
分享到: 更多 (0)

評論 搶沙發

  • 昵稱 (必填)
  • 郵箱 (必填)
  • 網址
福彩3d三毛图库 山西11选5走势图 体彩 金种子理财是不是骗局 广西十一选五怎么玩 26选5奖池福利彩票 快3吉林开奖 辽宁快乐十二走势图手机版 澳洲幸运5哪里开奖 北京赛车pk10微信大群 大众麻将 三国麻将无双java 快3甘肃开奖走势图 股票分析 吉林十一选五开奖查 福彩29选7开奖号 下载内蒙古快三走势图 启天配资