文章內(nèi)容

Robots.txt文件_使用解析

發(fā)布時間: 2012/9/15 14:19:25

Rbots.txt 是什么：

robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。

　　當(dāng)一個搜索蜘蛛訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍；如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。

　　robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫。

　　語法：最簡單的 robots.txt 文件使用兩條規(guī)則：

　　• User-Agent: 適用下列規(guī)則的漫游器

　　• Disallow: 要攔截的網(wǎng)頁

下載該robots.txt文件

robots.txt 有幾個常用的寫法；

全部開放或全部禁止

{

User-agent: * //表示站內(nèi)針地所有搜索引擎開放；

Allow: / //允許索引所有的目錄；

User-agent: * //表示站內(nèi)針地所有搜索引擎開放；

Disallow: / //禁止索引所有的目錄；

User-agent: * //表示站內(nèi)針地所有搜索引擎開放；

Disallow: //允許索引所有的目錄；

}

這里呢，可以把[網(wǎng)站地圖（Sitemap）] 也加進來，引導(dǎo)搜索引擎抓取網(wǎng)站地圖里的內(nèi)容。

Sitemap: http://www.semcmd.com/sitemap.xml

Robots.txt 使用方法：

例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

Disallow: /

例2. 允許所有的robot訪問

(或者也可以建一個空文件 "/robots.txt")

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

例3. 僅禁止Baiduspider訪問您的網(wǎng)站

User-agent: Baiduspider

Disallow: /

例4. 僅允許Baiduspider訪問您的網(wǎng)站

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 禁止spider訪問特定目錄

在這個例子中，該網(wǎng)站有三個目錄對搜索引擎的訪問做了限制，即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明，而不能寫成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例6.要阻止 Googlebot 抓取特定文件類型（例如，.gif）的所有文件

User-agent: Googlebo

tDisallow: /*.gif$

例7.要阻止 Googlebot 抓取所有包含 ? 的網(wǎng)址（具體地說，這種網(wǎng)址以您的域名開頭，后接任意字符串，然后是問號，而后又是任意字符串）

User-agent: Googlebot

Disallow: /*?

Robots.txt高級語法-模式匹配：

Googlebot（但并非所有搜索引擎）遵循某些模式匹配原則。

要匹配連續(xù)字符，請使用星號 (*)。例如，要攔截對所有以 private 開頭的子目錄的訪問，請使用以下內(nèi)容：

User-agent: Googlebot

Disallow: /private*/

要攔截對所有包含問號 (?) 的網(wǎng)址的訪問（具體地說，這種網(wǎng)址以您的域名開頭、后接任意字符串，然后接問號，而后又接任意字符串），請使用以下內(nèi)容：

User-agent: Googlebot

Disallow: /*?

要指定與某個網(wǎng)址的結(jié)尾字符相匹配，請使用 $。例如，要攔截以 .xls 結(jié)尾的所有網(wǎng)址，請使用以下內(nèi)容：

User-agent: Googlebot

Disallow: /*.xls$

您可將此模式匹配與 Allow 指令配合使用。例如，如果 ? 代表一個會話 ID，那么您可能希望排除包含 ? 的所有網(wǎng)址，以確保 Googlebot 不會抓取重復(fù)網(wǎng)頁。但是以 ? 結(jié)尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁的版本。在此情況下，您可以對您的 robots.txt 文件進行如下設(shè)置：

User-agent: *

Allow: /*?$

Disallow: /*?

Disallow: /*?指令會阻止包含 ? 的所有網(wǎng)址（具體地說，它將攔截所有以您的域名開頭、后接任意字符串，然后接問號，而后又接任意字符串的網(wǎng)址）。

Allow: /*?$ 指令將允許以 ? 結(jié)尾的任何網(wǎng)址（具體地說，它將允許所有以您的域名開頭、后接任意字符串，然后接 ?，? 之后不接任何字符的網(wǎng)址）。

Robots.txt 誤區(qū)使用：

誤區(qū)一：我的網(wǎng)站上的所有文件都需要蜘蛛抓取，那我就沒必要在添加robots.txt文件了。反正如果該文件不存在，所有的搜索蜘蛛將默認能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。

　　每當(dāng)用戶試圖訪問某個不存在的URL時，服務(wù)器都會在日志記錄中404錯誤（無法找到文件）。每當(dāng)搜索蜘蛛來尋找并不存在的robots.txt文件時，服務(wù)器也將在日志中記錄一條404錯誤，所以你應(yīng)該做網(wǎng)站中添加一個robots.txt。

　　誤區(qū)二：在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取，這樣可以增加網(wǎng)站的收錄率。

　　網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄，也不會增加網(wǎng)站的收錄率，還只會浪費服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。

　　具體哪些文件需要排除，在robots.txt使用技巧一文中有詳細介紹。

　　誤區(qū)三：搜索蜘蛛抓取網(wǎng)頁太浪費服務(wù)器資源，在robots.txt文件設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。

　　如果這樣的話，會導(dǎo)致整個網(wǎng)站不能被搜索引擎收錄。

Robots META標(biāo)簽的寫法：

Robots META標(biāo)簽則主要是針對一個個具體的頁面。和其他的META標(biāo)簽（如使用的語言、頁面的描述、關(guān)鍵詞等）一樣，Robots META標(biāo)簽也是放在頁面的＜head＞＜/head＞中，專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。

Robots META標(biāo)簽中沒有大小寫之分，name=”Robots”表示所有的搜索引擎，可以針對某個具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個指令選項：index、noindex、follow、nofollow，指令間以“,”分隔。

INDEX 指令告訴搜索機器人抓取該頁面；

FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續(xù)抓取下去；

Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW，只有inktomi除外，對于它，缺省值是INDEX,NOFOLLOW。

這樣，一共有四種組合：

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞

＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞

＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞

其中

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以寫成＜META NAME="ROBOTS" CONTENT="ALL"＞；

＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以寫成＜META NAME="ROBOTS" CONTENT="NONE"＞

注：

robots.txt 一定要放置在網(wǎng)站的根目錄下；如：http://www.semcmd.com/robots.txt

robots.txt 命名一定要全部小寫，不允許出現(xiàn)Robots.txt 或 ROBOTS.TXT

Robots META標(biāo)簽則不受此限制，但W3C限制，所以盡量都用小寫；

robots.txt 中允許注釋，注釋以#開頭

正確的使用 robots.txt 是有好處的，但是一定要細心檢查，不要寫錯了，如果萬一寫錯了，就有可能導(dǎo)致搜索引擎不收錄。

原來一個朋友提出問題，說為什么他的網(wǎng)站建好那么久，就是不被收錄，后來檢查，原來問題就出現(xiàn)在robots.txt 上，他在Disallow:后面加了個/ 全部禁止了。

User-agent: * //表示站內(nèi)針地所有搜索引擎開放；

Disallow: / //禁止索引所有的目錄；

新手如果不會寫或怕寫錯了，可以使用Google的管理員工具來設(shè)置。[Google 管理員工具]

本文出自：億恩科技【mszdt.com】

服務(wù)器租用/服務(wù)器托管中國五強！虛擬主機域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]

上一篇 >> Google搜索引擎優(yōu)化初學(xué)者指南
下一篇 >> 著陸頁面（LandingPage）

同類文章

·　Win7怎樣關(guān)閉UAC
·　防范入侵修改"遠程終端服
·　ASP網(wǎng)站漏洞解析及黑客入
·　ASP網(wǎng)站漏洞解析及黑客入
·　IP網(wǎng)絡(luò)攻擊手段和安全策略
·　網(wǎng)絡(luò)流量和網(wǎng)絡(luò)帶寬的區(qū)別
·　什么是網(wǎng)絡(luò)流量
·　服務(wù)器的使用誤區(qū)及正確使用
·　站長托管服務(wù)器之前必做的六
·　什么是虛擬主機？
·　服務(wù)器慢怎么辦？？
·　無盤啟動工作原理及其分類
·　什么是遠程訪問服務(wù)器
·　計算機網(wǎng)絡(luò)的帶寬的概念
·　WDS（無線分布式系統(tǒng)）加
·　VPN是什么
·　負載均衡是什么
·　Ping一下網(wǎng)絡(luò)故障早知
·　北京IDC專家北京最好的
·　seoer如何優(yōu)化行業(yè)網(wǎng)站

激情五月天婷婷,亚洲愉拍一区二区三区,日韩视频一区,a√天堂中文官网8

服務(wù)器租用

服務(wù)器托管

機柜批發(fā)

云服務(wù)器

建站俠

空間/域名

安全保姆

幫助類別

幫助中心

文章內(nèi)容

Robots.txt文件_使用解析

同類文章

億恩公告

在線客服