激情五月天婷婷,亚洲愉拍一区二区三区,日韩视频一区,a√天堂中文官网8

<ul id="buwfs"><strike id="buwfs"><strong id="buwfs"></strong></strike></ul>
    <output id="buwfs"></output>
  • <dfn id="buwfs"><source id="buwfs"></source></dfn>
      <dfn id="buwfs"><td id="buwfs"></td></dfn>
      <div id="buwfs"><small id="buwfs"></small></div>
      <dfn id="buwfs"><source id="buwfs"></source></dfn>
      1. <dfn id="buwfs"><td id="buwfs"></td></dfn>
        始創(chuàng)于2000年 股票代碼:831685
        咨詢熱線:0371-60135900 注冊有禮 登錄
        • 掛牌上市企業(yè)
        • 60秒人工響應
        • 99.99%連通率
        • 7*24h人工
        • 故障100倍補償
        全部產(chǎn)品
        您的位置: 網(wǎng)站首頁 > 幫助中心>文章內(nèi)容

        Robots.txt文件_使用解析

        發(fā)布時間:  2012/9/15 14:19:25
         Rbots.txt 是什么:
         
        robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。Robots.txt文件告訴蜘蛛程序在服務器上什么文件是可以被查看的。
          當一個搜索蜘蛛訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。
          robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。
          語法:最簡單的 robots.txt 文件使用兩條規(guī)則:
          • User-Agent: 適用下列規(guī)則的漫游器 
          • Disallow: 要攔截的網(wǎng)頁
                   下載該robots.txt文件 
         
        robots.txt 有幾個常用的寫法;
         
        全部開放或全部禁止
         
        {
         
        User-agent: *    //表示站內(nèi)針地所有搜索引擎開放;
        Allow: /    //允許索引所有的目錄;
         
        User-agent: *    //表示站內(nèi)針地所有搜索引擎開放;
        Disallow: /   //禁止索引所有的目錄;
         
        User-agent: *    //表示站內(nèi)針地所有搜索引擎開放;
        Disallow:   //允許索引所有的目錄;
         
        }
         
        這里呢,可以把[網(wǎng)站地圖(Sitemap)] 也加進來,引導搜索引擎抓取網(wǎng)站地圖里的內(nèi)容。
         
        Sitemap: http://www.semcmd.com/sitemap.xml
         
        Robots.txt 使用方法:
         
        例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分 
        Disallow: /
         
        例2. 允許所有的robot訪問
        (或者也可以建一個空文件 "/robots.txt")
        User-agent: *
        Disallow: 
        或者
        User-agent: *
        Allow: / 
         
        例3. 僅禁止Baiduspider訪問您的網(wǎng)站 
        User-agent: Baiduspider
        Disallow: /
         
        例4. 僅允許Baiduspider訪問您的網(wǎng)站 
        User-agent: Baiduspider
        Disallow:
        User-agent: *
        Disallow: /
         
        例5. 禁止spider訪問特定目錄
        在這個例子中,該網(wǎng)站有三個目錄對搜索引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明,而不能寫成 "Disallow: /cgi-bin/ /tmp/"。
        User-agent: *
        Disallow: /cgi-bin/
        Disallow: /tmp/
        Disallow: /~joe/
         
        例6.要阻止 Googlebot 抓取特定文件類型(例如,.gif)的所有文件
        User-agent: Googlebo
        tDisallow: /*.gif$
         
        例7.要阻止 Googlebot 抓取所有包含 ? 的網(wǎng)址(具體地說,這種網(wǎng)址以您的域名開頭,后接任意字符串,然后是問號,而后又是任意字符串)
        User-agent: Googlebot
        Disallow: /*?
         
         
         
        Robots.txt高級語法-模式匹配:
         
        Googlebot(但并非所有搜索引擎)遵循某些模式匹配原則。
         
        要匹配連續(xù)字符,請使用星號 (*)。例如,要攔截對所有以 private 開頭的子目錄的訪問,請使用以下內(nèi)容: 
        User-agent: Googlebot
        Disallow: /private*/
         
        要攔截對所有包含問號 (?) 的網(wǎng)址的訪問(具體地說,這種網(wǎng)址以您的域名開頭、后接任意字符串,然后接問號,而后又接任意字符串),請使用以下內(nèi)容: 
        User-agent: Googlebot
        Disallow: /*?
         
        要指定與某個網(wǎng)址的結尾字符相匹配,請使用 $。例如,要攔截以 .xls 結尾的所有網(wǎng)址,請使用以下內(nèi)容: 
        User-agent: Googlebot
        Disallow: /*.xls$
         
        您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個會話 ID,那么您可能希望排除包含 ? 的所有網(wǎng)址,以確保 Googlebot 不會抓取重復網(wǎng)頁。但是以 ? 結尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁的版本。在此情況下,您可以對您的 robots.txt 文件進行如下設置:
         
        User-agent: *
        Allow: /*?$
        Disallow: /*?
         
        Disallow: /*?指令會阻止包含 ? 的所有網(wǎng)址(具體地說,它將攔截所有以您的域名開頭、后接任意字符串,然后接問號,而后又接任意字符串的網(wǎng)址)。
         
        Allow: /*?$ 指令將允許以 ? 結尾的任何網(wǎng)址(具體地說,它將允許所有以您的域名開頭、后接任意字符串,然后接 ?,? 之后不接任何字符的網(wǎng)址)。
         
         
        Robots.txt 誤區(qū)使用:
         
                誤區(qū)一:我的網(wǎng)站上的所有文件都需要蜘蛛抓取,那我就沒必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認能夠訪問網(wǎng)站上所有沒有被口令保護的頁面。
          每當用戶試圖訪問某個不存在的URL時,服務器都會在日志記錄中404錯誤(無法找到文件)。每當搜索蜘蛛來尋找并不存在的robots.txt文件時,服務器也將在日志中記錄一條404錯誤,所以你應該做網(wǎng)站中添加一個robots.txt。
          誤區(qū)二:在robots.txt文件中設置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。
          網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會增加網(wǎng)站的收錄率,還只會浪費服務器資源。因此必須在robots.txt文件里設置不要讓搜索蜘蛛索引這些文件。
          具體哪些文件需要排除, 在robots.txt使用技巧一文中有詳細介紹。
          誤區(qū)三:搜索蜘蛛抓取網(wǎng)頁太浪費服務器資源,在robots.txt文件設置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁。
          如果這樣的話,會導致整個網(wǎng)站不能被搜索引擎收錄。
         
         
        Robots META標簽的寫法:
         
        Robots META標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內(nèi)容。
         
        Robots META標簽中沒有大小寫之分,name=”Robots”表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=”BaiduSpider”。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以“,”分隔。
         
        INDEX 指令告訴搜索機器人抓取該頁面;
        FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續(xù)抓取下去;
        Robots Meta標簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對于它,缺省值是INDEX,NOFOLLOW。
         
        這樣,一共有四種組合:
        <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
        <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
        <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
        <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
        其中
        <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">;
         
        <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE">
         
         
        注:
        robots.txt 一定要放置在網(wǎng)站的根目錄下;如:http://www.semcmd.com/robots.txt
         
        robots.txt 命名一定要全部小寫,不允許出現(xiàn)Robots.txt 或 ROBOTS.TXT 
         
        Robots META標簽則不受此限制,但W3C限制,所以盡量都用小寫;
         
        robots.txt 中允許注釋,注釋以#開頭
         
        正確的使用 robots.txt  是有好處的,但是一定要細心檢查,不要寫錯了,如果萬一寫錯了,就有可能導致搜索引擎不收錄。
         
        原來一個朋友提出問題,說為什么他的網(wǎng)站建好那么久,就是不被收錄,后來檢查,原來問題就出現(xiàn)在robots.txt 上,他在Disallow:后面加了個/  全部禁止了。
         
        User-agent: *    //表示站內(nèi)針地所有搜索引擎開放;
        Disallow: /   //禁止索引所有的目錄;
         
        新手如果不會寫或怕寫錯了,可以使用Google的管理員工具來設置。[Google 管理員工具]

        本文出自:億恩科技【mszdt.com】

        服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

      2. 您可能在找
      3. 億恩北京公司:
      4. 經(jīng)營性ICP/ISP證:京B2-20150015
      5. 億恩鄭州公司:
      6. 經(jīng)營性ICP/ISP/IDC證:豫B1.B2-20060070
      7. 億恩南昌公司:
      8. 經(jīng)營性ICP/ISP證:贛B2-20080012
      9. 服務器/云主機 24小時售后服務電話:0371-60135900
      10. 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
      11. 專注服務器托管17年
        掃掃關注-微信公眾號
        0371-60135900
        Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區(qū)翠竹街1號總部企業(yè)基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號
          0
         
         
         
         

        0371-60135900
        7*24小時客服服務熱線