无码视频在线观看,99人妻,国产午夜视频,久久久久国产一级毛片高清版新婚

  • 始創(chuàng)于2000年 股票代碼:831685
    咨詢熱線:0371-60135900 注冊(cè)有禮 登錄
    • 掛牌上市企業(yè)
    • 60秒人工響應(yīng)
    • 99.99%連通率
    • 7*24h人工
    • 故障100倍補(bǔ)償
    全部產(chǎn)品
    您的位置: 網(wǎng)站首頁(yè) > 幫助中心>文章內(nèi)容

    Robots.txt文件_使用解析

    發(fā)布時(shí)間:  2012/9/15 14:19:25
     Rbots.txt 是什么:
     
    robots.txt是搜索引擎中訪問(wèn)網(wǎng)站的時(shí)候要查看的第一個(gè)文件。Robots.txt文件告訴蜘蛛程序在服務(wù)器上什么文件是可以被查看的。
      當(dāng)一個(gè)搜索蜘蛛訪問(wèn)一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來(lái)確定訪問(wèn)的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
      robots.txt必須放置在一個(gè)站點(diǎn)的根目錄下,而且文件名必須全部小寫(xiě)。
      語(yǔ)法:最簡(jiǎn)單的 robots.txt 文件使用兩條規(guī)則:
      • User-Agent: 適用下列規(guī)則的漫游器 
      • Disallow: 要攔截的網(wǎng)頁(yè)
               下載該robots.txt文件 
     
    robots.txt 有幾個(gè)常用的寫(xiě)法;
     
    全部開(kāi)放或全部禁止
     
    {
     
    User-agent: *    //表示站內(nèi)針地所有搜索引擎開(kāi)放;
    Allow: /    //允許索引所有的目錄;
     
    User-agent: *    //表示站內(nèi)針地所有搜索引擎開(kāi)放;
    Disallow: /   //禁止索引所有的目錄;
     
    User-agent: *    //表示站內(nèi)針地所有搜索引擎開(kāi)放;
    Disallow:   //允許索引所有的目錄;
     
    }
     
    這里呢,可以把[網(wǎng)站地圖(Sitemap)] 也加進(jìn)來(lái),引導(dǎo)搜索引擎抓取網(wǎng)站地圖里的內(nèi)容。
     
    Sitemap: http://www.semcmd.com/sitemap.xml
     
    Robots.txt 使用方法:
     
    例1. 禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分 
    Disallow: /
     
    例2. 允許所有的robot訪問(wèn)
    (或者也可以建一個(gè)空文件 "/robots.txt")
    User-agent: *
    Disallow: 
    或者
    User-agent: *
    Allow: / 
     
    例3. 僅禁止Baiduspider訪問(wèn)您的網(wǎng)站 
    User-agent: Baiduspider
    Disallow: /
     
    例4. 僅允許Baiduspider訪問(wèn)您的網(wǎng)站 
    User-agent: Baiduspider
    Disallow:
    User-agent: *
    Disallow: /
     
    例5. 禁止spider訪問(wèn)特定目錄
    在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問(wèn)做了限制,即robot不會(huì)訪問(wèn)這三個(gè)目錄。需要注意的是對(duì)每一個(gè)目錄必須分開(kāi)聲明,而不能寫(xiě)成 "Disallow: /cgi-bin/ /tmp/"。
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /~joe/
     
    例6.要阻止 Googlebot 抓取特定文件類型(例如,.gif)的所有文件
    User-agent: Googlebo
    tDisallow: /*.gif$
     
    例7.要阻止 Googlebot 抓取所有包含 ? 的網(wǎng)址(具體地說(shuō),這種網(wǎng)址以您的域名開(kāi)頭,后接任意字符串,然后是問(wèn)號(hào),而后又是任意字符串)
    User-agent: Googlebot
    Disallow: /*?
     
     
     
    Robots.txt高級(jí)語(yǔ)法-模式匹配:
     
    Googlebot(但并非所有搜索引擎)遵循某些模式匹配原則。
     
    要匹配連續(xù)字符,請(qǐng)使用星號(hào) (*)。例如,要攔截對(duì)所有以 private 開(kāi)頭的子目錄的訪問(wèn),請(qǐng)使用以下內(nèi)容: 
    User-agent: Googlebot
    Disallow: /private*/
     
    要攔截對(duì)所有包含問(wèn)號(hào) (?) 的網(wǎng)址的訪問(wèn)(具體地說(shuō),這種網(wǎng)址以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號(hào),而后又接任意字符串),請(qǐng)使用以下內(nèi)容: 
    User-agent: Googlebot
    Disallow: /*?
     
    要指定與某個(gè)網(wǎng)址的結(jié)尾字符相匹配,請(qǐng)使用 $。例如,要攔截以 .xls 結(jié)尾的所有網(wǎng)址,請(qǐng)使用以下內(nèi)容: 
    User-agent: Googlebot
    Disallow: /*.xls$
     
    您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個(gè)會(huì)話 ID,那么您可能希望排除包含 ? 的所有網(wǎng)址,以確保 Googlebot 不會(huì)抓取重復(fù)網(wǎng)頁(yè)。但是以 ? 結(jié)尾的網(wǎng)址可能是您希望包含在內(nèi)的網(wǎng)頁(yè)的版本。在此情況下,您可以對(duì)您的 robots.txt 文件進(jìn)行如下設(shè)置:
     
    User-agent: *
    Allow: /*?$
    Disallow: /*?
     
    Disallow: /*?指令會(huì)阻止包含 ? 的所有網(wǎng)址(具體地說(shuō),它將攔截所有以您的域名開(kāi)頭、后接任意字符串,然后接問(wèn)號(hào),而后又接任意字符串的網(wǎng)址)。
     
    Allow: /*?$ 指令將允許以 ? 結(jié)尾的任何網(wǎng)址(具體地說(shuō),它將允許所有以您的域名開(kāi)頭、后接任意字符串,然后接 ?,? 之后不接任何字符的網(wǎng)址)。
     
     
    Robots.txt 誤區(qū)使用:
     
            誤區(qū)一:我的網(wǎng)站上的所有文件都需要蜘蛛抓取,那我就沒(méi)必要在添加robots.txt文件了。反正如果該文件不存在,所有的搜索蜘蛛將默認(rèn)能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
      每當(dāng)用戶試圖訪問(wèn)某個(gè)不存在的URL時(shí),服務(wù)器都會(huì)在日志記錄中404錯(cuò)誤(無(wú)法找到文件)。每當(dāng)搜索蜘蛛來(lái)尋找并不存在的robots.txt文件時(shí),服務(wù)器也將在日志中記錄一條404錯(cuò)誤,所以你應(yīng)該做網(wǎng)站中添加一個(gè)robots.txt。
      誤區(qū)二:在robots.txt文件中設(shè)置所有的文件都可以被搜索蜘蛛抓取,這樣可以增加網(wǎng)站的收錄率。
      網(wǎng)站中的程序腳本、樣式表等文件即使被蜘蛛收錄,也不會(huì)增加網(wǎng)站的收錄率,還只會(huì)浪費(fèi)服務(wù)器資源。因此必須在robots.txt文件里設(shè)置不要讓搜索蜘蛛索引這些文件。
      具體哪些文件需要排除, 在robots.txt使用技巧一文中有詳細(xì)介紹。
      誤區(qū)三:搜索蜘蛛抓取網(wǎng)頁(yè)太浪費(fèi)服務(wù)器資源,在robots.txt文件設(shè)置所有的搜索蜘蛛都不能抓取全部的網(wǎng)頁(yè)。
      如果這樣的話,會(huì)導(dǎo)致整個(gè)網(wǎng)站不能被搜索引擎收錄。
     
     
    Robots META標(biāo)簽的寫(xiě)法:
     
    Robots META標(biāo)簽則主要是針對(duì)一個(gè)個(gè)具體的頁(yè)面。和其他的META標(biāo)簽(如使用的語(yǔ)言、頁(yè)面的描述、關(guān)鍵詞等)一樣,Robots META標(biāo)簽也是放在頁(yè)面的<head></head>中,專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁(yè)的內(nèi)容。
     
    Robots META標(biāo)簽中沒(méi)有大小寫(xiě)之分,name=”Robots”表示所有的搜索引擎,可以針對(duì)某個(gè)具體搜索引擎寫(xiě)為name=”BaiduSpider”。 content部分有四個(gè)指令選項(xiàng):index、noindex、follow、nofollow,指令間以“,”分隔。
     
    INDEX 指令告訴搜索機(jī)器人抓取該頁(yè)面;
    FOLLOW 指令表示搜索機(jī)器人可以沿著該頁(yè)面上的鏈接繼續(xù)抓取下去;
    Robots Meta標(biāo)簽的缺省值是INDEX和FOLLOW,只有inktomi除外,對(duì)于它,缺省值是INDEX,NOFOLLOW。
     
    這樣,一共有四種組合:
    <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
    <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
    <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
    <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
    其中
    <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫(xiě)成<META NAME="ROBOTS" CONTENT="ALL">;
     
    <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫(xiě)成<META NAME="ROBOTS" CONTENT="NONE">
     
     
    注:
    robots.txt 一定要放置在網(wǎng)站的根目錄下;如:http://www.semcmd.com/robots.txt
     
    robots.txt 命名一定要全部小寫(xiě),不允許出現(xiàn)Robots.txt 或 ROBOTS.TXT 
     
    Robots META標(biāo)簽則不受此限制,但W3C限制,所以盡量都用小寫(xiě);
     
    robots.txt 中允許注釋,注釋以#開(kāi)頭
     
    正確的使用 robots.txt  是有好處的,但是一定要細(xì)心檢查,不要寫(xiě)錯(cuò)了,如果萬(wàn)一寫(xiě)錯(cuò)了,就有可能導(dǎo)致搜索引擎不收錄。
     
    原來(lái)一個(gè)朋友提出問(wèn)題,說(shuō)為什么他的網(wǎng)站建好那么久,就是不被收錄,后來(lái)檢查,原來(lái)問(wèn)題就出現(xiàn)在robots.txt 上,他在Disallow:后面加了個(gè)/  全部禁止了。
     
    User-agent: *    //表示站內(nèi)針地所有搜索引擎開(kāi)放;
    Disallow: /   //禁止索引所有的目錄;
     
    新手如果不會(huì)寫(xiě)或怕寫(xiě)錯(cuò)了,可以使用Google的管理員工具來(lái)設(shè)置。[Google 管理員工具]

    本文出自:億恩科技【mszdt.com】

    服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM]

  • 您可能在找
  • 億恩北京公司:
  • 經(jīng)營(yíng)性ICP/ISP證:京B2-20150015
  • 億恩鄭州公司:
  • 經(jīng)營(yíng)性ICP/ISP/IDC證:豫B1.B2-20060070
  • 億恩南昌公司:
  • 經(jīng)營(yíng)性ICP/ISP證:贛B2-20080012
  • 服務(wù)器/云主機(jī) 24小時(shí)售后服務(wù)電話:0371-60135900
  • 虛擬主機(jī)/智能建站 24小時(shí)售后服務(wù)電話:0371-60135900
  • 專注服務(wù)器托管17年
    掃掃關(guān)注-微信公眾號(hào)
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權(quán)所有  地址:鄭州市高新區(qū)翠竹街1號(hào)總部企業(yè)基地億恩大廈  法律顧問(wèn):河南亞太人律師事務(wù)所郝建鋒、杜慧月律師   京公網(wǎng)安備41019702002023號(hào)
      1
     
     
     
     

    0371-60135900
    7*24小時(shí)客服服務(wù)熱線