http.nobots

nobots保护你的网站免受网络爬虫和机器人。

完整文档

示例

通过User-Agent禁止机器人

nobots "bomb.gz" {
    "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    "Googlebot/2.1 (+http://www.google.com/bot.html)"
    "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    "Googlebot-News"
    "Googlebot-Image/1.0"
    "Googlebot-Video/1.0"
    "compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html"
    "Mediapartners-Google"
    "AdsBot-Google (+http://www.google.com/adsbot.html)"
    "AdsBot-Google-Mobile-Apps"
    "APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)"
}

它会发送bomb.gz到指令块中列出的Google机器人。

使用正则表达式禁止机器人

nobots "bomb.gz" {
    regexp "bingbot"
}

它会发送bomb.gz给所有包含bingbot的用户代理。

混合字符串和正则表达式

nobots "bomb.gz" {
    "msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)"
    regexp "bingbot"
}

它会发送bomb.gz给所有包含bingbot的用户代理,以及和上面一致的字符串的用户代理。

指定不保护的网址

nobots "bomb.gz" {
    "Googlebot"
    public "^/public"
    public "^/[a-z]{,5}/public"
}

它会发送bomb.gz给user agent为Googlebot,且不是访问public关键字定义的网址的请求。