技術(shù)頻道導(dǎo)航
HTML/CSS
.NET技術(shù)
IIS技術(shù)
PHP技術(shù)
Js/JQuery
Photoshop
Fireworks
服務(wù)器技術(shù)
操作系統(tǒng)
網(wǎng)站運(yùn)營
卡卡网是专业的网站测速平台,网速测试,测试网站速度,就来卡卡网 ~
问题反馈网络日志

DiyVM:香港VPS驚爆價(jià)36元一月
★站長/主播變現(xiàn)★有流量就來
5M CN2 GIA云主機(jī) 24元起
一一一云主機(jī) 26元起一一一
官方高價(jià)收量,每日穩(wěn)定結(jié)算

一一云主機(jī) 24元 3折起一一
海外CN2云 低至$2.5/月
海外云低至2折 298/年
免費(fèi)測試★APK免殺 谷歌過保護(hù)
官方收量CPA/CPS長期穩(wěn)定

海外主機(jī) 5M CN2 低至$2/月
恒創(chuàng)科技 一 海外服務(wù)器 ● 高速穩(wěn)定
★解決安裝報(bào)毒★谷歌過保護(hù)機(jī)制
超級(jí)簽★免殺★加固★滿意付款
全球云主機(jī) 3天試用再買

【菠蘿云】香港4G內(nèi)存99元,馬上開通
億人互聯(lián)-津/京BGP托管租用/VPS
蘋果簽名/APP封裝/遠(yuǎn)控免殺
10M CN2海外云VPS 53元/月
CN2 GIA/1000Mbps $111/月

實(shí)力產(chǎn)品變現(xiàn)
實(shí)力產(chǎn)品變現(xiàn)
實(shí)力產(chǎn)品變現(xiàn)
實(shí)力產(chǎn)品變現(xiàn)
實(shí)力產(chǎn)品變現(xiàn)

贊助商

分類目錄

贊助商

最新文章

香港IDC华纳云就提供香港大带宽服务器,支持20Mbps-1Gbps的带宽,不限...
美西cn2云服务器(美西cn2 vps)这个词出现过很多次,尤其是提供DDoS防...
Jtti.cc提供多IP站群服务器,可选1C/2C/4C多个C段IP,价格$21...
 4月大促期间,华纳云中国香港和美国高防服务器限时特惠3.6折起续费同...
华纳云美国cn2 gia云服务器优惠促销,活动机型月付5折,年付3折,洛杉矶数据...
测试了多款香港云主机,这里筛选了几款适合国内外用户访问香港cn2云服务器,有需要...
春节假期已结束,各行业逐步复工复产,香港IDC华纳云现推出开春特惠季活动,云服务...

搜索

屏蔽百度蜘蛛或某一爬蟲的四種方法

作者:admin    時(shí)間:2017-6-10 11:33:14    瀏覽:

今天看到群里有人說被一俄羅斯爬蟲一天內(nèi)訪問網(wǎng)站幾千次,想屏蔽它,其實(shí),類似這樣的問題解決方案網(wǎng)上有不少文章,屏蔽俄羅斯爬蟲跟屏蔽百度蜘蛛的原理是一樣的,可以通過如下四種方法來處理。

1、robots.txt屏蔽百度或某一爬蟲抓取

打開robots.txt,在開頭加入如下語句(以百度蜘蛛為例):

User-agent: baiduspider
Disallow: /

代碼分析,首先要知道該爬蟲的名稱,如百度爬蟲是Baiduspider,Google爬蟲是Googlebot,360搜索爬蟲是360Spider,你可以通過各大搜索引擎蜘蛛爬蟲UA匯總來獲取爬蟲的名稱,例如,微軟必應(yīng)的蜘蛛U(xiǎn)A是:

"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"

我們就可以知道它的爬蟲名稱為bingbot。

2、robots Meta標(biāo)簽屏蔽百度或某一爬蟲抓取

如果是針對(duì)某一個(gè)頁面屏蔽百度蜘蛛或某一爬蟲抓取,那么可以通過Meta標(biāo)簽來實(shí)現(xiàn)。代碼如下:

<head> …
<meta name="robots" content="noindex,nofollow" />
</head>

這是屏蔽所有蜘蛛爬蟲抓取該頁面的寫法,如果只屏蔽某個(gè)爬蟲,可以把"robots"改為特定的爬蟲名稱,爬蟲名稱可以通過上面方法1中提及的辦法獲得。例如想只屏蔽微軟必應(yīng)的蜘蛛抓取該頁,則可以寫成:

<head> …
<meta name="bingbot" content="noindex,nofollow" />
</head>

x

3、.htaccess屏蔽百度或某一爬蟲抓取

一些可惡的爬蟲并不遵循robots規(guī)則,那么我們還可以通過.htaccess來屏蔽它,代碼如下(以百度蜘蛛為例):

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC]
RewriteRule .* - [F]

如果是Apache服務(wù)器,可以修改配置文件 httpd.conf ,這樣寫( /var/www/html 是根目錄):

<Directory "/var/www/html">
...

SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot

Order Allow,Deny
Allow from all
Deny from env=bad_bot

...
</Directory>

如果是Nginx服務(wù)器,可以修改配置文件( 默認(rèn)是 nginx.conf ),這樣寫:

Server{
...
  location / {
    if ($http_user_agent !~ Baiduspider) {
      return 403;
    }
  }
...
}

4、通過IP屏蔽百度或某一爬蟲抓取

我們還可以通過分析日志,獲得爬蟲的IP地址,然后從服務(wù)器防火墻屏蔽該IP,不過爬蟲通常有很多IP,我們可以屏蔽爬蟲的IP段。

不過此方法沒有前面幾個(gè)方法實(shí)用,較少人這樣操作。

標(biāo)簽: 百度蜘蛛  爬蟲  
x
廣告: CN2云主機(jī) 免費(fèi)試用