前段時(shí)間發(fā)現(xiàn)流量有點(diǎn)異常,于是查看了訪問(wèn)明細(xì),發(fā)現(xiàn)某些IP段有異常,例如出現(xiàn)很多123.125.71.*這種IP,而這種IP有個(gè)共同的特點(diǎn),就是都是直接訪問(wèn)網(wǎng)頁(yè),并且只訪問(wèn)一頁(yè),地點(diǎn)都是北京市。
訪問(wèn)明細(xì)(點(diǎn)擊上圖放大)
通過(guò)日志檢查訪問(wèn)異常
我后來(lái)打開(kāi)日志檢查,發(fā)現(xiàn)一個(gè)比較奇怪的現(xiàn)象,那就是日志里這樣的每個(gè)IP只有訪問(wèn)網(wǎng)頁(yè)文件的記錄,而沒(méi)有訪問(wèn)css、js和圖片等其他文件的記錄,這完全不同正常的訪客打開(kāi)一張網(wǎng)頁(yè)的日志。
異常的訪問(wèn)日志(點(diǎn)擊上圖放大)
123.125.71.106這個(gè)IP只訪問(wèn)了default.html這個(gè)文件。
正常的訪客訪問(wèn)網(wǎng)頁(yè)時(shí),日志里不但記錄了網(wǎng)頁(yè)的訪問(wèn)記錄,還記錄了網(wǎng)頁(yè)里關(guān)聯(lián)的圖片、js、css等文件的訪問(wèn)記錄。
正常的訪問(wèn)日志(點(diǎn)擊上圖放大)
218.22.69.142這個(gè)IP不但訪問(wèn)了default.html這個(gè)文件,還訪問(wèn)了css、js和圖片文件。
我再看看異常的日志記錄,發(fā)現(xiàn)了“Baiduspider”的字樣,這顯然是百度蜘蛛抓取網(wǎng)頁(yè)的記錄。
百度蜘蛛訪問(wèn)記錄(點(diǎn)擊上圖放大)
我再查詢這個(gè)IP的地址,確實(shí)顯示是百度蜘蛛的IP。
IP地址查詢
至此,就明白為什么流量異常了,原來(lái)是CNZZ把百度蜘蛛的抓取也算入了流量。
網(wǎng)站流量需要減去百度蜘蛛的訪問(wèn)量
通過(guò)跟蹤,發(fā)現(xiàn)百度蜘蛛使用的瀏覽器是火狐瀏覽器。
百度蜘蛛使用的瀏覽器是火狐瀏覽器(點(diǎn)擊圖片放大)
所以,可以在“終端詳情”-“瀏覽器”那里減去一部分火狐瀏覽器的訪問(wèn)量(只能是大概),從而知道網(wǎng)站的真正訪問(wèn)量。
火狐瀏覽器的訪問(wèn)量
CNZZ統(tǒng)計(jì)可以過(guò)濾百度蜘蛛IP
針對(duì)此問(wèn)題,據(jù)官方的意見(jiàn),是叫用戶在CNZZ設(shè)置里過(guò)濾百度的蜘蛛IP,這樣就不會(huì)把百度蜘蛛的訪問(wèn)量也統(tǒng)計(jì)進(jìn)來(lái)了。不過(guò),百度蜘蛛IP有哪些呢?我想很多人都不知道吧,這個(gè)方法貌似不太可行。為此,我搜查了百度的一些蜘蛛IP,以下是常見(jiàn)的百度蜘蛛IP(來(lái)自互聯(lián)網(wǎng),僅供參考):
123.125.68.*這個(gè)蜘蛛經(jīng)常來(lái),別的來(lái)的少,表示網(wǎng)站可能要進(jìn)入沙盒了,或被者降權(quán)。
220.181.68.*每天這個(gè)IP 段只增不減很有可能進(jìn)沙盒或K站。
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造訪,準(zhǔn)備抓取你東西。
121.14.89.*這個(gè)ip段作為度過(guò)新站考察期。
203.208.60.*這個(gè)ip段出現(xiàn)在新站及站點(diǎn)有不正?,F(xiàn)象后。
210.72.225.*這個(gè)ip段不間斷巡邏各站。
125.90.88.* 廣東茂名市電信也屬于百度蜘蛛IP 主要造成成分,是新上線站較多,還有使用過(guò)站長(zhǎng)工具,或SEO綜合檢測(cè)造成的。
220.181.108.95這個(gè)是百度抓取首頁(yè)的專(zhuān)用IP,如是220.181.108段的話,基本來(lái)說(shuō)你的網(wǎng)站會(huì)天天隔夜快照,絕對(duì)錯(cuò)不了的,我保證。
220.181.108.92 同上98%抓取首頁(yè),可能還會(huì)抓取其他 (不是指內(nèi)頁(yè))220.181段屬于權(quán)重IP段此段爬過(guò)的文章或首頁(yè)基本24小時(shí)放出來(lái)。
123.125.71.106 抓取內(nèi)頁(yè)收錄的,權(quán)重較低,爬過(guò)此段的內(nèi)頁(yè)文章不會(huì)很快放出來(lái),因不是原創(chuàng)或采集文章。
220.181.108.91屬于綜合的,主要抓取首頁(yè)和內(nèi)頁(yè)或其他,屬于權(quán)重IP 段,爬過(guò)的文章或首頁(yè)基本24小時(shí)放出來(lái)。
220.181.108.75重點(diǎn)抓取更新文章的內(nèi)頁(yè)達(dá)到90%,8%抓取首頁(yè),2%其他。權(quán)重IP 段,爬過(guò)的文章或首頁(yè)基本24小時(shí)放出來(lái)。
220.181.108.86專(zhuān)用抓取首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.95 抓取內(nèi)頁(yè)收錄的,權(quán)重較低,爬過(guò)此段的內(nèi)頁(yè)文章不會(huì)很快放出來(lái),因不是原創(chuàng)或采集文章。
123.125.71.97 抓取內(nèi)頁(yè)收錄的,權(quán)重較低,爬過(guò)此段的內(nèi)頁(yè)文章不會(huì)很快放出來(lái),因不是原創(chuàng)或采集文章。
220.181.108.89專(zhuān)用抓取首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.94專(zhuān)用抓取首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.97專(zhuān)用抓取首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.80專(zhuān)用抓取首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
220.181.108.77 專(zhuān)用抓首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
123.125.71.117 抓取內(nèi)頁(yè)收錄的,權(quán)重較低,爬過(guò)此段的內(nèi)頁(yè)文章不會(huì)很快放出來(lái),因不是原創(chuàng)或采集文章。
220.181.108.83專(zhuān)用抓取首頁(yè)IP 權(quán)重段,一般返回代碼是304 0 0 代表未更新。
據(jù)網(wǎng)友介紹,以上IP尾數(shù)還有很多,但段位一樣的123.125.71.*段IP 代表抓取內(nèi)頁(yè)收錄的權(quán)重比較低,可能由于你采集文章或拼文章暫時(shí)被收錄但不放出來(lái)(意思也就是說(shuō)待定)。
220.181.108.*段IP主要是抓取首頁(yè)占80%,內(nèi)頁(yè)占30%,這此爬過(guò)的文章或首頁(yè),24小時(shí)內(nèi)放出來(lái)和隔夜快照的。
一般成功抓取返回代碼都是 200 0 0返回304 0 0代表網(wǎng)站沒(méi)更新,蜘蛛來(lái)過(guò),如果是 200 0 64別擔(dān)心這不是K站,可能是網(wǎng)站是動(dòng)態(tài)的,所以返回就是這個(gè)代碼。
您可能對(duì)如下文章也感興趣
小心!51la統(tǒng)計(jì)代碼noscript標(biāo)簽出現(xiàn)外鏈
CNZZ新版功能強(qiáng)大 但訪問(wèn)明細(xì)用戶體驗(yàn)仍不及51la
CNZZ統(tǒng)計(jì)來(lái)路域名和來(lái)路頁(yè)面問(wèn)題凸顯