爬蟲占總PV(PV是指頁(yè)面的訪問(wèn)次數(shù),每打開或刷新一次頁(yè)面,就算做一個(gè)pv)比例較高,服務(wù)器的壓力上升,能力下降。
2018年2月24日晚,卓見(jiàn)云某客戶網(wǎng)站公網(wǎng)出流量突然爆發(fā)性增長(zhǎng),導(dǎo)致帶寬被占滿,事故發(fā)現(xiàn)后緊急提升了SLB的帶寬,但提升后的帶寬仍然被流量占滿(原帶寬15M,提升至35M)。由于事故發(fā)生在非黃金訪問(wèn)時(shí)段,正常流量不會(huì)這么大,加上其他現(xiàn)象,懷疑是遭到了網(wǎng)絡(luò)攻擊。
再比如某節(jié)某動(dòng)為了快速發(fā)展搜索業(yè)務(wù)派出爬蟲四處暴力抓取網(wǎng)站內(nèi)容,部分配置較低的網(wǎng)站已經(jīng)直接癱瘓,給中小網(wǎng)站主們?cè)斐闪撕艽蟮膿p失和困擾,嚴(yán)重影響了網(wǎng)站正常的用戶訪問(wèn)。
某中小網(wǎng)站今年7月份,他突然發(fā)現(xiàn)公司的網(wǎng)站經(jīng)常性打不開,網(wǎng)頁(yè)加載極其緩慢,有時(shí)甚至直接癱瘓。經(jīng)過(guò)一系列排查后,在服務(wù)器日志上發(fā)現(xiàn)了bytespider爬蟲的痕跡。該爬蟲抓取的頻率每天達(dá)幾百萬(wàn)次,高則上千萬(wàn)次,服務(wù)器帶寬負(fù)載飆至100%,而且該爬蟲在抓取時(shí)完全不遵守網(wǎng)站的robots協(xié)議。
有小網(wǎng)站主抱怨表示:某節(jié)某動(dòng)的爬蟲“一上午對(duì)網(wǎng)站發(fā)出46萬(wàn)次請(qǐng)求”,網(wǎng)站都癱瘓了,度娘也沒(méi)有這么折騰的!
可能原因分析:
1、商業(yè)對(duì)手,出于競(jìng)爭(zhēng)需要,采用爬蟲獲取信息。
2、搜素引擎抽風(fēng)。
3、“三月份爬蟲”,應(yīng)屆畢業(yè)生為交論文常在這個(gè)時(shí)間點(diǎn)在網(wǎng)上爬取數(shù)據(jù),此類爬蟲通常簡(jiǎn)單粗暴,不管服務(wù)器壓力。
4、近期做的推廣活動(dòng)帶來(lái)訪問(wèn)壓力增加。
公司可免費(fèi)查詢的資源被批量抓走,喪失競(jìng)爭(zhēng)力。
數(shù)據(jù)可以在非登錄狀態(tài)下直接被查詢,比如下方的招聘信息
數(shù)據(jù)分析搜索
也有網(wǎng)站想獲取信息必須強(qiáng)制登陸,如果沒(méi)有登陸是看不到任何信息的。但是如果不強(qiáng)制對(duì)方登錄,爭(zhēng)對(duì)手可以輕松批量抓到更多的信息,企業(yè)的競(jìng)爭(zhēng)力就會(huì)大大減少。
智聯(lián)搜索
狀告爬蟲成功的幾率小
爬蟲在國(guó)內(nèi)還是個(gè)擦邊球,就是有可能可以起訴成功,也可能完全無(wú)效。近期引發(fā)關(guān)注的是淘寶被非法爬取案件,這是成功的案例,還有很多沒(méi)有成功的案例。
爬取淘寶
所以還是需要用技術(shù)手段來(lái)做最后的保障。