堅(jiān)持為客戶(hù)提供有價(jià)值的服務(wù)和內(nèi)容

西安網(wǎng)站優(yōu)化:網(wǎng)站seo優(yōu)化了解入門(mén)爬蟲(chóng)技術(shù)原理二

商企云 | 2019-08-20 | 分享至:

通用爬蟲(chóng)架構(gòu)

上述是一個(gè)通用爬蟲(chóng)的整體流程,如果從更加宏觀的角度考慮,處于動(dòng)態(tài)抓取過(guò)程中的爬蟲(chóng)和互聯(lián)網(wǎng)所有網(wǎng)頁(yè)之間的關(guān)系,可以概括為以下 5 個(gè)部分:

網(wǎng)站seo優(yōu)化了解入門(mén)爬蟲(chóng)技術(shù)原理二(圖1)

已下載網(wǎng)頁(yè)結(jié)合:爬蟲(chóng)已經(jīng)從互聯(lián)網(wǎng)下載到本地進(jìn)行索引的網(wǎng)頁(yè)集合。

已過(guò)期網(wǎng)頁(yè)結(jié)合:由于網(wǎng)頁(yè)數(shù)量龐大,爬蟲(chóng)完整抓取一輪需要較長(zhǎng)時(shí)間,在抓取過(guò)程中,很多已下載的網(wǎng)頁(yè)可能已經(jīng)更新了,從而導(dǎo)致過(guò)期。之所以如此,是因?yàn)榛ヂ?lián)網(wǎng)網(wǎng)頁(yè)處于不斷的動(dòng)態(tài)變化過(guò)程中,所以易產(chǎn)生本地網(wǎng)頁(yè)內(nèi)容和真實(shí)互聯(lián)網(wǎng)不一致的情況。

待下載網(wǎng)頁(yè)集合:處于待抓取URL隊(duì)列中的網(wǎng)頁(yè),這些網(wǎng)頁(yè)即將被爬蟲(chóng)下載。

可知網(wǎng)頁(yè)集合:這些網(wǎng)頁(yè)還沒(méi)有被爬蟲(chóng)下載,也沒(méi)有出現(xiàn)在待抓取URL隊(duì)列中,通過(guò)已經(jīng)抓取的網(wǎng)頁(yè)或者在待抓取URL隊(duì)列中的網(wǎng)頁(yè),總是能夠通過(guò)鏈接關(guān)系發(fā)現(xiàn)它們,稍晚時(shí)候會(huì)被爬蟲(chóng)抓取并索引。

未知網(wǎng)頁(yè)集合:有些網(wǎng)頁(yè)對(duì)于爬蟲(chóng)是無(wú)法抓取到的,這部分網(wǎng)頁(yè)構(gòu)成了未知網(wǎng)頁(yè)結(jié)合。事實(shí)上,這部分網(wǎng)頁(yè)所占的比例很高。

互聯(lián)網(wǎng)頁(yè)面劃分

從理解爬蟲(chóng)的角度看,對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)給出如上劃分有助于深入理解搜索引擎爬蟲(chóng)所面臨的主要任務(wù)和挑戰(zhàn)。絕大多數(shù)爬蟲(chóng)系統(tǒng)遵循上文的流程,但是并非所有的爬蟲(chóng)系統(tǒng)都如此一致。根據(jù)具體應(yīng)用的不同,爬蟲(chóng)系統(tǒng)在許多方面存在差異,大體而已,可以將爬蟲(chóng)系統(tǒng)分為如下 3 種類(lèi)型:

1.批量型爬蟲(chóng):批量型爬蟲(chóng)有比較明確的抓取范圍和目標(biāo),當(dāng)爬蟲(chóng)達(dá)到這個(gè)設(shè)定的目標(biāo)后,即停止抓取過(guò)程。

至于具體目標(biāo)可能各異,也許是設(shè)定抓取一定數(shù)量的網(wǎng)頁(yè)即可,也許是設(shè)定抓取的時(shí)間等,各不一樣。

2.增量型爬蟲(chóng):增量型爬蟲(chóng)與批量型爬蟲(chóng)不同,會(huì)保持持續(xù)不斷的抓取,對(duì)于抓取到的網(wǎng)頁(yè),要定期更新。

因?yàn)榛ヂ?lián)網(wǎng)網(wǎng)頁(yè)處于不斷變化中,新增網(wǎng)頁(yè)、網(wǎng)頁(yè)被刪除或者網(wǎng)頁(yè)內(nèi)容更改都很常見(jiàn),而增量型爬蟲(chóng)需要及時(shí)反映這種變化,所以處于持續(xù)不斷的抓取過(guò)程中,不是在抓取新網(wǎng)頁(yè),就是在更新已有網(wǎng)頁(yè)。通用的商業(yè)搜索引擎爬蟲(chóng)基本都屬此類(lèi)。

3.垂直型爬蟲(chóng):垂直型爬蟲(chóng)關(guān)注特定主題內(nèi)容或者屬于特定行業(yè)的網(wǎng)頁(yè),比如對(duì)于健康網(wǎng)站來(lái)說(shuō),只需要從互聯(lián)網(wǎng)頁(yè)面里找到與健康相關(guān)的頁(yè)面內(nèi)容即可,其他行業(yè)的內(nèi)容不在考慮范圍。

垂直型爬蟲(chóng)一個(gè)較大的特點(diǎn)和難點(diǎn)就是:如何識(shí)別網(wǎng)頁(yè)內(nèi)容是否屬于指定行業(yè)或主題。

從節(jié)省系統(tǒng)資源的角度來(lái)講,不可能把所有互聯(lián)網(wǎng)頁(yè)面下載之后在進(jìn)行篩選,這樣會(huì)造成資源過(guò)度浪費(fèi),往往需要爬蟲(chóng)在抓取階段就能夠動(dòng)態(tài)識(shí)別某個(gè)網(wǎng)址是否與主題相關(guān),并盡量不去抓取無(wú)關(guān)頁(yè)面,以達(dá)到節(jié)省資源的目的。垂直搜索網(wǎng)站或者垂直行業(yè)網(wǎng)站往往需要此種類(lèi)型的爬蟲(chóng)。

非常感謝您有耐心的讀完商企云建站公司的這篇文章:"網(wǎng)站seo優(yōu)化了解入門(mén)爬蟲(chóng)技術(shù)原理二",僅為提供更多信息供用戶(hù)參考使用或?yàn)閷W(xué)習(xí)交流的方便。我們公司不僅提供:網(wǎng)站建設(shè)、網(wǎng)站制作、seo網(wǎng)站優(yōu)化、網(wǎng)站推廣、APP開(kāi)發(fā)、快速排名、網(wǎng)頁(yè)設(shè)計(jì)、建網(wǎng)站等服務(wù),而且利用互聯(lián)網(wǎng)營(yíng)銷(xiāo)手法,多平臺(tái),多樣化進(jìn)行品牌內(nèi)容鋪設(shè),營(yíng)造企業(yè)正面形象,誠(chéng)摯為您服務(wù),歡迎您的到來(lái)。

掃二維碼與項(xiàng)目經(jīng)理溝通

7*24小時(shí)為您服務(wù)

解答:網(wǎng)站優(yōu)化,網(wǎng)站建設(shè),APP開(kāi)發(fā),小程序開(kāi)發(fā),H5開(kāi)發(fā),品牌推廣,新聞推廣,輿情監(jiān)測(cè)等

  非常感謝您有耐心的讀完這篇文章:"網(wǎng)站seo優(yōu)化了解入門(mén)爬蟲(chóng)技術(shù)原理二",更多內(nèi)容請(qǐng)繼續(xù)瀏覽,我們將為您提供更多參考使用或?qū)W習(xí)交流的信息。我們還可為您提供:網(wǎng)站建設(shè)與開(kāi)發(fā)網(wǎng)站優(yōu)化、品牌推廣、APP開(kāi)發(fā)、小程序開(kāi)發(fā)新聞推廣等服務(wù),我們以“降低營(yíng)銷(xiāo)成本,提高營(yíng)銷(xiāo)效果”的服務(wù)理念,自創(chuàng)立至今,已成功服務(wù)過(guò)不同行業(yè)的1000多家企業(yè),獲得國(guó)家高新技術(shù)企業(yè)認(rèn)證,且擁有14項(xiàng)國(guó)家軟件著作權(quán),將力爭(zhēng)成為國(guó)內(nèi)企業(yè)心目中值得信賴(lài)的互聯(lián)網(wǎng)產(chǎn)品及服務(wù)提供商。如您需要合作,請(qǐng)掃碼咨詢(xún),我們將誠(chéng)摯為您服務(wù)。
我要咨詢(xún)
姓名 :
電話(huà) :
其他地區(qū)