淺談搜索引擎的體系結(jié)構(gòu) |
發(fā)布時(shí)間: 2012/9/17 14:41:19 |
在網(wǎng)站優(yōu)化公司呆了這么久,也總結(jié)了一些知識(shí),和大家分享一下:搜索引擎的結(jié)構(gòu)清晰,分工明確。按照各自的功能劃分,分為以下4大系統(tǒng):
(1)下載系統(tǒng);
(2)分析系統(tǒng);
(3)索引系統(tǒng);
(4)查詢系統(tǒng);
其中下載系統(tǒng)負(fù)責(zé)從萬維網(wǎng)上下載各種類型的網(wǎng)頁,并且保持對(duì)萬維網(wǎng)變化的同步。
分析系統(tǒng)負(fù)責(zé)抽取下載系統(tǒng)得到的網(wǎng)頁數(shù)據(jù),并進(jìn)行PageRank和分詞計(jì)算。
索引系統(tǒng)負(fù)責(zé)將分析系統(tǒng)處理后網(wǎng)頁對(duì)象索引入庫。
查詢系統(tǒng)負(fù)責(zé)分析用戶提交的查詢請(qǐng)求,然后從索引庫中檢索出相關(guān)網(wǎng)頁并將網(wǎng)頁排序后,以查詢結(jié)果的形式返回給用戶。
從細(xì)節(jié)上看,網(wǎng)頁從開始到最后都是網(wǎng)頁。而在搜索引擎的內(nèi)部會(huì)有兩種不同的形式,一種以網(wǎng)頁庫的方式存儲(chǔ);一種成為網(wǎng)頁對(duì)象被存儲(chǔ)在索引庫中。搜索引擎的主要數(shù)據(jù)來自網(wǎng)頁,網(wǎng)頁處理能力是搜索引擎面對(duì)的主要挑戰(zhàn),下載系統(tǒng)和索引系統(tǒng)分別會(huì)進(jìn)行一些關(guān)于數(shù)據(jù)存的相關(guān)知識(shí)的介紹。 本文出自:億恩科技【mszdt.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |