發(fā)表日期:2014-09-16 文章編輯:百茗網(wǎng)絡(luò)  關(guān)鍵詞: 濟(jì)南 索引 網(wǎng)站建設(shè)
以下內(nèi)容是百茗網(wǎng)絡(luò)為您分析的:
一、抓取:其實(shí)在抓取前面還有一個(gè)過(guò)程沒(méi)有描述在內(nèi),那就是爬行,也就是搜索引擎程序發(fā)現(xiàn)新網(wǎng)址的過(guò)程,只是這個(gè)過(guò)程大多伴隨著抓取,除非你的這個(gè)URL上的內(nèi)容沒(méi)有什么價(jià)值而被搜索引擎抓取程序直接跳過(guò)。搜索引擎爬行程序以數(shù)據(jù)表中已存在或新提交的鏈接順藤摸瓜式地進(jìn)行爬行以不斷發(fā)現(xiàn)新的URL,抓取程序在分析并確定該URL的頁(yè)面內(nèi)容有價(jià)值后,便將其整個(gè)頁(yè)面抓取下來(lái)放入到龐大的信息數(shù)據(jù)表中。
二、索引:在談這個(gè)過(guò)程前,我們首先要理清搜索引擎索引數(shù)據(jù)表與信息數(shù)據(jù)表之間的關(guān)系,其實(shí)搜索引擎底層的數(shù)據(jù)存儲(chǔ)本身就是一個(gè)關(guān)系數(shù)據(jù)庫(kù),索引數(shù)據(jù)表和信息數(shù)據(jù)表是兩個(gè)獨(dú)立的表,只是索引數(shù)據(jù)表和信息數(shù)據(jù)表是一對(duì)多的關(guān)系,這樣或許更好理解。那么搜索引擎為什么需要索引數(shù)據(jù)表呢?我們不妨從信息量這個(gè)角度分析一下,就目前來(lái)看,搜索引擎的信息量在百億級(jí),而用戶搜索某個(gè)關(guān)鍵字時(shí)響應(yīng)速度在短短的2、3秒內(nèi),在這短短的2、3內(nèi)不僅僅要完成數(shù)據(jù)的查詢,而且還要完成數(shù)據(jù)的排序。如果每次都要從這百億級(jí)的數(shù)據(jù)中查詢用戶請(qǐng)求并處理排序,不僅減慢響應(yīng)速度,而且還浪費(fèi)了大量的計(jì)算資源,對(duì)服務(wù)器的壓力也會(huì)更大。
三、排名:闡述這一原理,不得不說(shuō)下搜索引擎爬行、抓取過(guò)程,影響關(guān)鍵詞排名的因素很多,北京建站最難理解的可能就是外鏈這一塊兒,因?yàn)樵谧ト【W(wǎng)頁(yè)時(shí),搜索引擎是捕捉不到他的導(dǎo)入鏈接的,其實(shí)搜索引擎在抓取一個(gè)頁(yè)面時(shí),已經(jīng)將該頁(yè)面的導(dǎo)出鏈接投票計(jì)算到了相應(yīng)的頁(yè)面,并將這一有效投票寫(xiě)入到了所指向的URL字段中,便于排名程序加以計(jì)算。影響排名的因素很多,排名計(jì)算的具體方式我們也無(wú)從得知,因此這些不在我們的討論之列。關(guān)于排名,大家可能還有一個(gè)問(wèn)題,就是每個(gè)詞語(yǔ)的排名是事先排序好了,還是當(dāng)用戶搜索時(shí)才進(jìn)行排序,筆者給出的答案是后者,或許這一個(gè)現(xiàn)象可以揭秘筆者的答案:每一天甚至每一小時(shí)關(guān)鍵字排名都會(huì)出現(xiàn)波動(dòng)。