企業(yè)網(wǎng)站建設(shè)資訊:搜索引擎的原理是什么
2019-03-27 14:23:08 閱讀(276)
企業(yè)網(wǎng)站建設(shè)搜索引擎的原理,可以看做三步從互聯(lián)網(wǎng)上抓取網(wǎng)頁一建立索引數(shù)據(jù)庫一在索引數(shù)據(jù)庫中搜索排序。
從互聯(lián)網(wǎng)上抓取網(wǎng)頁
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁的系統(tǒng)程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。
建立索引數(shù)據(jù)庫
由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息包括網(wǎng)頁所在、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁針對頁面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度或重要性,然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。
在索引數(shù)據(jù)庫中搜索排序
當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因?yàn)樗邢嚓P(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。搜索引擎的一般要定期重新訪問所有網(wǎng)頁各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁文字的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁文字和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體文字變化情況就會(huì)反映到用戶查詢的結(jié)果中?;ヂ?lián)網(wǎng)雖然只有一個(gè),但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)庫儲(chǔ)存了互聯(lián)網(wǎng)上幾千萬至搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實(shí)際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫搜索引擎,也不能真正理解網(wǎng)頁上的內(nèi)容,它只能機(jī)械的匹配網(wǎng)頁上的文字。
真正意義上的搜索引擎,通常指的是收集了互聯(lián)網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對網(wǎng)頁中的每一個(gè)文字即關(guān)鍵詞進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。
當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜企業(yè)網(wǎng)站的搜索引擎搜索優(yōu)化研究幾十億的網(wǎng)頁索引,數(shù)據(jù)量達(dá)到幾千甚至幾萬。
但即使最大的搜索引擎建立超過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到,不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在以下。
我們使用不同搜索引擎的重要原因,就是因?yàn)樗鼈兡芊謩e搜索到不同的網(wǎng)頁。而互聯(lián)網(wǎng)上有更大量的網(wǎng)頁,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。
未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明出處