關(guān)鍵詞相關(guān)性,是undefined中的重點(diǎn)。但是對(duì)于相關(guān)性的搜索引擎工作原理,相信大部分的seoer對(duì)于都缺乏了解。致力于搜索引擎技術(shù)中的相關(guān)性排名技術(shù)研究,以有多年的時(shí)間。作為職業(yè)seo對(duì)于搜索引擎算法的研究是必須的,雖然說,我們不可能知道搜索引擎算法的全部。但是只需要我們主流搜索引擎技術(shù)的方向,你就可以知道搜索引擎時(shí)代的脈搏。
相關(guān)度排序技術(shù)的產(chǎn)生主要是由搜索引擎的特點(diǎn)決定的。首先,現(xiàn)代搜索引擎能夠訪問的web網(wǎng)頁數(shù)量已經(jīng)達(dá)到上十億的規(guī)模,哪怕用戶只是搜索其中很少的一部分內(nèi)容,基于全文搜索技術(shù)的搜索引擎也能返回成千上萬的頁面。即便這些結(jié)果網(wǎng)頁都是用戶所需要的,用戶也沒有可能對(duì)所有的網(wǎng)頁瀏覽一遍,所以能夠?qū)⒂脩舾信d趣的結(jié)果網(wǎng)頁放于前面,勢必可以增強(qiáng)搜索引擎用戶的滿意度。其次,搜索引擎用戶自身的檢索專業(yè)能力通常很有限,在更為普遍的關(guān)鍵詞檢索行為中,用戶一般只是鍵人幾個(gè)詞語。例如,spink等曾對(duì)excite等搜索引擎的近300位用戶做過實(shí)驗(yàn)調(diào)查,發(fā)現(xiàn)人均輸入的檢索詞為3.34個(gè)。國內(nèi)部分學(xué)者也有相似的結(jié)論,發(fā)現(xiàn)90%左右的用戶輸入的中文檢索單字為2~6個(gè),而且2字詞居多,約占58%,其次為4字詞(約占18%)和3字詞(約占14%)。過少的檢索詞事實(shí)上無法真正表達(dá)用戶的檢索需求,而且用戶通常也不去進(jìn)行復(fù)雜的邏輯構(gòu)造,只有相當(dāng)少的用戶進(jìn)行布爾邏輯檢索、限制性檢索和**檢索等方法,**5.24%的檢索式中包含有布爾邏輯算符。國內(nèi)的部分學(xué)者的研究結(jié)果也表明,約40%的用戶不能正確運(yùn)用字段檢索或二次檢索,80%左右的用戶不能正確運(yùn)用**檢索功能,甚至還發(fā)現(xiàn)用戶缺乏動(dòng)力去學(xué)習(xí)復(fù)雜的檢索技能,多數(shù)用戶都寄希望于搜索引擎能夠自動(dòng)地為他們構(gòu)造有效的檢索式。由于缺乏過去聯(lián)機(jī)檢索中常常具備的檢索人員,因此,用戶實(shí)際的檢索行為與用戶理想的檢索行為存在事實(shí)上的差距,檢索結(jié)果的不滿意也是不奇怪的。正是由于這個(gè)特點(diǎn),搜索引擎就必須設(shè)法將用戶更想要的網(wǎng)頁結(jié)果盡可能地放到網(wǎng)頁結(jié)果的前面,這就是網(wǎng)頁相關(guān)度排序算法在搜索引擎中為什么非常重要的原因。
現(xiàn)階段的相關(guān)度排序技術(shù)主要有以下幾種:一是基于傳統(tǒng)信息檢索技術(shù)的方式,它主要利用關(guān)鍵詞本身在文檔中的重要程度來對(duì)文檔與用戶查詢要求的相關(guān)度做出測量,如利用網(wǎng)頁中關(guān)鍵詞出現(xiàn)的頻率和位置。一般而言,檢索出的網(wǎng)頁文檔中含有的查詢關(guān)鍵詞個(gè)數(shù)越多,相關(guān)性越大,并且此關(guān)鍵詞的區(qū)分度越高;同時(shí),查詢關(guān)鍵詞如果出現(xiàn)在諸如標(biāo)題字段等重要位置上,則比出現(xiàn)在正文的相關(guān)度要大。二是超鏈分析技術(shù),使用此技術(shù)的代表性搜索引擎有g(shù)oogle和baidu等。和前者相比,它以網(wǎng)頁被認(rèn)可的重要程度作為檢索結(jié)果的相關(guān)度排序依據(jù)。從設(shè)計(jì)思想上看,它更注重第三方對(duì)該網(wǎng)頁的認(rèn)可,如具有較大鏈入網(wǎng)頁數(shù)的網(wǎng)頁才是得到廣泛認(rèn)可的重要網(wǎng)頁,而根據(jù)關(guān)鍵詞位置和頻率的傳統(tǒng)方法只是一種網(wǎng)頁自我認(rèn)可的形式,缺乏客觀性。更后還有一些其他方式,如由用戶自由定義排序規(guī)則的自定義方式。北京大學(xué)的天網(wǎng)ftp搜索引擎就采用這種排序方式,它可以讓用戶選擇諸如時(shí)間、大小、穩(wěn)定性和距離等具體排序指標(biāo)來對(duì)結(jié)果網(wǎng)頁進(jìn)行相關(guān)度排序。再如收費(fèi)排名模式,它作為搜索引擎的一種主要贏利手段,在具有網(wǎng)絡(luò)門戶特點(diǎn)的大型搜索引擎中廣為使用,但于擔(dān)心影響搜索結(jié)果的客觀性,這種方式不是它們的主流排序方式,而**作為一個(gè)補(bǔ)充顯示在付費(fèi)搜索欄目中。
相關(guān)度排序技術(shù)主要依賴于超鏈分析技術(shù)實(shí)現(xiàn)。超鏈分析技術(shù)可以提供多種功能,其中的主要功能就是解決結(jié)果網(wǎng)頁的相關(guān)度排序問題。它主要是利用網(wǎng)頁間存在的各種超鏈指向,對(duì)網(wǎng)頁之間的引用關(guān)系進(jìn)行分析,依據(jù)網(wǎng)頁鏈人數(shù)的多少計(jì)算該網(wǎng)頁的重要度權(quán)值。一般認(rèn)為,如果a網(wǎng)頁有超鏈指向b網(wǎng)頁,相當(dāng)于a網(wǎng)頁投了b網(wǎng)頁一票,即a認(rèn)可了b網(wǎng)頁的重要性。深入理解超鏈分析算法,可以根據(jù)鏈接結(jié)構(gòu)把整個(gè)web網(wǎng)頁文檔集看成一個(gè)有向的拓?fù)鋱D,其中每個(gè)網(wǎng)頁都構(gòu)成圖中的一個(gè)結(jié)點(diǎn),網(wǎng)頁之間的鏈接就構(gòu)成了結(jié)點(diǎn)間的有向邊,按照這個(gè)思想,可以根據(jù)每個(gè)結(jié)點(diǎn)的出度和入度來評(píng)價(jià)網(wǎng)頁的重要性。
對(duì)于超鏈分析技術(shù),有代表性的算法主要是page等設(shè)計(jì)的pagerank算法和kleinberg創(chuàng)造的hits算法。其中,pagerank算法在實(shí)際使用中的效果要好于hits算法,這主要是由于以下原因:首先,pagerank算法可以一次性、脫機(jī)且前幾立于查詢的對(duì)網(wǎng)頁進(jìn)行預(yù)計(jì)算以得到網(wǎng)頁重要度的估計(jì)值,然后在具體的用戶查詢中,結(jié)合其他查詢指標(biāo)值,一起對(duì)查詢結(jié)果進(jìn)行相關(guān)性排序,從而節(jié)省了系統(tǒng)查詢時(shí)的運(yùn)算開銷;其次,pagerank算法是利用整個(gè)網(wǎng)頁集合進(jìn)行計(jì)算的,不像hits算法易受到局部鏈接陷阱的影響而產(chǎn)生“主題漂移”現(xiàn)象,所以現(xiàn)在這種技術(shù)廣泛地應(yīng)用在許多搜索引擎系統(tǒng)中,google搜索引擎的廣獲成功也表明了以超鏈分析為特征的網(wǎng)頁相關(guān)度排序算法日益成熟。
pagerank技術(shù)基于一種假設(shè),即對(duì)于web中的一個(gè)網(wǎng)頁a,如果存在指向網(wǎng)頁a的鏈接,則可以將a看成是一個(gè)重要的網(wǎng)頁。pagerank認(rèn)為網(wǎng)頁的鏈入鏈接數(shù)可以反映網(wǎng)頁的重要程度,但是由于現(xiàn)實(shí)中的人們在設(shè)計(jì)網(wǎng)頁的各種超鏈時(shí)往往并不嚴(yán)格,有很多網(wǎng)頁的超鏈純粹是為了諸如網(wǎng)站導(dǎo)航、商業(yè)廣告等目的而制作,顯然這類網(wǎng)頁對(duì)于它所指向網(wǎng)頁的重要程度貢獻(xiàn)程度并不高。但是,由于算法的復(fù)雜性,pagerank沒有過多考慮網(wǎng)頁超鏈內(nèi)容對(duì)網(wǎng)頁重要度的影響,只是使用了兩個(gè)相對(duì)簡單的方法:其一,如果一個(gè)網(wǎng)頁的鏈出網(wǎng)頁數(shù)太多,則它對(duì)每個(gè)鏈出網(wǎng)頁重要度的認(rèn)可能力降低;其二,如果一個(gè)網(wǎng)頁由于本身鏈入網(wǎng)頁數(shù)很低造成它的重要程度降低,則它對(duì)鏈出網(wǎng)頁重要度的影響也相應(yīng)降低。所以,在實(shí)際計(jì)算中,網(wǎng)頁a的重要性權(quán)值正比于鏈入網(wǎng)頁a的重要性權(quán)值,并且和鏈入網(wǎng)頁a的鏈出網(wǎng)頁數(shù)量呈反比。由于無法知道網(wǎng)頁a自身的重要性權(quán)值,所以決定每個(gè)網(wǎng)頁的重要權(quán)值需要反復(fù)迭代地進(jìn)行運(yùn)算才能得到。也就是說,一個(gè)網(wǎng)頁的重要性決定著同時(shí)也依賴于其他網(wǎng)頁的重要性。
網(wǎng)站優(yōu)化如何做好網(wǎng)站關(guān)鍵詞的相關(guān)性,歡迎咨詢合作。