超鏈分析
搜索引擎通過對網頁鏈接的分析,得出網頁相關度的計算。就像賣東西一樣,所有賣東西的都會夸自己的東西好,網頁也是一樣,如果只通過網頁自身表現的情況來判斷網頁排名,肯定不能十分準確。
因此搜索引擎希望通過網頁以外的標準來衡量網頁,而網頁以外的標準中,最利于搜索引擎掌握的就是超鏈接,每個網頁的外部超鏈接數量質量以及網頁導出鏈接情況都反應網頁的質量和關鍵詞的相關度。
這樣的鏈接分析技術在所有的搜索引擎中都存在,其中最為知名的超鏈分析就是谷歌的PR技術,國內的百度李彥宏提出的超鏈分析技術,其他搜索引擎也都有自己的超鏈分析技術,只是在具體側重方向有些許差別。
具體的超鏈分析技術是十分復雜的,但是最主要的原則有導入鏈接數量、導入鏈接網頁質量、導入鏈接錨文本等。例如,網頁A有導人鏈接40個,其中以“SEO”為錨文本的鏈接30個;而網頁B有導入鏈接30個,以“SEO”為錨文本的鏈接20個,一般情況下,網頁A在關鍵詞“SEO”的排名結果中更理想。
由于超鏈分析的計算量非常龐大、計算時間很長,因此在建立倒排索引時,超鏈分析已經完成,并對索引結果的排名產生影響,這樣也可以提高搜索引擎返回結果的速度。
數據整合搜索引擎經過處理網頁文件將各種格式的文件數據進行整理,然后進行分類存儲。由于網絡文件的類型有很多種、如html、PPT、Word、Txt、Jpg、Bmp、Swf、Mp3等格式,其中文字格式的網頁文件能很好地被搜索引整識別處理。但其他富媒體格式的文件,如視頻、音樂、圖片等往往只能通過其說明性文字進行處理,然后整合各種類型的數據,存于搜索引擎的數據庫中。
不同的數據格式被分別存儲,但是在建立索引以及排序時,往往又會聯系到與數據相關的內容,以判斷其相關性與重要性,然后形成最終的一個有利于搜索排名的數據庫。
|