傳統搜尋引擎會通過統計特定網頁中關鍵字的位置、出現的次數或者是URL中的關鍵字,依照匹配的程度提供給user相關的檢索結果。從自然語言的角度來看,通常一個詞可能有多種不同的說法,所以造成一詞多義的情形,或者是一義多詞。對於一詞多義可能使得搜尋結果中包含很多不是user真正要查找的結果,一義多詞將使得搜尋結果中遺漏很多user真正要查找的結果。但這個弊端是傳統的搜尋引擎演算法中無法解決的,而Latent Semantic Indexing(LS I)為隱性語義索引便是搜尋引擎試圖要解決這一個弊端,LS I以大樣本數量的統計分析找出不同的詞、片語間的相關性,LSI會建立matrix,並將不要的去掉,根據文件字詞出線的頻率(Term-Document frequency matrix),再用matrix search,讓搜尋結果接近多user真正要查找的結果。
評估資訊檢索效能:精確率(precision ratio)和回收(現)率(recall ratio)仍然是現在最常使用的兩個衡量標準,用來評估檢索系統的效能。
相關 | 不相關 | 總數 | |
檢索到 | a | b | a+b |
未檢索到 | c | d | c+d |
總數 | a+c | b+d | a+b+c+d |
※ 精確率(precision ratio)= 檢索到相關資料的筆數/檢索到資料的總數,包括相關與不相關
=(a/a+b)× 100%
檢索所得與主題有關篇數與所得篇數的比率,精確率越高表示檢索所得越精確。
※ 回收率(recall ratio)=檢索到相關資料的筆數/資料庫內所有相關資料的總數,包括檢索到與未檢索到
=(a/a+c)× 100%
檢索所得篇數與資料庫中相關篇數的總數的比率,回收率越高表示查得越多相關文件
沒有留言:
張貼留言