2008年10月5日 星期日

圖書資訊學研究 (三) 2008.10.01 書目隱性語義索引:使用者無錯

很難得的機會,所上邀請姐妹校 Univ. of Wisconsin at Milwaukee 穆祥明教授來為我們演講,今天演講的主題是『Bibliographic Latent Semantic Indexing: No Blames On Users(書目隱性語義索引:使用者無錯)』

傳統搜尋引擎會通過統計特定網頁中關鍵字的位置、出現的次數或者是URL中的關鍵字,依照匹配的程度提供給user相關的檢索結果。從自然語言的角度來看,通常一個詞可能有多種不同的說法,所以造成一詞多義的情形,或者是一義多詞。對於一詞多義可能使得搜尋結果中包含很多不是user真正要查找的結果,一義多詞將使得搜尋結果中遺漏很多user真正要查找的結果。但這個弊端是傳統的搜尋引擎演算法中無法解決的,而Latent Semantic Indexing(LS I)為隱性語義索引便是搜尋引擎試圖要解決這一個弊端,LS I以大樣本數量的統計分析找出不同的詞、片語間的相關性,LSI會建立matrix,並將不要的去掉,根據文件字詞出線的頻率(Term-Document frequency matrix),再用matrix search,讓搜尋結果接近多user真正要查找的結果。

評估資訊檢索效能:精確率(precision ratio)和回收(現)率(recall ratio)仍然是現在最常使用的兩個衡量標準,用來評估檢索系統的效能。

相關

不相關

總數

檢索到

a

b

ab

未檢索到

c

d

cd

總數

ac

bd

abcd


※ 精確率(precision ratio)= 檢索到相關資料的筆數/檢索到資料的總數,包括相關與不相關
=(a/a+b)× 100%
檢索所得與主題有關篇數與所得篇數的比率,精確率越高表示檢索所得越精確。
※ 回收率(recall ratio)=檢索到相關資料的筆數/資料庫內所有相關資料的總數,包括檢索到與未檢索到
=(a/a+c)× 100%
檢索所得篇數與資料庫中相關篇數的總數的比率,回收率越高表示查得越多相關文件

沒有留言: