【系統公告】頁面上方功能列及下方資訊全面更換新版,舊用戶可再切回舊版。 前往查看

初等/五等/佐級◆圖書館學大意題庫下載題庫

上一題
57.相關判斷的最佳判斷者為:
(A)學科專家
(B)資訊需求者
(C)資訊中介者
(D)檢索者


答案:登入後觀看
難度: 適中

10
 【站僕】摩檸Morning:有沒有達人來解釋一下?
倒數 16時 ,已有 1 則答案
國三下 (2020/10/28):

相關判斷與評量

relevance judgments and measurements

陳光華

2012年10月
圖書館學與資訊科學大辭典

名詞解釋:

  相關判斷與評量意指判定文件與查詢問題的相關性,並用之進行檢索績效的評量。長久以來,已有許多學者討論多種相關的概念,例如心理相關、情境相關、主題相關等等,傳統上,以量化的方式評估相關性,採用的是「主題相關」。事實上,相關判斷會因判斷者、判斷情境等諸多因素而可能產生很大的差異,加上進行相關判斷時往往囿於時間人力等種種限制,無法作十分周詳的考量,通常只能採取一些可行性較高的權宜方案。相關判斷的結果主要是用以評估資訊檢索系統的績效,歷來學者對於這樣的評量方式也有許多質疑,主要可歸納為相關判斷者(relevance assessor)、相關層級(relevance granularity)、與評分尺度(scoring metric)。

  一般認為資訊需求者是最具資格進行相關判斷的人,然而不同評估者產生的相關判斷,通常會有相當程度的歧異。TREC(Text Retrieval Conference)的實驗顯示,不同的相關判斷者之間有高達71%的不一致狀況,但是卻有研究也顯示,前述情形並不影響評量資訊檢索系統相對的優劣。相關層級指的是採用二元相關抑或多元相關,TREC採用二元相關,也就是僅區分「相關」與「不相關」。採用多元相關的研究者認為,相關與不相關之間實為一連續地帶,很難一刀兩斷地判定為相關或不相關。CLEF(Cross Language Evaluation Forum)採用三元相關,區分「相關」、「部分相關」、「不相關」;NTCIR(NII Test Collections for Information Retrieval)則採用四元相關,區分「非常相關」、「相關」、「部分相關」、「不相關」。評分尺度指的是基於相關判斷的結果,進行系統績效的評量方法,也就是給分數的方法。
  傳統上,進行文件檢索的評分時,採用的是recall(查全率)與precision(查準率),這是一種適用於無排序之檢索結果(non-ranked retrieved list)的評量尺度,計算方式請參見式(1)與式(2)。然而,多數的資訊檢索系統的檢索結果都是排序的,這也符合使用者的期待,畢竟第1篇文件就是相關文件,與第20篇文件才是相關文件,對使用者而言,感覺是截然不同的。

1352100801.png (1)

1352100807.png    (2)

  r為資訊檢索系統針對某問題檢索所得文件中相關的文件數;L為資訊檢索系統針對某問題檢索所得的文件數;R為文件集合中與某問題相關的文件數。
對於有排序檢索結果(ranked retrieved list)的評分尺度(scoring metrics),最常採用的是由Buckley & Voorhees(2000)提出的average precision(AP)與R-Precision。AP的計算方式如式(3)所示,R-Precision如式(4)所示。

1352100813.png (3)

1352100818.png (4)

1355393704.jpg
  然而,資訊檢索系統會對一組問題,送出一份檢索結果(稱為一個run)。評估者進行相關判斷後,每一個問題都可計算出AP與R-Precision;對於整組問題,則可計算mean AP(MAP),作為該run的評量結果。

1352281997.png (5)
其中Q為問題的總數
  對於使用極為廣泛的AP、R-Precision、MAP,仍然受到許多的質疑。第一個質疑是採用MAP不甚公平,有研究者建議採用幾何平均(geometry average)而非算術平均(mean average),GAP的計算方式請參見式(6)。對於MAP相同的檢索系統而言,GAP可以區別出表現平穩者與表現起伏不定者。
1352282171.png  (6)
其中Q為問題的總數
  
  前述的評量尺度僅適用於二元相關,許多研究者嘗試提出適用於多元相關的評分尺度,如cumulative gain、average weighted precision (AWP)、R-weighted precision (R-WP)、Q-measure、R-measure等。

參考資料:

Buckley, C. & Voorhees, E. M. (2000).Evaluating evaluation measure stability. In Proceedings of the 23rd annual international ACM SIGIR conference on research and development in information retrieval (SIGIR 2000) (pp. 33–40), ACM, New York.

0個讚
檢舉


57.相關判斷的最佳判斷者為: (A)學科專家 (B)資訊需求者 (C)資..-阿摩線上測驗