一般認為資訊需求者是最具資格進行相關判斷的人,然而不同評估者產生的相關判斷,通常會有相當程度的歧異。TREC(Text Retrieval Conference)的實驗顯示,不同的相關判斷者之間有高達71%的不一致狀況,但是卻有研究也顯示,前述情形並不影響評量資訊檢索系統相對的優劣。相關層級指的是採用二元相關抑或多元相關,TREC採用二元相關,也就是僅區分「相關」與「不相關」。採用多元相關的研究者認為,相關與不相關之間實為一連續地帶,很難一刀兩斷地判定為相關或不相關。CLEF(Cross Language Evaluation Forum)採用三元相關,區分「相關」、「部分相關」、「不相關」;NTCIR(NII Test Collections for Information Retrieval)則採用四元相關,區分「非常相關」、「相關」、「部分相關」、「不相關」。評分尺度指的是基於相關判斷的結果,進行系統績效的評量方法,也就是給分數的方法。
Buckley, C. & Voorhees, E. M. (2000).Evaluating evaluation measure stability. In Proceedings of the 23rd annual international ACM SIGIR conference on research and development in information retrieval (SIGIR 2000) (pp. 33–40), ACM, New York.