15 對於資訊檢索系統而言,下列何者統計值具有文件鑑別力?
(A)Document Frequency(DF)
(B)Term Frequency(TF)
(C)Total Frequency(F)
(D)Average Precision(AP)

答案:登入後查看
統計: A(70), B(21), C(5), D(13), E(0) #3126557

詳解 (共 1 筆)

#6150137

A 文件頻率(document frequency,簡稱DF)指某一個詞彙出現在所有文件中的篇數。若其出現在越多篇文件中,即DF越高,則表示該詞彙可能為常用字,故而重要性越低,相對於其反向文件篇數(inverse document frequency,簡稱IDF)也低。例如,在一批有關電腦的文件中,搜尋電腦這個詞彙,幾乎所有的文件都會被找回,則不管其詞頻(TF),電腦在這批文獻中,對檢索沒有幫助,其重要性要降低,剛好對應到其IDF也低。

詞頻(term frequency,簡稱TF)是指文件中詞彙出現的頻率或是次數,是衡量一個詞彙重要性的一種指標。一般而言,一個詞彙在某一篇文件中出現的次數越高,即詞頻越高,則其在該篇文件中的代表性越重要。例外的情況,有虛詞、連接詞、代名詞等功能詞(function words),這些詞彙,經常有高詞頻,卻不帶有任何內容意義,在文件的詞彙處理過程,常被特意地停用、過濾掉,因而被稱為停用詞(stop words)。

C 總次數Total FrequencyF 

D 平均準確率Average PrecisionAP)是平均每篇相關文件被檢索時的 Preciscion。傳統上,進行文件檢索的評分時,採用的是recall(查全率)與precision(查準率),但這無法呈現檢索結果排序的相關程度。Buckley & Voorhees2000)提出的average precisionAP)是針對有排序的檢索結果的一種評分方式。 

資訊檢索的研究通常使用詞頻(Term Frequency,簡稱 TF)作為選擇索引詞彙的標準, 認為排除所謂的功能詞彙(Function Word)之後, 文件中出現越多次的詞彙越能夠代表該文件的特性。然而,若是相同的詞彙在許多文件都出現,則其代表性會比較不可靠,因為其鑑別性(Discriminativity)比較低。

4
0