申論題內容
四、在有 N 篇文長近似的文件(如 N 篇摘要,都約 300 詞)的全文檢索系統
中,索引詞彙 T 在每一篇文件都有其權重。最簡單的詞彙權重設定方式
是布林(Boolean)邏輯方式,亦即詞彙 T 出現在文件 D,則其權重為 1,
若沒出現在文件 D 則其權重為 0。另一種詞彙權重設定方式為 TF x IDF,
亦即:T 出現在 D 的次數(或是正規化後之詞頻,TF)「乘以」T 在 N
篇文件中出現篇數的倒數(或是正規化後之文件篇數倒數,IDF)。請說
明並比較布林權重、TF、IDF 及 TF x IDF 等四種權重方式,對相關文件
排序的影響。(25 分)