36 下列哪一個指標常用於評估機器翻譯的品質,通過比較模型生成的譯文與人工參考譯文之間的 n-gram 重疊程度?
(A) "困惑度 (Perplexity)"
(B) "ROUGE 分數 (ROUGE score)"
(C) BLEU 分數 (BLEU score)
(D) 準確率 (Accuracy)
答案:登入後查看
統計: A(58), B(115), C(224), D(82), E(0) #3434729
統計: A(58), B(115), C(224), D(82), E(0) #3434729
詳解 (共 4 筆)
#6607484
BLEU (Bilingual Evaluation Understudy) 是評估機器翻譯品質的經典指標。
計算模型生成的譯文與人工參考譯文之間的 n-gram 重疊率,並加入長度懲罰來避免系統生成過短的譯文。
BLEU 分數範圍通常在 0~1(或 0~100%),分數越高代表譯文與人工譯文越相近。
0
0