29. 某 AI 研究團隊採用 GRPO(Group Relative Policy Optimization)作為一種基於 強化學習的模型優化方法,用於提升大型語言模型的表現。請問 GRPO 最適合 用來強化模型在哪一類任務上的表現?
(A)判斷客服留言的情緒傾向,將每則訊息快速歸類為正面、負面或中性;
(B)將客服電話錄音即時轉換為文字,供後續人工審閱使用;
(C)針對數學應用題或邏輯謎題,逐步推導出正確解答;
(D)分析商品圖片的外觀特徵,自動辨識類別與品項

答案:登入後查看
統計: A(0), B(0), C(1), D(0), E(0) #3922923