阿摩線上測驗 登入

試題詳解

試卷:114年 - 114-1 國立屏科實驗高級中等學校_專任教師甄選初試試題_高中部:資訊科技科#126399 | 科目:教甄◆資訊科

試卷資訊

試卷名稱:114年 - 114-1 國立屏科實驗高級中等學校_專任教師甄選初試試題_高中部:資訊科技科#126399

年份:114年

科目:教甄◆資訊科

13. 在大型語言模型的微調流程中,常見「指令微調」(Instruction Tuning)、「監督微調」 (Supervised Fine-tuning)與「強化學習人類反饋」(RLHF)三種方法。以下敘述中,何者有誤?
(A) 指令微調與監督微調都需要人類標註的示例,不過指令微調強調「指令→回答」的配對。
(B) RLHF 透過人類對模型輸出的偏好打分,搭配強化學習來優化模型。
(C) 監督微調與指令微調只需模型自動生成的資料,不必再做人工標註。
(D)實務上通常先做監督或指令微調,最後才以 RLHF 強化模型對人類偏好的對齊程度

正確答案:登入後查看

詳解 (共 1 筆)

推薦的詳解#6762655
未解鎖
1. 題目解析 題目要求我們找出關於大...
(共 1032 字,隱藏中)
前往觀看
1
0