13. 在大型語言模型的微調流程中，常見「指令微調」(Instruction Tuning)、「監督微調」 (Supervised Fine-tuning)與「強化學習人類反饋」(RLHF)三種方法。以下敘述中，何者有誤？ (A) 指令微調與監督微調都需要人類標註的示例，不過指令微調強調「指令→回答」的配對。 (B) RLHF 透過人類對模型輸出的偏好打分，搭配強化學習來優化模型。 (C) 監督微調與指令微調只需模型自動生成的資料，不必再做人工標註。 (D)實務上通常先做監督或指令微調，最後才以 RLHF 強化模型對人類偏好的對齊程度