41. 在大型語言模型(LLM)的效能優化中,Flash Attention 常被用來改善 Transformer 注意力機制的運算效率。關於 Flash Attention 的主要效益,下列敘述何者最正確?
(A)透過忽略影響較小的注意力權重,減少模型需要計算的關聯數量,以降低運算成本;
(B)透過調整注意力計算與資料處理方式,減少中間結果的儲存需求,進而改善速度與資源使用效率;
(C)透過增加注意力計算的並行程度,使模型可同時處理更多注意力頭部;
(D)透過將注意力結果暫存於高速快取記憶體,以避免重複計算造成延遲

答案:登入後查看
統計: A(0), B(2), C(0), D(0), E(0) #3870545