28. 對非常長的輸入序列進行推理(Inference),Transformer 模型推理的主要計算瓶頸通常是什麼?
(A)模型輸出層產生文本的過程,因為每生成一個詞都必須重新訓練整個模型一次;
(B)詞嵌入 (Embedding) 查找操作,因為其時間複雜度隨詞彙表大小 指數級增長;
(C)Softmax 函數的計算,因為對每個 Token 都需要執行繁重的運算;
(D)自注意力層的計算和其記憶體使用,因為注意力矩陣的大小隨序列 長度呈平方級增長
答案:登入後查看
統計: A(0), B(1), C(0), D(3), E(0) #3869571
統計: A(0), B(1), C(0), D(3), E(0) #3869571