18. 當 Transformer 模型發生「注意力分布過於平均(Attention Collapse)」的情形時,導致模型無法有效聚焦於關鍵資訊,下列哪 一項策略可有效改善此問題?
(A)提高 Query-Key 點積(Dot Product)的縮放常數;
(B)在 Softmax 前加入高斯雜訊(Gaussian Noise);
(C)使用 ReLU 函數取代 Softmax;
(D)對注意力權重施加稀疏化約束(Sparsity Constraint)

答案:登入後查看
統計: A(0), B(0), C(0), D(2), E(0) #3773569