18. 當 Transformer 模型發生「注意力分布過於平均(Attention Collapse)」的情形時，導致模型無法有效聚焦於關鍵資訊，下列哪一項策略可有效改善此問題？ (A)提高 Query-Key 點積(Dot Product)的縮放常數； (B)在 Softmax 前加入高斯雜訊(Gaussian Noise)； (C)使用 ReLU 函數取代 Softmax； (D)對注意力權重施加稀疏化約束(Sparsity Constraint)

9. 某企業在訓練生成式 AI 模型時，導入資料增強(Data Augmentation)技術以擴充訓練資料，但觀察到模型效能反而下降。下列哪一項最可能的原因與對應改善策略最為正確？ (A)增強樣本未經隨機初始化，導致模型梯度更新不穩定，應重新設計訓練啟動流程； (B)增強後資料的特徵分佈與原始資料不一致，影響模型的泛化能力，應檢查並調整增強策略以維持語意一致性； (C)增強樣本的比例過高，造成模型對特定資料產生偏好，應適度提高增強比例並調整學習率； (D)增強後資料的標註可信度下降，導致訓練訊號偏差，應以半監督學習方式重新校正資料