24. 某企業建置生成式 AI 系統,利用大量客服紀錄與產品評論資料訓練語言模型,以自動生成客服回覆與知識摘要。由於資料來源多樣,且包含非結構化文字、影像與表格資訊,團隊希望在不降低模型效能的前提下,提升資料處理效率與一致性,下列哪一種資料處理策略最適合?
(A)建立資料湖(Data Lake)結構,並以 Apache Spark 或 Ray 進行分散式資料預處理與特徵抽取,再串接至模型訓練管線(Pipeline);
(B)採用單節點高效能伺服器搭配批次處理模式,集中執行資料清理與格式轉換;
(C)將所有文字資料轉換為向量,並以資料庫索引方式直接餵入語言模型訓練;
(D)使用生成式模型先行自動清理資料內容,再將結果輸入至下游訓練流程

答案:登入後查看
統計: A(2), B(0), C(0), D(0), E(0) #3773827