25. 在大型語言模型(LLM)的推論服務中,常透過請求批次處理(Batching)來提升系統效能。關於批次處理(Batching)機制的影響,下列敘述何者最正確?
(A)Batching 可提升加速器資源使用效率並增加整體吞吐量(Throughput),但在部 分情境下可能對單筆請求延遲造成影響;
(B)Batching 主要用於加快單筆請求回應時間;
(C)Batching 的效益主要來自降低記憶體使用量,對於吞吐量(Throughput)與延 遲表現影響有限;
(D)Batching 在低併發(Concurrency)請求下,仍能明顯提升系統效能
答案:登入後查看
統計: A(1), B(0), C(1), D(0), E(0) #3870529
統計: A(1), B(0), C(1), D(0), E(0) #3870529