35. 某媒體公司計畫導入 CLIP(Contrastive Language–Image Pretraining)模型，以協助大量影像自動標註與搜尋，並希望在無需新增標訓資料的情況下，僅透過文字提示(Text Prompt)即可識別影像內容。請問此應用情境中，CLIP 能夠達成的關鍵技術特性為何？ (A)透過圖文對比式學習(Contrastive Learning)將影像與文字映射至共同嵌入空間(Shared Embedding Space)，可直接以語意相似度進行零樣本分類； (B)透過影像增強與特徵擴散降低標訓資料需求； (C)以監督式學習結合多層感知器(Multilayer Perceptron, MLP) 進行影像特徵分類； (D)以自迴歸生成模型(Autoregressive Model)逐步生成文字標籤描述影像內容