35. 某媒體公司計畫導入 CLIP(Contrastive Language–Image Pretraining)模型,以協助大量影像自動標註與搜尋,並希望在無需新增標訓資料的情況下,僅透過文字提示(Text Prompt)即可識別影像內容。請問此應用情境中,CLIP 能夠達成的關鍵技術特性為何?
(A)透過圖文對比式學習(Contrastive Learning)將影像與文字映射至共同嵌入空間(Shared Embedding Space),可直接以語意相似度進行零樣本分類;
(B)透過影像增強與特徵擴散降低標訓資料需求;
(C)以監督式學習結合多層感知器(Multilayer Perceptron, MLP) 進行影像特徵分類;
(D)以自迴歸生成模型(Autoregressive Model)逐步生成文字標籤 描述影像內容

答案:登入後查看
統計: A(1), B(0), C(0), D(1), E(0) #3773586