15 A 企業想要實現客服自動化,希望透過 AI 理解客戶發送的文本訊息,並根據文本內容調用相對應的圖片和影片進行回覆,A 企業應該選擇哪一 種模型?
(A) 強化學習模型
(B) 多模態模型
(C) 圖像分類模型
(D) 單模態大語言模型
統計: A(158), B(724), C(100), D(59), E(0) #3472231
詳解 (共 3 筆)
正確答案
(B) 多模態模型 (Multimodal Model)
這題的關鍵在於 AI 需要處理 「兩種以上」不同類型的資料。
-
輸入 (Input): 客戶傳來的「文本訊息」
-
輸出 (Output): AI 回覆的「圖片和影片」
當一個 AI 模型需要同時理解和處理文字 (Text)、圖像 (Image)、聲音 (Audio)、影片 (Video) 等不同形式的資料時,我們就需要使用「多模態模型」。
-
「單模態」 指的是模型一次只能處理 一種 資料類型,例如只懂文字,或只懂圖片。
-
「多模態」 指的是模型可以同時處理 多種 資料類型,就像人一樣,可以邊聽聲音、邊看畫面、邊閱讀字幕。
在這個題目中,AI 必須讀懂文字的涵義,並找出與其語意相關的圖片/影片,這正是多模態模型的典型應用。
為什麼其他選項不對?
-
(A) 強化學習模型 (Reinforcement Learning Model):
-
用途: 主要用於「決策」和「控制」。模型會在一個環境中不斷嘗試,透過獎勵或懲罰來學習最佳的行為策略。
-
例子: 訓練 AI 下棋 (AlphaGo)、訓練機器人走路、自動駕駛的路徑規劃。
-
不適用原因: 這個題目不是要 AI 做出一連串的決策,而是要「理解內容」並「配對資料」。
-
-
(C) 圖像分類模型 (Image Classification Model):
-
用途: 它的輸入是「圖片」,輸出是這張圖片的「標籤」或「分類」。
-
例子: 判斷一張圖片裡的是貓還是狗、辨識醫療影像中的腫瘤。
-
不適用原因: 它的起點是圖片,但題目的起點是文字。
-
-
(D) 單模態大語言模型 (Unimodal Large Language Model):
-
用途: 專門處理「文字」的專家。能理解、生成、翻譯、摘要純文字內容。
-
例子: ChatGPT (GPT-3.5) 的純文字版本。
-
不適用原因: 它只能處理文字,無法直接理解或生成圖片/影片。它能理解客戶的訊息,但無法將這個理解與視覺資料(圖片/影片)直接連結起來。
-
這題的正確答案是:
(B) 多模態模型 (Multimodal Model)
專業解析
作為 AI 規劃師,在協助企業導入 AI 時,「輸入」與「輸出」的資料類型是決定模型架構的首要考量。
1. 為什麼是 (B) 多模態模型? 所謂的「模態 (Modality)」,指的是資料的呈現形式,例如文字、圖像、聲音、影片等。
-
題目情境: A 企業的系統需要同時處理 「文字」(理解客戶訊息)以及 「圖片/影片」(調用並回覆素材)。
-
核心能力: 這種能夠跨越不同資料類型,將「文字意圖」與「視覺內容」進行語意連結、檢索或生成的模型,正是多模態模型的定義。
-
實際運作: 模型會將文字和影像映射到同一個向量空間中(Vector Space),讓電腦知道當客戶說「我想看紅色款式的背包」時,這段文字與資料庫中「紅色背包的圖片」在語意上是相近的,進而精準調用。
2. 為什麼其他選項不適合?
-
❌ (D) 單模態大語言模型 (Unimodal LLM):
-
這類模型(如早期的 GPT-3)只能處理單一類型的資料,通常是「文字進、文字出」。它看得懂客戶的文字,但無法直接理解或處理圖片與影片檔案,必須外掛其他模組才能達成任務,效率與整合度不如原生多模態模型。
-
-
❌ (C) 圖像分類模型 (Image Classification):
-
這是電腦視覺 (CV) 的基礎技術,功能是「給它一張圖,它告訴你這是什麼(輸出標籤)」。題目的需求是「輸入文字,調用圖片」,方向剛好相反。
-
-
❌ (A) 強化學習模型 (Reinforcement Learning):
-
這是一種「訓練方法」,透過獎勵與懲罰機制讓 AI 學習決策(例如訓練機器人走路或下圍棋)。雖然客服機器人可能會用到強化學習來優化對話策略,但它不是解決「文字轉圖片/影片」這類跨媒體對應問題的核心架構。
-
規劃師建議
若 A 企業要實作此功能,目前業界常見的技術架構是結合 RAG (檢索增強生成) 與 多模態向量資料庫。
-
先將企業的所有產品圖片/影片透過多模態模型(如 OpenAI CLIP)轉換成向量存入資料庫。
-
當客戶發送文字時,系統將文字轉為向量,直接在資料庫中搜尋最匹配的影像回傳。