15 A 企業想要實現客服自動化，希望透過 AI 理解客戶發送的文本訊息，並根據文本內容調用相對應的圖片和影片進行回覆，A 企業應該選擇哪一種模型？ (A) 強化學習模型 (B) 多模態模型 (C) 圖像分類模型 (D) 單模態大語言模型

。

B1 · 2025/07/03

#6518552

正確答案：(B) 多模態模型解析：A...

(共 267 字，隱藏中）

前往觀看

11

0

halk92312

B2 · 2025/09/20

#6757602

正確答案

(B) 多模態模型 (Multimodal Model)

這題的關鍵在於 AI 需要處理 「兩種以上」不同類型的資料。

輸入 (Input): 客戶傳來的「文本訊息」
輸出 (Output): AI 回覆的「圖片和影片」

當一個 AI 模型需要同時理解和處理文字 (Text)、圖像 (Image)、聲音 (Audio)、影片 (Video) 等不同形式的資料時，我們就需要使用「多模態模型」。

「單模態」 指的是模型一次只能處理一種資料類型，例如只懂文字，或只懂圖片。
「多模態」 指的是模型可以同時處理多種資料類型，就像人一樣，可以邊聽聲音、邊看畫面、邊閱讀字幕。

在這個題目中，AI 必須讀懂文字的涵義，並找出與其語意相關的圖片/影片，這正是多模態模型的典型應用。

為什麼其他選項不對？

(A) 強化學習模型 (Reinforcement Learning Model):
- 用途： 主要用於「決策」和「控制」。模型會在一個環境中不斷嘗試，透過獎勵或懲罰來學習最佳的行為策略。
- 例子： 訓練 AI 下棋 (AlphaGo)、訓練機器人走路、自動駕駛的路徑規劃。
- 不適用原因： 這個題目不是要 AI 做出一連串的決策，而是要「理解內容」並「配對資料」。
(C) 圖像分類模型 (Image Classification Model):
- 用途： 它的輸入是「圖片」，輸出是這張圖片的「標籤」或「分類」。
- 例子： 判斷一張圖片裡的是貓還是狗、辨識醫療影像中的腫瘤。
- 不適用原因： 它的起點是圖片，但題目的起點是文字。
(D) 單模態大語言模型 (Unimodal Large Language Model):
- 用途： 專門處理「文字」的專家。能理解、生成、翻譯、摘要純文字內容。
- 例子： ChatGPT (GPT-3.5) 的純文字版本。
- 不適用原因： 它只能處理文字，無法直接理解或生成圖片/影片。它能理解客戶的訊息，但無法將這個理解與視覺資料（圖片/影片）直接連結起來。

3

0

風之遊子

B3 · 2025/12/31

#7269663

這題的正確答案是：

(B) 多模態模型 (Multimodal Model)

專業解析

作為 AI 規劃師，在協助企業導入 AI 時，「輸入」與「輸出」的資料類型是決定模型架構的首要考量。

1. 為什麼是 (B) 多模態模型？ 所謂的「模態 (Modality)」，指的是資料的呈現形式，例如文字、圖像、聲音、影片等。

題目情境： A 企業的系統需要同時處理 「文字」（理解客戶訊息）以及 「圖片/影片」（調用並回覆素材）。
核心能力： 這種能夠跨越不同資料類型，將「文字意圖」與「視覺內容」進行語意連結、檢索或生成的模型，正是多模態模型的定義。
實際運作： 模型會將文字和影像映射到同一個向量空間中（Vector Space），讓電腦知道當客戶說「我想看紅色款式的背包」時，這段文字與資料庫中「紅色背包的圖片」在語意上是相近的，進而精準調用。

2. 為什麼其他選項不適合？

❌ (D) 單模態大語言模型 (Unimodal LLM)：
- 這類模型（如早期的 GPT-3）只能處理單一類型的資料，通常是「文字進、文字出」。它看得懂客戶的文字，但無法直接理解或處理圖片與影片檔案，必須外掛其他模組才能達成任務，效率與整合度不如原生多模態模型。
❌ (C) 圖像分類模型 (Image Classification)：
- 這是電腦視覺 (CV) 的基礎技術，功能是「給它一張圖，它告訴你這是什麼（輸出標籤）」。題目的需求是「輸入文字，調用圖片」，方向剛好相反。
❌ (A) 強化學習模型 (Reinforcement Learning)：
- 這是一種「訓練方法」，透過獎勵與懲罰機制讓 AI 學習決策（例如訓練機器人走路或下圍棋）。雖然客服機器人可能會用到強化學習來優化對話策略，但它不是解決「文字轉圖片/影片」這類跨媒體對應問題的核心架構。

規劃師建議

若 A 企業要實作此功能，目前業界常見的技術架構是結合 RAG (檢索增強生成) 與 多模態向量資料庫。

先將企業的所有產品圖片/影片透過多模態模型（如 OpenAI CLIP）轉換成向量存入資料庫。
當客戶發送文字時，系統將文字轉為向量，直接在資料庫中搜尋最匹配的影像回傳。

0

15 A 企業想要實現客服自動化，希望透過 AI 理解客戶發送的文本訊息，並根據文本內容調用相對應的圖片和影片進行回覆，A 企業應該選擇哪一種模型？
(A) 強化學習模型
(B) 多模態模型
(C) 圖像分類模型
(D) 單模態大語言模型

詳解 (共 3 筆)

正確答案

為什麼其他選項不對？

(B) 多模態模型 (Multimodal Model)

專業解析

規劃師建議

相關試題

相關試卷

15 A 企業想要實現客服自動化，希望透過 AI 理解客戶發送的文本訊息，並根據文本內容調用相對應的圖片和影片進行回覆，A 企業應該選擇哪一 種模型？ (A) 強化學習模型 (B) 多模態模型 (C) 圖像分類模型 (D) 單模態大語言模型

詳解 (共 3 筆)

正確答案

為什麼其他選項不對？

(B) 多模態模型 (Multimodal Model)

專業解析

規劃師建議

相關試題

相關試卷

15 A 企業想要實現客服自動化，希望透過 AI 理解客戶發送的文本訊息，並根據文本內容調用相對應的圖片和影片進行回覆，A 企業應該選擇哪一種模型？
(A) 強化學習模型
(B) 多模態模型
(C) 圖像分類模型
(D) 單模態大語言模型