15 A 企業想要實現客服自動化,希望透過 AI 理解客戶發送的文本訊息,並根據文本內容調用相對應的圖片和影片進行回覆,A 企業應該選擇哪一 種模型?
(A) 強化學習模型
(B) 多模態模型
(C) 圖像分類模型
(D) 單模態大語言模型

答案:登入後查看
統計: A(158), B(724), C(100), D(59), E(0) #3472231

詳解 (共 3 筆)

#6518552
正確答案:(B) 多模態模型 解析:A...
(共 267 字,隱藏中)
前往觀看
11
0
#6757602

正確答案

(B) 多模態模型 (Multimodal Model)

這題的關鍵在於 AI 需要處理 「兩種以上」不同類型的資料

  1. 輸入 (Input): 客戶傳來的「文本訊息」

  2. 輸出 (Output): AI 回覆的「圖片影片

當一個 AI 模型需要同時理解和處理文字 (Text)圖像 (Image)聲音 (Audio)影片 (Video) 等不同形式的資料時,我們就需要使用「多模態模型」。

  • 「單模態」 指的是模型一次只能處理 一種 資料類型,例如只懂文字,或只懂圖片。

  • 「多模態」 指的是模型可以同時處理 多種 資料類型,就像人一樣,可以邊聽聲音、邊看畫面、邊閱讀字幕。

在這個題目中,AI 必須讀懂文字的涵義,並找出與其語意相關的圖片/影片,這正是多模態模型的典型應用。

 

為什麼其他選項不對?

 

  • (A) 強化學習模型 (Reinforcement Learning Model):

    • 用途: 主要用於「決策」和「控制」。模型會在一個環境中不斷嘗試,透過獎勵或懲罰來學習最佳的行為策略。

    • 例子: 訓練 AI 下棋 (AlphaGo)、訓練機器人走路、自動駕駛的路徑規劃。

    • 不適用原因: 這個題目不是要 AI 做出一連串的決策,而是要「理解內容」並「配對資料」。

  • (C) 圖像分類模型 (Image Classification Model):

    • 用途: 它的輸入是「圖片」,輸出是這張圖片的「標籤」或「分類」。

    • 例子: 判斷一張圖片裡的是貓還是狗、辨識醫療影像中的腫瘤。

    • 不適用原因: 它的起點是圖片,但題目的起點是文字

  • (D) 單模態大語言模型 (Unimodal Large Language Model):

    • 用途: 專門處理「文字」的專家。能理解、生成、翻譯、摘要純文字內容。

    • 例子: ChatGPT (GPT-3.5) 的純文字版本。

    • 不適用原因: 它只能處理文字,無法直接理解或生成圖片/影片。它能理解客戶的訊息,但無法將這個理解與視覺資料(圖片/影片)直接連結起來。

3
0
#7269663

這題的正確答案是:

(B) 多模態模型 (Multimodal Model)

專業解析

作為 AI 規劃師,在協助企業導入 AI 時,「輸入」與「輸出」的資料類型是決定模型架構的首要考量。

1. 為什麼是 (B) 多模態模型? 所謂的「模態 (Modality)」,指的是資料的呈現形式,例如文字、圖像、聲音、影片等。

  • 題目情境: A 企業的系統需要同時處理 「文字」(理解客戶訊息)以及 「圖片/影片」(調用並回覆素材)。

  • 核心能力: 這種能夠跨越不同資料類型,將「文字意圖」與「視覺內容」進行語意連結、檢索或生成的模型,正是多模態模型的定義。

  • 實際運作: 模型會將文字和影像映射到同一個向量空間中(Vector Space),讓電腦知道當客戶說「我想看紅色款式的背包」時,這段文字與資料庫中「紅色背包的圖片」在語意上是相近的,進而精準調用。

2. 為什麼其他選項不適合?

  • ❌ (D) 單模態大語言模型 (Unimodal LLM):

    • 這類模型(如早期的 GPT-3)只能處理單一類型的資料,通常是「文字進、文字出」。它看得懂客戶的文字,但無法直接理解或處理圖片與影片檔案,必須外掛其他模組才能達成任務,效率與整合度不如原生多模態模型。

  • ❌ (C) 圖像分類模型 (Image Classification):

    • 這是電腦視覺 (CV) 的基礎技術,功能是「給它一張圖,它告訴你這是什麼(輸出標籤)」。題目的需求是「輸入文字,調用圖片」,方向剛好相反。

  • ❌ (A) 強化學習模型 (Reinforcement Learning):

    • 這是一種「訓練方法」,透過獎勵與懲罰機制讓 AI 學習決策(例如訓練機器人走路或下圍棋)。雖然客服機器人可能會用到強化學習來優化對話策略,但它不是解決「文字轉圖片/影片」這類跨媒體對應問題的核心架構。

規劃師建議

若 A 企業要實作此功能,目前業界常見的技術架構是結合 RAG (檢索增強生成)多模態向量資料庫

  1. 先將企業的所有產品圖片/影片透過多模態模型(如 OpenAI CLIP)轉換成向量存入資料庫。

  2. 當客戶發送文字時,系統將文字轉為向量,直接在資料庫中搜尋最匹配的影像回傳。

0
0