阿摩線上測驗 登入

申論題資訊

試卷:114年 - 114 高等考試_三級_教育行政:教育測驗與統計#128727
科目:教育測驗與評量(統計)
年份:114年
排序:0

申論題內容

一、某教育學者擬針對某項證照考試的兩次考試成績進行比較,為了能有意義地比較兩次考試成績的高低和解釋優劣,請問可以引用何種測驗理論為依據,並且說明該滿足何種條件,才能達成其比較目的?(25 分)

詳解 (共 1 筆)

詳解 提供者:Teresa Wu

一、可引用之測驗理論:項目反應理論(Item Response Theory, IRT)
  項目反應理論是一種現代測驗理論,能根據受試者能力與題目特性(如困難度、鑑別度、猜測度)建構能力估計模型,可跨測驗版本或不同施測時間進行成績等化,進而比較受試者能力表現。

二、選用項目反應理論之理由:
(一)具備參照不變性(Parameter Invariance)
  1. 同一能力水準的受試者,在不同試題組中,其能力估計值一致。
  2. 同一試題對不同樣本估計所得之試題參數亦應一致。
  → 有助於不同時期、不同考卷之成績比較。

(二)能提供個人能力估計值(θ值)
  1. IRT將受試者能力以連續變項θ表示,能反映真實能力高低。
  2. 相較於傳統總分,能力估計值能精準區辨受試者間能力差異。
  → 更具解釋力與比較價值。

(三)可進行測驗等化(Test Equating)
  1. 不同施測時間若採用不同題本,透過共同試題(anchor items)進行等化處理。
  2. 可校正試題難度差異,使得成績具可比性。
  → 適用於兩次不同時空背景的考試成績比較。

三、為達比較目的,須滿足之條件:
(一)兩次考試須使用同一IRT模型(如1PL、2PL或3PL模型)
  1. 須根據試題特性與受試者資料選擇合適模型。
  2. 確保能力估計的一致性與解釋力。
  → 不同模型可能造成能力值估計差異,影響比較準確性。

(二)需具備足夠且具代表性樣本
  1. 進行項目參數估計時,樣本數應足夠大且涵蓋各能力層級。
  2. 否則將降低參數估計的穩定性與準確度。
  → 試題與受試者間互動為估計基礎,樣本品質關鍵。

(三)兩次測驗應包含足夠的共同試題(Anchor Items)
  1. 共同試題應分布於不同難度區間、題型與領域中。
  2. 共同試題須具有穩定性與代表性,不受樣本變化顯著影響。
  → 為測驗等化與能力比較提供參照基準。

(四)測驗內容與構念保持一致性(Construct Consistency)
  1. 確保兩次測驗所欲測量之能力構念相同。
  2. 若構念不同(如改變測驗目標或能力指標),則無法有效比較。
  → 構念漂移將導致比較失準,降低解釋效度。

(五)進行統計檢定確認等化效果良好
  1. 比較不同樣本下試題參數差異是否顯著。
  2. 若無顯著差異,表示等化有效,成績具可比性。
  → 提升分析信效度與實徵基礎。

四、結論:
  本題之學者欲比較兩次證照考試之成績,可採項目反應理論為測驗理論依據,並透過測驗等化程序克服版本與施測時間差異。唯須注意測驗內容一致性、樣本代表性、共同試題穩定性與參數一致性等條件,以確保兩次測驗之能力估計具可比性,方能達成解釋與判斷成績優劣之目的。