一、某教育學者擬針對某項證照考試的兩次考試成績進行比較，為了能有意義地比較兩次考試成績的高低和解釋優劣，請問可以引用何種測驗理論為依據，並且說明該滿足何種條件，才能達成其比較目的？（25 分）

申論題作答 (共 1 筆)

依時間顯示最近 1 筆。

21分56秒 總時間 0 人解鎖 2026.05

T.win

詳解 #6543608

2025/07/15

一、可引用之測驗理論：項目反應理論（Item Response Theory, IRT）
　　項目反應理論是一種現代測驗理論，能根據受試者能力與題目特性（如困難度、鑑別度、猜測度）建構能力估計模型，可跨測驗版本或不同施測時間進行成績等化，進而比較受試者能力表現。

二、選用項目反應理論之理由：
（一）具備參照不變性（Parameter Invariance）
　　1. 同一能力水準的受試者，在不同試題組中，其能力估計值一致。
　　2. 同一試題對不同樣本估計所得之試題參數亦應一致。
　　→ 有助於不同時期、不同考卷之成績比較。

（二）能提供個人能力估計值（θ值）
　　1. IRT將受試者能力以連續變項θ表示，能反映真實能力高低。
　　2. 相較於傳統總分，能力估計值能精準區辨受試者間能力差異。
　　→ 更具解釋力與比較價值。

（三）可進行測驗等化（Test Equating）
　　1. 不同施測時間若採用不同題本，透過共同試題（anchor items）進行等化處理。
　　2. 可校正試題難度差異，使得成績具可比性。
　　→ 適用於兩次不同時空背景的考試成績比較。

三、為達比較目的，須滿足之條件：
（一）兩次考試須使用同一IRT模型（如1PL、2PL或3PL模型）
　　1. 須根據試題特性與受試者資料選擇合適模型。
　　2. 確保能力估計的一致性與解釋力。
　　→ 不同模型可能造成能力值估計差異，影響比較準確性。

（二）需具備足夠且具代表性樣本
　　1. 進行項目參數估計時，樣本數應足夠大且涵蓋各能力層級。
　　2. 否則將降低參數估計的穩定性與準確度。
　　→ 試題與受試者間互動為估計基礎，樣本品質關鍵。

（三）兩次測驗應包含足夠的共同試題（Anchor Items）
　　1. 共同試題應分布於不同難度區間、題型與領域中。
　　2. 共同試題須具有穩定性與代表性，不受樣本變化顯著影響。
　　→ 為測驗等化與能力比較提供參照基準。

（四）測驗內容與構念保持一致性（Construct Consistency）
　　1. 確保兩次測驗所欲測量之能力構念相同。
　　2. 若構念不同（如改變測驗目標或能力指標），則無法有效比較。
　　→ 構念漂移將導致比較失準，降低解釋效度。

（五）進行統計檢定確認等化效果良好
　　1. 比較不同樣本下試題參數差異是否顯著。
　　2. 若無顯著差異，表示等化有效，成績具可比性。
　　→ 提升分析信效度與實徵基礎。

四、結論：
　　本題之學者欲比較兩次證照考試之成績，可採項目反應理論為測驗理論依據，並透過測驗等化程序克服版本與施測時間差異。唯須注意測驗內容一致性、樣本代表性、共同試題穩定性與參數一致性等條件，以確保兩次測驗之能力估計具可比性，方能達成解釋與判斷成績優劣之目的。