一、某教育學者擬針對某項證照考試的兩次考試成績進行比較,為了能有意義地比較兩次考試成績的高低和解釋優劣,請問可以引用何種測驗理論為依據,並且說明該滿足何種條件,才能達成其比較目的?(25 分)
一、可引用之測驗理論:項目反應理論(Item Response Theory, IRT)
項目反應理論是一種現代測驗理論,能根據受試者能力與題目特性(如困難度、鑑別度、猜測度)建構能力估計模型,可跨測驗版本或不同施測時間進行成績等化,進而比較受試者能力表現。
二、選用項目反應理論之理由:
(一)具備參照不變性(Parameter Invariance)
1. 同一能力水準的受試者,在不同試題組中,其能力估計值一致。
2. 同一試題對不同樣本估計所得之試題參數亦應一致。
→ 有助於不同時期、不同考卷之成績比較。
(二)能提供個人能力估計值(θ值)
1. IRT將受試者能力以連續變項θ表示,能反映真實能力高低。
2. 相較於傳統總分,能力估計值能精準區辨受試者間能力差異。
→ 更具解釋力與比較價值。
(三)可進行測驗等化(Test Equating)
1. 不同施測時間若採用不同題本,透過共同試題(anchor items)進行等化處理。
2. 可校正試題難度差異,使得成績具可比性。
→ 適用於兩次不同時空背景的考試成績比較。
三、為達比較目的,須滿足之條件:
(一)兩次考試須使用同一IRT模型(如1PL、2PL或3PL模型)
1. 須根據試題特性與受試者資料選擇合適模型。
2. 確保能力估計的一致性與解釋力。
→ 不同模型可能造成能力值估計差異,影響比較準確性。
(二)需具備足夠且具代表性樣本
1. 進行項目參數估計時,樣本數應足夠大且涵蓋各能力層級。
2. 否則將降低參數估計的穩定性與準確度。
→ 試題與受試者間互動為估計基礎,樣本品質關鍵。
(三)兩次測驗應包含足夠的共同試題(Anchor Items)
1. 共同試題應分布於不同難度區間、題型與領域中。
2. 共同試題須具有穩定性與代表性,不受樣本變化顯著影響。
→ 為測驗等化與能力比較提供參照基準。
(四)測驗內容與構念保持一致性(Construct Consistency)
1. 確保兩次測驗所欲測量之能力構念相同。
2. 若構念不同(如改變測驗目標或能力指標),則無法有效比較。
→ 構念漂移將導致比較失準,降低解釋效度。
(五)進行統計檢定確認等化效果良好
1. 比較不同樣本下試題參數差異是否顯著。
2. 若無顯著差異,表示等化有效,成績具可比性。
→ 提升分析信效度與實徵基礎。
四、結論:
本題之學者欲比較兩次證照考試之成績,可採項目反應理論為測驗理論依據,並透過測驗等化程序克服版本與施測時間差異。唯須注意測驗內容一致性、樣本代表性、共同試題穩定性與參數一致性等條件,以確保兩次測驗之能力估計具可比性,方能達成解釋與判斷成績優劣之目的。