項目応答理論(IRT)とは
項目応答理論(Item Response Theory; IRT)は、テストやアンケートなどの評価項目に対する回答に基づいて、回答者の能力や項目の特性を分析・評価するための理論です。古典的テスト理論(CTT)の限界を克服し、より詳細で精密な評価を可能にします。IRTは、教育評価、心理測定、医療評価など、幅広い分野で活用されています。
IRTの概要
IRTの主な目的は以下の通りです。
回答者の能力推定: テストの得点だけでなく、回答パターン全体から回答者の潜在的な能力を推定します。
項目特性の評価: 各項目の難易度、識別力、当て推量の度合いなどを客観的に評価します。
テストの改善: 項目分析の結果に基づいて、テストの信頼性と妥当性を向上させます。
テストの等化: 異なるテストの結果を、共通の尺度で比較できるようにします。
IRTのメリット
IRTは、古典的テスト理論と比較して、以下のようなメリットがあります。
標本依存性の解消: 回答者の能力や項目の特性は、特定のテストや集団に依存せず、普遍的に推定できます。
項目特性の評価: 各項目の難易度や識別力を客観的に評価し、テストの改善に役立てることができます。
コンピュータ適応型テスト(CAT): 回答者の能力に応じて、最適な難易度の項目を動的に選択できます。
テストの等化: 異なるテストの結果を、共通の尺度で比較できます。
IRTモデル
IRTでは、項目への応答確率を、回答者の能力と項目パラメータ(難易度、識別力、当て推量)の関数としてモデル化します。代表的なモデルとして、以下のものがあります。
1パラメータロジスティックモデル(1PLM): 難易度のみを考慮したモデルで、ラッシュモデルとも呼ばれます。
2パラメータロジスティックモデル(2PLM): 難易度と識別力を考慮したモデルです。
3パラメータロジスティックモデル(3PLM): 難易度、識別力、当て推量を考慮したモデルです。多肢選択式のテストに適しています。
各パラメータの意味
θ (シータ): 回答者の能力値を表します。間隔尺度で測定されます。
a (識別力): 項目が回答者の能力を識別する力を表します。高いほど、能力の高い回答者と低い回答者を区別できます。
b (難易度): 項目の難しさを表します。一般的には、50%の回答者が正答する能力値として定義されます。
c (当て推量): 回答者が偶然に正答できる確率を表します。多肢選択式のテストで重要になります。
項目特性曲線(ICC)
項目特性曲線(Item Characteristic Curve: ICC)は、回答者の能力と項目の正答率の関係を表すグラフです。横軸に能力値、縦軸に正答率をとり、ロジスティック関数で表現されます。ICCの形状は、項目の難易度、識別力、当て推量によって異なります。
テスト特性曲線(TCC)
テスト特性曲線(Test Characteristic Curve: TCC)は、テスト全体の特性を表すグラフです。各項目のICCを足し合わせることで得られます。TCCは、テスト全体の難易度や識別力を評価するために用いられます。
情報関数
情報関数は、テストや項目の測定精度を表す指標です。IRTでは、伝統的な信頼性の概念を拡張し、情報関数を用いて測定の精度を評価します。情報関数が高いほど、測定誤差が少なく、正確な評価が可能になります。
パラメータ推定
IRTモデルにおけるパラメータ(能力値、難易度、識別力、当て推量)は、一般的に未知です。これらのパラメータを推定するために、最尤推定法やベイズ推定法などの統計的手法が用いられます。
等化
等化(Equating)とは、異なるテストの結果を、共通の尺度で比較できるようにする手続きです。IRTでは、項目パラメータの不変性という性質を利用して、テストの等化を行います。等化には、水平的等化と垂直的等化の2種類があります。
IRTの応用例
IRTは、以下のような分野で活用されています。
教育評価: 学力テスト、入学
試験、資格
試験などの評価
心理測定: 性格検査、適性検査などの開発・評価
医療評価: 患者の健康状態、治療効果などの評価
*
コンピュータ適応型テスト(CAT): 個々の回答者の能力に合わせて、最適な難易度の項目を提示するテスト
まとめ
項目応答理論(IRT)は、古典的テスト理論の限界を克服し、より精密な評価を可能にする理論です。教育評価、心理測定、医療評価など、幅広い分野で活用されており、今後ますます重要性が高まると考えられます。