たとえば、体育の授業で立ち幅跳びを測ったとします。
月曜日:150cm 水曜日(同じ条件):148cm
この2回の結果がほぼ同じなら「このテストは信頼できる」、毎回バラバラなら「このテストは信頼できない」と判断します。
**「同じ物差しで測ったら、毎回同じ長さが出るか?」**を確かめる方法——それがテスト-再テスト法です。
信頼性が高い測定 = 再現性がある = 信頼して使えるということです。
結論から言うと—— テスト-再テスト法とは、同じテストを同じ条件で2回実施し、結果の一致度から”信頼性”を数値で評価する方法です。「この測定は毎回同じ結果を出せるか?」を確かめるための、測定の品質チェックです。
語源
| 用語 | 語源・意味 |
|---|---|
| Reliability | ラテン語 religare(結びつける)→「頼れる・一貫している」 |
| Test-Retest | 英語そのまま「テストして、もう一度テストする」 |
| Validity(妥当性) | ラテン語 validus(強い・有効な) |
“何度やっても同じ結果に結びつく”——だからReliability(信頼性)です。
解説
信頼性とは何か
信頼性とは、測定の一貫性・再現性のことです。同じ対象・同じ条件で測定を繰り返したとき、結果がどれだけ安定して一致するかを示します。
NSCAでは信頼性を以下のように定義しています。
測定値が偶然誤差(random error)の影響を受けない程度
テスト-再テスト法の手順
| ステップ | 内容 |
|---|---|
| 1回目測定 | 標準化された条件でテスト実施 |
| インターバル | 通常48時間〜2週間(疲労・学習効果を排除) |
| 2回目測定 | 同じ条件・同じ評価者でテスト再実施 |
| 相関係数の算出 | 2回の結果からICCまたはPearsonのrを計算 |
| 判定 | 相関係数が0.8以上なら「信頼性が高い」とみなす |
信頼性の指標:ICC(級内相関係数)
テスト-再テスト法の結果は主に**ICC(Intraclass Correlation Coefficient:級内相関係数)**で表されます。
| ICC値 | 信頼性の解釈 |
|---|---|
| 0.90以上 | 非常に高い |
| 0.75〜0.89 | 高い |
| 0.50〜0.74 | 中程度 |
| 0.50未満 | 低い |
Pearsonの積率相関係数(r)も使われますが、繰り返し測定にはICCのほうが適切とされています。
信頼性・妥当性・客観性の三角形
測定の質を評価する3つの概念は、それぞれ独立しています。
| 概念 | 問い | 評価方法の例 |
|---|---|---|
| 信頼性 | 毎回同じ結果が出るか? | テスト-再テスト法・評価者間信頼性 |
| 妥当性 | 測りたいものを正しく測れているか? | ゴールドスタンダードとの比較 |
| 客観性 | 評価者が違っても同じ結果になるか? | 評価者間一致率(ICC) |
重要:信頼性があっても妥当性があるとは限らない 体重計が毎回同じ数値を示しても(信頼性◎)、それが体脂肪率の測定に適しているかは別問題(妥当性は別途評価が必要)。
信頼性に影響する誤差の種類
測定誤差には大きく2種類あります。
| 誤差の種類 | 内容 | 例 |
|---|---|---|
| 系統誤差(Systematic Error) | 毎回同じ方向にズレる誤差 | キャリパーが常に2mm多く表示される |
| 偶然誤差(Random Error) | ランダムにバラつく誤差 | 測定者の手のぶれ・被験者のコンディション変化 |
テスト-再テスト法が主に評価するのは偶然誤差の大きさです。偶然誤差が小さいほど信頼性が高くなります。
フィットネス評価における実際の適用
| テスト | 信頼性の目安(ICC) |
|---|---|
| 握力測定 | 0.95以上(非常に高い) |
| 1RM間接推定法 | 0.90〜0.95 |
| 皮下脂肪厚法(熟練者) | 0.90以上 |
| 動作評価(FMS等) | 0.70〜0.85(評価者によって変動) |
豆知識
「練習効果」が信頼性を歪める
テスト-再テスト法の落とし穴のひとつが**練習効果(Learning Effect)**です。
1回目より2回目のほうが「やり方を覚えた」分だけ成績が上がることがあります。これは被験者の実力が上がったのではなく、テストに慣れただけです。
対策として、本番前に**練習セッション(familiarization session)**を1〜2回挟んでから測定するのがベストプラクティスです。
ジムでも使える「信頼性チェック」
毎週同じ条件(同じ時間帯・同じ疲労状態・同じウォームアップ)でスクワットの重量や回数を記録していると、自分のパフォーマンスデータの信頼性が自然と上がります。
「今日調子が悪い」と感じたとき、データの一貫性があれば「本当に調子が悪いのか、測定条件がズレているだけか」を判断できます。
SEM(測定の標準誤差)も覚えておくと差がつく
ICCだけでなく、**SEM(Standard Error of Measurement:測定の標準誤差)**も信頼性の指標として使われます。
SEM = SD × √(1 − ICC)
SEMが小さいほど、測定値が真の値に近いことを意味します。NSCAの上級資格(CSCS)レベルでよく登場する概念です。
関連論文
Weir (2005) ICCを用いた信頼性評価の方法論を整理した論文。どのICCモデルを選ぶべきかの実践的な判断基準を提示し、スポーツ科学分野での標準的な参考文献となっています。
Atkinson & Nevill (1998) スポーツ・運動科学における測定誤差と信頼性の統計的評価を包括的に論じた研究。SEMや限界一致(Limits of Agreement)の概念を実践的に解説しています。
Morrow et al. (2011) フィットネステストの信頼性・妥当性・客観性の三概念を体系的に整理。NSCA教科書の理論的背景としても広く引用されています。
よくある質問
- Qテスト-再テスト法のインターバルはどのくらいが適切ですか?
- A
一般的に48時間〜2週間が推奨されます。短すぎると疲労や記憶の影響が残り、長すぎると被験者の実力そのものが変化してしまいます。テストの種類や目的によって適切な間隔は異なります。
- QICC(級内相関係数)とPearsonのr(相関係数)の違いは何ですか?
- A
Pearsonのrは2変数の直線的な関係の強さを示しますが、系統的なズレ(例:2回目が常に5kg重い)を検出できません。ICCは絶対的な一致度を評価するため、繰り返し測定の信頼性評価にはICCが適切とされています。
- Q信頼性が高ければ妥当性も高いと言えますか?
- A
言えません。信頼性は妥当性の必要条件ですが十分条件ではありません。毎回同じ結果が出ても(信頼性◎)、それが測りたい概念を正しく反映していなければ妥当性はゼロです。ただし妥当性が高い測定には必ず信頼性が伴います。
- Q練習効果(Learning Effect)を防ぐ方法はありますか?
- A
本測定の前に1〜2回のfamiliarization session(慣れセッション)を行うのが有効です。特に動作スキルが関わるテスト(バランス・筋力測定など)では慣れセッションが信頼性を大きく改善します。
- Q評価者間信頼性とテスト-再テスト信頼性の違いは何ですか?
- A
テスト-再テスト信頼性は同じ評価者が時間をおいて2回測定した際の一致度です。評価者間信頼性は異なる評価者が同時に測定した際の一致度です。どちらも信頼性の一形態ですが、誤差の原因が異なります。
理解度チェック
問題1 テスト-再テスト法が主に評価するものはどれか。
A. 妥当性
B. 信頼性
C. 感度
D. 特異性
正解:B 解説:同じテストを2回実施して結果の一致度を確認するのは、測定の再現性=信頼性を評価するためです。
問題2 ICC値が0.92のテストの信頼性はどう解釈されるか。
A. 低い
B. 中程度
C. 高い
D. 非常に高い
正解:D 解説:ICCが0.90以上は「非常に高い信頼性」とみなされます。
問題3 信頼性があっても妥当性があるとは限らない理由として正しいものはどれか。
A. 信頼性の高いテストは常に正確だから
B. 測定が一貫していても、測りたい概念を正しく反映していない場合があるから
C. 妥当性は信頼性の上位概念だから
D. ICCが高ければ自動的に妥当性も保証されるから
正解:B
問題4 テスト-再テスト法のインターバルが短すぎる場合に生じる問題として最も適切なものはどれか。
A. 被験者の体力が向上してしまう
B. 疲労や記憶の影響が残り、2回目の結果が歪む
C. 評価者の技術が低下する
D. ICCが自動的に低くなる
正解:B
問題5 偶然誤差(Random Error)の特徴として正しいものはどれか。
A. 常に同じ方向にズレる
B. キャリパーの故障によって生じる
C. ランダムにバラつき、測定の信頼性を下げる
D. 系統誤差とは同じ概念である
正解:C
問題6 練習効果(Learning Effect)を最小化するための対策として適切なものはどれか。
A. インターバルを1日以内に短縮する
B. 本測定前にfamiliarization session(慣れセッション)を実施する
C. 評価者を毎回変える
D. テストを3回以上繰り返す
正解:B
問題7 ICCよりもPearsonのrが適していない場面はどれか。
A. 2変数の直線関係を見たいとき
B. 繰り返し測定における絶対的な一致度を評価したいとき
C. 相関の強さだけを知りたいとき
D. 大規模サンプルで統計処理するとき
正解:B 解説:Pearsonのrは系統的なズレを検出できないため、繰り返し測定の一致度評価にはICCが適切です。
覚え方
「信頼性=再現性」の覚え方
「テスト、また同じ?→ 信頼できる!」
テストしてもう一度テストして、同じ結果 → 信頼性◎
信頼性・妥当性・客観性の覚え方
「信は繰り返し、妥は中身、客はだれでも」
| 概念 | キーワード |
|---|---|
| 信頼性 | 繰り返しても同じ |
| 妥当性 | 中身(測りたいもの)を測れている |
| 客観性 | だれが測っても同じ |
ICCの判定基準の覚え方
「0.9以上は優秀、0.75以上は合格、0.5以下は要注意」
まとめ
- テスト-再テスト法は同じテストを同じ条件で2回実施し、結果の一致度(ICC)から測定の信頼性=再現性を評価する方法です。
- 信頼性は妥当性・客観性と並ぶ測定の品質指標のひとつで、「信頼性◎でも妥当性が保証されない」という関係性がNSCA試験の頻出ポイントです。
- 実践では练習効果の排除・適切なインターバル設定・ICCによる定量評価の3点を押さえることで、信頼性の高い測定プロトコルを設計できます。
必須用語リスト
| 用語 | 読み・略称 | 説明 |
|---|---|---|
| 信頼性 | しんらいせい / Reliability | 測定の再現性・一貫性 |
| テスト-再テスト法 | — / Test-Retest | 同条件で2回測定し信頼性を評価する方法 |
| 妥当性 | だとうせい / Validity | 測りたいものを正しく測れているか |
| 客観性 | きゃっかんせい / Objectivity | 評価者が変わっても結果が一致するか |
| ICC | 級内相関係数 | 繰り返し測定の一致度を示す統計指標 |
| Pearsonのr | ピアソン相関係数 | 2変数の直線関係の強さを示す指標 |
| SEM | 測定の標準誤差 | 測定値が真の値からどれだけズレるかの指標 |
| 系統誤差 | けいとうごさ | 毎回同じ方向にズレる誤差 |
| 偶然誤差 | ぐうぜんごさ | ランダムにバラつく誤差 |
| 練習効果 | Learning Effect | テスト経験による2回目の成績向上 |
| familiarization session | — | 本測定前の慣れセッション |
| ゴールドスタンダード | — | 妥当性評価の基準となる最も信頼された測定法 |


コメント