テスト-再テスト法のインターバルはどのくらいが適切ですか？

一般的に48時間〜2週間が推奨されます。短すぎると疲労や記憶の影響が残り、長すぎると被験者の実力そのものが変化してしまいます。テストの種類や目的によって適切な間隔は異なります。

ICC（級内相関係数）とPearsonのr（相関係数）の違いは何ですか？

Pearsonのrは2変数の直線的な関係の強さを示しますが、系統的なズレ（例：2回目が常に5kg重い）を検出できません。ICCは絶対的な一致度を評価するため、繰り返し測定の信頼性評価にはICCが適切とされています。

信頼性が高ければ妥当性も高いと言えますか？

言えません。信頼性は妥当性の必要条件ですが十分条件ではありません。毎回同じ結果が出ても（信頼性◎）、それが測りたい概念を正しく反映していなければ妥当性はゼロです。ただし妥当性が高い測定には必ず信頼性が伴います。

練習効果（Learning Effect）を防ぐ方法はありますか？

本測定の前に1〜2回のfamiliarization session（慣れセッション）を行うのが有効です。特に動作スキルが関わるテスト（バランス・筋力測定など）では慣れセッションが信頼性を大きく改善します。

評価者間信頼性とテスト-再テスト信頼性の違いは何ですか？

テスト-再テスト信頼性は同じ評価者が時間をおいて2回測定した際の一致度です。評価者間信頼性は異なる評価者が同時に測定した際の一致度です。どちらも信頼性の一形態ですが、誤差の原因が異なります。

テスト-再テスト法（Test-Retest Reliability）

たとえば、体育の授業で立ち幅跳びを測ったとします。

月曜日：150cm 水曜日（同じ条件）：148cm

この2回の結果がほぼ同じなら「このテストは信頼できる」、毎回バラバラなら「このテストは信頼できない」と判断します。

**「同じ物差しで測ったら、毎回同じ長さが出るか？」**を確かめる方法——それがテスト-再テスト法です。

信頼性が高い測定 = 再現性がある = 信頼して使えるということです。

結論から言うと—— テスト-再テスト法とは、同じテストを同じ条件で2回実施し、結果の一致度から”信頼性”を数値で評価する方法です。「この測定は毎回同じ結果を出せるか？」を確かめるための、測定の品質チェックです。

語源

用語	語源・意味
Reliability	ラテン語 religare（結びつける）→「頼れる・一貫している」
Test-Retest	英語そのまま「テストして、もう一度テストする」
Validity（妥当性）	ラテン語 validus（強い・有効な）

“何度やっても同じ結果に結びつく”——だからReliability（信頼性）です。

解説

信頼性とは何か

信頼性とは、測定の一貫性・再現性のことです。同じ対象・同じ条件で測定を繰り返したとき、結果がどれだけ安定して一致するかを示します。

NSCAでは信頼性を以下のように定義しています。

測定値が偶然誤差（random error）の影響を受けない程度

テスト-再テスト法の手順

ステップ	内容
1回目測定	標準化された条件でテスト実施
インターバル	通常48時間〜2週間（疲労・学習効果を排除）
2回目測定	同じ条件・同じ評価者でテスト再実施
相関係数の算出	2回の結果からICCまたはPearsonのrを計算
判定	相関係数が0.8以上なら「信頼性が高い」とみなす

信頼性の指標：ICC（級内相関係数）

テスト-再テスト法の結果は主に**ICC（Intraclass Correlation Coefficient：級内相関係数）**で表されます。

ICC値	信頼性の解釈
0.90以上	非常に高い
0.75〜0.89	高い
0.50〜0.74	中程度
0.50未満	低い

Pearsonの積率相関係数（r）も使われますが、繰り返し測定にはICCのほうが適切とされています。

信頼性・妥当性・客観性の三角形

測定の質を評価する3つの概念は、それぞれ独立しています。

概念	問い	評価方法の例
信頼性	毎回同じ結果が出るか？	テスト-再テスト法・評価者間信頼性
妥当性	測りたいものを正しく測れているか？	ゴールドスタンダードとの比較
客観性	評価者が違っても同じ結果になるか？	評価者間一致率（ICC）

重要：信頼性があっても妥当性があるとは限らない 体重計が毎回同じ数値を示しても（信頼性◎）、それが体脂肪率の測定に適しているかは別問題（妥当性は別途評価が必要）。

信頼性に影響する誤差の種類

測定誤差には大きく2種類あります。

誤差の種類	内容	例
系統誤差（Systematic Error）	毎回同じ方向にズレる誤差	キャリパーが常に2mm多く表示される
偶然誤差（Random Error）	ランダムにバラつく誤差	測定者の手のぶれ・被験者のコンディション変化

テスト-再テスト法が主に評価するのは偶然誤差の大きさです。偶然誤差が小さいほど信頼性が高くなります。

フィットネス評価における実際の適用

テスト	信頼性の目安（ICC）
握力測定	0.95以上（非常に高い）
1RM間接推定法	0.90〜0.95
皮下脂肪厚法（熟練者）	0.90以上
動作評価（FMS等）	0.70〜0.85（評価者によって変動）

豆知識

「練習効果」が信頼性を歪める

テスト-再テスト法の落とし穴のひとつが**練習効果（Learning Effect）**です。

1回目より2回目のほうが「やり方を覚えた」分だけ成績が上がることがあります。これは被験者の実力が上がったのではなく、テストに慣れただけです。

対策として、本番前に**練習セッション（familiarization session）**を1〜2回挟んでから測定するのがベストプラクティスです。

ジムでも使える「信頼性チェック」

毎週同じ条件（同じ時間帯・同じ疲労状態・同じウォームアップ）でスクワットの重量や回数を記録していると、自分のパフォーマンスデータの信頼性が自然と上がります。

「今日調子が悪い」と感じたとき、データの一貫性があれば「本当に調子が悪いのか、測定条件がズレているだけか」を判断できます。

SEM（測定の標準誤差）も覚えておくと差がつく

ICCだけでなく、**SEM（Standard Error of Measurement：測定の標準誤差）**も信頼性の指標として使われます。

SEM = SD × √(1 − ICC)

SEMが小さいほど、測定値が真の値に近いことを意味します。NSCAの上級資格（CSCS）レベルでよく登場する概念です。

よくある質問

Q テスト-再テスト法のインターバルはどのくらいが適切ですか？: A

一般的に48時間〜2週間が推奨されます。短すぎると疲労や記憶の影響が残り、長すぎると被験者の実力そのものが変化してしまいます。テストの種類や目的によって適切な間隔は異なります。

Q ICC（級内相関係数）とPearsonのr（相関係数）の違いは何ですか？: A

Pearsonのrは2変数の直線的な関係の強さを示しますが、系統的なズレ（例：2回目が常に5kg重い）を検出できません。ICCは絶対的な一致度を評価するため、繰り返し測定の信頼性評価にはICCが適切とされています。

Q 信頼性が高ければ妥当性も高いと言えますか？: A

言えません。信頼性は妥当性の必要条件ですが十分条件ではありません。毎回同じ結果が出ても（信頼性◎）、それが測りたい概念を正しく反映していなければ妥当性はゼロです。ただし妥当性が高い測定には必ず信頼性が伴います。

Q 練習効果（Learning Effect）を防ぐ方法はありますか？: A

本測定の前に1〜2回のfamiliarization session（慣れセッション）を行うのが有効です。特に動作スキルが関わるテスト（バランス・筋力測定など）では慣れセッションが信頼性を大きく改善します。

Q 評価者間信頼性とテスト-再テスト信頼性の違いは何ですか？: A

テスト-再テスト信頼性は同じ評価者が時間をおいて2回測定した際の一致度です。評価者間信頼性は異なる評価者が同時に測定した際の一致度です。どちらも信頼性の一形態ですが、誤差の原因が異なります。

理解度チェック

問題1 テスト-再テスト法が主に評価するものはどれか。

A. 妥当性
B. 信頼性
C. 感度
D. 特異性

正解：B 解説：同じテストを2回実施して結果の一致度を確認するのは、測定の再現性＝信頼性を評価するためです。

問題2 ICC値が0.92のテストの信頼性はどう解釈されるか。

A. 低い
B. 中程度
C. 高い
D. 非常に高い

正解：D 解説：ICCが0.90以上は「非常に高い信頼性」とみなされます。

問題3 信頼性があっても妥当性があるとは限らない理由として正しいものはどれか。

A. 信頼性の高いテストは常に正確だから
B. 測定が一貫していても、測りたい概念を正しく反映していない場合があるから
C. 妥当性は信頼性の上位概念だから
D. ICCが高ければ自動的に妥当性も保証されるから

正解：B

問題4 テスト-再テスト法のインターバルが短すぎる場合に生じる問題として最も適切なものはどれか。

A. 被験者の体力が向上してしまう

B. 疲労や記憶の影響が残り、2回目の結果が歪む
C. 評価者の技術が低下する
D. ICCが自動的に低くなる

正解：B

問題5 偶然誤差（Random Error）の特徴として正しいものはどれか。

A. 常に同じ方向にズレる
B. キャリパーの故障によって生じる
C. ランダムにバラつき、測定の信頼性を下げる
D. 系統誤差とは同じ概念である

正解：C

問題6 練習効果（Learning Effect）を最小化するための対策として適切なものはどれか。

A. インターバルを1日以内に短縮する
B. 本測定前にfamiliarization session（慣れセッション）を実施する
C. 評価者を毎回変える
D. テストを3回以上繰り返す

正解：B

問題7 ICCよりもPearsonのrが適していない場面はどれか。

A. 2変数の直線関係を見たいとき
B. 繰り返し測定における絶対的な一致度を評価したいとき
C. 相関の強さだけを知りたいとき
D. 大規模サンプルで統計処理するとき

正解：B 解説：Pearsonのrは系統的なズレを検出できないため、繰り返し測定の一致度評価にはICCが適切です。

覚え方

「信頼性＝再現性」の覚え方

「テスト、また同じ？→ 信頼できる！」

テストしてもう一度テストして、同じ結果 → 信頼性◎

信頼性・妥当性・客観性の覚え方

「信は繰り返し、妥は中身、客はだれでも」

概念	キーワード
信頼性	繰り返しても同じ
妥当性	中身（測りたいもの）を測れている
客観性	だれが測っても同じ

ICCの判定基準の覚え方

「0.9以上は優秀、0.75以上は合格、0.5以下は要注意」

まとめ

テスト-再テスト法は同じテストを同じ条件で2回実施し、結果の一致度（ICC）から測定の信頼性＝再現性を評価する方法です。
信頼性は妥当性・客観性と並ぶ測定の品質指標のひとつで、「信頼性◎でも妥当性が保証されない」という関係性がNSCA試験の頻出ポイントです。
実践では练習効果の排除・適切なインターバル設定・ICCによる定量評価の3点を押さえることで、信頼性の高い測定プロトコルを設計できます。

必須用語リスト

用語	読み・略称	説明
信頼性	しんらいせい / Reliability	測定の再現性・一貫性
テスト-再テスト法	— / Test-Retest	同条件で2回測定し信頼性を評価する方法
妥当性	だとうせい / Validity	測りたいものを正しく測れているか
客観性	きゃっかんせい / Objectivity	評価者が変わっても結果が一致するか
ICC	級内相関係数	繰り返し測定の一致度を示す統計指標
Pearsonのr	ピアソン相関係数	2変数の直線関係の強さを示す指標
SEM	測定の標準誤差	測定値が真の値からどれだけズレるかの指標
系統誤差	けいとうごさ	毎回同じ方向にズレる誤差
偶然誤差	ぐうぜんごさ	ランダムにバラつく誤差
練習効果	Learning Effect	テスト経験による2回目の成績向上
familiarization session	—	本測定前の慣れセッション
ゴールドスタンダード	—	妥当性評価の基準となる最も信頼された測定法

テスト-再テスト法（Test-Retest Reliability）

語源

解説

信頼性とは何か

テスト-再テスト法の手順

信頼性の指標：ICC（級内相関係数）

信頼性・妥当性・客観性の三角形

信頼性に影響する誤差の種類

フィットネス評価における実際の適用

豆知識

「練習効果」が信頼性を歪める

ジムでも使える「信頼性チェック」

SEM（測定の標準誤差）も覚えておくと差がつく

関連論文

よくある質問

理解度チェック

覚え方

「信頼性＝再現性」の覚え方

信頼性・妥当性・客観性の覚え方

ICCの判定基準の覚え方

まとめ

必須用語リスト

コメント