本記事は情報提供を目的としており、医療上の診断・治療を推奨するものではありません。介入の開始・変更・中止は医療専門家に相談してください。

介入エビデンスの読み方・評価実践ガイド

Speculative このガイドのエビデンス評価枠組みは、EBM（Evidence-Based Medicine）の原則を個人の健康管理に転用した著者の合成判断です。個人差・文脈差があります。

TL;DR

研究デザイン・サンプルサイズ・アウトカム種別の3点を確認するだけで、エビデンスの信頼度評価の精度が大幅に上がる
サロゲートアウトカム（CRP・テロメア長など）と実アウトカム（死亡率・疾患発症）は別物。エピジェネティッククロックはまだサロゲート
評価シートに記入することで、「abstractだけで判断する」バイアスを防ぐ

1. なぜこの記事が必要か

「この研究では効果があった」という情報はたくさんある。でも、どの研究を信頼すべきかの判断が難しい。abstractだけで判断している自分に気づいた。この記事は、介入選択フレームワーク overview で解説したエビデンス評価の「実践」部分を扱います。評価ピラミッドの読み方・論文の5ポイント確認・記入式評価シートを使って、自分でエビデンスを評価するスキルを身につけます。

2. エビデンスピラミッド

[信頼度：高] ┌─────────────────────────────────────┐ │ システマティックレビュー・メタアナリシス │ ← 複数RCTの統合 ├─────────────────────────────────────┤ │ ランダム化比較試験（RCT） │ ← 最も強い個別研究デザイン ├─────────────────────────────────────┤ │ コホート研究・症例対照研究 │ ← 観察研究（交絡あり） ├─────────────────────────────────────┤ │ 横断研究・ケースシリーズ │ ← 因果関係の推定は困難 ├─────────────────────────────────────┤ │ 専門家意見・症例報告・動物実験 │ ← 人への適用は推測 └─────────────────────────────────────┘ [信頼度：低]

Speculative エビデンスピラミッドは医療の意思決定向け概念。健康PDCA管理への転用は文脈依存であり、ピラミッド上位でも個人差（年齢・遺伝的背景・既往症）により効果が異なる場合がある。

3. 論文のどこを見るか：5ポイントチェック

abstractを読んだ後、必ず以下の5点を本文で確認してください。

サンプルサイズ（n）：n=30未満は解釈に注意。効果量が大きくても偶然の可能性が高い
追跡期間：短期効果（数週間）と長期効果（1〜5年）は別物。エピジェネティック変化には数ヶ月以上必要
主要アウトカム（エンドポイント）：サロゲートか実アウトカムかを区別する（次節参照）
バイアスリスク：盲検化の有無・脱落率（20%超は注意）・スポンサー情報を確認する
効果量：統計的有意性（p<0.05）だけでなく、SMDやORなど実質的な効果量を確認する

4. サロゲートアウトカム vs 実アウトカム

種別	具体例	注意点
サロゲート（代理）アウトカム	CRP低下・テロメア延長・DNAメチル化改善・DunedinPACE改善	実際の疾患・死亡率と乖離することがある。「サロゲートが改善＝長生き」は未証明
実アウトカム	死亡率・心血管疾患発症・がん発症・QOL改善・認知機能低下の遅延	長期RCTが必要（数年〜数十年）。個人レベルの観察では評価困難

Low エピジェネティッククロック（Horvath・GrimAge・DunedinPACE）は現時点ではサロゲートアウトカム。これらの改善が長寿・疾患予防に直結するかどうかは、長期RCTによる検証が不足している。

5. 記入式エビデンス評価シート（コピーして使う）

評価したい介入の論文を読み、以下のシートに記入してください。

評価項目	記入欄
介入名	（例：NMN 500mg/日 × 12週間）
研究デザイン	RCT / コホート / 横断研究 / その他
サンプルサイズ（n）
追跡期間
主要アウトカム	サロゲート / 実アウトカム（どちらかに○）
主要結果（効果量）	（例：介入群でDunedinPACE が-0.05、p=0.03、SMD=0.4）
盲検化の有無	二重盲検 / 単盲検 / 非盲検
脱落率	%
スポンサー
自己評価（High / Med / Low）
個人適合性メモ	（自分への適用可能性・制約）

6. AIで論文をスクリーニングする方法

LLMは論文の要約・評価の補助に使えますが、以下の点に注意が必要です。

ハルシネーションリスク：LLMは存在しない論文・DOIを「それらしく」生成することがある。提示されたDOIは必ずPubMed・DOI.orgで確認する
活用方法の例：「この論文の研究デザイン・サンプルサイズ・主要エンドポイントを要約して」と依頼する（本文を貼り付ける）
限界：LLMは論文の統計的妥当性を深く評価できない。5ポイントチェックは自分で行う

7. アンチパターン

アンチパターン1：abstractだけで判断する

abstractには「期待される成果」が書かれ、限界・バイアスは方法論のセクションや考察に記載される。abstractだけで「高エビデンス」と判断するのは過大評価につながる。

対策：最低でも方法論（Methods）と限界（Limitations）の節を読む。

アンチパターン2：サンプルサイズを確認しない

n=30の研究でも「ランダム化比較試験（RCT）」であれば信頼できると思いがちだが、小規模RCTは効果量の推定精度が低く偽陽性のリスクが高い。

対策：n=100未満の研究は「探索的研究」として扱い、確証的な証拠として使わない。

アンチパターン3：スポンサー情報を無視する

産業スポンサーがいる研究では、効果が誇張・選択的に報告されるリスクがある（Cochrane等のシステマティックレビューで指摘されている）。

対策：スポンサーを確認し、独立機関による複数研究での一致を確認する。

よくある誤解：「査読付き論文 = 信頼できる」

査読は研究の信頼性を保証するものではなく、出版に値するかどうかの最低限のチェックにすぎない。研究デザイン・サンプルサイズ・アウトカム種別を確認しなければ、査読済みであっても信頼度は判断できない。再現性の危機（Replication Crisis）は多くの分野で報告されている。

8. AI活用パターン

「この論文（本文貼り付け）の研究デザイン・n・主要アウトカム・限界を要約して」
「この介入について査読済みのメタアナリシスがあるか、PubMed検索用のクエリを作って」（結果は必ず自分でPubMedで確認する）
「この結果はサロゲートアウトカムか実アウトカムか判断して」

9. 反論・限界

エビデンスピラミッドは機械的なランク付けであり、実際には高品質の観察研究がRCTより価値ある情報を持つ場合もある
健康PDCA管理において、倫理的にRCTが実施できない介入（長期食事変更・運動習慣など）では観察研究が主要な証拠源になる
エピジェネティッククロックの変化が健康アウトカムの代理指標として妥当かどうかは現時点では未確定（Speculative）