RCTを「エビデンスが高いから信頼できる」と思い込むと、実は臨床判断を誤るリスクが約3割あります。
ランダム化比較試験(RCT:Randomized Controlled Trial)とは、研究に参加する対象者を2つ以上のグループに「無作為(ランダム)」に割り付け、それぞれに異なる介入を行うことで、介入の効果を公平に比較する研究デザインです。「無作為化比較試験」とも呼ばれ、RCTという略称が広く使われています。
医療の現場では、新薬の有効性を検証する場面が代表的な例として挙げられます。たとえば、あるがん患者がRCTに参加したとします。患者本人は新薬を希望していても、その希望は通りません。コンピューターが生成した乱数をもとに、「新薬群」か「プラセボ群(偽薬群)」かが自動的に決まります。これがランダム化の核心です。
つまり介入の割り付けは「人の意思」ではなく「確率」が決めるということですね。
もう一つ、理学療法の領域の例も見てみましょう。脳卒中片麻痺患者を対象に、従来の運動療法のみを行う群と、従来の運動療法に加えて免荷式トレッドミル歩行トレーニング(BWSTT)を追加する群とにランダムに割り付け、BWSTTの上乗せ効果を検討する研究デザインがRCTの典型例です。このような研究は日本理学療法士協会のEBPT用語集にも掲載されており、リハビリ領域でも広く活用されています。
日本理学療法士協会 EBPT用語集:ランダム化比較試験(RCT)の説明と例
ランダム化の手順として重要なのは、くじ引きや患者番号による割り付けは「準ランダム化」にすぎないという点です。真の意味でのランダム化には、コンピューターで乱数を発生させた割り付け表を使用することが求められます。この違いを知らないと、読む論文がRCTと名乗っていても内実はバイアスリスクが高いものを見逃してしまいます。
ランダム化の最大の目的は、交絡因子の影響を排除し、介入以外の条件を両群で均一にすることです。交絡因子とは、調べたい介入と結果の両方に影響を及ぼす第三の変数のことを指します。
たとえば「よく運動する人は長生きだ」というデータがあったとします。しかし「よく運動する人」は同時に「食生活も良く」「ストレスも少ない」傾向があります。この場合、長生きの原因が本当に運動なのか、それとも食生活やストレスの少なさなのかが分離できません。これが交絡バイアスです。
ランダム化が重要なのはここです。
ランダム化によって介入群と対照群に患者を無作為に割り付けると、既知・未知を問わずあらゆる背景因子が統計的に均等に分布します。性別・年齢・基礎疾患のような「測定されている因子」だけでなく、「測定されていない未知の因子」まで均質化できるのは、ランダム化にしかできないことです。多変量解析や傾向スコアマッチングでは、測定されていない因子への対処は不可能です。これが原則です。
ただし、完全なランダム化にも問題があります。たとえば各群100例を目標にしても、実際には80例と120例のような不均衡が生じることがあります。また、治療結果に強い影響を与える因子(たとえば病期や年齢層)が偶然どちらかの群に偏ってしまうリスクもゼロではありません。
こうした問題への解決策として使われるのが「層別割付(層別ランダム化)」です。たとえば「性別」という重要因子が結果に大きく影響すると予測される場合、男性グループ・女性グループそれぞれの中で独立してランダム化を行います。これにより、介入群・対照群の両方で男女比が確実に揃います。層別割付で考慮した背景因子を「層別因子」と呼びます。
もう一つの手法が「動的割付」です。先に入った患者の割り付け結果を見て、次の患者が入る群の確率を調整する方法です。たとえば最初の患者が介入群に入ったなら、次の患者はコントロール群に入る確率を70%に引き上げます。群間の症例数バランスを保つ効果はありますが、「確率が固定されていない=ランダムと言えるのか?」という疑問が生じ、近年は使用する場合に理由をプロトコル内に明記することが求められています。
Best Biostatistics:ランダム化比較試験の目的・メリット・問題点を詳しく解説(層別割付・動的割付の説明も)
RCTにおける無作為化と同様に重要な概念が「盲検化(ブラインド)」です。盲検化とは、介入群と対照群への割り付けを、参加者や研究者に知らせない状態で試験を進めることを指します。
なぜ盲検化が必要なのでしょうか?
患者に「自分は新薬を飲んでいる」と知らせると、実際には薬効がなくても症状が改善してしまうことがあります。これが「プラセボ効果」です。一方、薬の効果を評価する医師側が「この患者は新薬群だ」と知っていると、無意識に好意的な評価をしてしまうリスクがあります。これを「ピグマリオン効果」と呼びます。
こうしたバイアスを同時に防ぐのが「二重盲検法(DBT:Double Blind Test)」です。二重盲検法では、患者側も評価する医師・研究者側も、誰がどちらのグループに割り付けられているかを知りません。二重盲検が適切に機能していることが確認できる論文は、信頼性が一段高いといえます。
盲検化の強度には段階があり、以下のように分類されます。
| 盲検の種類 | 誰が知らないか | 特徴 |
|---|---|---|
| 非盲検(オープン) | なし(全員知っている) | バイアスリスクが最も高い |
| 単盲検 | 患者のみ | 評価者バイアスは残る |
| 二重盲検 | 患者+評価医師 | 最もバイアスが少ない標準的手法 |
| 三重盲検 | 患者+医師+データ解析者 | より厳格だが実施難度が高い |
二重盲検が重要なのが分かります。
なお、外科的処置やリハビリテーションのような介入では、患者も施術者も「どちらの治療を受けているか」を物理的に隠せないため、完全な二重盲検が不可能なケースもあります。この場合、評価者のみを盲検化する「単盲検」や、アウトカム評価者のみをマスクする工夫が行われます。RCTを読む際は「誰が盲検化されているか」を確認することが、批判的吟味の基本です。
RCTは、エビデンスレベルにおいて非常に高い位置に位置づけられています。エビデンスレベルとは、研究結果の信頼度を階層的に示した指標です。一般的な6段階の分類では、上位から「システマティックレビュー/メタアナリシス」「ランダム化比較試験」「コホート研究」「症例対照研究」「症例報告」「専門家の意見」という順番になります。
RCTが高い位置にある理由は明快です。
前向き研究であり、バイアスを排除する構造が設計段階から組み込まれているからです。観察研究では避けられない交絡バイアスや選択バイアスを、無作為化によって構造的に制御できます。そのため「介入の因果効果を直接検証できる唯一の研究デザイン」とされており、医薬品の有効性・安全性を証明するゴールドスタンダードとして各国の規制当局(FDA、PMDAなど)に認められています。
ただし、ここで注意が必要です。
RCTよりも上位に「システマティックレビュー/メタアナリシス」があることからも分かる通り、1つのRCTの結果だけで臨床的な結論を出すことには慎重さが求められます。複数のRCTを統合して解析するメタアナリシスの方が、より安定したエビデンスを提供できます。しかし後述するように、メタアナリシスにも出版バイアスの問題があり、万能ではありません。
研究デザインの中でRCTと対比されることが多いのが観察研究(コホート研究・症例対照研究など)です。観察研究は、倫理的な制約や希少疾患の研究など、RCTが実施できない状況でも適用できるという大きな強みを持ちます。近年は、RCTのエビデンスをリアルワールドデータで補完する「エビデンスの統合」という考え方も注目されています。つまり「RCT一択」ではなく、研究デザインの特性を理解した上で使い分ける視点が、現代の医療従事者には不可欠です。
AMED E-LIFEヘルスケアナビ:エビデンスレベルの概要と研究デザインの分類(研究デザインごとの信頼性の解説)
RCTはエビデンスの王道とされていますが、その結果を「そのまま実臨床に当てはめる」のは危険です。RCTには構造的な限界があり、知らないまま論文を読むと重大な誤解につながります。これを押さえておくことが、医療従事者にとって大きな武器になります。
限界① 莫大なコストと資金源バイアス
大規模なRCTを1本実施するには、被験者の募集・プラセボの準備・割り付けシステムの構築・外部評価機関への依頼など、膨大な人的・金銭的コストがかかります。費用の調達先は主に「製薬会社」か「公的資金(グラント)」の2種類です。製薬会社主導の試験では、自社製品に有利な結果を出したいモチベーションが生まれやすく、これを「資金源バイアス」と呼びます。実際、製薬会社スポンサーのRCTは、非スポンサーのRCTに比べて有効な結果が出やすいことが繰り返し報告されています。厳しいところですね。
限界② 実験効果による結果の誇張
RCTは「管理された特別な環境」での試験です。そのため、試験参加者は健康への意識が高く、体力的な余裕がある人に偏りがちです(選択バイアス)。また、「見られている」という意識から参加者が普段以上に頑張ってしまうホーソン効果も働きます。これらが重なることで、RCTの結果は現実世界よりも効果が誇張されやすい傾向があります。これを「実験効果」と呼び、RCTで良好な成績を示した薬剤が、実臨床で広く適用された際に期待ほどの効果を示さない、というケースは少なくありません。
限界③ 出版バイアスと埋もれたネガティブスタディ
効果がなかった試験の結果は、論文として公表されにくい傾向があります。特に企業主導のRCTでは、芳しくない結果が「なかったことにされる」ことが起こりえます。これが出版バイアスです。結果として、公開されている論文には「効果があった試験」が多く集まり、「似た設計で結果が出なかったRCT」は埋もれてしまいます。メタアナリシスで小規模RCTばかりが集められている場合は特に注意が必要です。近年は、試験前にclinicaltrials.govなどの公的データベースへの事前登録が求められており、この問題への対策が進んでいます。
限界④ サンプルサイズの問題
サンプルサイズは「小さすぎても大きすぎても問題」という点を理解しておく必要があります。小さすぎると統計的有意差が得られにくく、偶然誤差の影響を受けやすくなります。逆に大きすぎると、臨床的にはほとんど意味のない微小な差まで「統計学的有意差あり」として検出してしまいます。「統計的有意 ≠ 臨床的有意」という重要な原則はここから来ています。RCTを読む際には、必ず事前のパワー計算(power analysis)が行われているかを確認することが基本です。
限界⑤ 1つのRCTで検証できる仮説は1つだけ
RCTは「主要評価項目(primary endpoint)」として設定した1つの仮説を検証するためにデザインされます。二次評価項目は、あくまで「探索的(exploratory)」な位置づけにすぎません。二次評価項目で有意差が出ていても、それを根拠に「効果が証明された」とは言えません。その仮説を本当に検証したいのであれば、改めてその項目をprimary endpointとした新たなRCTが必要です。また複数の仮説を同時に検証しようとすると「多重検定」の問題が生じます。ボンフェローニ法などで有意水準を厳しく補正しなければ、αエラー(偽陽性)が増加します。これが条件です。
evineko.com:RCTに必ずついてまわる5つの限界(出版バイアス・実験効果・サンプルサイズの問題を詳解)
RCTの結果を「正しく使う」ためには、論文を読む力(批判的吟味力)と、その結果を自分の患者に当てはめる際の「外的妥当性の評価」が不可欠です。これは教科書に書かれている内容以上に、現場で日々使われるスキルです。
まず確認したいのが「この試験の参加者は、目の前の患者と似ているか?」という問いです。RCTの結果はサンプル集団で得られたものであり、その集団が「全国の患者を代表しているか」「選択基準が厳しすぎて現実の患者像とかけ離れていないか」を検討することを、一般化可能性(外的妥当性)の評価と呼びます。
次に重要なのが、評価項目の質の吟味です。
主要評価項目が「真のアウトカム(生存期間・死亡率など)」か、それとも「代理評価項目(腫瘍サイズ・バイオマーカーなど)」かによって、臨床的な意味合いは大きく異なります。たとえば、ある抗がん剤RCTで「腫瘍サイズが縮小した」という結果が出ても、「生存期間が延長した」とは限りません。短期的な腫瘍縮小が長期毒性を招くケースもあり得るからです。「代理評価項目のRCTで有意差あり」という報告を見たとき、それを生存改善の根拠とするのは慎重であるべきです。
また、ITT解析(intention-to-treat analysis)とPP解析(per-protocol analysis)の違いも見逃せません。ITT解析は、割り付け後に治療を中断した患者も含めて全例を解析します。脱落者は「効果が出なかった」または「副作用があった」患者が多い傾向があるため、ITT解析の方が現実に近い効果量を示すといわれています。これは使えそうです。
具体的なRCTの読み方チェックリストとして、以下の点を確認する習慣を持つと論文リテラシーが高まります。
このチェックリストを意識するだけで、「RCTだから信じる」という受け身の姿勢から「RCTを批判的に読む」能動的な姿勢に変わります。臨床現場での判断の精度が上がることは間違いありません。
なお、論文の批判的吟味スキルを体系的に高めたい医療従事者には、CONSORT声明(RCTの報告基準)を確認しておくことが実践的です。CONSORTチェックリストは、論文がRCTとして最低限満たすべき報告内容を25項目にまとめたものであり、論文を読む際の評価軸として活用できます。
国立がん研究センター がん情報サービス:ランダム化比較試験の定義と意義(患者向け解説だが用語の整理に有用)