非劣性試験で「差なし」という結果が出ても、その薬が同等だとは証明されていません。
臨床試験において、研究者が「何を証明したいか」によって、試験デザインは根本的に変わります。優越性試験(superiority trial)・非劣性試験(non-inferiority trial)・同等性試験(equivalence trial)の3種類は、いずれも治療効果の比較を行うものですが、その検証の方向性がまったく異なります。この違いを正確に理解せずに論文を読むと、試験結果の解釈を誤る危険があります。
優越性試験は、新薬や新しい介入が対照群(標準治療やプラセボ)よりも有意に優れていることを証明することを目的とします。帰無仮説は「両群に差がない」であり、これを棄却することで優越性を主張します。最もクラシックな試験デザインです。
非劣性試験は、新規治療が既存の標準治療に比べて「許容できる範囲内で劣らない」ことを示す試験です。つまり、まったく同等である必要はなく、あらかじめ設定した非劣性マージン(Δ)以上には劣らないことを示せれば成功とみなされます。帰無仮説は「新薬は標準治療より非劣性マージン以上に劣っている」であり、これを棄却することが目標です。
同等性試験は、両側から効果の差を検証します。新薬が標準治療に比べて「優れすぎず、劣りすぎない」、つまり統計的に差がない範囲内に収まることを証明するものです。帰無仮説は「両群の差が同等性マージンの外側にある」であり、これを上下両方向から同時に棄却します。
これが基本です。
実際には、バイオ後続品(バイオシミラー)の承認審査や、副作用が少ないジェネリック薬の評価、あるいは投与経路の変更(注射→経口)を伴う試験などで、非劣性試験や同等性試験が多く用いられます。新薬が既存薬より優れた有効性を必ずしも示せなくても、安全性や利便性の面で臨床的価値をもつ場合に有用なデザインです。
優越性試験では、主要評価項目に対してt検定やログランク検定などが用いられ、p値が0.05未満であれば「統計的有意差あり」と判断するのが一般的です。しかしp値だけで判断するのは危険です。
p値は「帰無仮説が正しいとした場合に、今回以上に極端なデータが得られる確率」であり、効果の大きさや臨床的意義を直接示すものではありません。これは重要な点です。
たとえば、サンプルサイズが数万人規模になると、臨床的には無意味なほど微小な差でもp<0.001を達成できます。一方で、信頼区間(CI)を確認すれば、点推定値(効果量)の精度と方向性が把握できます。95%CIの全体が対照より優れた方向に位置しているか、それとも1を跨いでいるかを確認する習慣が重要です。
検出力(power)は「真に差があるとき、それを検出できる確率」です。一般に80〜90%に設定されますが、設定が低いと偽陰性(本当は差があるのに差がないと判断してしまう)のリスクが高まります。サンプルサイズの計算は検出力・有意水準・期待される効果量を基に行われますが、事前に設定した効果量が楽観的すぎると、試験は検出力不足(underpowered)になります。
これは使えそうです。
また優越性試験においても、ITT(Intention-to-treat)解析を主解析とすることがICH-E9ガイドラインで推奨されています。脱落例や治療変更例を含めて解析することで、実臨床に近い保守的な推定が可能になります。PP(Per-protocol)解析との結果乖離が大きい場合は、その原因を詳細に検討することが求められます。
独立行政法人医薬品医療機器総合機構(PMDA):ICH E9統計的原則ガイドライン(日本語版)
上記リンクでは、優越性・非劣性・同等性試験すべてに共通する統計的設計の原則(ITT解析、検出力、仮説設定など)が詳述されています。
非劣性試験で最も重要かつ最も誤解されやすいポイントが、非劣性マージン(Δ)の設定です。このマージンは「どこまで劣っていれば許容できるか」という臨床的判断値であり、統計的に自動で決まるものではありません。
マージンの決定には、過去のプラセボ対照試験のメタ解析データを用いて「標準治療の真の効果量」を推定し、その効果量の50%以上は保持されるよう設定することが推奨されています(保存分率法;retention of fraction)。たとえば、標準治療の効果が相対リスク減少で20%と推定される場合、新薬は少なくとも10%の効果(標準治療の50%)を保持する必要がある、という形で設定されます。
マージンが大きすぎる(甘すぎる)と、実際には劣っている薬が非劣性を達成してしまいます。逆に厳しすぎると、臨床的に十分な薬が承認されないリスクがあります。厳しいところですね。
また、よくある誤解として「非劣性が証明された=同等性が証明された」という解釈があります。これは誤りです。非劣性試験は片側仮説検定であり、「非劣性マージン以内には劣っていない」ことしか言えません。同等性試験のように上限側の差も検証していないため、「同じ」とは言えないのです。
さらに、試験集団の選択バイアスにも注意が必要です。非劣性試験では、標準治療の効果が特に高い患者を意図的に含めると(assay sensitivity の担保)、新薬の「劣っていない」という評価が歪む可能性があります。ITT解析よりもPP解析の結果が良好に見える場合は、プロトコル逸脱がバイアス源になっていないかを確認することが大切です。
上記リンクでは、非劣性マージンの設定方法、保存分率法の実例、よくある誤解について詳しく解説されています。
同等性試験は、両側から差を検定する構造を持ちます。具体的には、両群の差(または比)が同等性マージン(−Δ, +Δ)の範囲内に収まることを、両側の帰無仮説をそれぞれ棄却することで示します。これは「TOST(Two One-Sided Tests)法」とも呼ばれます。
TOST法では、2つの片側検定(「新薬は旧薬より−Δ以上劣っていない」「新薬は旧薬より+Δ以上優れていない」)を同時に行います。両方の帰無仮説が片側有意水準α=0.05で棄却された場合、全体の有意水準はα=0.05に保たれます。この点が単純な両側検定とは異なります。つまり多重検定補正は不要です。
同等性試験が最も広く使われているのが、後発医薬品(ジェネリック医薬品)の生物学的同等性(BE)試験です。日本では薬機法に基づき、先発医薬品との薬物動態的同等性(AUCおよびCmax)を検証するためにBE試験が義務付けられています。厚生労働省の基準では、AUCの90%信頼区間がlog変換後に対数スケールで0.80〜1.25の範囲内に収まることが求められます。これが条件です。
バイオシミラーでは、低分子薬のBE試験よりさらに複雑な同等性評価が必要です。薬物動態的同等性に加え、薬力学的同等性、さらには免疫原性(抗薬物抗体の発生率)の比較まで求められます。国内では厚生労働省「バイオ後続品の品質・安全性・有効性確保のための指針」に従い、段階的な同等性・同質性評価が行われます。
厚生労働省:バイオ後続品の品質・安全性・有効性確保のための指針(PDF)
このリンクでは、バイオシミラーに特有の同等性・同質性評価の枠組みが詳しく解説されており、同等性試験の医薬品行政上の位置づけを理解するうえで参考になります。
臨床試験において、当初は優越性を目指して設計した試験が有意差を示せなかった場合、研究者が「ならば非劣性として報告できないか」と事後的に解釈を変更するケースがあります。これは「スイッチング(switching)」と呼ばれる行為であり、統計的多重性の問題から原則として認められていません。
なぜ問題なのかを整理します。優越性試験で有意差が出なかった状況は、帰無仮説が棄却されなかったことを意味します。そこで非劣性の枠組みを後付けで適用すると、実質的に「有意差なし」という結果を「非劣性あり」と読み替えることになります。しかしそれは、非劣性マージンを事前に設定していないため、恣意的な基準で都合よく「成功」と宣言することと同義です。意外ですね。
ICH E9(R1)では、複数の仮説検定を段階的に行う場合(優越性→非劣性の順序など)の手続きとして、事前にプロトコルに明記した階層的検定手順(hierarchical testing procedure)を用いることが条件とされています。事前計画なしのスイッチングは、査読付き論文でも掲載拒否や修正要求の対象となることがあります。
逆のスイッチング、すなわち非劣性が確認されたのちに優越性を主張する(non-inferiority to superiority switching)は、条件付きで認められる場合があります。この場合、非劣性の主張が確立したうえで、95%CIの全体がマージンを超えて対照より優れた方向に位置する場合に限り、優越性を主張できると解されることが多いです。ただし、これも事前に階層的検定として計画されている必要があります。
規制当局(EMAやFDA)は、こうしたスイッチングに対して非常に厳格なスタンスをとっています。PMDAも同様で、承認申請の際には試験計画の変更履歴(プロトコル改訂の時系列)が詳細に審査されます。
ここからは、論文の読み手としての医療従事者に向けた実践的な視点です。
製薬企業が臨床試験をデザインする際、試験の枠組み(優越性か非劣性か同等性か)の選択は、科学的合理性だけでなく、承認取得の戦略上の観点からも決定されることがあります。これは意識しておくべきポイントです。
たとえば、既存の標準治療薬との比較で優越性を示すことが難しいと想定される場合、あえて非劣性デザインを採用し、副作用プロファイルや投与利便性を売りにした申請戦略がとられることがあります。この場合、論文のdiscussionセクションでは「非劣性が確認されたことと、副作用が有意に少ないことを総合すると、本薬は臨床的優位性を有する」という論理構成がとられます。
こうした論文を読む際に確認すべきポイントは複数あります。
- 非劣性マージンの根拠が記載されているか:マージンが感覚的に決められており、先行研究の効果量推定に基づいていない場合は信頼性が低い
- 試験集団がassay sensitivityを担保できているか:標準治療の効果が弱い集団で行われた試験では、非劣性の証明自体が意味をなさない
- ITT解析とPP解析の結果の乖離:乖離が大きい場合は、プロトコル逸脱が有利な方向に働いている可能性がある
- スポンサーの利益相反(COI)の開示:製薬企業が試験をスポンサーしており、かつ結果が一方的に良好な場合は、より慎重な解釈が必要
実際、2019年にNEJMに掲載されたある非劣性試験では、マージン設定の根拠として引用された先行研究のメタ解析が、対象患者集団と異なることを複数の研究者が指摘し、その後erratum(訂正)が発行された事例もあります。信頼性の高い論文であっても批判的吟味(critical appraisal)は欠かせません。これが原則です。
医療従事者として診療ガイドラインの推奨根拠を評価する立場からも、その根拠となったRCTが優越性・非劣性・同等性のいずれのデザインで行われたかを理解したうえで、推奨の強さと根拠の性質を適切に対応づけることが求められます。
コクランジャパン:系統的レビューと臨床試験デザインに関する情報(日本語)
コクランの日本語情報では、RCTのデザイン評価・批判的吟味に関する一次情報が掲載されており、論文読解の実践的スキル向上に役立ちます。