非劣性試験のサンプルサイズ設計と検出力の計算方法

非劣性試験におけるサンプルサイズの決め方を正しく理解できていますか?優越性試験との違いや非劣性マージンの設定、検出力計算の具体的な手順を医療従事者向けにわかりやすく解説します。設計ミスが試験全体を無効にするリスク、知っていますか?

非劣性試験のサンプルサイズ設計と検出力の正しい計算方法

非劣性試験では、「対照薬より明らかに劣らないことを示せれば承認を取れる」と考えて設計に取りかかる研究者が少なくありません。しかし実際には、非劣性マージンの設定ミス1つで試験全体が規制当局に受理されないケースが複数報告されています。


この記事のポイント3選
🔬
非劣性試験は優越性試験よりサンプルサイズが少なくて済む、は誤り

非劣性マージンを厳しく設定した場合、優越性試験と同等かそれ以上のサンプルサイズが必要になることがあります。設計前提を見直すことが重要です。

📊
非劣性マージンはガイドライン準拠で設定しないと試験が無効化する

ICH E10などのガイドラインに基づいた科学的根拠のある非劣性マージンの設定が、規制当局への申請において不可欠です。

⚙️
サンプルサイズ計算には検出力・α水準・脱落率の3つが必須

検出力80〜90%、片側α=0.025、想定脱落率を加えた計算が標準です。どれか一つを省略すると、試験結果の信頼性が根本から揺らぎます。


非劣性試験のサンプルサイズが「優越性より少ない」は大きな誤解

非劣性試験に関わる医療従事者の間では、「効果の差を証明しなくていいのだから、優越性試験よりも小さいサンプルで済む」という認識が広まっています。これは直感的には筋が通っているように聞こえます。しかし実態は異なります。


非劣性試験で必要なサンプルサイズは、主に「非劣性マージン(δ)」の大きさによって決まります。このマージンとは、対照薬に対してどの程度の差まで「劣っていない」と認めるかの閾値です。たとえば、新薬の有効率が対照薬より5ポイント以上低くなければ非劣性と認める場合、δ=0.05と設定します。


マージンを厳しく(小さく)設定するほど、統計的に非劣性を証明するためにより多くの被験者が必要になります。具体例を挙げると、δ=0.05、検出力80%、片側α=0.025で計算した場合、各群で約600〜800例が必要になることもあります。これは中規模の優越性試験に匹敵する数です。


つまり「非劣性=少ないサンプルでいい」は条件付きの話です。


マージンが大きければ確かに必要例数は減りますが、今度はそのマージン設定の科学的妥当性が規制当局から問われます。結果的に、どちらの方向でもサンプルサイズの問題は避けられません。医療従事者がプロトコルを読む・作る場面では、「なぜこのサンプル数か」という根拠の確認が必須です。


非劣性マージンの設定根拠と検出力への具体的な影響

非劣性マージンは、試験の心臓部と言えます。設定が甘ければ試験の科学的価値が問われ、厳しすぎれば現実的な試験規模を超えてしまいます。


ICH E10ガイドライン(「対照薬の使用に関するガイダンス」)では、非劣性マージンは過去の対照薬の効果に基づいて決定するよう求めています。具体的には、過去のプラセボ対照試験における対照薬の効果量(例:ハザード比、リスク差)の95%信頼区間の下限値を参照し、その一部(一般的には50%程度)を非劣性マージンとして設定する「M2マージン」という考え方が使われます。


この手順はメタアナリシスのデータが必要になります。データが不十分な領域では、マージン設定自体が困難になるという問題もあります。厳しいですね。


検出力への影響は数字で見ると明確です。以下は二項エンドポイント(例:治癒率)で、対照薬の成功率を70%と仮定した場合のサンプルサイズ(各群)の目安です。
























非劣性マージン(δ) 検出力80% 検出力90%
δ=0.10(10%差まで許容) 約200例 約270例
δ=0.05(5%差まで許容) 約770例 約1,030例
δ=0.03(3%差まで許容) 約2,100例 約2,800例


δを半分にするとサンプルサイズが約4倍に膨れます。これは「2乗に反比例」する関係があるからで、研究費や試験期間に直結する問題です。試験設計の段階でマージンの議論を省略することは、後工程での修正不能なリスクにつながります。


非劣性マージンの設定は医師・統計家・規制担当者の合意が条件です。


非劣性試験のサンプルサイズ計算式と脱落率の組み込み方

実際のサンプルサイズ計算に使われる基本式を確認します。連続量アウトカム(例:血圧変化量)を使った非劣性試験の場合、必要例数(各群)の計算式は以下のとおりです。


$$n = \frac{(z_\alpha + z_\beta)^2 \cdot 2\sigma^2}{(\delta - \mu_T + \mu_C)^2}$$


ここで、$$z_\alpha$$ は片側有意水準に対応するZ値(α=0.025のとき1.96)、$$z_\beta$$ は検出力に対応するZ値(検出力80%のとき0.842、90%のとき1.282)、$$\sigma$$ は共通標準偏差、δは非劣性マージン、$$\mu_T - \mu_C$$ は想定される真の差(多くの場合0を仮定)です。


「式の形を見れば覚えやすい」と言う統計家も多いですが、臨床現場では計算ツールの活用が現実的です。


二項アウトカムの場合は以下の式を用います。


$$n = \frac{(z_\alpha + z_\beta)^2 \cdot p_T(1-p_T) + p_C(1-p_C)}{(\delta - p_T + p_C)^2}$$


ここで $$p_T$$、$$p_C$$ はそれぞれ介入群・対照群の期待成功率です。


脱落率の組み込みは「必要例数÷(1−脱落率)」で行うのが基本です。脱落率が20%なら、計算で得た例数を0.80で割ります。たとえば各群600例が必要な試験で脱落率15%を見込む場合、実際の登録目標は各群707例となります。脱落率の見積もりが甘いと、最終的な解析対象例数が不足して試験が検出力不足(underpowered)になります。これは修正できません。


脱落率の仮定は過去の類似試験データを根拠にするのが原則です。


なお、日本ではPMDAのガイドラインや「臨床試験の統計的原則について」(ICH E9)も参照する必要があります。サンプルサイズ計算に用いたすべての仮定値とその根拠は、プロトコルに明記することが求められています。


PMDA:臨床試験の統計的原則について(ICH E9ガイドライン日本語版)
ICH E9に基づくサンプルサイズ計算の根拠記載方法や検出力の考え方について、規制当局の公式文書として参照できます。


Per-protocol解析とITT解析がサンプルサイズに与える見落とされがちな影響

非劣性試験の解析戦略として、Per-protocol(PP)解析がITT(Intention-to-treat)解析と同等かそれ以上に重視されるという点は、優越性試験と大きく異なります。これは統計の世界での「常識の逆転」です。意外ですね。


優越性試験では、プロトコル逸脱者をすべて含めたITT解析が保守的(conservative)な解析として優先されます。しかし非劣性試験では、プロトコルを遵守した集団であるPP解析集団こそが、薬の「真の効果」をより正確に反映すると考えられています。コンプライアンスが低い(脱落・逸脱が多い)集団を含めると、両群の差が希釈されて見かけ上「差がない=非劣性」という結果が出やすくなるからです。


つまり非劣性試験では、ITT解析だけでは不十分です。


ICH E10では、ITT解析とPP解析の両方を実施し、両方で非劣性が示された場合にのみ結論を支持できると明記されています。ここから派生する問題が「PP解析集団の確保」です。PP集団はプロトコル逸脱者を除外するため、必然的にITT集団より小さくなります。


そのため、PP解析で十分な検出力を確保するには、ITTベースで計算したサンプルサイズよりさらに多くの登録が必要になることがあります。目安としては、逸脱率を10〜15%と見込んで登録数を上乗せします。


この観点が抜けたサンプルサイズ計算は、事後的にPP集団が検出力不足になるリスクをはらんでいます。試験デザイン段階での統計家との協議が不可欠です。


ICH:Efficacy Guidelines(ICH E9/E10英語版)
PP解析とITT解析の役割の違い、および非劣性試験における両解析の位置づけについて、ICH公式ガイドラインとして参照できます。


非劣性試験サンプルサイズ計算でよく起きる3つの設計ミスと回避策

実際の臨床試験プロトコル審査や学術論文のピアレビューでは、非劣性試験のサンプルサイズ設計に関する記述が不十分なケースが繰り返し指摘されています。代表的な3つのミスを整理します。


ミス①:非劣性マージンの根拠が明示されていない


「臨床的に意味のある差」としてδ=10%と設定しているが、その根拠となるメタアナリシスや過去の試験データへの参照がない、というケースです。ICH E10では、マージンの設定根拠を文書化することが求められています。根拠がない場合、規制当局はプロトコルを差し戻す可能性があります。


ミス②:優越性試験の計算式をそのまま流用している


非劣性試験では「帰無仮説」の方向が逆転します(「差がない」ではなく「差がδ以上ある」を帰無仮説とする)。そのため、片側検定を前提とした計算が必要ですが、優越性試験の両側検定計算をそのまま適用しているケースがあります。α水準の設定を誤ると、サンプルサイズが過大・過小両方向にずれる可能性があります。


ミス③:脱落率・プロトコル逸脱率の見積もりが楽観的すぎる


多施設共同試験では、単施設試験より脱落率が高くなる傾向があります。5%の脱落率を前提に設計したが実際は20%だったという事例は少なくありません。過去の類似試験のデータを複数参照し、やや保守的な見積もりをすることがリスク管理として有効です。


回避策としては、試験デザイン段階でのシミュレーション(感度分析)が有効です。δや標準偏差、脱落率のパラメータをそれぞれ±20%程度変動させたシナリオでサンプルサイズがどう変わるかを事前に確認することで、プロトコルの頑健性を評価できます。これは使えそうです。


日本ではJSCTR(日本臨床試験研究会)の資料や、医薬品医療機器総合機構(PMDA)が公開している相談事例集も参考になります。


PMDA:医薬品の製造販売承認申請に関する統計的事項(非劣性試験関連)
非劣性試験の申請における統計的記載要件、マージン設定の根拠文書化に関するPMDA公式情報として参照できます。
























よくあるミス リスク 回避策
マージンの根拠が不明 規制当局による差し戻し メタアナリシスでM2マージンを算出・文書化
両側検定式の流用 サンプルサイズの誤算 片側α=0.025を明示した計算式を使用
脱落率の楽観的見積もり PP集団の検出力不足 複数の類似試験データを参照し保守的に設定


これら3点を事前チェックリストとして活用することで、プロトコル審査での指摘を大幅に減らせます。試験の質を左右する設計段階での投資は、後工程のコスト削減に直結します。医療従事者として臨床試験に関わる機会がある場合、統計家との早期連携が最も費用対効果の高いリスク管理です。