ゴロで覚えたエビデンスレベルが、臨床の場で患者に害を与えることがあります。
医療系国家試験では、研究デザインをエビデンスレベルの高い順に並べる問題が繰り返し出題されます。薬剤師国家試験では第100回・第105回など複数回にわたって出題されており、理学療法士・管理栄養士・看護師の国家試験でも頻出です。これを確実に覚えるためにゴロ合わせを活用するのが最短ルートです。
最もよく使われるゴロの一つが以下のものです。
| ゴロのフレーズ | 対応する研究デザイン | エビデンスレベル |
|---|---|---|
| このエビ | エビデンスレベル(導入語) | — |
| システムめっちゃ | システマティック・レビュー/RCTのメタアナリシス | レベルI(最高) |
| ランダム | ランダム化比較試験(RCT) | レベルII |
| これ本当に | コホート研究 | レベルIVa |
| 正体拳 | 症例対照研究 | レベルIVb |
| 王なん? | 横断研究 | レベルIVb |
フルフレーズは「このエビ、システムめっちゃランダム、これ本当に正体拳王なん?」です。これひとつで、国試頻出の研究デザイン6種類を順番込みで暗記できます。これは使えそうです。
ただし「非ランダム化比較試験(レベルIII)」がゴロに入っていない点は注意が必要です。レベルIIとレベルIVaのあいだに位置することを別途押さえておきましょう。
別バリエーションのゴロとして「シ・メ・ラーせず・こ・しょう・を帰って食べる」もあります。「シ(システマティックレビュー)」「メ(メタアナリシス)」「ラー(ランダム化比較試験)」「せず(非ランダム化比較試験)」「こ(コホート研究)」「しょう(症例対照研究)」「を帰って(横断研究)」「食べる(症例報告)」という構成です。こちらは症例報告まで含んでいるため、より網羅性が高いと言えます。試験の選択肢に「症例報告」が含まれる場合はこちらのゴロが有効です。
ゴロだけを丸暗記するよりも、各デザインの特徴を理解した上で覚えると記憶の定着率が大幅に上がります。それぞれの特徴を整理しましょう。
システマティックレビュー/RCTのメタアナリシス(レベルI)は、複数のRCTを統合して統計的に解析したものです。個々の研究の限界を補完し合う形で、現在知られている中でもっとも信頼性の高い知見を提供します。ただし後述するように「何のメタアナリシスか」が重要です。レベルIが原則です。
ランダム化比較試験=RCT(レベルII)は、患者を「治療群」と「対照群」にランダムに割り付けて比較する研究デザインです。バイアスを最小化できるため、実際に試験を行う研究の中では最上位に位置します。RCTはRandomized Controlled Trialの略で、日本語では「無作為化比較試験」とも呼ばれます。
非ランダム化比較試験(レベルIII)は、割り付けがランダムでない比較試験です。群間に偏りが生まれやすいため、RCTより信頼性が下がります。ゴロに含まれていない点に注意が必要です。
コホート研究(レベルIVa)は、ある要因(例:喫煙)を持つ集団と持たない集団を追跡して、疾患の発症を比較する観察研究です。前向き(将来を追う)と後ろ向き(過去に遡る)の2種類があります。コホートは「集団」を意味します。
症例対照研究(レベルIVb)は、すでに疾患が発症した患者(症例)と発症していない人(対照)を比較して、過去の暴露要因をさかのぼる研究です。コホート研究より時間・コストが低い反面、バイアスが入りやすいのが特徴です。
横断研究(レベルIVb)は、ある時点の集団を一斉に調べる研究です。コストが低いメリットがある一方、因果関係を証明するには弱い研究デザインです。
症例報告・ケースシリーズ(レベルV)と専門家の意見(レベルVI)は、エビデンスレベルとしては最も低い位置付けです。ただし、希少疾患や新興感染症など、そもそもRCTが実施困難な領域では、レベルVの情報が意思決定の根拠になることもあります。つまり「レベルが低い=役に立たない」ではありません。
エビデンスレベルをわかりやすく解説(各研究デザインの詳細と表はこちらで確認できます)
ゴロを覚えた後に最もよく起こる誤解が、「メタアナリシスと聞けば無条件にレベルI」という思い込みです。この思い込みは臨床判断に直接影響します。
重要なのは「何の研究をメタアナリシスしたか」です。RCTを複数まとめたRCTのメタアナリシスがレベルIになります。一方、コホート研究や症例対照研究などの観察研究をまとめたメタアナリシスは、観察研究と同程度のエビデンスレベルしかありません。RCTのメタアナリシスが原則です。
実際、PubMedには毎年約5万件のシステマティックレビュー&メタアナリシスが追加されています(2024年時点)。その中には観察研究のメタアナリシスが多数含まれており、「メタアナリシスだからレベルI」と早合点すると誤った評価につながります。
また、RCTのメタアナリシスであっても、各RCTの質(バイアスリスク)が低ければ、結論の信頼性は大きく下がります。GRADEアプローチでは、このようなケースをエビデンスの確実性「中等度」や「低」と評価します。
💡 チェックポイント:論文のメタアナリシスを見たら「対象はRCTか、観察研究か」を最初に確認する習慣をつけましょう。
さらに、喫煙と肺がんの関係のように、倫理的にRCTが実施できない研究課題では、大規模な観察研究の方が強力なエビデンスとなることもあります。エビデンスレベルのヒエラルキーはあくまでも目安であり、臨床疑問の性質によって判断が変わる点を押さえておきましょう。
国家試験でよく混同されるのが「エビデンスレベル」と「推奨グレード」です。別物です。
エビデンスレベルは研究デザインに基づいた「証拠の質」を示す指標ですが、推奨グレードはガイドラインが「その治療を行うかどうか」を推奨する強さです。
代表的な推奨グレードの区分は以下の通りです。
推奨グレードは、エビデンスレベルだけで決まるわけではありません。治療の有害性、患者への負担、費用対効果、実施可能性なども考慮されます。
たとえばエビデンスレベルがレベルIIのRCTのデータがあっても、有害事象が重大であればグレードCやDになり得ます。逆に、エビデンスはレベルIVでも、安全性が高く費用も低ければグレードBに相当する場合があります。
エビデンスレベルが高い=推奨グレードが高いとは限りません。これが条件です。
ゴロでエビデンスレベルを完璧に覚えていても、推奨グレードとの違いを把握していないと、国試の「ひっかけ問題」や臨床でのガイドライン解釈を誤るリスクが高くなります。日本医療機能評価機構が運営するMinds(マインズ)ガイドラインライブラリでは、各ガイドラインの推奨グレードとエビデンスレベルを確認することができます。
Minds ガイドラインライブラリ(推奨グレードとエビデンスレベルを掲載した診療ガイドラインを検索できます)
国家試験を突破した後の医療従事者の中に、「ゴロで覚えたエビデンスレベルの序列を、臨床の現場でもそのまま適用してしまう」ケースが見られます。これが意外に深刻な問題です。
具体的に起きがちな場面を考えてみましょう。外来で患者さんから「この治療法はエビデンスがありますか?」と聞かれたとします。担当者が「コホート研究しかないのでエビデンスは弱いです」と答えた場合、それは正確でしょうか?
コホート研究(レベルIVa)であっても、大規模な前向きコホート研究が複数一致した結果を示していれば、臨床的には非常に重要な情報となります。Framingham心臓研究や久山町研究のように、数十年にわたる追跡調査から得られたコホート研究は、心血管疾患リスクの評価に今も欠かせないエビデンスです。数字だけ見ればレベルIVaですが、臨床的意義は計り知れません。
また、希少疾患(患者数が10万人に1人以下の指定難病など)ではRCTを実施するための症例数がそもそも集まらないため、エビデンスピラミッドの上位が存在しない、というケースが多数あります。希少疾患では症例報告が原則です。
「ゴロで覚えたヒエラルキーに当てはめて、上位でなければ無視する」という思考停止が、患者にとって有益な治療選択肢を排除するリスクにつながります。
さらに、2019年以降の医学教育では「GRADEアプローチ」と呼ばれる、より精緻なエビデンス評価の枠組みが普及しています。GRADEでは、研究デザインだけでなくバイアスリスク・非直接性・不精確性・非一貫性・出版バイアスの5要素でエビデンスの確実性を評価します。国試ではまだGRADEそのものは深く問われませんが、臨床現場や学会発表ではこの視点が求められる場面が増えています。
ゴロは「試験に通るため」の道具として非常に有効です。ただし、臨床でエビデンスを評価する際は、ゴロの序列を出発点にしながら、「なぜそのデザインか」「その文脈での限界は何か」を考える習慣を意識的に持つことが、質の高い医療従事者への近道です。
日本理学療法学会連合 エビデンスレベル用語解説(GRADEの視点も含めた詳細解説が掲載されています)