GWASで同定されるSNPの9割以上は、タンパク質をコードしない非コード領域に存在します。
ゲノムワイド関連解析(Genome-Wide Association Study:GWAS)は、特定の疾患や体質と関連する遺伝的特徴を網羅的に探索する手法です。一塩基多型(SNP:Single Nucleotide Polymorphism、「スニップ」と読む)と呼ばれるゲノム上の一塩基の個人差を手がかりに、疾患との統計的な関連を検出します。
SNPはヒトゲノム全体に数百万〜数千万箇所存在すると言われており、そのうちマイクロアレイで一度に測定可能なのは数十万〜数百万箇所です。これほど大量の多型情報を一挙に解析できるようになったのは、2007年ごろからの次世代シーケンサー(NGS)技術の革新と、ジェノタイピングアレイのコスト低下によるところが大きいです。SNPマイクロアレイを使ったゲノムワイドなSNPジェノタイピングは、現在では1サンプルあたり約7,000円程度で実施可能です(※費用は解析規模や委託先により変動)。
つまり技術革新が現在の大規模GWASを支えています。
GWASの基本的な設計は「ケース・コントロール研究」または「コホート研究」に基づきます。疾患を持つ群(ケース)と疾患を持たない群(コントロール)のSNP頻度分布を比較し、特定のSNPがケース群に有意に多く出現する場合、そのSNPは疾患感受性に関連している可能性があると判断されます。コホート研究の形式では、大勢の健常者を長期追跡し、ゲノム情報と発症情報を突き合わせることで、より生活環境要因との関係も同時に分析できます。
ここで重要なのが「統計的有意性」の解釈です。通常の医学研究では有意水準をP値<0.05に設定しますが、GWASでは数百万箇所のSNPを同時に検定するため、多重比較の問題が生じます。偶然の一致による偽陽性を排除するため、ゲノムワイドの有意水準はP値<5.0×10⁻⁸が国際標準として使用されています。これは、ゲノム上に存在する独立したSNPの数(≒100万個)でボンフェローニ補正を行った値に相当します。有意水準が非常に厳格であることが、GWASの信頼性を担保しています。
参考:ゲノムワイド関連解析の統計的手法(早稲田大学・遺伝情報とは講義資料)
https://wako.w.waseda.jp/Lecture_Genetic_Information/13_GWAS.html
GWASで信頼性の高い結果を得るには、サンプルとSNP双方に対する厳格な品質管理(Quality Control:QC)が前提です。QCの不備は解析全体の精度を根底から崩すリスクがあり、ここが疎かだと偽陽性・偽陰性が大量に発生します。QCが基本です。
サンプルレベルのQCでは、主に以下の項目を確認します。
SNPレベルのQCでも複数の基準を適用します。具体的には、コールレートが低いSNP(通常は95〜99%未満のものを除外)、マイナーアレル頻度(MAF)が極めて低いSNP(例:MAF<1%)、ハーディ・ワインベルグ平衡(HWE)から著しく逸脱するSNPを除外するのが一般的です。
HWEの逸脱が見られるSNPは、ジェノタイピングエラーや遺伝的淘汰の影響を受けている可能性があります。ケース群でのHWE逸脱は真の関連シグナルである場合もあるため、コントロール群のみでHWEフィルタリングを行うのが推奨されるアプローチです。これは意外と見落とされがちなポイントです。
参考:GWASの品質管理手順(PMC・NCBIの国際論文)
QCを終えたジェノタイピングデータは、続いて「インピュテーション(Imputation)」という工程に入ります。これはマイクロアレイで直接測定していないSNPの遺伝型を、参照パネルの連鎖不平衡(LD)情報に基づいて統計的に推定する手法です。
連鎖不平衡とは、ゲノム上で近傍に位置するSNP同士が互いに強く相関する現象のことです。この性質を利用することで、測定したSNPの情報から近傍の未測定SNPを高精度に推定することができます。1000 Genomes ProjectやGnomAD、東北メディカル・メガバンク機構が公開している日本人ゲノムリファレンスパネルなどが参照パネルとして広く利用されています。インピュテーションにより、解析対象SNP数をマイクロアレイの測定値の数倍〜10倍以上に拡張することが可能です。
インピュテーション後の統計解析は、通常ロジスティック回帰(ケース・コントロールデザイン)または線形回帰(量的形質)を用います。各SNPのジェノタイプを主な説明変数とし、年齢・性別・主成分スコア(PC)などを共変量として組み込みます。主成分スコアは集団構造化による交絡を補正するために導入されます。
集団構造化とは、解析対象集団内に祖先の異なるサブ集団が混在し、それがSNP頻度と疾患頻度の両方に影響することで偽の関連が生じる現象です。たとえば、遺伝的に異なる出自を持つ集団が混在していると、疾患とは無関係な集団特異的なSNPが誤ってヒットする場合があります。主成分分析で補正することがGWASの精度を保つ上での重要なステップです。解析結果は通常、マンハッタンプロットとQQ(Quantile-Quantile)プロットで可視化します。マンハッタンプロットは全染色体にわたるSNPのp値を縦軸に、ゲノム位置を横軸にプロットしたもので、ニューヨーク・マンハッタンの高層ビル群のように見えることからその名がつきました。QQプロットは期待されるp値と観測されたp値の分布を比較し、全体的な偽陽性の有無(インフレーション)を確認するために使います。
統計的有意水準(P<5.0×10⁻⁸)を超えるSNP座位は「ゲノムワイド有意」として報告されます。これが標準です。
参考:GWASのマンハッタンプロット・QQプロットについての解説
https://plaza.umin.ac.jp/~OIO/?p=3197
GWASを日本人集団で実施する場合、欧米人集団との遺伝的背景の違いを踏まえた対応が不可欠です。これは単なる「人種差への配慮」ではなく、解析精度そのものに直結する重大な技術的問題です。
日本では、バイオバンク・ジャパン(BBJ)や東北メディカル・メガバンク機構(ToMMo)といった大規模バイオバンクが整備されており、これらは世界最大級の日本人ゲノムリソースです。2020年には、BBJと東北メディカル・メガバンクなどのデータを合算した日本人21万人を対象とする東アジア最大規模のGWASが実施され、42疾患にわたって320の遺伝的変異が同定されました(AMED/東北大学・理化学研究所等の共同研究)。この規模は、欧米の主要コホートに匹敵する水準です。
大規模です。それだけ信頼性の高い解析ができます。
一方で、欧米人集団を基盤に構築されたインピュテーション参照パネルを日本人サンプルに適用すると、精度が著しく低下するケースがあります。このため、東北メディカル・メガバンクが公開している日本人3,256人の全ゲノムシークエンスデータを基にした「日本人特化型リファレンスパネル」を用いることが推奨されます。また「ジャポニカアレイ®」のように、日本人ゲノムに特化して設計されたジェノタイピングアレイも活用されています。
| 項目 | 欧米人集団向けアレイ | 日本人特化型アレイ(ジャポニカアレイ等) |
|---|---|---|
| SNP設計の対象集団 | 主にヨーロッパ系祖先 | 日本人・東アジア人 |
| インピュテーション精度 | 日本人では低下する場合あり | 日本人集団で高精度 |
| MAFの希少変異捕捉 | 日本人特有の低頻度SNPを見逃す可能性 | 日本人低頻度SNPもカバー |
| 主な利用可能データベース | 1000 Genomes、gnomAD | ToMMo 3.5KJPN、BBJパネル |
さらに、集団内の地域差も考慮が必要です。日本人の集団構造(九州・沖縄・北海道など地域ごとの遺伝的背景の微細な違い)も主成分分析で可視化されており、これを補正することがGWAS精度の向上に寄与することが報告されています。地域差が影響するとは見落としがちですね。
参考:日本人21万人のゲノム解析によるGWAS成果(AMED)
https://www.amed.go.jp/news/release_20200609.html
参考:バイオバンク・ジャパンのGWAS研究成果紹介
https://biobankjp.org/10480
GWASの解析結果を最も直接的に臨床に活かす手法として、近年急速に注目されているのがPolygenic Risk Score(PRS:多遺伝子リスクスコア)です。PRSとは、GWASで同定された疾患感受性SNPのジェノタイプと各SNPの効果量(β値)を掛け合わせて合計したスコアで、個人の遺伝的な疾患発症リスクを定量化します。
従来のGenotype Risk Score(GRS)がP値<5.0×10⁻⁸という厳格な有意水準を満たしたSNPのみを使うのに対し、PRSはP値<10⁻³〜10⁻⁵という比較的緩い有意水準のSNPも広く取り込みます。より多くのSNPを組み合わせることで、従来のGRSでは説明しきれなかった「失われた遺伝率(Missing Heritability)」を補完できるのがPRSの強みです。
2018年に報告された欧米人集団20万人規模の心血管障害GWASでは、PRSの上位0.5%に属する集団は、それ以外の集団と比較して約5倍の心血管障害リスクを持つことが示されました(Khera AV et al., Nat Genet 2018)。これは家族性高コレステロール血症などの単一遺伝子疾患と同等のリスク水準に相当し、PRSの臨床的有用性を世界に印象付けた成果です。
これは使えそうです。
しかし、臨床応用にあたっていくつかの重要な課題があります。特に深刻なのが「人種間のPRS互換性」の問題です。既存のGWASの多くは欧米人集団を対象に実施されており、欧米人GWASから構築されたPRSをそのまま日本人に適用しても、予測精度が大幅に低下するケースがあることが報告されています。たとえば、2型糖尿病と肥満については日本人と欧米人で遺伝的背景が大きく異なり、欧米人向けPRSの日本人への直接適用は適切でないことがわかっています(Okada Y, 日本内科学会雑誌 2021年)。
また、PRSの計算手法そのものも多数提案されており、どの手法が最適かは解析対象の表現型によって異なります。「複雑な計算手法だから精度が高い」とは限らず、シンプルな手法が同等以上の精度を出すケースもあります。これが条件です。実際にPRS解析を行う場合は、Nat Protoc掲載の「Tutorial: a guide to performing polygenic risk score analyses(Choi SW et al., 2020)」などの標準プロトコルを参照し、適切な手順を守ることが推奨されます。
前立腺がんに関しては、BBJデータを活用したPRS解析により、前立腺がん未診断の日本人男性での将来的な死亡リスク予測が可能になるという報告がAMEDから2023年に公開されており(AMED 2023年8月)、国内でも着実にPRSの臨床応用が前進しています。
参考:PRSを活用したゲノム個別化医療(日本内科学会雑誌 J-Stage掲載論文)
参考:ポリジェニックリスクスコアで前立腺がん死亡リスクを予測(AMED)
https://www.amed.go.jp/news/seika/files/000116193.pdf