最近のがんゲノム研究とICGC › files › pdf ›...

27
最近のがんゲノム研究と 最近のがんゲノム研究と ICGC ICGC (国際がんゲノムコンソーシアム) (国際がんゲノムコンソーシアム) 理化学研究所 ゲノム医科学研究センター(CGM) バイオマーカー探索・開発チーム チームリーダー 中川 英刀 【資料3】

Transcript of 最近のがんゲノム研究とICGC › files › pdf ›...

  • 最近のがんゲノム研究と最近のがんゲノム研究とICGCICGC

    (国際がんゲノムコンソーシアム)(国際がんゲノムコンソーシアム)

    理化学研究所 ゲノム医科学研究センター(CGM)バイオマーカー探索・開発チーム チームリーダー

    中川 英刀

    【資料3】

  • しかし、それ以前より。。。。。。

    Dr. Renato Dulbecco (Nobel Prize Awarding at 1975)

    Science 1986 : ‘A turning point in cancer research: sequencing the human genome’“if we wish  to  learn more  about  cancer, we must now  concentrate  on  the  cellular  genome…….  We have two options: either to try to discover the genes important  in malignancy by  a  piecemeal  approach, or to sequence the whole genome ……..I think that it will be  far more useful  to begin by  sequencing  the cellular genome.”

    2003年4月 ヒトゲノムプロジェクトの完了

  • がんのゲノム異常(1)

    胚細胞変異 >> 家族性腫瘍

    APC 家族性大腸腺腫症 大腸がん、十二指腸がんBRCA1/2 家族性乳がん、卵巣がん 乳がん、卵巣がんMSH2/MLH1/MSH6/PMS2 リンチ症候群 (HNPCC) 大腸がん、子宮体がん、尿管がんTP53 リー・フラウメニ症候群 骨肉腫、乳がん、白血病、脳腫瘍RB1 網膜芽細胞腫 網膜芽細胞腫、骨肉腫PTEN コーデン 病 乳がん、甲状腺がん、子宮体がんVHL フォン・ヒッベルーリンドウ病 脳血管芽腫、腎がんP16 家族性黒色腫 黒色腫、膵がんMEN1 多発性内分泌性腫瘍1型 下垂体腫瘍、膵内分泌腫瘍、副甲状腺腫瘍RET 多発性内分泌性腫瘍2型 甲状腺髄様がん、副甲状腺腫瘍、褐色細胞腫CDH1 家族性胃がん スキルス胃がんSTK11 ポエツ・イエーガー症候群 大腸がん、小腸がん、膵がんPTCH ゴーリン症候群 皮膚基底細胞腫

  • 体細胞変異 >> 分子標的治療、バイオマーカーAbl-Bcr 融合遺伝子 t (9;22) 慢性骨髄性白血病 Imatinib

    Her2/neu 遺伝子増幅 乳がん Trastuzumab

    EGFR 遺伝子変異、増幅 肺がん Gefitinib, Erlotinib, Cetuximab

    c-KIT 遺伝子変異 消化管間質腫瘍 Imatinib

    K-ras 遺伝子変異 大腸がん、膵がん Cetuximab効果のバイオマーカー

    BRAF 遺伝子変異 メラノーマ、大腸がん 阻害薬開発中

    PI3KCA 遺伝子変異 肺がん 大腸がん 阻害薬開発中

    FLT3 遺伝子変異 急性骨髄性白血病 阻害薬開発中

    MYC 遺伝子増幅 様々ながん

    MYCN 遺伝子増幅 神経芽細胞腫 予後バイオマーカー

    MET 遺伝子変異、増幅 肺がん、胃がん、メラノーマ 阻害薬開発中

    BCL2 t(14;18)(q32;q21) 濾胞性Bリンパ腫 阻害薬開発中

    EML4-ALK融合遺伝子 inv(2)(p21;p23) 肺がん 阻害薬開発中

    がんのゲノム異常(2)

  • 胚細胞(germline)レベルでの変異や多型体細胞(somatic)レベルでの突然変異ゲノム構造異常: 欠失、挿入、逆位、増幅、染色体内転座、染色体間転座

    がんゲノムの複雑性

  • がんは、遺伝的因子に加えて、様々な環境的因子(発癌物質、感染、炎症など)の作用によって、細胞のゲノムに変異が蓄積し、その結果、正常な分子経路が破綻して無秩序な細胞増殖、さらには浸潤、転移する。つまり、がんは、ゲノムの異常に基づく疾患である。

    “Genome Disease”

    •がんの本質であるゲノム異常をすべてを解明することによって、

    分子レベルでのがんの病態解明新規のがんの治療法、診断法、予防法の開発

  • 2006 Johns-Hopkins 11大腸がん 20,857 遺伝子 エクソン シークエンス

    2007 Johns-Hopkins 11乳がん 20,857 遺伝子 エクソン シークエンス

    2007 Sanger, UK 210様々ながん腫 518 キナーゼ エクソン シークエンス

    2008 Johns-Hopkins 24膵がん 23,219 遺伝子 エクソン シークエンス

    2008 Johns-Hopkins 22GBM (脳腫瘍) 23,219 遺伝子 エクソン シークエンス

    2008 TCGA 91GBM (脳腫瘍) 601 がん関連遺伝子 エクソン シークエンス

    2008 TCGA 188肺腺がん 623 がん関連遺伝子 エクソン シークエンス

    2010 Sanger, UK 101腎がん 3,544 がん関連遺伝子 エクソン シークエンス

    2008 Sanger, UK 2小細胞肺がん細胞株 全ゲノム 構造変化のみ 第2世代シークエンサー

    2008 ワシントン大学 1急性骨髄性白血病 全ゲノム 第2世代シークエンサー

    2009 ワシントン大学 1急性骨髄性白血病 全ゲノム 第2世代シークエンサー

    2009 カナダ 1乳がん 全ゲノム 第2世代シークエンサー

    2009 Sanger, UK 1メラノーマ細胞株 全ゲノム 第2世代シークエンサー

    2009 Sanger, UK 1小細胞肺がん細胞株 全ゲノム 第2世代シークエンサー

    2009 Sanger, UK 24乳がん 全ゲノム 構造変化のみ 第2世代シークエンサー

    大規模シークエンシングによる最近のがんゲノム研究

    がんゲノム上には、数万個のポイント遺伝子変異や構造異常が検出される。

    ヒトゲノムプロジェクトによって発展してきた大規模ゲノムシークエンス解析法を用いて

  • がんゲノムのコピー数異常

    (Nat Genet 40, 722‐9, 2008) RK003 GAIIx

    SNP arrays

    遺伝子増幅遺伝子欠失

  • (ICGC  Nov 2008)

    塩基レベルでのゲノム構造変化の検出

    全ゲノムシークエンス解析により、塩基レベルでのゲノムの構造変化を検出、同定が可能となる。

    >> 融合遺伝子や新規のゲノム異常を同定。

  • (Stephens et al. Nature 2009; 462, 1005)

    乳がんゲノムの構造異常

  • COLO‐829 メラノーマ細胞株のゲノム異常カタログ

    (Nature 2009/Dec  Pleasance et al. )

  • • 近年のシークエンス技術の急速な進展に伴い、ほとんどすべてのゲノムの変異を検出することが、現実のものとなってきた。

    • 2007年の準備期間を経て、2008年4月にICGCが発足。

    • 国際共同プロジェクトを通して、データ収集と解析に関する共通基準に基づき、50種類以上の癌腫の包括的かつ高解像度のゲノム解析を行い、がんのゲノム異常の包括的カタログを作成する。

    • この網羅的がんゲノム情報を研究者間で共有および無償で公開し、がんの研究および制圧を加速させる。

    (ICGCの基本方針:http://www.icgc.org)

    ICGCのゴール

  • ICGCは、世界各国を通じて臨床的に重要ながんを選定し、それらのがんについてゲノム変異の包括的なカタログを作成するため、メンバー間の調整(情報交換の促進、ゲノム解析作業の重複阻止等)を行う組織。

    ICGCの各メンバーは、ICGCの定めたデータ収集・解析に関する共通基準に従い、少なくとも1種類のがんについて約20億円(2000万米国ドル相当)の費用を負担して約500症例の解析を分担する。

    ICGCの各メンバーは、共通の標準化された患者同意のプロセスと倫理面での監視を行い、ICGC関連研究に参加する患者のプライバシーを保護しながらサンプルを収集保存する。

    ICGCメンバーによる研究の公共的意義を最大限にするため、得られたデータは全世界の研究コミュニティに迅速かつ無償で公開する。

    すべての参加者は、ICGC研究から生じた1次データに対しての特許やその他の知的所有権の申請を行わない。

    ICGCの概要

  • カナダ中国フランス

    インド日本スペインイギリスオーストラリアアメリカ

    (TCGA)

    膵がん胃がん肝細胞がん (アルコール、代謝関連), Her2+乳がん口腔内がん肝細胞がん (ウイルス関連)慢性リンパ球性白血病乳がん(様々なサブタイプ)膵がん、卵巣がん肺がん(扁平上皮がん)卵巣がん脳腫瘍(GBM)

    ドイツ、EUなどさらなる国、施設によるがんゲノム研究が資金援助され、ICGCへの参加が検討されている。

  • TCGA (The Cancer Genome Atlas), USATCGA (The Cancer Genome Atlas), USA

    2006年にNCI(米国がん研究所)とNHGRI(米国ヒトゲノム研究所)は、大規模ゲノムシークエンス解析を通じてがんの分子的機序の解明を促進する目的で、3年のTCGAパイロットスタディを開始した。以下の5つのコアプロジェクトから成る。① Human Cancer Biospecimen Core Resource② Genome Sequencing Centers③ Cancer Genome Characterization Centers④ Genome Data Analysis Centers⑤ Data Coordination Center

    現在、脳腫瘍、肺がん、卵巣がんのゲノムに重点的に取り組んでいるが、さらに対象癌腫を20種類に拡張させる予定である。これから、2年で$275Mをかけて、10種類の癌腫それぞれ約500症例について、ゲノム解析を行う計画をたてている。

    The Cancer Genome Project (CGP) in Sanger Institute, The Cancer Genome Project (CGP) in Sanger Institute, UKUK

    これまで、様々な癌腫の細胞株や臨床サンプルの遺伝子のエクソンシークエンスなどを行い、COSMIC  (Catalogue of Somatic Mutation in Cancer)にてそのデータを公開している。

  • 肝細胞がん日本では、肺がん、胃がん、大腸がんに続く4番目に多いがんで

    あり、年間約35,000人が亡くなっている。世界では、6番目に罹患率が高いがんで、がん死の原因の第3位。東アジア、アフリカでの罹患率が特に高い。

    肝炎ウイルスの持続感染>>肝硬変>>肝細胞がんB型肝炎ウイルス (HBV): アジア、アフリカC型肝炎ウイルス (HCV): 日本に多い(>70%、多くが輸血や血液製剤使用による医原性)。世界で約5億人がB型ないしはC型肝炎に感染しており、ウイルス肝炎による死者は年間100万人 (肝不全、肝細胞がん)。

    アルコール性肝炎、非アルコール性肝炎(代謝性)からの肝がんは最近は、日本でも増えつつある。

  • 理研 CGM 国立がんセンター研究所

    大阪府立成人病センター 広島大学

    和歌山県立医科大

    国立がんセンター中央

    病院

    ICGC Open‐access Database

    日本

    Any researcher他国研究機関

    東大医科研 ヒトゲノム解析

    センター大規模計算機を用いた、ゲノム配列のインフォマティクス解析

    ICGC Controlled‐access Database

    Restricted researchers

    Reviewby ICGC

    ICGC

    サンプル採取機関(各機関で匿名化)

    ゲノム情報、診療情報、解析結果のsubmit

    ゲノム配列情報、診療情報、サンプル

    サンプル、診療情報

    サンプル、診療情報

    サンプル、診療情報

    サンプル、診療情報

    東大先端科学技術研究センター

    同様のゲノム情報、診療情報、解析結果

    次世代型シークエンサーによる配列解析

    ICGC

    ゲノム情報、診療情報、解析結果等重要データ

    統計情報などオープンにできるデータ

  • ICGC研究を遂行するための重要ポイント

    ① 質の高いがん臨床標本の確保

    ② 倫理面での対処

    ③ シークエンサーのさらなる技術革新

    ④ 情報解析、統計解析方法の開発

    ⑤ 人材を含む計算インフラの整備

  • ① がん組織(手術標本より)および正常組織(末梢リンパ球)を採取

    ② 活動性のがん細胞が80%以上を占めるがん組織

    ③ 目標の解析サンプル数は、 validation 用も含め全体で500例(3%以上の頻度でおこる変異を検出するため)

    ④ 詳細な臨床病理情報も登録する

    病理組織診断、病歴、感染症、

    検査値、治療方法、予後など

    質の高いがん臨床標本の確保

  • がんゲノムの解析標本における問題点

    活動性のがん細胞が80%以上

    間質細胞の混入

    癌組織内のheterogeneity

    臨床標本と細胞株の違い

    術前治療(化学療法、放射線)における影響

  • 倫理的留意点

    がんのゲノムとともに個人の正常細胞のゲノムにおいても、全ゲノムシークエンス解析が行われ、ICGCを通して公開される。

    ①連結不可能匿名化: 試料採取機関および理研において、2回匿名化を行う。

    ②がんのゲノム情報も含めて、患者さんにはデータを開示しない (日本の方針)。

    ③ICGCでの公開において、2つの方法をとる。

    1)Open Access: 病理組織診断、年代、性別、検出された遺伝子異常や遺伝子多型について集計したデータと遺伝子発現のデータ。

    2)Controlled Access:  ICGCに設定される専門の委員会で厳しく審査され合格した研究グループに対して、文書契約を交わした後に、その他の臨床情報、全ゲノム情報、ゲノム異常と臨床情報の結合情報など、より詳しいデータが提供される。

  • 全ゲノムシークエンス全ゲノムシークエンス ((ヒトゲノム約ヒトゲノム約3030億塩基対=億塩基対=3Gb3Gb))次世代シークエンサーの活用

    全エクソンシークエンス (約4千万塩基対=40Mb)通常のPCR>>通常のシークエンス法エクソン配列を濃縮>>次世代シークエンサー

    遺伝子発現(mRNA)解析マイクロアレイ解析、次世代シークエンス解析(RNA‐seq)

    エピジェネティック解析bisulfite処理、MeDIP法>>次世代シークエンス解析

    がんゲノムにおけるシークエンス解析戦略

  • WGS 全ゲノムシークエンス10 18乗 エクサ E 百京 1000 000 000 000 000 00010 15乗 ぺタ P 千兆 1000 000 000 000 00010 12乗 テラ T 一兆 1000 000 000 00010 9乗 ギガ G 十億 1000 000 00010 6乗 メガ M 百万 100 000010 3乗 キロ K 千 1000

    ヒトゲノムの塩基数: 約30億塩基対=3Gb正確にゲノムの塩基配列を決定するために、

    正常ゲノムで30倍(90Gb)以上、がんゲノムでは最低40倍(120Gb)以上が必要。

    第2世代シークエンサー現在、一回のランで約30Gbのシークエンスが可能。この1年間でアウトプットは10倍にアップ。2010年前半で200Gbのシークエンスが可能となる。

    第3世代シークエンサー1‐2年以内に第2世代の100倍以上のデータをだし、より長い配列が読み取りが可能となる>>正確度アップ

  • Mapped Data

    MAQ/BWA / BLAST….

    @HWUSI‐EAS505_8_30L4E:3:1:1450:1363/1ACCAACCAGAACGAGAAAAAGCGCC+HWUSI‐EAS505_8_30L4E:3:1:1450:1363/1b[bYbbb``bbbbLb[b[bbbbbE^@HWUSI‐EAS505_8_30L4E:3:1:1210:1689/1GAAATAACCGTCAGGATTGACACCC+HWUSI‐EAS505_8_30L4E:3:1:1210:1689/1bbbbbbbbbbbbbbbb^bbbb`bbb@HWUSI‐EAS505_8_30L4E:3:1:1185:1742/1GATATTTTTCATGGTATTGATAAAG

    Human Reference Genome(Build 37)

    変異、コピー数異常、ゲノム構造異常を検出

    Data mining by integration of various data

    1次解析

    2次解析 臨床病理データとの相関遺伝子発現解析メチル化DNA解析シグナルパスウエイ解析

    + de novo assembly

    超高速シークエンサー

    Read Data

    高度な情報科学、数学、統計学的アプローチが必須

    配列情報 2000億塩基以上

    30億塩基

    がんゲノム解析のパイプライン

  • – ライフサイエンスで使用するスパコンでは、世界第2位の規模。• 75 TFlops (6464 cores in total)

    – Sun Blade X6250• 6144 cores (768 nodes x 2CPUs x 4 cores)• 32GB memory per node

    – Sun Fire X4440• 192 cores (12 nodes x 4 CPUs x 4 cores)• 128GB memory per node

    – SGI Altix 4700• 128 cores (64 nodes x 2 CPUs x 2 cores)• 2TB shared memory

    • Storage– 1PB Disk Array

    • 2012 年 3倍へ拡張予定– 225 TFlops– 3 PB Disk

    x6250

    Storage

    Altix 4700

    x4440

    計算資源の確保

    東大医科研ヒトゲノム解析センター(HGC)スーパーコンピューターシステム

  • • パワー– 90 Gb(ヒトゲノムの30倍)をマッピング

    • MAQ/BWA/BLAST で行うと、600 CPU days• 600 x 500症例 x 2 (がん+正常)= 600,000 CPU days (約1643年!)• HGCスパコン(6000CPU)がフルに稼働したとしても、100日かかる。

    • 記憶容量– ヒトゲノムの30倍のデータ

    • 配列情報 90Gbp• クオリティー情報など他を合わすと、1T Byte

    – 1000個のゲノム情報• 500 x 2 x 1T Byte = 1P Byte• HGCスパコンの現在の記憶容量

    現状では、最小限を満たしている。しかし、複雑ながんゲノムを解読し、2次解析によってその生物学

    的意義を見出していくには、さらなる計算器のパワーと容量、そして高速データ送信、および解析方法を開発する人材が必須。

    がん500症例(1000ゲノム)を解析するには…..

  • ① 質の高いがん臨床標本の確保② 倫理面での対処③ シークエンサーのさらなる技術革新④ 情報解析、統計解析方法の開発⑤ 人材を含む計算インフラの整備

    ゲノムの病気であるがんの制圧

    がんゲノムプロジェクト

    研究者間のがんゲノム情報の共有および公開により、がんの病態解明および新規治療法、診断法の開発を促進。

    がんのゲノム異常の包括的カタログの作成