【超基礎】次世代シーケンサーの凄さ【イルミナ illmina】

2003年に初めて「ヒトゲノム」が解読されましたが、その後、ゲノム配列を読むためのマシーンとして「次世代シークエンサー」が注目されてきました。

何となく「DNA配列を解読するもの」というのはわかるけど?

この記事では、

  • DNA配列を読むことの意味
  • DNA配列を読み解く「シーケンサー」と「次世代シーケンサー」の違い
  • 次世代シーケンサーの技術で何ができるのか

について、世界展開に成功した「イルミナ社」の次世代シーケンサーの凄さを紹介します。

DNAについて「基礎」の部分をご存知の方は「次世代シークエンサー」の項目からご覧ください。

イルミナのシーケンス原理が気になる方、細かい専門用語の意味を知りたい方は、以下もご参照ください。

DNA配列、ゲノムの基礎

DNA配列って何?単位は?

生物の設計図は「DNA」という「記号」によって書かれています。

DNAは四種類ありA(アデニン), T(チミン), G(グアニン), C(シトシン)で表されます。

DNAは必ず「ペア」になっていて、この「塩基のペア」が一列につながっています。これを「DNA配列」と呼びます。

単位はベースペア(base pair)です。

ペアの相手は必ず決まっていて、CとG、AとTという組み合わせです。

DNAは1bp(1ベースペア)単体では何の意味もなく、数珠つなぎにつながって「配列」になって初めて意味を持ちます。

ペアになっているので必ず「二列」の形をとっています。

具体的には「二列」のらせん構造をとっていることが知られていて、これが「二重らせん」です。

DNA配列の中に「遺伝子」という「意味」がある

DNA配列「1bp」だけでは何の情報にもなりませんが、一定の長さ、特定の文字列を持つことで「意味(情報)」を為します。

生き物の設計図(ゲノム配列)にとっての「意味」とは「遺伝子」のことです。

シークエンスでDNA配列を調べるのは「どんな文字列」なのかを知ることで「意味 = 遺伝子」を探すためです。

「My name is Taro」はアルファベットが「意味を持つ正しい並び」で並んでいます。

そのため「私の名前は太郎です」と言う「意味」を読み取ることができます。

同じ文字配列で並んでいたとしても「Nisr ma tyoae」では、英語としては意味不明です。

DNA配列には「意味のある並び(配列)」と「そうでない並び(配列)」があります。

「遺伝子(情報)」とは「タンパク質配列」のこと

「遺伝子」配列がなぜ重要な情報なのか。

それは「タンパク質」の配列情報が書かれているからです。

生き物は概ね「水とタンパク質と脂質」でできています。

中でもタンパク質は重要で、体をつくる「細胞」の中で具体的に物質を運んだり、代謝したり、新しい物質をつくったり、必要な脂質を必要な部分に運んだり、何らかの「仕事」をしているのはとにかくタンパク質です。

脂質は細胞を構成するための「材料」ですが、タンパク質はsai細胞の「材料」であり「材料をつくる」働きをする主体でもあります。

【成人の体組成(体重60kgの場合)】

  • 水分 : 62.6%
  • タンパク質:16.4%
  • 脂質:15.3%
  • ミネラル:5.7%
  • 糖質:1%未満

出典:人間の体はタンパク質でできている。タンパク質・アミノ酸・ペプチドの関係を解説(森永HP)

「遺伝子」の配列が分かれば、どんな「タンパク質」があるのかが分かります。

膨大な長さのゲノム配列には、生命の元である「タンパク質」の情報が書かれているのです。

遺伝子は4種類の塩基で書かれていますが、その組み合わせによって、20種類のタンパク質の情報をつくることができます。

ゲノム中の「遺伝子配列」の割合はヒトでは1-2%

ゲノム配列中に、重要なタンパク質の配列情報、つまり遺伝子が含まれることがわかりましたが、そのゲノムのいたるところに「遺伝子」があるとは限りません。

生物種によってゲノムに対する遺伝子の割合は異なります。


Introduction to Genomics(Arthur Lesk)より

ゲノム配列はとても長い

「ある生物の一つの細胞に含まれるすべてのDNA配列」を、その生物の「ゲノム配列」といいます。

ヒトの一つの細胞の中に含まれるDNA配列は「ヒトゲノム」といいます。パンダの細胞のDNA配列であれば「パンダゲノム」です。

ゲノム、といった際には「そのいきものを作るためのすべてのDNA配列」という意味合いになります。

基本的に、すべての細胞には「そのいきものを作るためのすべてのDNA配列」「1セット」きっちり含まれています。

「その生き物をつくるためのすべて」の情報です。

ゲノム配列は

めちゃくちゃ長い

のです。

ヒトの「たった一つの細胞」のゲノムですら、つなぎ合わせると「2 m」もの長さになります。

DNAの1塩基の長さ1 bp(ベースペア)は0.34 nmです。

1 mm = 1,000 μm = 1,000,000 nmなので、はちゃめちゃな長さの塩基が並んでいることがわかると思います。

具体的には、ヒトゲノムは塩基数にして約30億bpもあります。

次世代シークエンサー

「長いゲノムをなんとか正確に、早く読む」を実現したのが「次世代シーケンサー」です。

次世代シーケンスの原案となる技術は、1990年代半ばに、ケンブリッジの科学者Shankar Balasubramanian(Ph.D)とDavid Klenerman(Ph.D)によってつくられました。

後に「SBS(Sequencing by Synthesis)テクノロジー」と呼ばれるようになる技術で、それまで一般的に使われてきたサンガーシーケンスとは異なるプラットフォームで行われます。

出典:Sequencing by Synthesisの歴史 イルミナの装置を強化する次世代シーケンサーテクノロジーの進化

それ以前は「サンガーシーケンス法」と呼ばれる手法でDNA配列を読んでいました。サンガーシーケンスも改良が進んでいますが、現在でも、一度に読める配列は約700 bpからどんなに良くても2000 bp程度です。

従来型のシーケンスに比べ、トータルで読める配列が異次元的に飛躍したことから「次世代」という名前がついています。

次世代シーケンサーの凄さ

2012年当時のイルミナ社の次世代シーケンスですら、それ以前の伝統的なシーケンサーとは比べ物にならない速度でDNA配列を読めることが、以下の資料から分かります。

出典:次世代シーケンサーへようこそ!

  • 次世代シーケンサー
    1度に同時に5名のヒト全ゲノム解析が可能、約10日間、70万円
  • 従来のキャピラリーシーケンサー
    1名のヒト全ゲノムの配列情報の産出に10年、解析に3年、3000億円(3兆ドル)

ちなみに現在もイルミナ社の技術は進歩を続けています。

2017年にリリースしたNovaSeqシステムは、現在、1回のランで20,000億塩基(2,000Gb)、今年中に60,000億塩基(6,000Gb)、60人分の全ゲノムデータを産出できるようになる見込みです。

イルミナ次世代シーケンサーの歴史

「配列を読める」ことはどのような分野で利用可能なのか?

次世代シーケンサーは研究者に欠かせない必須のツール

現在、世界中の科学者が日々、次世代シーケンサーを使っています。

シーケンス技術はどんどん改良されており、シーケンスコストもどんどん下がっています。

また、研究者のニーズに合わせたシーケンスマシンも開発が続いています。


イルミナ社が提供するシーケンスマシーン一覧(2021年現在、イルミナHPより)

例えば、ヒトゲノム(約30億bp)を解析したい場合には、とにかく長いので「たくさん」「早く」読める機会が必要ですが、インフレンザウイルスのゲノム(13,590 bp)を読む場合には、そんなに高性能の機械は必要ありません。

他にも、研究者の多くは「DNA配列」と同時に「DNA配列のどこが使われているのか?」を調べることのできる「RNA配列」をこれらのシーケンスマシーンを使って調べています。

RNAシーケンス、エキソーム解析、エキソンキャプチャーなどの単語は、すべて「RNA配列」を調べる解析です。

そういった場合、同じヒトの細胞を扱っていたも「ゲノム全体分」を全て読めるほどの性能が必要ない、とはいえウイルスゲノムよりは膨大な配列である、というような需要の違いが生まれます。

創薬・治療につなげるための「シーケンス」

日本でもようやく最近になって、イルミナ社の二種類の「次世代シーケンサー」が医療機器として承認されています。

これは、個人のゲノム配列を読むことで、その人に「合った」治療の機会を提供する機会が増えると考えられています。

個人のゲノム情報を元に診断を行うための検査を「遺伝子パネル検査」といいます。

出典:MiSeq Dx システム 日本で医療機器としての届出を完了 2つの次世代シーケンサーが医療機器として利用可能に

次世代シーケンサーが特に大きなインパクトを与えているのが、がん医療の分野だ。次世代シーケンサーでがんの遺伝子情報を網羅的に解析し、カギを握る遺伝子異常をターゲットとする薬(分子標的薬)の投薬につなげる。

日経クロステック Special

今後、創薬分野、テーラーメイド医療がどんどん発展していくことでしょう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です