【超基礎】次世代シーケンサーの凄さ【イルミナ illmina】

2003年に初めて「ヒトゲノム」が解読されましたが、その後、
ゲノム配列を読むためのマシーンとして「次世代シークエンサー」が注目されてきました。

何となく「DNA配列を解読するもの」というのはわかるけど？

この記事では、

DNA配列を読むことの意味
DNA配列を読み解く「シーケンサー」と「次世代シーケンサー」の違い
次世代シーケンサーの技術で何ができるのか

について、世界展開に成功した「イルミナ社」の次世代シーケンサーの凄さを紹介します。

DNAについて「基礎」の部分をご存知の方は「次世代シークエンサー」の項目からご覧ください。

イルミナのシーケンス原理が気になる方、細かい専門用語の意味を知りたい方は、以下もご参照ください。

【4ステップで説明】イルミナのシーケンサーの原理【illmina】

イルミナの次世代シークエンスに出てくる用語【Form 10Kに出てくる技術・原理を簡単に解説】

DNA配列、ゲノムの基礎

DNA配列って何？単位は？

生物の設計図は「DNA」という「記号」によって書かれています。

DNAは四種類ありA（アデニン）, T（チミン）, G（グアニン）, C（シトシン）で表されます。

DNAは必ず「ペア」になっていて、この「塩基のペア」が一列につながっています。これを「DNA配列」と呼びます。

単位はベースペア（base pair）です。

ペアの相手は必ず決まっていて、CとG、AとTという組み合わせです。

DNAは1bp（1ベースペア）単体では何の意味もなく、数珠つなぎにつながって「配列」になって初めて意味を持ちます。

ペアになっているので必ず「二列」の形をとっています。

具体的には「二列」のらせん構造をとっていることが知られていて、これが「二重らせん」です。

DNA配列の中に「遺伝子」という「意味」がある

DNA配列「1bp」だけでは何の情報にもなりませんが、一定の長さ、特定の文字列を持つことで「意味（情報）」を為します。

生き物の設計図（ゲノム配列）にとっての「意味」とは「遺伝子」のことです。

シークエンスでDNA配列を調べるのは「どんな文字列」なのかを知ることで「意味 = 遺伝子」を探すためです。

「My name is Taro」はアルファベットが「意味を持つ正しい並び」で並んでいます。

そのため「私の名前は太郎です」と言う「意味」を読み取ることができます。

同じ文字配列で並んでいたとしても「Nisr ma tyoae」では、英語としては意味不明です。

DNA配列には「意味のある並び（配列）」と「そうでない並び（配列）」があります。

「遺伝子（情報）」とは「タンパク質配列」のこと

「遺伝子」配列がなぜ重要な情報なのか。

それは「タンパク質」の配列情報が書かれているからです。

生き物は概ね「水とタンパク質と脂質」でできています。

中でもタンパク質は重要で、体をつくる「細胞」の中で具体的に物質を運んだり、代謝したり、新しい物質をつくったり、必要な脂質を必要な部分に運んだり、何らかの「仕事」をしているのはとにかくタンパク質です。

脂質は細胞を構成するための「材料」ですが、タンパク質はsai細胞の「材料」であり「材料をつくる」働きをする主体でもあります。

【成人の体組成（体重60kgの場合）】

水分 : 62.6％
タンパク質：16.4％
脂質：15.3％
ミネラル：5.7％
糖質：1％未満

出典：人間の体はタンパク質でできている。タンパク質・アミノ酸・ペプチドの関係を解説（森永HP）

「遺伝子」の配列が分かれば、どんな「タンパク質」があるのかが分かります。

膨大な長さのゲノム配列には、生命の元である「タンパク質」の情報が書かれているのです。

遺伝子は4種類の塩基で書かれていますが、その組み合わせによって、20種類のタンパク質の情報をつくることができます。

ゲノム中の「遺伝子配列」の割合はヒトでは1-2%

ゲノム配列中に、重要なタンパク質の配列情報、つまり遺伝子が含まれることがわかりましたが、そのゲノムのいたるところに「遺伝子」があるとは限りません。

生物種によってゲノムに対する遺伝子の割合は異なります。

**Introduction to Genomics（Arthur Lesk）**より

ゲノム配列はとても長い

「ある生物の一つの細胞に含まれるすべてのDNA配列」を、その生物の「ゲノム配列」といいます。

ヒトの一つの細胞の中に含まれるDNA配列は「ヒトゲノム」といいます。パンダの細胞のDNA配列であれば「パンダゲノム」です。

ゲノム、といった際には「そのいきものを作るためのすべてのDNA配列」という意味合いになります。

基本的に、すべての細胞には「そのいきものを作るためのすべてのDNA配列」が「1セット」きっちり含まれています。

「その生き物をつくるためのすべて」の情報です。

ゲノム配列は

めちゃくちゃ長い

のです。

ヒトの「たった一つの細胞」のゲノムですら、つなぎ合わせると「2 m」もの長さになります。

DNAの1塩基の長さ1 bp（ベースペア）は0.34 nmです。

1 mm = 1,000 μm = 1,000,000 nmなので、はちゃめちゃな長さの塩基が並んでいることがわかると思います。

具体的には、ヒトゲノムは塩基数にして約30億bpもあります。

次世代シークエンサー

「長いゲノムをなんとか正確に、早く読む」を実現したのが「次世代シーケンサー」です。

次世代シーケンスの原案となる技術は、1990年代半ばに、ケンブリッジの科学者Shankar Balasubramanian（Ph.D）とDavid Klenerman（Ph.D）によってつくられました。

後に「SBS（Sequencing by Synthesis）テクノロジー」と呼ばれるようになる技術で、それまで一般的に使われてきたサンガーシーケンスとは異なるプラットフォームで行われます。

出典：Sequencing by Synthesisの歴史イルミナの装置を強化する次世代シーケンサーテクノロジーの進化

それ以前は「サンガーシーケンス法」と呼ばれる手法でDNA配列を読んでいました。サンガーシーケンスも改良が進んでいますが、現在でも、一度に読める配列は約700 bpからどんなに良くても2000 bp程度です。

従来型のシーケンスに比べ、トータルで読める配列が異次元的に飛躍したことから「次世代」という名前がついています。

次世代シーケンサーの凄さ

2012年当時のイルミナ社の次世代シーケンスですら、それ以前の伝統的なシーケンサーとは比べ物にならない速度でDNA配列を読めることが、以下の資料から分かります。

出典：次世代シーケンサーへようこそ！

次世代シーケンサー
1度に同時に5名のヒト全ゲノム解析が可能、約10日間、70万円
従来のキャピラリーシーケンサー
1名のヒト全ゲノムの配列情報の産出に10年、解析に3年、3000億円（3兆ドル）

ちなみに現在もイルミナ社の技術は進歩を続けています。

2017年にリリースしたNovaSeqシステムは、現在、1回のランで20,000億塩基（2,000Gb）、今年中に60,000億塩基（6,000Gb）、60人分の全ゲノムデータを産出できるようになる見込みです。
イルミナ次世代シーケンサーの歴史

「配列を読める」ことはどのような分野で利用可能なのか？

次世代シーケンサーは研究者に欠かせない必須のツール

現在、世界中の科学者が日々、次世代シーケンサーを使っています。

シーケンス技術はどんどん改良されており、シーケンスコストもどんどん下がっています。

また、研究者のニーズに合わせたシーケンスマシンも開発が続いています。

例えば、ヒトゲノム（約30億bp）を解析したい場合には、とにかく長いので「たくさん」「早く」読める機会が必要ですが、インフレンザウイルスのゲノム（13,590 bp）を読む場合には、そんなに高性能の機械は必要ありません。

他にも、研究者の多くは「DNA配列」と同時に「DNA配列のどこが使われているのか？」を調べることのできる「RNA配列」をこれらのシーケンスマシーンを使って調べています。

RNAシーケンス、エキソーム解析、エキソンキャプチャーなどの単語は、すべて「RNA配列」を調べる解析です。

そういった場合、同じヒトの細胞を扱っていたも「ゲノム全体分」を全て読めるほどの性能が必要ない、とはいえウイルスゲノムよりは膨大な配列である、というような需要の違いが生まれます。

創薬・治療につなげるための「シーケンス」

日本でもようやく最近になって、イルミナ社の二種類の「次世代シーケンサー」が医療機器として承認されています。

これは、個人のゲノム配列を読むことで、その人に「合った」治療の機会を提供する機会が増えると考えられています。

個人のゲノム情報を元に診断を行うための検査を「遺伝子パネル検査」といいます。

出典：MiSeq Dx システム日本で医療機器としての届出を完了　2つの次世代シーケンサーが医療機器として利用可能に

次世代シーケンサーが特に大きなインパクトを与えているのが、がん医療の分野だ。次世代シーケンサーでがんの遺伝子情報を網羅的に解析し、カギを握る遺伝子異常をターゲットとする薬（分子標的薬）の投薬につなげる。
日経クロステック Special

今後、創薬分野、テーラーメイド医療がどんどん発展していくことでしょう。