2003年に初めて「ヒトゲノム」が解読されましたが、その後、
ゲノム配列を読むためのマシーンとして「次世代シークエンサー」が注目されてきました。

何となく「DNA配列を解読するもの」というのはわかるけど?
この記事では、
- DNA配列を読むことの意味
- DNA配列を読み解く「シーケンサー」と「次世代シーケンサー」の違い
- 次世代シーケンサーの技術で何ができるのか
について、世界展開に成功した「イルミナ社」の次世代シーケンサーの凄さを紹介します。

DNAについて「基礎」の部分をご存知の方は「次世代シークエンサー」の項目からご覧ください。
イルミナのシーケンス原理が気になる方、細かい専門用語の意味を知りたい方は、以下もご参照ください。
DNA配列って何?単位は?
生物の設計図は「DNA」という「記号」によって書かれています。
DNAは四種類ありA(アデニン), T(チミン), G(グアニン), C(シトシン)で表されます。
DNAは必ず「ペア」になっていて、この「塩基のペア」が一列につながっています。これを「DNA配列」と呼びます。

単位はベースペア(base pair)です。
ペアの相手は必ず決まっていて、CとG、AとTという組み合わせです。
DNAは1bp(1ベースペア)単体では何の意味もなく、数珠つなぎにつながって「配列」になって初めて意味を持ちます。
ペアになっているので必ず「二列」の形をとっています。
具体的には「二列」のらせん構造をとっていることが知られていて、これが「二重らせん」です。
DNA配列の中に「遺伝子」という「意味」がある
DNA配列「1bp」だけでは何の情報にもなりませんが、一定の長さ、特定の文字列を持つことで「意味(情報)」を為します。
生き物の設計図(ゲノム配列)にとっての「意味」とは「遺伝子」のことです。

シークエンスでDNA配列を調べるのは「どんな文字列」なのかを知ることで「意味 = 遺伝子」を探すためです。
「My name is Taro」はアルファベットが「意味を持つ正しい並び」で並んでいます。
そのため「私の名前は太郎です」と言う「意味」を読み取ることができます。
同じ文字配列で並んでいたとしても「Nisr ma tyoae」では、英語としては意味不明です。
DNA配列には「意味のある並び(配列)」と「そうでない並び(配列)」があります。
「遺伝子(情報)」とは「タンパク質配列」のこと
「遺伝子」配列がなぜ重要な情報なのか。
それは「タンパク質」の配列情報が書かれているからです。
生き物は概ね「水とタンパク質と脂質」でできています。
中でもタンパク質は重要で、体をつくる「細胞」の中で具体的に物質を運んだり、代謝したり、新しい物質をつくったり、必要な脂質を必要な部分に運んだり、何らかの「仕事」をしているのはとにかくタンパク質です。

脂質は細胞を構成するための「材料」ですが、タンパク質はsai細胞の「材料」であり「材料をつくる」働きをする主体でもあります。
【成人の体組成(体重60kgの場合)】
- 水分 : 62.6%
- タンパク質:16.4%
- 脂質:15.3%
- ミネラル:5.7%
- 糖質:1%未満
出典:人間の体はタンパク質でできている。タンパク質・アミノ酸・ペプチドの関係を解説(森永HP)
「遺伝子」の配列が分かれば、どんな「タンパク質」があるのかが分かります。
膨大な長さのゲノム配列には、生命の元である「タンパク質」の情報が書かれているのです。

遺伝子は4種類の塩基で書かれていますが、その組み合わせによって、20種類のタンパク質の情報をつくることができます。
ゲノム中の「遺伝子配列」の割合はヒトでは1-2%
ゲノム配列中に、重要なタンパク質の配列情報、つまり遺伝子が含まれることがわかりましたが、そのゲノムのいたるところに「遺伝子」があるとは限りません。

生物種によってゲノムに対する遺伝子の割合は異なります。

「ある生物の一つの細胞に含まれるすべてのDNA配列」を、その生物の「ゲノム配列」といいます。

ヒトの一つの細胞の中に含まれるDNA配列は「ヒトゲノム」といいます。パンダの細胞のDNA配列であれば「パンダゲノム」です。
ゲノム、といった際には「そのいきものを作るためのすべてのDNA配列」という意味合いになります。
基本的に、すべての細胞には「そのいきものを作るためのすべてのDNA配列」が「1セット」きっちり含まれています。
「その生き物をつくるためのすべて」の情報です。
ゲノム配列は
めちゃくちゃ長い
のです。
ヒトの「たった一つの細胞」のゲノムですら、つなぎ合わせると「2 m」もの長さになります。

DNAの1塩基の長さ1 bp(ベースペア)は0.34 nmです。
1 mm = 1,000 μm = 1,000,000 nmなので、はちゃめちゃな長さの塩基が並んでいることがわかると思います。
具体的には、ヒトゲノムは塩基数にして約30億bpもあります。
「長いゲノムをなんとか正確に、早く読む」を実現したのが「次世代シーケンサー」です。
次世代シーケンスの原案となる技術は、1990年代半ばに、ケンブリッジの科学者Shankar Balasubramanian(Ph.D)とDavid Klenerman(Ph.D)によってつくられました。
後に「SBS(Sequencing by Synthesis)テクノロジー」と呼ばれるようになる技術で、それまで一般的に使われてきたサンガーシーケンスとは異なるプラットフォームで行われます。
出典:Sequencing by Synthesisの歴史 イルミナの装置を強化する次世代シーケンサーテクノロジーの進化

それ以前は「サンガーシーケンス法」と呼ばれる手法でDNA配列を読んでいました。サンガーシーケンスも改良が進んでいますが、現在でも、一度に読める配列は約700 bpからどんなに良くても2000 bp程度です。
従来型のシーケンスに比べ、トータルで読める配列が異次元的に飛躍したことから「次世代」という名前がついています。
次世代シーケンサーの凄さ
2012年当時のイルミナ社の次世代シーケンスですら、それ以前の伝統的なシーケンサーとは比べ物にならない速度でDNA配列を読めることが、以下の資料から分かります。
- 次世代シーケンサー
1度に同時に5名のヒト全ゲノム解析が可能、約10日間、70万円 - 従来のキャピラリーシーケンサー
1名のヒト全ゲノムの配列情報の産出に10年、解析に3年、3000億円(3兆ドル)

ちなみに現在もイルミナ社の技術は進歩を続けています。
2017年にリリースしたNovaSeqシステムは、現在、1回のランで20,000億塩基(2,000Gb)、今年中に60,000億塩基(6,000Gb)、60人分の全ゲノムデータを産出できるようになる見込みです。
イルミナ次世代シーケンサーの歴史
次世代シーケンサーは研究者に欠かせない必須のツール
現在、世界中の科学者が日々、次世代シーケンサーを使っています。
シーケンス技術はどんどん改良されており、シーケンスコストもどんどん下がっています。
また、研究者のニーズに合わせたシーケンスマシンも開発が続いています。


例えば、ヒトゲノム(約30億bp)を解析したい場合には、とにかく長いので「たくさん」「早く」読める機会が必要ですが、インフレンザウイルスのゲノム(13,590 bp)を読む場合には、そんなに高性能の機械は必要ありません。
他にも、研究者の多くは「DNA配列」と同時に「DNA配列のどこが使われているのか?」を調べることのできる「RNA配列」をこれらのシーケンスマシーンを使って調べています。

RNAシーケンス、エキソーム解析、エキソンキャプチャーなどの単語は、すべて「RNA配列」を調べる解析です。
そういった場合、同じヒトの細胞を扱っていたも「ゲノム全体分」を全て読めるほどの性能が必要ない、とはいえウイルスゲノムよりは膨大な配列である、というような需要の違いが生まれます。
創薬・治療につなげるための「シーケンス」
日本でもようやく最近になって、イルミナ社の二種類の「次世代シーケンサー」が医療機器として承認されています。
これは、個人のゲノム配列を読むことで、その人に「合った」治療の機会を提供する機会が増えると考えられています。

個人のゲノム情報を元に診断を行うための検査を「遺伝子パネル検査」といいます。
出典:MiSeq Dx システム 日本で医療機器としての届出を完了 2つの次世代シーケンサーが医療機器として利用可能に
次世代シーケンサーが特に大きなインパクトを与えているのが、がん医療の分野だ。次世代シーケンサーでがんの遺伝子情報を網羅的に解析し、カギを握る遺伝子異常をターゲットとする薬(分子標的薬)の投薬につなげる。
日経クロステック Special

今後、創薬分野、テーラーメイド医療がどんどん発展していくことでしょう。

