2020年8月1日土曜日

iSeq による環境サンプルのアンプリコンシーケンス: MiSeq との違い

20200801_Blogger0013

これまで Illumina のシーケンサーは主に MiSeq を使ってきました。300 - 600 bp の断片をそれなりにリーズナブルな価格と手間で読めるため、環境サンプルの Amplicon Sequence をショートリードでやる際にはちょうどよかったからです。

最近、MiSeq よりも小型でメンテナンスがほとんど不要なシーケンサー、iSeq を使う機会が出てきました。iSeq も 300 bp の断片まで読むことができ、環境サンプルの Amplicon Sequence に適しています。例えば、魚の環境 DNA メタバーコーディングでよく読まれる MiFish 領域 (Miya et al. 2015) は 170 bp 程度なので、iSeq でも十分カバーできます。

MiSeq と iSeq は似た部分が多く、MiSeq のプロトコルがほとんどそのまま利用できます。とは言うものの、違う点もあり、つまづいた部分が何点かありました。そこで、これから使い始める方の参考になるかもしれないので、自分が学んだことを書いておこうと思います。

1. MiSeq v.s. iSeq: データ量と試薬の価格

MiSeq は V3 600 cycle というちょっとお高い試薬キット (28万円ほど) で最大 300 bp × 2 (Paired-end) まで読むことができます。この際に得られる配列数は 2,500 万配列程度です。また、MiFish 領域であれば V2 300 cycle という試薬キット (16 万円ほど) で読むことができ、この場合は 1,500 万配列程度のデータを得ることができます。

また、MiSeq には V2 300 cycle Nano といった試薬キットもあり、得られる配列数は 100 万配列程度ですが、試薬キットの価格が 5-6 万円とお安くなっています。

(*試薬価格は割引のあるなしで変わります)

一方、iSeq は現時点では最大 150 bp × 2 の長さを読むことができます。この場合は 400 万配列程度のデータを得ることができ、試薬キットの価格は 10 万円前後です。

2. MiSeq v.s. iSeq: ライブラリ調製プロトコル

環境サンプルの Amplicon Sequence を行いたい場合、この部分は MiSeq と iSeq でほとんど違いはありません。MiSeq で読むために調整したライブラリをそのまま iSeq で読むこともできます。

ただし、(後で詳しく書きますが) iSeq では使用するプライマーの構造の変更を検討してもいいかもしれません

3. MiSeq v.s. iSeq: シーケンシング

シーケンスの作業は両者に違いがあります。MiSeq のシーケンスもさほどストレスなくできていましたが、iSeq でのシーケンスはさらに簡単です

MiSeq でのシーケンス

  1. 1 N NaOH を希釈して 0.2 N NaOH を作成。
  2. 0.2 N NaOH を用いて 4nM (or 2 nM) の 2 本鎖のライブラリを 1 本鎖に変性。
  3. 変性したライブラリを試薬キットに付属のバッファーを用いて希釈して 20 pM の変性ライブラリを作成。
  4. (必要な場合は) 塩基の多様性を高めるためにスパイクインする PhiX を用意。
  5. 20 pM のライブラリ (+ PhiX) をさらに希釈してシーケンス用試薬カートリッジにロードする濃度に調整した後、ロードしてシーケンス開始。

iSeq でのシーケンス

  1. 1 nM のライブラリを Illumina が提供するバッファーもしくは 10 mM Tris-HCl (pH 8.5) を用いて 50 pM に希釈。
  2. (必要な場合は) 塩基の多様性を高めるためにスパイクインする PhiX を用意。
  3. 50 pM のライブラリ (+ PhiX) をシーケンス用試薬カートリッジにロードして、シーケンス開始。

iSeq は試薬カートリッジの中で 2 本鎖から 1 本鎖への変性が行われるため、自分たちでライブラリの変性を行う必要がありません。MiSeq でのシーケンシングは慣れれば 30 分 〜 1 時間以内で終わっていましたが、iSeq でのシーケンスは 5 〜 10 分程度で終わってしまいます

シーケンスに使用されるフローセルは MiSeq ではランダムフローセルで、iSeq ではパターン化フローセルです (ここの PDF の 8 枚目など御覧ください)。

違いをざっと書くと、ランダムフローセルではシーケンスされる DNA のクラスターができる場所がランダムで、従ってシーケンスの最初の方で DNA クラスターの 「位置検出」 が行われます。一方、パターン化フローセルでは、予めクラスターができうる場所が決まっており、ランダムフローセルに比べて DNA のクラスターを高密度化することができます (= 面積あたりの取得配列数が多くなる)。

4. MiSeq v.s. iSeq: シーケンシング後とメンテナンス

MiSeq はシーケンス後に Stand-by Wash や Post-Run Wash が必要になります。また、定期的にマシン内の流路の Wash (Maintenance wash) も必要です。iSeq ではこれらの作業が必要なく 置いておくだけ です。これはとてもありがたいです。

5. MiSeq と iSeq で特に違うなと思ったこと

・操作・メンテナンスの簡単さ

これは上述したとおりです。

・シーケンス試薬の融解

MiSeq のシーケンス試薬は前日から冷蔵庫に入れて解凍するか、シーケンス当日に水につけて解凍します。当日に水に入れて融解する場合は、試薬カートリッジの側面にある 「Maximum Water Line」 を超えない水位に 60 - 90 分程度つけて融解します。

一方 iSeq の試薬融解はもう少々時間がかかります。20 - 25 度のウォーターバスで融解する場合は 6 時間、室温に放置する場合は 9 時間、冷蔵庫内で融解する場合は 36 時間かかります。「今からシーケンスしよう!」 となっても試薬を融解するための時間が必要なのでそうはいかないため、注意が必要です。また、試薬をしっかり融解しないでランを行うとシーケンスクオリティの低下を招きます

・PhiX の添加・使用するプライマーの構造

環境サンプルのアンプリコンシーケンスを行う場合は、これまで MiSeq のシーケンシングプライマーと分類群特異的なプライマーの間にランダム塩基を 6 個 (= NNNNNN) 入れて塩基の多様性を挙げて、フローセル上のクラスターの分離を改善していました。これまでの経験上、NNNNNN を入れておくと塩基の多様性をさらに向上させるための PhiX を入れなくても十分なクオリティが得られていました (%Pass Filter > 80-90%, %Q30 > 90% など)。

しかし、ランダムフローセルとパターン化フローセルの違いなのかもしれませんが、iSeq でのシーケンスではプライマーに NNNNNN を入れていても PhiX なしではシーケンスがうまくいきませんでした (例えば、%Q30 が 70% を切る)。試行錯誤の結果、結局 PhiX を 20 - 30% 添加、という条件に落ち着きました

「PhiX がシーケンスされた配列のうち何%を占めるか?」 が %Q30 にかなりクリティカルに効きます。現段階では PhiX を 20% 入れたのにシーケンス後に Align される PhiX が 5 - 10% だったり、逆に 20% を超えたりすることがまだあります。このあたりは今後の改善点です。

また、結局 PhiX を添加するのであればプライマーに NNNNNN を入れなくてもよいのでは、ということになり現在 iSeq でのシーケンスは NNNNNN を入れないプライマーを使用しています。こちらの方が少しだけターゲット領域を長く読むことができます。まだラン回数は多くないのですが、NNNNNN がなくても (PhiX がけっこう入っているためか) シーケンスの質にはあまり差がないように思います。

・%PassFilter の値

iSeq は MiSeq に比べて %PassFilter の値があまり高くならないのが気になっていましたが、どうやら原理的に 70 - 80% 程度で頭打ちになるようで、MiSeq のように 90% 超えの値は出ないようです。現在は PassFilter 後の配列数が十分に取得できているようであれば iSeq の %PassFilter の値はそれほど気にしないようにしています。

・出力される FASTQ ファイルの Q score

これは次に詳細を述べます。

6. 配列データの解析

Q score が違う

MiSeq と iSeq が吐き出す配列データ (FASTQ ファイル) は基本的には同じ構造ですが、各塩基の読み取りの正確性を表す Q score (Phred score) には大きな違いがあります。MiSeq の FASTQ ファイルには 40 までの 1 刻みで Q score が記載されていますが、iSeq の FASTQ ファイルには 3 種類の Q score しかありません。MiSeq で Q17 までは Q11、Q18 - Q29 は Q25, Q30 - Q40 は Q37 と表示されています。

MiSeq の Q score の分布
(スコアは 1 刻み)

iSeq の Q score の分布
(スコアは 3 つだけ)

データ解析への影響は?

これまでは配列データの解析には DADA2 (Callahan et al. 2016 Nature Methods) というパイプラインを使用していました。DADA2 は Q score が 1 刻みのデータを元に開発されていたため、iSeq のデータを見たとき、DADA2 を iSeq の配列データ解析に用いてもよいのだろうか?という疑問が生じました。DADA2 の原理的には iSeq のデータも解析できそう (してもよさそう) と思いましたが、確たる情報がありませんでした。そこで、以下の手順で自分で検証してみることにしました。

  1. 手持ちのデータとして MiSeq で読まれた原核生物の配列があったので、それを元にシェルスクリプトで 「iSeq が出力したような配列」 を生成しました (サンプル数は 126)。つまり、無理やり Q score は 3 種類だけにした配列データを生成しました。
  2. これら 「元々同じだった 2 種類の配列データ」 を DADA2 を使って全く同じように解析を行いました。
  3. その後、群集組成のパターン、各分類群の配列数や相対優占度を比較しました。

詳しい解析コードや結果は Github 上のレポジトリで公開してありますので、興味ある方は御覧ください (https://github.com/ong8181/random-scripts/tree/master/04_MiSeq_vs_iSeq_DADA2)。ここでは主な結果のみ紹介します。

原核生物の群集組成

enter image description here
上のパネルが MiSeq が出力した元配列データ、下のパネルがそれを iSeq っぽく編集した配列データを解析したものです。ぱっと見るとほとんど同じ群集組成を示しているように見えます。

各分類群の検出配列数の比較

点線は 1:1 のラインです。かなり 1:1 のラインに近い場所に点が集まっていますが、iSeq のデータの方がやや検出配列数が少ない傾向にあるようです。

各分類群の相対優占度の比較

こちらは相対優占度ですが、ほぼ 1:1 のラインに点がのっています。比較的レアな分類群がやや 1:1 のラインから外れています。

今回の検証の結論
今回の検証と DADA2 の解析アルゴリズムから考えると、iSeq のデータを DADA2 で解析しても、MiSeq のときと大きな違いはなさそう です。特に、全体的な組成や優占種に関心があるときは DADA2 での解析は問題ないと考えています。レア種に特に興味があるときは注意が必要かもしれませんが、そのようなときはそもそもショートリードのアンプリコンシーケンス以外の分析も視野にいれるべきでしょう。

また、上記の疑問 「iSeq のデータを DADA2 で解析しても大丈夫?」 を Github 上の DADA2 のフォーラムに、今回の解析結果とともに投げてみました (こちら → https://github.com/benjjneb/dada2/issues/1083)。DADA2 開発者の Callahan さんが回答してくださいましたが、Callahan さんも自分と同意見のようでした。また、NovaSeq も似たような形式の FASTQ ファイルを出力するため、そのような質問も同じフォーラムで行われていました (https://github.com/benjjneb/dada2/issues/791)。

まとめ

最初は MiSeq と同じノリで解析を始めていろいろとつまずきました。だいぶ慣れてきて、iSeq も楽しくなってきました。

参考資料

Written with StackEdit.

Empirical Dynamic Modeling with rEDM: (2) Near-future forecasting (Simplex projection)

20231015_Blogger0021 *This is an English version of my previous post (first translated by ChatGPT, checked and edited ...