QIIME2 Tutorial untuk Data DNA...

1

QIIME2 Tutorial untuk Data DNA Metabarcoding

Disiapkan oleh:

Ni Kadek Dita Cahyani, Aji Wahyu Anggoro

Yayasan Biodiversitas Indonesia, Denpasar, Bali, Indonesia July 2020

Pendahuluan Analisis bioinformatic merupakan tantangan baru dalam penelitian yang berbasiskan Next

Generation Sequencing (NGS). Pengolahan data sekuen DNA dalam jumlah besar memerlukan sarana dan prasarana yang memadai. Misalnya, dibutuhkan computer dengan memory yang cukup besar untuk menyimpan data mentah, melakukan pengolahan data, menyimpan data yang sedang diolah dan meyimpan hasil akhir dari analisis. Tutorial kecil ini akan memperkenalkan langkah-langkah pengolahan data dari metode NGS-DNA Metabarcoding, dengan menggunakan pipeline QIIME2 (the Quantitative Insights Into

Microbial Ecology 2 program, https://qiime2.org/) (Bolyen et al., 2018). Selanjutnya, ada banyak pipeline lain serta cara untuk melakukan trouble shooting yang tersedia di internet dan dapat di-akses secara bebas. Harapannya, dengan tutorial ini, kita dapat melakukan analisis secara langsung dengan data yang sederhana, sehingga para peneliti memiliki gambaran tentang apa itu analisis bioinformatika untuk kebutuhan penelitian berbasis NGS. Sebelum melakukan analisis bioinformatika, ada beberapa hal yang harus diperhatikan atau menjadi catatan: 1. Primers

Primer atau DNA marker yang dipilih tentunya telah disesuaikan dengan pertanyaan riset. Primer akan menentukan pemilihan database pada proses taxonomy assignment, dan threshold atau batas persentase kesamaan yang digunakan dalam metode clustering. Pada umumnya untuk pada microbia dengan menggunakan marker 16S rRNA, threshold yang digunakan adalah 97% identity untuk dapat membedakan bakteria pada level genus. 97% threshold juga digunakan pada marker COI (Cytochrome Oxidase subunit 1). Latar belakang penggunakan 97% threshold adalah bahwa rata-rata, minimum dissimilarity antara spesies berdasarkan marker yang umum dipakai pada primer metabarcoding (misal: COI, 16S) adalah sekitar 3% (Hebert, Ratnasingham, Waard, B, & Jeremy, 2003). Sedangkan untuk 18S rRNA, threshold yang umumnya digunakan adalah 99%.

2

Contoh kombinasi primer COI dengan Nextera-tail (Illumina primer) berdasarkan (Leray et al., 2013) yang telah digunakan untuk analisis metabarcoding pada invertebrata: • Ukuran produk sekuen: kurang lebih 380 bp (313 bp COI + 67 bp tails)

• Forward: i5 (F) NexTail mlCOIintF

TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG GGWACWGGWTGAACWGTWTAYCCYCC

• Reverse: i7 (R) NexTail jgCOIR_ GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG TAIACYTCIGGRTGICCRAARAAYCA

2. Paired-end atau Single end Ini berhubungan dengan metode yang digunakan dalam mengamplifikasi sequence DNA pada proses PCR (Polymerase Chain Reaction). Sequence umumnya diamplifikasi dari dua arah atau memakai sepasang primer (paired-end). Akan tetapi, sekuen juga dapat diamplifikasi hanya dari satu arah dan memakai 1 primer (single end).

3. Protokol laboratorium secara umum Protokol atau langkah-langkah yang dilakukan saat mempersiapkan sekuen (library preparation) sangat mempengaruhi langkah-langkah dalam melakukan analisis bioinformatika. Beberapa laboratorium memiliki pendekatan yang berbeda-beda dalam menyiapkan library. Salah satu contohnya adalah sistem dual indexing, dimana PCR dilakukan dua kali. PCR pertama memakai primer universal, seperti yang disebutkan di atas, lengkap dengan Nextera barcode-nya. Kemudian proses selanjutnya adalah menggabungkan beberapa sample menjadi satu (multiplex) dengan memberikan barcode yang unik pada tiap sample yang digabungkan. Dari protocol ini, yang harus diperhatikan adalah pencatatan identitas sample atau sample_ID yang konsisten, lengkap dengan barcode yang dipasangkan pada sample_ID tersebut, sehingga tidak terjadi kerancuan ketika sample di-unduh dari mesin sekuensing. 4. Mesin sekuensing dan data yang dihasilkan Mesin sekuensing yang digunakan dalam riset NGS memiliki spesifikasi berbeda-beda. Mulai dari kemampuan menganalisis data, besar data yang ampu dianalisis, hingga reagen spesifik yang harus digunakan. Saat ini, umumnya NGS memakai Illumina platform yang memiliki reagen dan protocol yang cukup umum. Berhubungan dengan analisis bioinformatika, pengetahuan tentang mesin sekuensing yang digunakan akan membantu kita menentukan parameter yang dipakai dalam proses analisis, misalnya berapa rata-rata error yang dihasilkan sebuah mesin. Hal lain yang perlu diketahui adalah bagaimana sebuah mesin sekuensing memproduksi data atau sekuen. Apakah sekuen masih dalam gabungan beberapa sekuen dengan barcoding berbeda? Apakah sekuen yang dihasilkan sudah di-demultiplexed? Atau apakah barcode dari primer sudah dihapus oleh mesin. Pengetahuan ini akan memudahkan kita dalam mempersiapkan langkah-langkah analisis bioinformatika.

3

QIIME2 pipeline Qiime2 merupakan sebuah pipeline bioinformatika yang terintegrasi dan dibuat untuk menganalisa microbiome data. Data yang dihasilkan oleh Qiime2 disebut sebagai QIIME 2

artifacts (.qza) dan visualization file (.qzv). • Qiime2 artifacts berisi data dan metadata yang menjelaskan data bersangkutan, seperti

tipe data, format data dan bagaimana data dibuat. • Visualization data adalah data yang dihasilkan untuk dapat divisualisasi melalui Qiime2

view interaface (https://view.qiime2.org/). Install qiime2: https://docs.qiime2.org/2020.2/install/ Langkah-langkah analisis dengan QIIME2 1. Mengunduh data dan demultiplexing Jika data mentah masih dalam bentuk gabungan beberapa sample atau multiplexed, maka kita perlu melakukan demultiplexing atau pemisahan data atau sampel menjadi individual sample. Pada proses ini yang diperlukan adalah list barcode yang digunakan sesuai dengan sample_ID. Jika data mentah sudah dipisahkan kedalam individual sample, yang perlu diperhatikan adalah apakah data tersebut merupakan data dua arah (paired-end) atau satu arah (single end). Disini yang diperlukan adalah manifest file (.txt file) yang berfungsi mengidentifikasi sekuen yang unik. Untuk lebih jelas, silakan masuk ke: https://docs.qiime2.org/2020.2/tutorials/moving-pictures/ Disini kita akan memakai contoh, 2 sampel yang dianalisis dari dua arah (paired-end). Contoh nama file data mentah yang dihasilkan oleh mesin Illumina sekuensing:

• 60A_S1_L001_R1_001.fastq.gz • 60A_S1_L001_R2_001.fastq.gz • 206_S2_L001_R1_001.fastq.gz • 206_S2_L001_R2_001.fastq.gz • Catatan:

• 60A dan 206 adalah sample_ID • S1 dan S2 adalah kode yang dihasilkan mesin untuk menyatakan ini sample keberapa

yang dianalisis mesin • R1 dan R2 adalah penanda arah amplifikasi (forward dan reverse) • Kita akan membuat folder “qiime2_workshop” dan didalamnya kita akan membuat

folder “Workshop_data” untuk menyimpan semua sekuen. • Disini kita juga bisa melakukan cek secara manual dan random, apakah sekuen masih

berisi primers atau tidak.

4

Fastq file: Fastq memiliki 4 baris, yang terdiri dari label atau sequence identifier di baris pertama; urutan sekuen di baris kedua; tanda + pada baris ketiga berfungsi sebagai separator; dan kualitas dari sekuen (Phred scores atau Q scores) di baris ke empat. Q scores disesuaikan dengan ASCII standard (American Standard Code for Information Interchange). https://www.drive5.com/usearch/manual/quality_score.html

Contoh manifest file: sample-id,absolute-filepath,direction ASEU1A100,$PWD/Workshop_data/60A_S1_L001_R1_001.fastq.gz,forward ASEU1A100,$PWD/Workshop_data/60A_S1_L001_R2_001.fastq.gz,reverse ASEU1A500,$PWD/Workshop_data/206_S2_L001_R1_001.fastq.gz,forward ASEU1A500,$PWD/Workshop_data/206_S2_L001_R2_001.fastq.gz,reverse Catatan:

• Kita akan mengubah sample_ID 60A menjadi ASEU1A100 dan 206 menjadi ASEU1A500

• PWD (print working directory) untuk menuliskan directory dimana kita bekerja saat ini

Dari sini kita akan menggabungkan data menjadi Qiime2 artifacts file untuk bisa masuk ke tahap selanjutnya. Pada proses ini kita akan bekerja pada folder “qiime2_workshop” yang telah dipersiapkan. Pada proses ini, sample akan di paired-end dan kita bisa mengecek kualitas sekuen dari visualization file. Data awal informasi yang perlu dimasukkan ke dalam folder kerja (folder “qiime2_workshop”) adalah manifest file (manifest_workshop.txt) dan informasi meta-data dari sampel tersebut (map_workshop.txt). Kita akan mulai dengan cd command yang akan membawa kita ke folder atau directory tempat kita bekerja. Pastikan juga jika Qiime2 sudah diaktifkan.

@M03292:210:000000000-C6PJK:GGAACTGGTTGAACTGTTTACCCCCCTTTATG+CCCCC9FFGG::FGEG;FGG<D@FDGGGGG,,

Label Sequence

Q scores (as ASCII character)

Base=T; Q=”:”=25

5

qiime tools import \ --type 'SampleData[PairedEndSequencesWithQuality]' \ --input-path manifest_workshop.txt \ --output-path paired-end-workshop.qza \ --input-format PairedEndFastqManifestPhred33 kita bisa melihat arti setiap maksud dan tujuan command atau perintah kita terhadap qiime2 tersebut dengan menambahkan kata --help di akhir judul command perintah contoh: qiime tools import --help Maka kita bisa mengetahui maksud arti dari perintah-perintah yang dibuat seperti –-type, --input-path, --output-path, --input-format. kita bisa melakukan –help tersebut kesemua judul perintah command kita qiime demux summarize \ --i-data paired-end-workshop.qza \ --o-visualization paired-end-workshop.qzv kita bisa melihat hasil visualisasi dari setiap format data .qzv melalui https://view.qiime2.org/, drag file tersebut kedalam web browser tersebut 2. Quality control - DADA2 DADA2 (Callahan et al., 2016) merupakan sebuah pipeline yang dipakai untuk melakukan deteksi dan koreksi terhadap sekuen amplicon yang dihasilkan oleh Illumina platform. Pada proses ini akan dilakukan quality control yang akan mem-filter phiX reads serta mem-filter chimera. PhiX merupakan single-stranded DNA (ssDNA) virus yang digunakan secara komersial dalam proses sekuensing sebagai control positif. Jika kita ingin potong primer sebelum proses DADA2, kita bisa memakai “cutadapt” (Martin, 2011). Kemudian di DADA2, kita beri “p-trim-left-f” dan “p-trim-left-r” nilai 0. qiime cutadapt trim-paired \ --i-demultiplexed-sequences paired-end-workshop.qza \ --p-cores 8 \ --p-front-f GGGWACWGGWTGAACWGTWTAYC \ --p-front-r TAAACTTCAGGGTGACCAAARAA \ --o-trimmed-sequences demux-trimmed-workshop.qza qiime demux summarize \ --i-data demux-trimmed-workshop.qza \ --o-visualization demux-trimmed-workshop.qzv

6

Jika tidak, kita dapat langsung masuk ke DADA2 dan memberikan parameter panjang primer forward dan reverse yang akan dipotong. Parameter “trunc-len-f” dan “trunc-len-r” merupakan parameter “panjang sekuen” yang akan digunakan dan dipilih karena memiliki kualitas yang baik. Panjang sekuen yang akan dipotong ditentukan oleh visualization data pada analisis sebelumnya (“paired-end-workshop.qzv” atau “demux-trimmed-workshop.qv”).

Guna visualisasi data, pada proses ini kita akan membutuhkan metadata atau map.txt yang berisi keterangan tentang sample kita. Terlampir contoh dari map.txt. qiime dada2 denoise-paired \ --i-demultiplexed-seqs demux-trimmed-workshop.qza \ --p-trim-left-f 0 \ --p-trim-left-r 0 \ --p-trunc-len-f 200 \ --p-trunc-len-r 160 \ --o-table table-dada2.qza \ --o-representative-sequences rep-seqs-dada2.qza \ --o-denoising-stats denoising-stats-dada2.qza \ --p-n-threads 24 Catatan: DADA2 memakan waktu running yang agak lama; Pada protocol ini, kita lewati langkah ini dan gunakan data yang sudah disiapkan qiime metadata tabulate \ --m-input-file denoising-stats-dada2.qza \ --o-visualization denoising-stats-dada2.qzv qiime feature-table tabulate-seqs \ --i-data rep-seqs-dada2.qza \ --o-visualization rep-seqs-dada2.qzv qiime feature-table summarize \ --i-table table-dada2.qza \ --m-sample-metadata-file map_workshop.txt \ --o-visualization table-dada2.qzv Visualisasi yang dihasikan:

- denoising-stats-dada2.qzv; rep-seqs-dada2.qzv; table-dada2.qzv. - Beberapa istilah dalam table-dada2.qzv:

o Feature adalah jumlah sekuence unik yang juga berkorelasi dengan jumlah taxa setelah melakukan taxonomy assignment.

o Frequency adalah jumlah sekuen total atau sequence reads

7

3. Clustering Proses clustering merupakan proses pengelompokan sekuen berdasarkan persentase kesamaannya. Proses ini akan menghasilkan Operational Taxonomic Unit (OTU). Proses clustering dapat dilakukan dengan tiga pendekatan; de novo, close reference dan open refence.

• De novo: pada proses ini sekuen atau reads diagabungkan antara satu dengan lainnya tanpa ada sekuen pembanding atau reference sequence.

• Close reference: sekuen dikelompokkan bedasarkan sekuen pembanding dan sekuen yang tidak memiliki pembanding, tidak akan digunakan dalam analisis.

• Open reference: sekuen dikelompokkan berdasarkan sekuen pembanding, dan sekuen yang tidak memiliki pembanding akan dikelompokkan secara de novo.

Pada contoh ini, kita akan menggunakan Vsearch pipeline (Rognes, Flouri, Nichols, Quince, & Mahé, 2016) untuk melakukan clustering dengan pendekatan de novo. qiime vsearch cluster-features-de-novo \ --i-table table-dada2.qza \ --i-sequences rep-seqs-dada2.qza \ --p-perc-identity 0.97 \ --o-clustered-table merged-table-dada2-clustering.qza \ --o-clustered-sequences merged-rep-seqs-dada2-clustering.qza qiime feature-table summarize \ --i-table merged-table-dada2-clustering.qza \ --o-visualization merged-table-dada2-clustering.qzv qiime feature-table tabulate-seqs \ --i-data merged-rep-seqs-dada2-clustering.qza \ --o-visualization merged-rep-seqs-dada2-clustering.qzv Catatan:

• Selain pendekatan Clustering atau membuat OTU, saat ini juga ada pendekatan ASV (Amplicon Sequence Variants) (Callahan, McMurdie, & Holmes, 2017). Pendekatan ini menasumsikan setiap sekuen unik sebagai satu ASV. Dengan demikin jumlah ASVs akan lebih banyak daripada jumlah OTUs pada data yang sama.

• Secara teknis, jika ingin menggunakan pendekatan ASVs, kita dapat melewatkan proses clustering dan memakai data hasil dari DADA2 sebagai data ASVs.

4. Taxonomy assignment Taxonomy assignment adalah sebuah cara untuk membandingkan data sekuen yang dimiliki dengan database sekuen yang tersedia untuk mendapatkan taxonomy yang mendekati. Pada proses ini, diperlukan database yang telah dibuat khusus berdasarkan marker tertentu dan sudah melalui peer review. Beberapa contoh database dapat diunduh melalui: PR2 (https://pr2-database.org), SILVA (https://www.arb-silva.de/projects/eukaryotic-taxonomy), Midori (http://www.reference-midori.info/download.php, Wang et al., 2007)

8

Pada contoh ini, kita akan menggunakan database Midori (Leray, Ho, Lin, & Machida, 2018) sebagai pembanding terhadap data COI metabarcoding kita. qiime feature-classifier classify-consensus-blast \ --i-query merged-rep-seqs-dada2-clustering.qza \ --i-reference-taxonomy MIDORI_LONGEST_20180221_COI_taxonomy.qza \ --i-reference-reads MIDORI_LONGEST_20180221_COI.qza \ --o-classification taxonomy.qza qiime metadata tabulate \ --m-input-file taxonomy.qza \ --o-visualization taxonomy.qzv 5. Phylogenetic tree qiime phylogeny align-to-tree-mafft-fasttree \ --i-sequences merged-rep-seqs-dada2-clustering.qza \ --o-alignment aligned-rep-seqs.qza \ --o-masked-alignment masked-aligned-rep-seqs.qza \ --o-tree unrooted-tree.qza \ --o-rooted-tree rooted-tree.qza 6. Mengubah file hasil Qiime2 untuk dapat dipakai pada program statistic dan visualisasi

hasil qiime tools export \ --input-path merged-table-dada2-clustering.qza \ --output-path statistic biom convert -i statistic/feature-table.biom -o statistic/otu_table.txt --to-tsv qiime tools export \ --input-path unrooted-tree.qza \ --output-path statistic qiime tools export \ --input-path taxonomy.qza \ --output-path statistic

Hasilnya adalah:

- Folder statistic yang didalamnya terdiri dari file otu_table; tree.nwk; Taxonomy.tsv 7. Barplot qiime taxa barplot \ --i-table merged-table-dada2-clustering.qza \ --i-taxonomy taxonomy.qza \ --m-metadata-file map_workshop.txt \ --o-visualization taxa-bar-plots.qzv Hasil ini untuk melihat prosentasi taxonomic assigment dari 2 sampel ASEU1A100 dan ASEU1A500

9

8. Alpha and beta diversity Pada proses ini kita akan menentukan “--p-sampling-depth”. Ini meupakan even sampling (i.e.

rarefaction) depth. Nilai bisa kita lihat pada merged-table-dada2-clustering.qzv dan biasanya diambil nilai terendah dari reads/sekuen per sample. qiime diversity core-metrics-phylogenetic \ --i-phylogeny rooted-tree.qza \ --i-table merged-table-dada2-clustering.qza \ --p-sampling-depth 986 \ --m-metadata-file map_workshop.txt \ --output-dir core-metrics-results qiime emperor plot \ --i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \ --m-metadata-file map_workshop.txt \ --p-custom-axes Fraction_Size \ --o-visualization core-metrics-results/unweighted-unifrac-emperor-days-since-experiment-start.qzv qiime emperor plot \ --i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza \ --m-metadata-file map_workshop.txt \ --p-custom-axes Fraction_Size \ --o-visualization core-metrics-results/bray-curtis-emperor-days-since-experiment-start.qzv Visualization ! Daftar Pustaka Bolyen, E., Rideout, J. R., Dillon, M. R., Bokulich, N. A., Abnet, C., Ghalith, G. A. Al, …

Naimey, A. T. (2018). QIIME 2 : Reproducible , interactive , scalable , and extensible microbiome data science. PeerJ. https://doi.org/10.7287/peerj.preprints.27295v2

Callahan, B. J., McMurdie, P. J., & Holmes, S. P. (2017). Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. ISME Journal. https://doi.org/10.1038/ismej.2017.119

Callahan, B. J., McMurdie, P. J., Rosen, M. J., Han, A. W., Johnson, A. J. A., & Holmes, S. P. (2016). DADA2: High-resolution sample inference from Illumina amplicon data. Nature

Methods, 13(7), 581–583. https://doi.org/10.1038/nmeth.3869 Hebert, P. D. N., Ratnasingham, S., Waard, J. R. De, B, P. R. S. L., & Jeremy, R. (2003).

Barcoding animal life : cytochrome c oxidase subunit 1 divergences among closely related species Barcoding animal life : cytochrome c oxidase subunit 1 divergences among closely related species. https://doi.org/10.1098/rsbl.2003.0025

Leray, M., Ho, S. L., Lin, I. J., & Machida, R. J. (2018). MIDORI server: a webserver for taxonomic assignment of unknown metazoan mitochondrial-encoded sequences using a curated database. Bioinformatics (Oxford, England). https://doi.org/10.1093/bioinformatics/bty454

Leray, M., Yang, J. Y., Meyer, C. P., Mills, S. C., Agudelo, N., Ranwez, V., … Machida, R. J. (2013). A new versatile primer set targeting a short fragment of the mitochondrial COI region for metabarcoding metazoan diversity: application for characterizing coral reef fish

10

gut contents. Frontiers in Zoology, 10(1). https://doi.org/10.1186/1742-9994-10-34 Martin, M. (2011). Cutadapt removes adapter sequences from high-throughput sequencing reads.

EMBnet.Journal. https://doi.org/10.14806/ej.17.1.200 Murphy, K. and Macdonald, K. 2018. COI metabarcoding – Illumina DNA library preparation

using two-step PCR. Laboratories of Analytical Biology. Smithsonian Institution National Museum of Natural History.

Rognes, T., Flouri, T., Nichols, B., Quince, C., & Mahé, F. (2016). VSEARCH: a versatile open source tool for metagenomics. PeerJ, 4. https://doi.org/10.7717/peerj.2584

***************** TERIMA KASIH *****************

QIIME2 Tutorial untuk Data DNA...

Documents

Transcript of QIIME2 Tutorial untuk Data DNA...