Tìm hiểu 16S/18S/ITS Amplicon Metagenomic Sequencing

Tiếp nối bài blog trước so sánh giữa Amplicon và Shotgun Metagenomic Sequencing, bài này sẽ đi sâu hơn vào quy trình và cách đọc hiểu dữ liệu phân tích cung cấp bởi dịch vụ Novogene.

1. Giới thiệu

16S/18S/ITS Amplicon Metagenomic Sequencing sử dụng để giải trình tự các gen mục tiêu 16S rRNA hoặc 18S rRNA và Internal Transcribed Spacer (ITS) bằng các đoạn mồi phổ quát (Universal Primers). Phương pháp này giúp nghiên cứu mối quan hệ tiến hóa và phân loại của vi khuẩn, vi khuẩn cổ và nấm, xác định các biến thể gen trong những vùng gen đặc hiệu cũng như đánh giá sự đa dạng của hệ vi sinh vật.

Tìm hiểu 16S/18S/ITS Amplicon Metagenomic Sequencing

Hình 1: Gen mục tiêu sử dụng trong 16S/18S/ITS Amplicon Metagenomic Sequencing

Hình 2: Quy trình làm việc của Amplicon Metagenomic Sequencing

Tách chiết DNA: Với bước tách chiết, Novogene khuyến cáo sử dụng phương pháp CTAB (Cetyl trimethylammonium bromide) hoặc bất kỳ bộ kit thương mại nào phù hợp. Dưới đây là yêu cầu đầu vào của mẫu DNA sau tách chiết:

Khuếch đại & tinh sạch sản phẩm PCR: Khuếch đại PCR các vùng mục tiêu được thực hiện bằng cách sử dụng các đoạn mồi đặc hiệu có gắn mã vạch. Ngoài các đoạn mồi in-house được mặc định sử dụng trong 16S/18S/ITS Amplicon Metagenomic Sequencing, Novogene cũng có thể sử dụng mồi được thiết kế theo nhu cầu khách hàng. Các sản phẩm PCR được tinh sạch bằng hạt từ , sau đó thực hiện kiểm tra chất lượng trước khi chuyển sang bước chuẩn bị thư viện.

Định lượng và pool mẫu: Để kiểm soát chất lượng mẫu của các vùng 16SV4, 16SV34, ITS1-1F và ITS1-5F, Novogene sử dụng thiết bị Agilent 5400 (AATI) có độ nhạy và độ phân giải cao. Ngoài ra, Novogene có thể định lượng mẫu bằng phương pháp điện di gel agarose thông thường.

Chuẩn bị thư viện và giải trình tự: Một lượng tương đương sản phẩm PCR từ mỗi mẫu được gộp (pool) lại, sửa chữa tạo đầu bằng, gắn đuôi A và adapter. Thư viện được định lượng bằng Qubit hoặc real-time PCR để xác định nồng độ, trong khi Bioanalyzer được sử dụng để kiểm tra và đảm bảo yêu cầu về kích thước fragment. Sau khi định lượng, các thư viện được chuẩn hóa nồng độ trước khi pool và giải trình tự trên nền tảng Illumina theo nồng độ thư viện phù hợp.

2. Quy trình phân tích tin sinh học cho Amplicon Metagenomic Sequencing

Dựa trên mục tiêu nghiên cứu, bạn có thể lựa chọn giữa hai phiên bản của phương pháp phân tích tin sinh học do Novogene cung cấp – QIIME 1 và QIIME 2 (Quantitative Insights Into Microbial Ecology).

Một điểm khác biệt đáng chú ý là QIIME 1 chỉ cung cấp kết quả phân tích dựa trên OTU (Operational Taxonomic Units), trong khi QIIME 2 sử dụng phương pháp phân tích dựa trên ASV (Amplicon Sequence Variants). Dưới đây là thông tin chi tiết phân biệt sự khác biệt giữa OTU (QIIME 1) và ASV (QIIME 2):

Amplicon Sequence Variants – ASV (Qiime2)	Operational Taxonomic Units – OTU (Qiime1)
● Chú thích phân loại: phân biệt chính xác các đoạn trình tự thành các biến thể trình tự amplicon (ASVs) dựa trên mức tương đồng ~99% ● Độ phân giải lên đến cấp độ loài (species). ● Dễ dàng so sánh giữa các nghiên cứu.	● Chú thích phân loại: các đoạn trình tự được nhóm lại thành các đơn vị OTUs dựa trên mức tương đồng ~97%. ● Độ phân giải lên cấp độ chi (genus). ● Cần phải phân tích lại nếu thêm các đoạn trình tự mới để đảm bảo OTUs phản ánh chính xác dữ liệu hiện tại.

Hình 3: Quy trình phân tích Qiime2 sử dụng phương pháp ASV

Hình 3 thể hiện quy trình phân tích dữ liệu được sử dụng trong Qiime 2. Sau khi dữ liệu được gộp và lọc nhằm loại bỏ các đoạn trình tự không đạt chất lượng hoặc nhiễu, các đoạn trình tự hợp lệ (effective tags) được sử dụng để phân cụm OTU/ASV trước khi thực hiện chú thích phân loại (taxa annotation). Nhằm giúp bạn hiểu rõ hơn về các loại biểu đồ được cung cấp bởi dịch vụ của Novogene, một số biểu đồ minh họa sẽ được trình bày và giải thích cụ thể ở phần bên dưới.

Sau khi hoàn tất bước kiểm soát chất lượng và phân cụm ASV, quá trình phân tích thường tập trung vào ba pipeline chính: Phân tích ASV, Phân tích đa dạng alpha và Phân tích đa dạng beta. Ba nhóm này cung cấp cái nhìn toàn diện về thành phần phân loại vi sinh vật, mức độ đa dạng sinh học của từng mẫu và sự khác biệt giữa các cộng đồng vi sinh vật.

2.1. Phân tích ASV

Phân tích ASV chủ yếu được sử dụng để xác định và mô tả thành phần phân loại cũng như cấu trúc phát sinh chủng loài (phylogenetic structure) của các cộng đồng vi sinh vật.

Chú thích phân loại (Taxonomy Annotation): Mỗi ASV được phân loại dựa trên nguồn dữ liệu đã được xác định từ trước, cho phép định danh vi sinh vật từ bậc ngành (phylum) đến bậc chi (genus).
Phân bố loài (Species Distribution): Hồ sơ phân loại (taxonomic profiles) được thể hiện dưới dạng biểu đồ theo từng mẫu hoặc nhóm mẫu replicate, giúp dễ dàng nhận ra các nhóm vi sinh vật nổi bật hoặc đặc trưng trong từng điều kiện cụ thể.
Biểu đồ tam giác (Ternary Plot): Biểu đồ này dùng để thể hiện sự phân bố các loài vi sinh vật giữa ba nhóm replicate hoặc mẫu khác nhau, tại một bậc phân loại (taxon) cụ thể. Ví dụ trong biểu đồ hình 4, các nhóm họ vi khuẩn như Bacteroidales, Enterobacteriales có ý nghĩa như sau:
- Bacteroidales (màu đỏ) nằm gần D25 với đường kính lớn nhất, cho thấy đây là họ vi khuẩn phổ biến nhất và thường xuất hiện ở mẫu D25.
- Enterobacterales (màu vàng) tập trung gần D26 với đường kính nhỏ nhất, cho thấy đây là họ vi khuẩn ít phổ biến nhất và thường xuất hiện ở mẫu D26.

Hình 4: Biểu đồ tam giác (Ternary plot)

Cây phát sinh chủng loài (Phylogenetic Tree): Để nghiên cứu sâu hơn về mối quan hệ tiến hóa, 100 chi (genera) được chọn dựa trên biểu đồ phân bố loài để xây dựng cây phát sinh chủng loài dạng hình tròn với các đặc điểm sau:
- 100 chi được nhóm theo bậc ngành (phylum), ví dụ như Bacteroidota, Cyanobacteria, mỗi ngành được thể hiện bằng nhánh với màu khác nhau.
- Sự xuất hiện của các chi (ví dụ: Lactobacillus) trong từng nhóm mẫu (ví dụ: A100) được thể hiện bằng các ô màu bên ngoài vòng tròn.
- Cây này giúp làm rõ liệu các loài vi sinh vật chiếm ưu thế có quan hệ tiến hóa gần nhau (cùng nhánh) hay phân tán rộng trong cây phát sinh chủng loài.
Ghi chú: Một ví dụ đơn giản về các cấp độ phân loại:
- Đơn vị phân loại (taxon) là vi sinh vật ở bất kỳ cấp độ phân loại nào.
- Giới (Kingdom) → Ngành (Phylum) → Lớp (Class) → Order (Bộ) → Họ (Family) → Chi (Genus) → Loài (Species) → Chủng (Strain).
- Ví dụ: Bacteria → Proteobacteria → Gamma Proteobacteria → Enterobacterales → Enterobacteriaceae → Escherichia → Escherichia coli → Escherichia coli O157:H7

Hình 5: Cây phát sinh chủng loài (Phylogenetic Tree)

Phân tích độ phong phú tương đối (Relative Abundance Analysis): 10 taxa ở mỗi cấp phân loại được chọn để tạo biểu đồ Relative Abundance Analysis. Biểu đồ thể hiện tần suất xuất hiện của các taxon cụ thể trên các mẫu hoặc nhóm replicate khác nhau.

Hình 6: Phân tích độ phong phú tương đối (Relative Abundance Analysis)

Biểu đồ nhiệt thể hiện độ phong phú vi sinh theo phân loại (Taxonomic Abundance Cluster Heatmap)
- Phân cụm giúp xác định các mẫu có quần thể vi khuẩn tương tự và phân biệt sự khác biệt giữa các mẫu.
- Thể hiện tần suất xuất hiện của từng nhóm vi sinh vật (theo bậc phân loại như loài, chi, họ) trong các mẫu.
- Màu sắc càng đậm thể hiện độ hiện diện càng cao của taxon cụ thể trong mẫu đó.

Hình 7: Biểu đồ nhiệt thể hiện độ phong phú vi sinh theo phân loại (Taxonomic Abundance Cluster Heatmap)

2.2. Phân tích đa dạng alpha

Phân tích đa dạng alpha đo lường mức độ phong phú và đồng đều của cộng đồng vi sinh vật trong từng mẫu/ nhóm mẫu replicate, từ đó cung cấp thông tin về mức độ phức tạp bên trong và sự ổn định của hệ vi sinh.

Biểu đồ Venn ( ≤ 5 mẫu): Mỗi vòng tròn đại diện cho một mẫu hoặc nhóm replicate (dựa trên dữ liệu ASV đã chuẩn hóa). Vùng chồng lấp thể hiện các ASV chung giữa các mẫu, còn vùng không chồng lấp thể hiện các taxon đặc trưng riêng cho từng mẫu.
Biểu đồ Hoa (Flower Diagram, > 5 mẫu): Tương tự biểu đồ Venn nhưng phù hợp hơn với số lượng mẫu lớn. Mỗi cánh hoa biểu thị số lượng ASV đặc trưng của một nhóm, còn phần trung tâm biểu thị số lượng ASV chung giữa tất cả các nhóm.

Hình 8: Biểu đồ Venn và Flower

Đường cong Rarefaction (Rarefaction Curve): Biểu diễn mối quan hệ giữa độ sâu giải trình tự và số lượng loài được phát hiện (OTUs/ASVs), nhằm đánh giá độ sâu giải trình tự cần thiết để bao quát sự đa dạng vi sinh vật trong mẫu. Ví dụ trong hình 7:
- Trục X là số lượng reads, trục Y là chỉ số Chao1 ước tính độ đa dạng loài: mỗi đường biểu diễn một mẫu; đường cong nằm ngang cho thấy độ sâu giải trình tự phù hợp để phản ánh sự đa dạng quần thể sinh vật.
- Nhóm A có chỉ số Chao1 cao nhất (~400–450), nhóm D thấp nhất (~150–200) → cho thấy sự khác biệt rõ rệt về đa dạng vi sinh giữa các nhóm.
- Phần lớn đường cong bão hòa sau ~20.000 reads, gợi ý đây là ngưỡng thích hợp để giải trình tự/chuẩn hóa dữ liệu trước khi so sánh giữa các mẫu.

Hình 9: Đường cong Rarefaction

2.3. Phân tích đa dạng beta

Phân tích đa dạng beta kiểm tra sự khác biệt trong cộng đồng vi khuẩn giữa các mẫu hoặc nhóm replicate, làm nổi bật sự tương đồng hoặc khác biệt.

Beta diversity heatmap: Biểu diễn trực quan mức độ khác biệt giữa từng cặp mẫu dựa trên các giá trị khoảng cách như Weighted hoặc Unweighted UniFrac. Hình 10 bên dưới là 1 ví dụ cụ thể:
- Số phía trên biểu thị khoảng cách Weighted UniFrac, số phía dưới (trong ngoặc đơn) là khoảng cách Unweighted UniFrac.
- Thang màu phía dưới (từ đỏ → vàng) thể hiện mức độ khác biệt (beta diversity) giữa các mẫu.
- Dựa trên sự có mặt hay không của các loài thì mẫu A và B cho thấy sự khác biệt lớn nhất về mặt thành phần vi sinh vật (Unweighted UniFrac = 0.671).

Hình 10: Biểu đồ nhiệt phân tích đa dạng beta (Beta diversity heatmap)

Ghi chú: Giải thích Weighted và Unweighted UniFrac

Đặc điểm	Unweighted UniFrac	Weighted UniFrac
Loại dữ liệu sử dụng	Khoảng cách phát sinh chủng loại dựa trên sự hiện diện/không hiện diện của các nhóm vi sinh vật ở bất kì cấp bậc nào	Khoảng cách phát sinh chủng loại dựa trên độ phong phú tương đối/ tần suất xuất hiện của các nhóm vi sinh vật ở bất kì cấp bậc nào
Độ nhạy	Độ nhạy cao với taxa hiếm	Độ nhạy cao với taxa chiếm ưu thế
Ý nghĩa	Đo lường sự khác biệt về thành phần vi sinh vật, không quan tâm đến độ phong phú.	Đo lường sự khác biệt về cấu trúc và độ phong phú của cộng đồng vi sinh vật.

Unweighted Pair-group Method with Arithmetic Mean (UPGMA): phương pháp phân cụm phân cấp dựa trên khoảng cách hoặc mức độ giống nhau tính từ các đoạn trình tự 16S rRNA hoặc dữ liệu về thành phần vi sinh vật để tạo ra cây phát sinh loài. Cây này nhóm những vi sinh vật hoặc mẫu có đặc điểm tương đồng.

Ngoài ra, chúng ta có thể tạo ra ma trận khoảng cách khi có nhiều mẫu để so sánh sự giống và khác biệt giữa các mẫu. Sau đó, các phương pháp thống kê phức tạp hơn có thể được sử dụng như:

PCA (Phân tích thành phần chính)
PCoA (Phân tích tọa độ chính)
NMDS (Tỷ lệ đa chiều phi tuyến)

Những phương pháp này giúp nhìn rõ hơn sự khác biệt giữa các nhóm mẫu – có thể là nhóm khỏe mạnh so với nhóm bệnh, hoặc đất trồng cây A so với cây B.

Ngoài ra, Novogene còn cung cấp các phân tích nâng cao như phân tích môi trường, dự đoán chức năng, v.v. Để tham khảo chi tiết thêm thông tin về Demo result có trong dịch vụ Novogene, hãy liên hệ GeneSmart.

3. Ứng dụng Amplicon Metagenomic Sequencing

Thông qua giải trình tự 16S rRNA metagenomics, tính đa dạng alpha và tính đa dạng beta của hệ vi sinh đường ruột được đánh giá, làm rõ sự khác biệt về thành phần vi sinh vật giữa các mẫu.
Những thay đổi trong hệ vi sinh vật được ghi nhận dựa trên tần suất xuất hiện của các vi khuẩn ở cấp độ ngành, họ và chi. Nhờ vào các phân tích thống kê, các nhà nghiên cứu có thể xác định mức độ xuất hiện của các nhóm vi khuẩn cụ thể – từ đó phát hiện ra những loại vi khuẩn đóng vai trò đặc trưng và có sự khác biệt đáng kể giữa các nhóm mẫu.

GeneSmart cam kết mang đến cho khách hàng giải pháp hiệu quả cùng dịch vụ giải trình tự đánh tin cậy từ Novogene.

Tìm hiểu thêm về dịch vụ 16S/18S/ITS Amplicon Metagenomic Sequencing cung cấp bởi GeneSmart tại đây

4. Nguồn tham khảo

Yang, Li et al. “Comprehensive Analysis of the Relationships Between the Gut Microbiota and Fecal Metabolome in Individuals with Primary Sjogren’s Syndrome by 16S rRNA Sequencing and LC-MS-Based Metabolomics.” Frontiers in immunology vol. 13 874021. 11 May. 2022, doi:10.3389/fimmu.2022.874021
Bulgarelli, Davide et al. “Structure and function of the bacterial root microbiota in wild and domesticated barley.” Cell host & microbe vol. 17,3 (2015): 392-403. doi:10.1016/j.chom.2015.01.011
Langille, Morgan G I et al. “Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences.” Nature biotechnology vol. 31,9 (2013): 814-21. doi:10.1038/nbt.2676
Novogene Co., Ltd. 16S Amplicon QIIME2 Analysis Report (Demo result)

------------

GENESMART CO., LTD | Phân phối ủy quyền 10X Genomics, Altona, Biosigma, Hamilton, IT-IS (Novacyt), Norgen Biotek, Rainin tại Việt Nam.

Website: https://genesmart.vn/

Hotline: 0947 528 778

Email: [email protected]