Giải trình tự Shotgun Metagenomic cho người mới bắt đầu

Nếu bạn đang cân nhắc giữa phương pháp 16S/18S/ITS Amplicon và Shotgun Metagenomic Sequencing và cần hiểu rõ thêm các yếu tố liên quan, hãy đọc blog trước đây của chúng tôi tại đây.

1. Giới thiệu

Giải trình tự Shotgun Metagenomic là phương pháp sử dụng công nghệ NGS để giải mã toàn bộ các gen của tất cả các vi sinh vật có trong mẫu mà không cần phải phân lập hoặc nuôi cấy từng loài riêng biệt. Điều này giúp mở rộng khả năng nghiên cứu, bởi vì các phương pháp truyền thống, như nuôi cấy trong phòng thí nghiệm, chỉ cho phép phát hiện khoảng 1% vi sinh vật có trong mẫu. Phương pháp này cho phép các nhà nghiên cứu đánh giá sự đa dạng vi sinh vật, phát hiện sự phong phú của vi khuẩn trong môi trường mẫu cũng như nghiên cứu cấu trúc và các tương tác giữa vi khuẩn. Thêm vào đó, kết quả giải trình tự còn có thể được sử dụng để đánh giá sự đa dạng chức năng trong mẫu phân tích.

Giải trình tự Shotgun Metagenomic có thời gian hoàn thành nhanh hơn với kết quả đáng tin cậy hơn so với các kỹ thuật truyền thống vì phương pháp này loại bỏ nhu cầu nuôi cấy vi khuẩn – điều mà có thể tạo ra các điều kiện thuận lợi cho một số loài nhất định và làm sai lệch kết quả. Bên cạnh đó, phương pháp này cũng giúp giảm thiểu sai sót từ các kỹ thuật truyền thống khác như khuếch đại PCR.

2. Quy trình giải trình tự Shotgun Metagenomic

Quy trình làm việc của Shotgun Metagenomics bao gồm 6 bước: chuẩn bị mẫu, tách chiết DNA, định lượng và kiểm soát chất lượng, tạo thư viện, giải trình tự và phân tích tin sinh học.

A diagram of a library process

AI-generated content may be incorrect.

Hình 1: Quy trình làm việc chung của Shotgun Metagenomic Sequencing

Chuẩn bị mẫu phụ thuộc vào môi trường mà bạn lấy mẫu. Các mẫu thường được lấy cho các loại dự án này bao gồm từ đất và nước đến phân, mẫu phết và mô. Một số vấn đề có thể phát sinh khi chuẩn bị mẫu, đặc biệt là các mẫu lấy từ mô, vì chúng có nguy cơ cao bị nhiễm bộ gen vật chủ. Điều này có thể dẫn đến việc tạo ra dữ liệu có chất lượng thấp đầu ra. Có thể sử dụng một số chiến lược nhất định để tránh điều này, chẳng hạn như không lấy mẫu quá gần mô vật chủ và sử dụng bộ kit phù hợp khi tách chiết. Ngoài ra, nếu biết bộ gen vật chủ, có thể loại bỏ thông tin này khỏi dữ liệu giải trình tự hoặc bạn có thể tham khảo thêm các phương pháp loại bỏ DNA vật chủ tại đây .
Phương pháp được khuyến cáo sử dụng để tách chiết DNA là CTAB. Tuy nhiên, tùy thuộc vào tính đặc hiệu của mẫu, một số bộ kit thương mai có thể hiệu quả hơn. Chẳng hạn, đối với mẫu bùn và đất, Novogene đặc biệt khuyến nghị sử dụng bộ kit phân lập DNA PowerSoil ®. Sau khi tách chiết, các mẫu sẽ trải qua quá trình kiểm tra chất lượng cho bước chuẩn bị thư viện. DNA có thể được phân mảnh thành các đoạn có chiều dài 250 – 300 bp để xây dựng một thư viện có kích thước chèn khoảng 350bp. Thư viện này sau đó được giải trình tự bằng nền tảng Illumina Novaseq paired-end 150 bp. Sau khi giải trình tự, các đoạn đọc sẽ trải qua quá trình kiểm soát chất lượng để lọc dữ liệu các đoạn đọc. Ba loại dữ liệu đoạn đọc dưới đây có thể được loại bỏ:

Đoạn đọc có chứa adapters
Đoạn đọc chứa >10% nu N
Đoạn đọc chất lượng thấp

Sau khi lọc dữ liệu, các đoạn đọc được lọc sẽ được phân tích chuyên sâu hơn. Với dữ liệu giải trình tự Shotgun Metagenomic, chúng tôi chủ yếu quan tâm đến việc trả lời hai loại câu hỏi. Câu hỏi đầu tiên là xác định các thành phần vi sinh vật trong mẫu và câu hỏi thứ hai là tìm hiểu các hoạt động của chúng. Cụ thể, để trả lời câu hỏi đầu tiên, chúng tôi sẽ kiểm tra sự đa dạng phân loại và sự phát sinh loài để xác định các loài vi khuẩn có trong mẫu. Câu hỏi thứ hai liên quan đến vai trò của các vi khuẩn này, bằng cách dự đoán gen và chú thích chức năng của chúng. Để thực hiện điều này, bước đầu tiên là lắp ráp các đoạn đọc và tiến hành chú thích kết quả. Sau đó, tùy vào loại mẫu và câu hỏi nghiên cứu, một loạt các phân tích cao cấp hơn có thể được thực hiện. Những phân tích này bao gồm:

Phân tích thống kê các gene catalogue
Chú thích phân loại
Phân tích PCA, PCoA và NMDS
Chú thích chức năng
Phân bố gen kháng thuốc kháng sinh

Chúng tôi sẽ tóm tắt ngắn gọn các công cụ tin sinh học và biểu đồ trực quan khác nhau được sử dụng trong Assembly-based Shotgun Analysis Pipeline trong phần bên dưới:

Lắp ráp metagenome: Sau khi kiểm soát chất lượng thì dữ liệu được lọc từ mỗi mẫu được sử dụng để lắp ráp metagenome.
Dự đoán gen: Sử dụng MetaGeneMark, các gen được dự đoán dựa trên assembled scaffolds. Các gen dự đoán được gộp lại và xóa bỏ các bản sao trùng lặp (do quá trình phân mảnh DNA ngẫu nhiên) nhằm tạo ra gene catalogue chính xác, giúp đánh giá tần suất xuất hiện của các gen cho mỗi mẫu.

* Assembled scaffolds: các chuỗi DNA dài được tạo ra từ việc lắp ráp các đoạn đọc ngắn.

Chú thích phân loại: Các dữ liệu đọc metagenomic được so sánh với cơ sở dữ liệu microNR để xác định các loại vi sinh vật có trong mẫu, tạo ra các bảng thông tin thể hiện tần suất xuất hiện của các loại này trong nhiều cấp phân loại khác nhau từ loài, họ, chi, chủng, v.v
Chú thích chức năng: So sánh các trình tự gen với các cơ sở dữ liệu như KEGG, eggNOG và CAZy để xây dựng hồ sơ chức năng cho mẫu.
Chú thích gen kháng sinh:
- Phân tích Antibiotic Resistance Genes (ARGs): Các gen kháng kháng sinh được xác định bằng Comprehensive Antibiotic Resistance Database (CARD).
- Phân tích Mobile Gene Elements (MGE): Các gen đơn (unigenes) được so sánh với cơ sở dữ liệu về trình tự chèn (insertion sequences), integron và plasmid để xác định tần suất xuất hiện của chúng.

● Phân tích thống kê và so sánh: Các phương pháp phân tích như phân cụm, PCA, PCoA và NMDS được sử dụng để nhóm và so sánh các mẫu. Nếu cần, các công cụ như MetaGenomeSeq và LEfSe có thể được sử dụng thêm để phân tích sự khác biệt giữa các nhóm và so sánh các con đường (pathway) di truyền liên quan.

Hình 2: Quy trình phân tích dữ liệu trong Assembly-based Shotgun Metagenomic Sequencing

3. Kết quả phân tích và hình ảnh đồ thị

3.1. Dự đoán gen và phân tích sự phong phú

Mục đích: MetaGeneMark xác định các gen (cụ thể là trình tự mã hóa hoặc CDS) từ các assembled scaffolds bằng cách định vị các khung đọc mở (ORF), sau đó nhóm (thu thập trên tất cả các mẫu) và loại bỏ các bản sao lặp lại. Gene catalogues bao gồm các gen không trùng lặp được sử dụng cho các phân tích chuyên sâu hơn.
Biểu đồ trực quan:
- Phân bố chiều dài UniqGene: biểu đồ thể hiện phạm vi và tần suất của độ dài các gen được dự đoán, nhằm đánh giá chất lượng dự đoán và hỗ trợ chuẩn hóa dữ liệu.

A graph of a number of bars

AI-generated content may be incorrect.

Hình 3: Phân bố chiều dài UniqGene

Phân tích core-pan genome:
- Pan genome là tập hợp toàn bộ các gene có mặt trong tất cả các vi sinh vật được nghiên cứu, bao gồm core gene (có ở tất cả mẫu) và accessory gene (chỉ có ở một số, không phải tất cả mẫu). Trong khi đó, core gene thường được bảo tồn cao hơn giữa các mẫu.
- Đường cong rarefaction so sánh giữa core và pan genome thường cho thấy mức độ biến thiên trong số lượng gen của cả 2 genome giảm dần khi số lượng mẫu tăng. Tuy nhiên, trong khi số lượng gen trong pan genome vẫn tiếp tục tăng, core genome nhanh chóng đạt trạng thái bão hòa.
Phân tích tương quan của mẫu: Đánh giá mức độ tương đồng giữa các mẫu dựa trên tần suất xuất hiện của gen hoặc biểu hiện gen.
Phân tích số lượng gen: Nhằm kiểm tra sự khác biệt về số lượng gen giữa các nhóm, biểu đồ cột được sử dụng để mô tả như sau:
- DOP: Có số lượng gen trung bình cao nhất (~910k), đồng thời độ phân tán thấp cho thấy mức độ ổn định và nhất quán giữa các mẫu trong nhóm.
- HFD: Có số lượng gen trung bình ở mức giữa trong ba nhóm, nhưng phân bố rộng nhất, cho thấy sự biến động lớn giữa các mẫu trong nhóm này.

A diagram of different colored squares

AI-generated content may be incorrect.

Hình 4: Số lượng gen của các nhóm khác nhau

3.2. Chú thích phân loại

Xác định danh tính phân loại (ví dụ: loài, chi, ngành) của các vi khuẩn có trong mẫu. Xem thêm các biểu đồ điển hình được sử dụng để phân tích trong blog này Giải trình tự metagenomic amplicon 16S/18S/ITS.

3.3. Chú thích chức năng

Mục đích: Sau khi dự đoán được các gen (cụ thể là các trình tự mã hóa protein – CDS), bước tiếp theo là tìm hiểu các gen này “làm gì” trong hệ vi sinh vật. Để làm điều này, các gen dự đoán được so sánh với một số cơ sở dữ liệu chức năng lớn – mỗi cơ sở dữ liệu tập trung vào một khía cạnh khác nhau:
- KEGG (Kyoto Encyclopedia of Genes and Genomes): Cung cấp thông tin về các con đường chuyển hóa và enzyme liên quan, giúp tái hiện mạng lưới sinh hóa của hệ vi sinh vật.
- eggNOG (evolutionary genealogy of genes: Non-supervised Orthologous Groups): Nhóm các gen có nguồn gốc tiến hóa tương đồng (ortholog) và phân loại chúng theo chức năng chung.
- CAZy (Carbohydrate-Active enZYmes): Tập trung vào các enzyme tham gia vào quá trình xây dựng và phân hủy carbohydrate.
- VFDB (Carbohydrate-Active enZYmes): Chuyên về các yếu tố độc lực của vi khuẩn gây bệnh, chlamydia và mycoplasma. Cơ sở dữ liệu này cung cấp thông tin về đặc điểm, chức năng và cơ chế gây bệnh của các gen độc lực.
- Phi (Pathogen-Host Interaction database): Thu thập và sắp xếp dữ liệu về các tương tác giữa tác nhân gây bệnh (vi khuẩn, virus, nấm, ký sinh trùng) và vật chủ (bao gồm người, thực vật và động vật). Cơ sở dữ liệu này hỗ trợ phân tích các cơ chế gây nhiễm và phản ứng của vật chủ.
- Kết quả cuối cùng là một bản đồ chức năng của hệ vi sinh vật – giúp chúng ta hiểu hệ vi sinh vật đó có thể làm gì, ảnh hưởng ra sao, và đóng vai trò gì trong môi trường hoặc cơ thể vật chủ.
Biểu đồ trực quan: eggNOG được sử dụng làm nhóm đại diện cho tất cả các biểu đồ chức năng được đề cập ở trên.
- Phương pháp chú thích chức năng cơ bản: Các gen dự đoán được so sánh với các cơ sở dữ liệu tham chiếu để tìm ra kết quả phù hợp nhất. Sau đó, việc chú thích chức năng được thực hiện bằng cách đếm số lượng gen được gán cho từng chức năng, sau đó tổng hợp thành bảng phân bố chức năng theo mẫu.
- Phân bố mức độ phong phú chức năng theo eggNOG: Số lượng gen được gán vào các nhóm chức năng khác nhau được thể hiện như sau:
  - Trong số các gen có chức năng đã biết, nhóm “L: Replication, recombinant and repair” có số lượng gen trùng khớp cao nhất, khoảng 150k gen.
  - Chỉ có 1 phần nhỏ gen liên quan đến A: RNA processing and modification; B: Chromatin structure and dynamics; W: Extracellular structures and Z: cytoskeleton.

A chart with different colored bars

AI-generated content may be incorrect.

Hình 5: Phân bố mức độ phong phú chức năng theo eggNOG

Độ phong phú tương đối của eggNOG: thể hiện định lượng tương đối của các loại chức năng khác nhau trên các nhóm mẫu khác nhau.

A colorful bars with different colored lines

AI-generated content may be incorrect.

Hình 6: Độ phong phú tương đối của eggNOG

Phân tích cụm chức năng theo độ phong phú tương đối của eggNOG: 35 nhóm chức năng phổ biến nhất được chọn để hiển thị trong bản đồ nhiệt, giúp trực quan hóa sự khác biệt giữa các mẫu:
- Trục X: Đại diện cho các nhóm mẫu khác nhau.
- Trục Y (bên phải): Danh sách các chức năng được gán từ eggNOG.
- Trục Y (bên trái): Các chức năng này được phân nhóm dựa trên mức độ tương đồng.
- Ví dụ Nhóm M8 cho thấy số lượng gen cao trong 2 nhóm chức năng “P: Vận chuyển và chuyển hóa ion vô cơ” và “G: Vận chuyển và chuyển hóa carbohydrate”. Hai nhóm này cũng được phân cụm gần nhau, gợi ý rằng các chức năng này liên quan sinh học và thường cùng hoạt động.

A colorful grid with different colored squares

AI-generated content may be incorrect.

Hình 7: Phân tích cụm độ phong phú tương đối của eggNOG

3.4. Phân tích thống kê và so sánh: So sánh các cộng đồng vi khuẩn trên các mẫu để tìm ra các mô hình, sự khác biệt hoặc mối liên hệ với các điều kiện (ví dụ: bệnh tật so với khỏe mạnh). Đây là một vấn đề khá phức tạp nên chúng tôi sẽ giải quyết phần này ở một blog riêng trong tương lai.

3.5. Chú thích gen kháng thuốc kháng sinh:

Phân tích ARG (Gen kháng kháng sinh)

Mục đích: Phát hiện và định lượng các gen liên quan đến khả năng kháng thuốc kháng sinh, sử dụng cơ sở dữ liệu CARD (Comprehensive Antibiotic Resistance Database – Cơ sở dữ liệu toàn diện về kháng thuốc).
Biểu đồ trực quan:
- Sự phong phú tương đối của các gen kháng thuốc: Dữ liệu được trình bày qua biểu đồ cột, phản ánh tỉ lệ xuất hiện của các gen ARG giữa các mẫu:
  - vanT_gene_in_vanG_cluster và vanW_gene_in_vanI_cluster (liên quan đến gen kháng vancomycin) cho thấy tần suất xuất hiện cao nhất trong nhiều mẫu (thể hiện bằng các thanh đỏ và xanh lam đậm ở đáy biểu đồ).
  - adeF, một thành phần liên quan đến efflux pump, cũng được ghi nhận với mức độ đáng kể trong nhiều mẫu, từ M1 đến DH12, cho thấy sự phổ biến rộng rãi trong cộng đồng vi sinh vật được phân tích.

A colorful graph with text

AI-generated content may be incorrect.

Hình 8: Sự phong phú tương đối của các gen kháng kháng sinh

Phân tích MGE (Các yếu tố di truyền di động)

Mục đích: Phát hiện các yếu tố có khả năng vận chuyển hoặc lan truyền gen kháng thuốc giữa các loài vi khuẩn. Phân tích dựa trên các cơ sở dữ liệu chuyên biệt như ISFinder (cho trình tự chèn – insertion sequences), INTEGRALL (cho integron), PLSDB (plasmid hoặc các yếu tố tương tự)
Biểu đồ trực quan:
- Độ phong phú tương đối của các yếu tố di truyền di động:
  - Một yếu tố nổi bật là AP011957 (biểu thị bằng thanh màu đỏ), chiếm trên 85% trong hầu hết các mẫu. Điều này gợi ý rằng AP011957 có thể là một plasmid chính hoặc yếu tố di động chủ lực, có thể mang và truyền tải gen kháng thuốc trong hệ vi sinh vật.

A red and blue striped graph

AI-generated content may be incorrect. Hình 9: Sự phong phú tương đối của các yếu tố di truyền di động

4. Tài liệu tham khảo

Novogene. (n.d.). A beginner’s guide to microbial shotgun metagenomic sequencing. https://www.novogene.com/amea-en/resources/blog/a-beginners-guide-to-microbial-shotgun-metagenomic-sequencing-2/
Novogene Co., Ltd. Short-read Shotgun metagenomics Demo report

------------

GENESMART CO., LTD | Phân phối ủy quyền 10X Genomics, Altona, Biosigma, Hamilton, IT-IS (Novacyt), Norgen Biotek, Rainin tại Việt Nam.

Website: https://genesmart.vn/

Hotline: 0947 528 778

Email: [email protected]