Phân tích dữ liệu giải trình tự toàn bộ hệ gen vi sinh vật (Microbial Whole Genome Sequencing)

Trong bộ gen của mỗi vi sinh vật, hàng nghìn biến thể di truyền – từ những thay đổi đơn nucleotide nhỏ bé cho đến những tái sắp xếp cấu trúc lớn – đang phản ánh quá trình tiến hóa, thích nghi và sinh tồn của chúng. Khi các biến thể này tích lũy đến một ngưỡng nhất định, áp lực chọn lọc tự nhiên có thể thúc đẩy sự phân hóa di truyền trong quần thể, dẫn đến sự xuất hiện của các dòng hoặc chủng mới trong cùng một loài. Những thay đổi này thường đi kèm với biến đổi về đặc tính sinh lý, độc lực hoặc khả năng kháng thuốc — những yếu tố có thể ảnh hưởng trực tiếp đến quản lý dịch tễ và điều trị lâm sàng.

Hiện nay, các giải pháp giải trình tự vi sinh vật được phát triển đa dạng, tùy theo mục tiêu nghiên cứu:

Shotgun metagenomics: giải trình tự trên toàn bộ DNA tách chiết trực tiếp từ mẫu bệnh phẩm hoặc mẫu môi trường. Phương pháp này cho phép nhận diện đồng thời nhiều loài vi sinh vật (bao gồm cả tác nhân gây bệnh) trong cùng một mẫu, cung cấp bức tranh toàn cảnh về hệ vi sinh.
Amplicon hoặc targeted sequencing: sử dụng primers/probes để khuếch đại và giải trình tự các vùng gen đặc trưng, giúp định danh vi sinh vật (như 16S/18S/ITS sequencing) hoặc phát hiện các gen kháng kháng sinh. Đây là hướng tiếp cận nhanh, chi phí hợp lý và phù hợp cho các nghiên cứu định tính hoặc sàng lọc mục tiêu.
Trong khi đó, Microbial Whole Genome Sequencing (WGS) tập trung vào một loài vi sinh vật cụ thể. Mẫu được phân lập và nuôi cấy trước khi tách chiết DNA, giúp đảm bảo độ tinh khiết và theo dõi được quá trình tiến hóa ở cấp độ chủng – yếu tố có ý nghĩa quan trọng trong quản lý dịch tễ, truy xuất nguồn lây và nghiên cứu kháng thuốc.

WGS cho phép chúng ta đi sâu hơn vào các khác biệt trong bộ gen – không chỉ ở cấp độ gene mà còn ở cấu trúc và số lượng bản sao DNA.

Novogene là một trong những đơn vị hàng đầu trong dịch vụ giải trình tự, cung cấp giải pháp từ kiểm tra chất lượng DNA đầu vào, giải trình tự đến phân tích dữ liệu toàn bộ hệ gen. Trong bài viết này, chúng tôi sẽ đi sâu hơn vào pipeline phân tích biến thể di truyền được thiết kế cho dữ liệu Whole Genome Sequencing của vi khuẩn.

Hình 1: Quy trình phân tích dữ liệu tổng quan Microbial Whole Genome Sequencing từ Novogene

SNP Detection & Annotation – Những thay đổi nhỏ tạo khác biệt lớn

SNP (Single Nucleotide Polymorphism) là dạng biến thể xảy ra khi một nucleotide bị thay thế bởi một nucleotide khác. Dù chỉ là thay đổi ở mức không quá đáng kể, nhưng các SNP có thể ảnh hưởng sâu sắc đến cấu trúc protein, hoạt động enzyme hoặc khả năng kháng thuốc của vi sinh vật. Chẳng hạn như ở Mycobacterium tuberculosis, chỉ một SNP tại gene rpoB đã có thể khiến vi khuẩn kháng với rifampicin – một trong những kháng sinh chủ lực trong điều trị lao.

Ý nghĩa phân tích: Các SNP được phát hiện bằng thuật toán có khả năng nhận diện không chỉ những biến thể đã biết mà còn cả các biến thể mới chưa từng được mô tả trong cơ sở dữ liệu. Kết quả sau đó được lọc qua nhiều tiêu chí nghiêm ngặt nhằm đảm bảo chỉ giữ lại các SNP thật sự, loại bỏ những những lỗi sai lệch trong vấn đề kỹ thuật như:

Mapping error: đọc sai vị trí căn chỉnh của đoạn đọc (reads) trên bộ gen tham chiếu.
Low base quality: chất lượng đọc nucleotide thấp dẫn đến nhận diện sai base.
Strand bias: sự chênh lệch giữa số lần đọc ở hai chiều DNA, gây nghi ngờ về tính chính xác của biến thể.
Sequencing depth quá thấp hoặc quá cao: độ phủ không đồng đều có thể tạo ra kết quả giả dương hoặc giả âm.
PCR duplicates: các đoạn nhân đôi trong quá trình chuẩn bị thư viện gây trùng lặp tín hiệu.
Local misalignment hoặc indel proximity: lỗi căn chỉnh gần vùng có chèn/xóa nhỏ, dễ dẫn đến nhận diện sai SNP.

Kết quả tổng quan từ bảng 2a:

Biến thể Non-synonymous:
- Là đột biến làm thay đổi amino acid, ảnh hưởng trực tiếp đến chức năng protein.
- sample1 (279) có nhiều biến thể non-synonymous hơn sample2(255), gợi ý khả năng thích nghi hoặc chịu áp lực chọn lọc sinh học cao hơn.
Tỷ lệ ts/tv (transition/transversion):
- Transition (A↔G, C↔T) xảy ra thường xuyên hơn transversion, nên ts/tv > 1 phản ánh dữ liệu tự nhiên và chính xác.
- Cả hai mẫu đều có tỷ lệ >1, cho thấy chất lượng gọi biến thể tốt, không có dấu hiệu nhiễu.

Tỷ lệ dị hợp tử (Het rate):
- Đo mức độ tồn tại nhiều alen trong một mẫu; với vi sinh vật đơn bội, lý tưởng gần 0.
- Cả hai mẫu đều dao động trong khoảng 0.020‰, chứng tỏ mẫu đơn chủng, dữ liệu sạch, không nhiễm tạp.

Như vậy, sample1 nổi bật hơn về biến thể chức năng (Non-synonymous) và cả hai mẫu đều có ts/tv > 1 và Het rate rất thấp, thể hiện dữ liệu WGS chất lượng, đáng tin cậy. Bên cạnh đó, qua bảng này nhà nghiên cứu có thể có cái nhìn tổng quan trước về các biến thể SNP.

Hình 2: Xác định và chú giải các kiểu SNP

Ngoài ra, hình 3 cũng cho thấy sự phân bổ chất lượng các đoạn SNP dựa trên số lượng reads hỗ trợ SNP, chất lượng SNP và khoảng cách các SNP liền kề:

Support reads number (số lượng reads hỗ trợ SNP):
- Là số lượng đoạn đọc (reads) chứa cùng một biến thể (SNP) tại một vị trí nhất định.
- Càng nhiều reads hỗ trợ → độ tin cậy của SNP càng cao, vì biến thể được quan sát lặp lại nhiều lần.
- Phần lớn SNP trong sample1 được hỗ trợ bởi 30–60 reads, phản ánh độ tin cậy cao.
- Sample2 có số reads hỗ trợ thấp hơn, cho thấy coverage không đồng đều hoặc tổng depth thấp hơn một chút, nhưng vẫn trong phạm vi chấp nhận được
SNP quality (chất lượng SNP):
- Là điểm tin cậy (quality score) được phần mềm variant caller (như GATK) gán cho từng SNP.
- Thường dựa trên xác suất biến thể là thật, tính bằng thang Phred score (logarithmic scale).
- Đường cong phân bố nằm cao hơn và dịch sang phải phản ánh rằng nhiều SNP có giá trị quality cao hơn và tỉ lệ tích lũy SNP tại ngưỡng đó lớn hơn, cho thấy các SNP nhìn chung đáng tin cậy.
Neighboring SNP distance distribution (khoảng cách giữa các SNP liền kề):
- Là khoảng cách (tính bằng bp – base pairs) giữa hai SNP gần nhau nhất trên genome. Khoảng cách trung bình hợp lý cho thấy biến thể phân bố đều và đáng tin cậy.
- Nếu nhiều SNP nằm rất gần nhau bất thường, có thể do lỗi gọi SNP, vùng trùng lặp (repeat region) hoặc mapping sai.
- Khoảng 70–80% SNP có khoảng cách >100 bp (hình 3), cho thấy phân bố biến thể hợp lý, không có dấu hiệu lỗi gọi SNP do trùng lặp hay mapping sai.

Hình 3: Phân bố chất lượng các đoạn SNP và biểu đồ phân bố các loại đột biến SNP

2. InDel Detection & Annotation – Khi DNA thêm hoặc mất đi một đoạn nhỏ

InDel là viết tắt của Insertion (chèn thêm) và Deletion (xóa bớt) các đoạn DNA ngắn. Dù nhỏ hơn 50 bp, các InDel này có thể làm thay đổi khung đọc (frameshift) hoặc làm mất chức năng của protein. Trong Acinetobacter baumannii, các InDel trong gene carO có thể làm thay đổi cấu trúc porin mà kháng sinh carbapenem cần để xâm nhập — dẫn tới đề kháng thuốc mạnh mẽ.

Tương tự SNP, GATK được sử dụng để phát hiện và lọc InDel. Kết quả cho thấy phần lớn InDel xảy ra ở vùng splicing hoặc downstream, nhưng vẫn có những trường hợp thêm nucleotide làm dịch chuyển khung đọc (frameshift insertion) cần được chú ý đặc biệt.

Phân tích độ dài InDel cho thấy phần lớn biến thể là <10 bp, phản ánh các sự kiện tái tổ hợp nhỏ nhưng thường xuyên trong hệ gen vi khuẩn.

Hình 4: Biểu đồ và dữ liệu xác định các đột biến InDel

3. Gene Function Analysis – Khi biến thể gợi ý các chức năng gene bị ảnh hưởng

Sau khi phát hiện SNP và InDel, các gene bị ảnh hưởng được phân loại theo KOG/COG – hệ thống nhóm gene dựa trên chức năng tương đồng tiến hóa. Kết quả chú giải giúp chia các biến thể vào 25 nhóm chức năng (chuyển hóa, vận chuyển, sao chép DNA, tín hiệu, v.v.) – từ đó, người nghiên cứu có thể thấy những nhóm gene nào đang chịu áp lực chọn lọc mạnh nhất.

Các biến thể SNP và InDel chủ yếu nằm trong các gen thuộc nhóm chuyển hóa năng lượng (C), phân chia tế bào (D) và truyền tín hiệu (T) theo phân loại KOG, gợi ý rằng những quá trình sinh học này có thể đóng vai trò quan trọng trong sự thích nghi hoặc tiến hóa của chủng vi sinh vật được nghiên cứu. Đối với các tác nhân gây bệnh, thông tin này có thể gợi ý về khả năng thích nghi, sống sót, điều hòa stress của biến thể trong cơ thể vật chủ.

Phân tích dữ liệu giải trình tự toàn bộ hệ gen vi sinh vật (Microbial Whole Genome Sequencing)

Hình 5: Chú giải chia biến thể SNP/InDel vào các nhóm chức năng KOG

4. SV Detection & Annotation – Biến thể cấu trúc: bức tranh lớn của bộ gen

Structural Variants (SVs) là những thay đổi kích thước lớn (>50 bp) như deletion, duplication, inversion, translocation.
Novogene sử dụng công cụ tin sinh phù hợp để phát hiện các sự kiện này dựa trên khoảng cách và hướng của các cặp đọc (paired-end reads). Ở Escherichia coli gây nhiễm khuẩn tiết niệu, các inversion hoặc translocation đôi khi làm thay đổi vị trí của các yếu tố độc lực (virulence islands), giúp vi khuẩn thích nghi nhanh trong môi trường vật chủ.

Các SV sau đó được chú giải, giúp nhận diện những vùng có khả năng ảnh hưởng đến biểu hiện gene hoặc sự nhân đôi plasmid, vốn đóng vai trò quan trọng trong lan truyền gen kháng thuốc.

5. CNV Detection & Annotation – Khi gene nhân đôi để sinh tồn

CNV (Copy Number Variation) là dạng biến thể làm thay đổi số lượng bản sao của gene hoặc đoạn DNA. Phần mềm CNVnator được sử dụng để phát hiện các vùng duplication hoặc deletion dựa trên mật độ reads.

CNV được chú giải để xác định vị trí (exonic, intronic, intergenic) và chiều hướng biến đổi. Việc phát hiện những duplication dài hàng chục nghìn bp giúp dự đoán cơ chế tiến hóa gen kháng thuốc hoặc khả năng tăng cường trao đổi chất. Chẳng hạn như trong Staphylococcus aureus, tăng bản sao của gene mecA có thể giúp vi khuẩn sản sinh nhiều protein PBP2a hơn, từ đó kháng lại beta-lactam.

Các biểu đồ chú giải SV và CNV được biểu diễn tương tự các biểu đồ SNP/InDel.

6. Visualization of Variations – Tổng quan thông tin genome

Tất cả các loại biến thể (SNP, InDel, SV, CNV) được trực quan hóa bằng Circos plot – một cách trình bày phổ biến để mô tả toàn bộ biến thể trên genome. Chẳng hạn như trong một số dữ liệu về Klebsiella pneumoniae, Circos plot có thể cho thấy vùng “đậm đặc SNP” trùng khớp với khu vực plasmid mang gene blaKPC, giúp xác định nguồn gốc lan truyền gen kháng carbapenem.

Vòng tròn hình 6a biểu diễn các thông tin dưới đây từ ngoài vào trong:

Nhiễm sắc thể hoặc contig.
Mật độ SNP & InDel.
Vị trí của các CNV và SV.

Hình 6: Phân bố biến dị toàn bộ hệ gen và mật độ đột biến. (a) Phân bố biến dị trên toàn bộ hệ gen của vi khuẩn (b) Mật độ các vị trí SNP (Single Nucleotide Polymorphism) (c) Mật độ các vị trí InDel (Insertion/Deletion).

Nguồn tham khảo:

Microbial Whole Genome Sequencing’s demo data (Novogene)

------------

GENESMART CO., LTD | Phân phối ủy quyền 10X Genomics, Altona, Biosigma, Hamilton, IT-IS (Novacyt), Norgen Biotek, Rainin tại Việt Nam.

Website: https://genesmart.vn/

Hotline: 0947 528 778

Email: [email protected]