1. Giới thiệu
Giải trình tự toàn bộ hệ gen (WGS) cung cấp cho các nhà nghiên cứu và bác sĩ lâm sàng cái nhìn toàn diện nhất về cấu trúc di truyền của một sinh vật. Bằng cách kiểm tra toàn bộ hệ gen, WGS nắm bắt mọi thứ, từ những thay đổi đơn nucleotide đến các biến thể cấu trúc lớn nhằm cung cấp những hiểu biết sâu sắc mà các phương pháp tiếp cận mục tiêu dễ dàng bỏ sót. Mức độ chi tiết này đã biến WGS thành một công cụ thiết yếu trong nhiều lĩnh vực, từ việc phát hiện các đột biến hiếm gặp trong các bệnh phức tạp như ung thư và các rối loạn di truyền đến việc khám phá sự đa dạng di truyền trong các nhóm quần thể lớn.
Trong bối cảnh lâm sàng, WGS giúp làm sáng tỏ cơ chế bệnh tật bằng cách phát hiện các biến thể liên quan đến các nhóm bệnh nhân cụ thể, ngay cả trong các quần thể quốc gia hoặc dân tộc riêng biệt. Đối với các nghiên cứu dân số, nó cho phép các nhà nghiên cứu điều tra biến thể di truyền ở quy mô lớn và khám phá các mô hình tiến hóa trong cấu trúc dân số. Ví dụ, một nghiên cứu của Degang W. và các cộng sự tại Singapore đã làm nổi bật sự đa dạng di truyền trên khắp Đông Á, Đông Nam Á và Nam Á, phản ánh lịch sử nhập cư độc đáo của quốc gia này.
Novogene cung cấp các giải pháp WGS để hỗ trợ nhiều mục tiêu nghiên cứu khác nhau. Cho dù bạn đang thực hiện một nghiên cứu quy mô lớn hay cần dữ liệu lâm sàng có độ phân giải cao, quy trình làm việc được tối ưu hóa và đội ngũ giàu kinh nghiệm đều có thể đáp ứng và hỗ trợ bạn một cách hiệu quả.
2. Quy trình giải trình tự toàn bộ bộ gen
Quy trình làm việc sau đây bao gồm các bước sau: chuẩn bị mẫu và kiểm soát chất lượng (QC), xây dựng thư viện và QC, giải trình tự, kiểm soát chất lượng dữ liệu và phân tích tin sinh học, tạo điều kiện phân tích chi tiết các biến thể di truyền và làm sáng tỏ khía cạnh sinh học phức tạp của bộ gen người.

Hình 1: Quy trình giải trình tự toàn bộ hệ gen (WGS)
Bước 1: Chuẩn bị mẫu và vận chuyển
Quy trình WGS của bạn bắt đầu bằng việc tách chiết genomic DNA. Để đảm bảo kết quả tối ưu, Novogene cung cấp hướng dẫn rõ ràng về cách xử lý mẫu và yêu cầu mẫu đầu vào ít nhất 1,2 µg DNA/mẫu trong trường hợp không sử dụng PCR. Sau khi chuẩn bị, mẫu được vận chuyển đến trung tâm xử lý mẫu theo quy định đóng gói nghiêm ngặt để đảm bảo chất lượng mẫu khi giải trình tự.

Hình 2: Yêu cầu mẫu đầu vào cho giải trình tự toàn bộ hệ gen (WGS)
Bước 2: Kiểm soát chất lượng mẫu (QC)
Novogene thường thực hiện một loạt các bước QC để đánh giá tính toàn vẹn và nồng độ DNA khi nhận mẫu.
- Qubit: đo nồng độ mẫu DNA.
- Gel agarose 1%: đánh giá tính toàn vẹn và mức độ tạp nhiễm của DNA.
Sau khi hoàn tất bước này, Novogene sẽ cung cấp cho khách hàng Report QC mẫu cũng như những khuyến cáo dựa trên kinh nghiệm để khách hàng có thể quyết định có nên tiếp tục thực hiện hay thay thế mẫu nếu cần.
Bước 3: Chuẩn bị thư viện
Các mẫu DNA đủ tiêu chuẩn được xử lý thành thư viện có cấu trúc phù hợp cho quá trình giải trình tự:
- Genomic DNA được phân mảnh ngẫu nhiên thành các đoạn ~350 bp bằng phương pháp siêu âm.
- Các đoạn DNA được sửa chữa đầu, nối đuôi A và gắn với adapters để tương thích với máy giải trình tự Illumina.
- Các thư viện được chọn lọc kích thước và khuếch đại PCR trước khi thực hiện bước tinh sạch sau cùng.

Hình 3: Quy trình chuẩn bị thư viện
Bước 4: Kiểm soát chất lượng thư viện
Trước khi giải trình tự, mỗi thư viện sẽ trải qua các bước QC kiểm tra chất lượng để đảm bảo đạt chuẩn:
- Lapchip được sử dụng để đánh giá phân bố kích thước của thư viện. Một thư viện đạt chuẩn sẽ có 1 peak rõ ràng trong khoảng ~350-450bp.
- Qubit và qPCR được sử dụng để đo, chuẩn hóa nồng độ và gộp (pooling) các thư viện trước khi đưa vào máy giải trình tự.
- Các bước này giúp giảm thiểu nguy cơ lãng phí các lần chạy giải trình tự và đảm bảo chất lượng dữ liệu đầu ra.
- Hình ảnh dưới đây cho thấy tình trạng tạp nhiễm với adapter dimer của thư viện giải trình tự. Trong những trường hợp như vậy, quá trình giải trình tự thường không nên tiến hành để tránh lãng phí dữ liệu.

Hình 4: Kết quả Lab Chip cho thấy mức độ tạp nhiễm cao với adapter dimer của thư viện giải trình tự
Bước 5: Giải trình tự
Sau khi các thư viện vượt qua quy trình kiểm soát chất lượng (QC), chúng sẽ được giải trình tự trên Illumina NovaSeq X Plus hoặc 6000 (paired-end 150 bp). Đối với các bộ gen phức tạp hơn hoặc các vùng đa hình cao (ví dụ: định kiểu gen HLA), chúng tôi cũng cung cấp giải trình tự đoạn đọc dài với nền tảng PacBio hoặc Nanopore.
Với thông lượng cực cao của NovaSeq, ngay cả những dự án lớn cũng có thể hoàn thành trong vòng chưa đầy 48 giờ.
Bước 6: Kiểm soát chất lượng giải trình tự
Sau khi hoàn thành bước giải trình tự, dữ liệu thô của bạn sẽ trải qua quy trình xử lý và kiểm soát chất lượng (QC) nghiêm ngặt để đảm bảo đáp ứng các tiêu chuẩn.
Bước đầu tiên là demultiplexing, trong đó các reads được phân loại và gán về đúng mẫu dựa trên các barcode nhận dạng riêng biệt. Tiếp đó, dữ liệu được làm sạch nhằm loại bỏ các reads chất lượng kém hoặc những yếu tố gây nhiễu tiềm ẩn. Cụ thể:
- Lọai bỏ các reads chứa hơn 10% base không xác định (N).
- Loại bỏ các reads có trên 50% base chất lượng thấp.
- Cắt bỏ các adapter còn sót lại để tránh sai sót khi căn chỉnh trong các phân tích downstream. Kết quả sau khi lọc có thể được quan sát trong Hình 4.
Tiếp theo, chúng tôi đánh giá các thông số QC chính để đánh giá hiệu suất tổng thể của quá trình giải trình tự:
- Tỷ lệ lỗi: Theo dõi trên toàn bộ các lần đọc, đặc biệt lưu ý phần cuối, nơi tỷ lệ lỗi có xu hướng tăng nhẹ do thuốc thử dần cạn kiệt.
- Điểm chất lượng (Q30): Chỉ số quan trọng phản ánh độ chính xác của giải trình tự, với mục tiêu > 80% để đáp ứng tiêu chuẩn chất lượng cao của Illumina.
- Hàm lượng GC: Được kiểm tra nhằm đảm bảo phù hợp với phân bố GC dự kiến của sinh vật (thường khoảng 40–44% đối với nhiều bộ gen).
Quy trình xử lý dữ liệu và kiểm soát chất lượng nghiêm ngặt này đảm bảo chỉ những dữ liệu sạch, chất lượng cao được đưa vào phân tích tin sinh học, giúp bạn yên tâm về tính toàn vẹn và khả năng ứng dụng của tập dữ liệu

Hình 5: QC chất lượng quy trình giải trình tự trong WGS
Bước 7: Pipeline phân tích tin sinh học
Sau khi kiểm tra các thông số QC đã đề cập, Novogene sẽ tiến hành căn chỉnh và phát hiện biến thể bằng pipeline phân tích đã được tối ưu. Quy trình này thường bao gồm 3 bước chính:
- Căn chỉnh với bộ gen tham chiếu, thống kê về độ sâu và phạm vi giải trình tự.
- Xác định, chú thích và phân tích thống kê các đột biến SNP/InDel/SV/CNV.
- Xác định, chú thích và phân tích thống kê các đột biến soma như SNP/InDel/SV/CNV (mẫu ghép khối u-bình thường).
Sơ đồ bên dưới mô tả quy trình xử lý dữ liệu QC và phân tích tin sinh học mà Novogene sử dụng. Phân tích soma sẽ chỉ được thực hiện khi mẫu ghép đôi khối u-bình thường được cung cấp.

Hình 6: Quy trình phân tích tin sinh học của Giải trình tự toàn bộ hệ gen (Whole Genome Sequencing)
Novogene cung cấp giải trình tự toàn bộ hệ gen toàn diện với chất lượng cao, giá cả hợp lí cùng với pipeline phân tích WGS đã được tối ưu, cho phép nghiên cứu ứng dụng đa dạng. Là nhà phân phối chính thức tại Việt Nam, GeneSmart tự hào mang đến sự hỗ trợ toàn diện cho các dịch vụ đáng tin cậy của Novogene.
Bấm vào link này để tiếp tục theo dõi phần 2 – bài viết đi sâu cụ thể hơn về qui trình phân tích dữ liệu
Đọc thêm về các dịch vụ giải trình tự của Novogene do GeneSmart cung cấp tại đây .
Tham khảo “Unveiling the Human Genome using cutting-edge Sequencing techniques: WGS & WES” để bắt đầu tìm hiểu thêm về kĩ thuật WGS và WES của bạn.
Hãy theo dõi phần blog tiếp theo của chúng tôi, nơi chúng tôi giới thiệu cho bạn một số bài báo áp dụng WGS trong nghiên cứu của họ.
Nguồn tham khảo
Novogene. (2021). Unveiling the human genome using cutting-edge sequencing techniques: WGS & WES [Webinar]. https://www.novogene.com/amea-en/resources/onlineevent/unveiling-the-human-genome-using-cutting-edge-sequencing-techniques-wgs-wes/
Novogene Co., Ltd. Whole Genome Sequencing analysis demo report
------------
GENESMART CO., LTD | Phân phối ủy quyền 10X Genomics, Altona, Biosigma, Hamilton, IT-IS (Novacyt), Norgen Biotek, Rainin tại Việt Nam.











