Chọn giải pháp RNA-Seq phù hợp cho người mới bắt đầu

Khi nhắc đến bộ gen, chúng ta thường nghĩ ngay đến DNA. Tuy nhiên, để thông tin di truyền trong DNA thực sự “hoạt động”, các gen cần được phiên mã thành RNA. Toàn bộ tập hợp RNA được phiên mã trong mẫu sinh học tại một thời điểm nhất định được gọi là transcriptome.

Transcriptome không chỉ bao gồm mRNA – loại RNA mã hóa protein – mà còn có nhiều nhóm RNA không mã hóa như lncRNA, miRNA, circRNA và các RNA điều hòa khác. Vì vậy, nghiên cứu transcriptomics giúp chúng ta hiểu sâu hơn về hoạt động của gen và trạng thái chức năng của hệ sinh học.

Vì sao cần nghiên cứu transcriptomics?

Transcriptomics mang lại ba nhóm thông tin quan trọng sau đây:

Xác định các loại RNA đang được phiên mã với các vai trò khác nhau: mRNA phản ánh hoạt động của gen mã hóa protein, trong khi lncRNA, miRNA hay circRNA tham gia điều hòa biểu hiện gen ở nhiều cấp độ.
Định lượng sự thay đổi biểu hiện gen giữa các nhóm mẫu (ví dụ so sánh mẫu bệnh với mẫu khỏe mạnh để xác định các gen hoặc con đường tín hiệu liên quan đến cơ chế bệnh sinh).
Giúp làm sáng tỏ cấu trúc phiên mã của gen, bao gồm vị trí bắt đầu và kết thúc phiên mã, các biến thể cắt nối exon, alternative splicing và các điều hòa sau phiên mã.

Các nghiên cứu RNA-Seq hiện nay thường tập trung vào mRNA và các RNA không mã hóa có vai trò điều hòa như lncRNA, miRNA, sRNA hoặc circRNA. Vì vậy, bước chọn lọc RNA mục tiêu — chẳng hạn làm giàu Poly(A) hoặc loại bỏ rRNA — có ảnh hưởng trực tiếp đến chất lượng dữ liệu đầu ra.

Các giải pháp RNA-Seq phổ biến

mRNA-Seq

mRNA-Seq là giải pháp phổ biến nhất, tập trung vào các RNA mã hóa protein. Phương pháp này phù hợp để phân tích biểu hiện gen, so sánh giữa các nhóm điều kiện hoặc xác định các gen liên quan đến bệnh lý. Ví dụ, trong nghiên cứu ung thư hoặc bệnh truyền nhiễm, mRNA-Seq có thể được dùng để so sánh mô bệnh và mô bình thường nhằm phát hiện các con đường sinh học bị thay đổi.

Với mẫu sinh vật nhân thực có chất lượng RNA và hàm lượng đầu vào đạt yêu cầu, hướng tiếp cận phổ biến nhất cho việc tạo thư viện mRNA là làm giàu Poly(A). Phương pháp này sử dụng oligo-dT để chọn lọc các mRNA mang đuôi poly(A), từ đó tập trung dữ liệu vào các RNA mã hóa protein. Đây là lựa chọn đặc biệt phù hợp với các mẫu RNA còn tương đối nguyên vẹn.

Tuy nhiên, với các mẫu RNA bị phân mảnh như FFPE, mẫu có RIN thấp hoặc mẫu từ sinh vật nhân sơ — nơi mRNA thường không mang đuôi poly(A) ổn định, việc loại bỏ rRNA thường phù hợp hơn. Trong hướng tiếp cận này, rRNA được loại bỏ trước, sau đó quá trình tổng hợp cDNA thường sử dụng random priming để bắt cặp tại nhiều vị trí dọc theo phân tử RNA mà không phụ thuộc vào đuôi poly(A). Cách tiếp cận này giúp quá trình tạo thư viện phù hợp hơn với các mẫu RNA bị phân mảnh hoặc RNA từ sinh vật nhân sơ.

Đối với mRNA-Seq, có thể lựa chọn thư viện có định hướng hoặc không định hướng tùy thuộc vào hàm lượng mẫu đầu vào, mục tiêu phân tích dữ liệu và mức độ hoàn thiện của reference transcriptome (xem thêm tại phần “Chọn thư viện có định hướng hay không định hướng?”). Độ sâu dữ liệu giải trình tự khuyến cáo cho mRNA-seq thường ở khoảng 20M PE150bp reads (~6Gb) cho phân tích cơ bản hoặc ít nhất 40M PE150bp reads (~12Gb) khi cần phân tích dữ liệu sâu hơn.

Ultra-low input RNA-Seq

Trong nhiều nghiên cứu có lượng RNA đầu vào rất hạn chế như mẫu sinh thiết nhỏ, tế bào hiếm hoặc các mẫu lâm sàng giới hạn về vật liệu đầu vào thì ultra-low input RNA-Seq là một hướng tiếp cận phù hợp để vẫn có thể phân tích transcriptome hiệu quả.

Một số bộ kit chuẩn bị thư viện như Clontech SMARTer cho phép tạo thư viện từ lượng RNA đầu vào rất thấp (1-10 ng), giúp mở rộng khả năng nghiên cứu transcriptome trên các mẫu khó hoặc mẫu có số lượng tế bào giới hạn. Với mẫu đầu vào thấp, quy trình Ultra-low input RNA-seq mặc định sử dụng thư viện không định hướng nhằm đơn giản hóa quy trình và tối ưu hiệu suất tạo thư viện khi lượng RNA đầu vào hạn chế (xem thêm tại phần “Chọn thư viện có định hướng hay không định hướng?”).

lncRNA-Seq

lncRNA là các RNA không mã hóa có chiều dài trên 200 nucleotide. Dù không dịch mã thành protein, lncRNA tham gia điều hòa biểu hiện gen thông qua nhiều cơ chế như điều hòa chromatin, phiên mã và sau phiên mã.

Do đặc điểm của transcriptome, không phải tất cả lncRNA đều mang đuôi poly(A) hoặc nếu có thì đuôi poly(A) có thể không ổn định. Vì vậy, trong các nghiên cứu lncRNA, chiến lược chuẩn bị thư viện thường ưu tiên loại bỏ rRNA (rRNA depletion) kết hợp với random priming thay vì làm giàu Poly(A). Cách tiếp cận này giúp giữ lại nhiều loại RNA không mã hóa, bao gồm cả các lncRNA. Với lncRNA, hiện nay Novogene đang mặc định tạo thư viện có định hướng (xem thêm giải thích tại phần “Chọn thư viện có định hướng hay không định hướng?”). Do mức độ biểu hiện lncRNA thường thấp và tính đa dạng cao, độ sâu giải trình tự thường khá cao khoảng 30M PE150 reads (~10Gb), lý tưởng khoảng 50M PE150 reads (~15Gb) hoặc cao hơn tùy theo mục tiêu nghiên cứu và độ phức tạp của mẫu.

sRNA-Seq

sRNA-Seq tập trung vào các RNA kích thước nhỏ, điển hình là microRNA (miRNA). Đây là nhóm RNA không mã hóa có vai trò quan trọng trong điều hòa biểu hiện gen, chủ yếu thông qua cơ chế ức chế dịch mã hoặc thúc đẩy phân hủy mRNA.

Với sRNA, hiện nay Novogene đang mặc định tạo thư viện không định hướng (xem thêm giải thích tại phần “Chọn thư viện có định hướng hay không định hướng?”). Phương pháp này thường được sử dụng để xây dựng profile miRNA, phục vụ nghiên cứu các quá trình sinh học như đáp ứng miễn dịch, viêm, ung thư và nhiều bệnh lý mạn tính khác. Đối với sRNA-Seq, độ sâu giải trình tự thường khuyến nghị từ khoảng 20M SE50 reads (~1Gb) trở lên, tùy theo mục tiêu phân tích và độ phức tạp của mẫu.

circRNA-Seq

circRNA là một nhóm RNA không mã hóa có cấu trúc vòng, đặc trưng bởi độ ổn định cao do không có đầu 5’ và 3’ tự do. circRNA đang được quan tâm như một nhóm phân tử tiềm năng trong nghiên cứu biomarker cho ung thư, bệnh mạn tính và các rối loạn sinh học khác.

Trong quy trình chuẩn bị thư viện circRNA-Seq, chiến lược thường bao gồm bước làm giàu theo hai tầng: trước tiên là loại bỏ rRNA, sau đó sử dụng RNase R để xử lý RNA mạch thẳng nhưng không tác động lên RNA dạng vòng, từ đó giúp làm giàu tương đối circRNA trong mẫu.

Với circRNA, hiện nay Novogene đang mặc định tạo thư viện có định hướng (xem thêm giải thích tại phần “Chọn thư viện có định hướng hay không định hướng?”). Độ sâu giải trình tự cho circRNA-Seq thường khuyến nghị trên 30M PE150 reads (~9Gb), và có thể tăng lên khoảng 40M PE150 reads (~12Gb) hoặc cao hơn nếu các circRNA có biểu hiện thấp.

Whole Transcriptome-Seq

Whole Transcriptome-Seq là hướng tiếp cận toàn diện nhằm khảo sát nhiều nhóm RNA trong cùng một mẫu sinh học, bao gồm mRNA và nhiều RNA không mã hóa như lncRNA hoặc một phần các RNA điều hòa khác. Giải pháp này đặc biệt phù hợp với các nghiên cứu khám phá cơ chế mới, phân tích mạng lưới điều hòa gen hoặc các dự án chưa xác định trước loại RNA mục tiêu.

Trong thực tế, Whole Transcriptome-Seq thường sử dụng chiến lược loại bỏ rRNA để giữ lại phổ RNA rộng hơn so với mRNA-Seq truyền thống. Tuy nhiên, do mỗi nhóm RNA có đặc điểm sinh học và kích thước khác nhau, thiết kế thí nghiệm vẫn cần được cân nhắc kỹ về phương pháp chuẩn bị thư viện, kích thước thư viện, loại thư viện có định hướng hay không định hướng và độ sâu giải trình tự phù hợp cho từng loại RNA được phân tích.

Metatranscriptomics / Dual RNA-Seq

Metatranscriptomics và Dual RNA-Seq là giải pháp đặc thù dành cho nghiên cứu tương tác giữa vật chủ và vi sinh vật — ví dụ trong các mô hình nhiễm khuẩn hoặc nghiên cứu hệ vi sinh vật. Thay vì chỉ phân tích transcriptome của một sinh vật, phương pháp này cho phép thu thập đồng thời tín hiệu RNA từ cả vật chủ lẫn tác nhân gây bệnh trong cùng một mẫu. Điều này giúp nhà nghiên cứu hiểu được cách hai bên phản ứng và điều chỉnh biểu hiện gen khi tiếp xúc với nhau.

Hình 1: Thành phần các loại RNA phổ biển (Nguồn hình ảnh: Salsabeel Elkholey – BioRender)

Chọn thư viện có định hướng hay không định hướng?

Một yếu tố quan trọng trong thiết kế RNA-Seq là lựa chọn thư viện có định hướng (strand-specific/directional) hay không định hướng (non-directional/non-stranded).

Thư viện có định hướng giúp bảo toàn thông tin về chiều phiên mã của RNA, từ đó xác định transcript được tạo ra từ mạch DNA nào. Điều này đặc biệt quan trọng trong các nghiên cứu transcriptome phức tạp hoặc khi cần phân biệt các transcript chồng lấp và antisense transcript.

Việc lựa chọn thư viện có định hướng hay không thường phụ thuộc vào hai yếu tố chính: bản chất của quần thể RNA được nghiên cứu và mục tiêu phân tích dữ liệu phía sau.

Về loại RNA mục tiêu, thư viện có định hướng thường được ưu tiên trong các nghiên cứu lncRNA do nhiều lncRNA tồn tại dưới dạng antisense transcript hoặc chồng lấp với các gene mã hóa protein. Tương tự, trong các nghiên cứu circRNA, thông tin chiều phiên mã giúp xác định chính xác các sự kiện back-splicing tạo nên circular RNA. Trong khi đó, đối với small RNA sequencing (miRNA, siRNA hoặc piRNA), các RNA mục tiêu thường có kích thước rất ngắn (khoảng 18–40 nt), nên nhiều workflow thương mại hiện nay sử dụng thư viện không định hướng nhằm đơn giản hóa quy trình chuẩn bị thư viện và tối ưu chi phí, đặc biệt trong các nghiên cứu chủ yếu tập trung vào định lượng biểu hiện RNA.

Về mục tiêu phân tích dữ liệu, trong các ứng dụng mRNA-seq, thư viện có định hướng thường cần thiết cho các phân tích yêu cầu độ phân giải transcript cao như de novo transcriptome assembly, isoform analysis, alternative splicing hoặc transcript annotation. Ngược lại, nếu nghiên cứu chỉ tập trung vào differential gene expression trên các hệ gen đã được chú thích tốt, thư viện không định hướng thường đã đủ đáp ứng và giúp tối ưu chi phí. Ngoài ra, với các mẫu ultra low-input, nhiều workflow hiện nay cũng mặc định sử dụng thư viện không định hướng nhằm tối ưu hiệu suất tạo thư viện trong điều kiện lượng RNA đầu vào hạn chế.

Chọn giải pháp RNA-Seq phù hợp cho người mới bắt đầu

Hình 2: So sánh giải pháp thư viện không định hướng và thư viện có định hướng (Nguồn hình ảnh: Hemagirri et al. (2024), Biogerontology, Vol. 25, pp. 705–737)

Single-end hay paired-end?

Trong RNA-Seq, single-end nghĩa là máy giải trình tự chỉ đọc một đầu của mỗi đoạn cDNA, còn paired-end nghĩa là đọc cả hai đầu của cùng một đoạn. Vì vậy, paired-end cung cấp nhiều thông tin hơn về vị trí và cấu trúc của đoạn RNA ban đầu, nhưng cũng thường tốn chi phí và tạo ra nhiều dữ liệu hơn.

Single-end reads phù hợp với các nghiên cứu cần định lượng biểu hiện gen ở mức tổng quát, ví dụ xác định gene nào tăng hoặc giảm biểu hiện giữa các nhóm mẫu. Đây là lựa chọn tiết kiệm chi phí hơn, đặc biệt khi mục tiêu chính là phân tích biểu hiện gen khác biệt.

Trong khi đó, paired-end reads thường được ưu tiên khi nghiên cứu cần thông tin chi tiết hơn về cấu trúc transcript. Do đọc cả hai đầu của cùng một fragment cDNA, paired-end giúp cải thiện khả năng căn chỉnh, đặc biệt ở các vùng lặp, vùng nối exon–exon hoặc các transcript có cấu trúc phức tạp. Vì vậy, paired-end phù hợp hơn cho các phân tích như alternative splicing, biểu hiện isoform, phát hiện transcript mới, gene fusion hoặc allele-specific expression. Tuy chi phí cao hơn, paired-end là lựa chọn tốt hơn khi nghiên cứu không chỉ cần biết “gene nào tăng hay giảm”, mà còn cần hiểu “transcript nào” hoặc “cấu trúc phiên mã nào” đang thay đổi.

Hình 3: So sánh giải pháp thư viện single-end và thư viện paired-end (Nguồn hình ảnh: Zhernakova et al., 2013, doi.org/10.1371/journal.pgen.1003594)

Kiểm soát chất lượng RNA

Thành công của một dự án RNA-Seq phụ thuộc rất lớn vào chất lượng RNA đầu vào. Trước khi chuẩn bị thư viện, mẫu RNA cần được kiểm tra ít nhất ba yếu tố: nồng độ, độ tinh sạch và độ nguyên vẹn. Ba yếu tố này giúp trả lời các câu hỏi cơ bản: mẫu có đủ RNA để làm thư viện không, có bị lẫn tạp chất không, và RNA còn nguyên vẹn hay đã bị phân hủy.

Qubit thường được dùng để định lượng RNA nhờ tín hiệu huỳnh quang đặc hiệu, giúp ước tính lượng RNA chính xác hơn. NanoDrop thường hữu ích để đánh giá độ tinh sạch của mẫu thông qua các tỷ lệ hấp thụ như A260/280 và A260/230. Trong khi đó, các hệ thống như Agilent Bioanalyzer, TapeStation hoặc Fragment Analyzer được dùng để đánh giá kích thước và mức độ nguyên vẹn của RNA thông qua các chỉ số như RIN.

RIN có thể hiểu đơn giản là chỉ số phản ánh mức độ nguyên vẹn của RNA. RIN càng cao thì RNA càng ít bị phân hủy; RIN thấp cho thấy RNA đã bị phân hủy nhiều hơn. Chỉ số này giúp đánh giá mẫu RNA có phù hợp với phương pháp chuẩn bị thư viện dự kiến hay không.

Yêu cầu về RIN không cố định cho mọi thí nghiệm, mà phụ thuộc vào loại mẫu, bộ kit chuẩn bị thư viện và mục tiêu phân tích. Với RNA-Seq sử dụng poly(A) selection, RNA đầu vào thường cần có chất lượng cao với RIN ≥ 4 hoặc cao hơn tùy quy trình. Khi RNA bị phân hủy, poly(A) selection dễ tạo ra dữ liệu thiên lệch về phía đầu 3′ của transcript, làm giảm độ bao phủ toàn chiều dài transcript.

Ngược lại, các quy trình rRNA depletion, đặc biệt trong total RNA-Seq hoặc khi làm việc với mẫu FFPE/RNA phân hủy, RNA có giá trị RIN thấp vẫn có thể được sử dụng để tạo thư viện, miễn là mẫu đạt yêu cầu về hàm lượng và độ tinh sạch.

Hình 4: Kiểm soát chất lượng mẫu RNA đầu vào

Thiết kế thí nghiệm: controls, replicates và batch effect

Bên cạnh lựa chọn công nghệ, thiết kế thí nghiệm đóng vai trò quan trọng trong việc đảm bảo kết quả RNA-Seq đáng tin cậy và có thể diễn giải được. Một thiết kế tốt giúp giảm nhiễu kỹ thuật, hạn chế sai lệch giữa các nhóm mẫu và tăng khả năng phát hiện khác biệt sinh học thực sự.

Controls: Các mẫu đối chứng và control phù hợp giúp theo dõi chất lượng quy trình từ tách chiết RNA, chuẩn bị thư viện đến giải trình tự. Trong một số trường hợp, RNA spike-ins có thể được sử dụng như control kỹ thuật để đánh giá độ ổn định của quy trình, hiệu suất chuẩn bị thư viện hoặc sự khác biệt giữa các lần chạy. Tuy nhiên, spike-ins không thay thế cho thiết kế thí nghiệm tốt và cần được sử dụng phù hợp với mục tiêu nghiên cứu.

Batch effect và randomization
Batch effect xảy ra khi sự khác biệt giữa các mẫu đến từ lô xử lý, ngày chuẩn bị thư viện, người thao tác hoặc lần chạy sequencing, thay vì từ khác biệt sinh học thực sự. Để giảm rủi ro này, nên phân bổ ngẫu nhiên mẫu từ các nhóm thí nghiệm khác nhau vào cùng các lô xử lý. Ví dụ, cần tránh tình huống toàn bộ mẫu đối chứng được xử lý ở một lô, còn toàn bộ mẫu thí nghiệm được xử lý ở lô khác. Nếu không thể loại bỏ hoàn toàn batch effect, việc ghi nhận đầy đủ thông tin batch metadata sẽ giúp kiểm soát và hiệu chỉnh ở bước phân tích dữ liệu.

Replicates: Biological replicates là yếu tố quan trọng để đánh giá biến thiên sinh học và tăng độ tin cậy thống kê. Với các phân tích biểu hiện gen, thường nên có tối thiểu 3 biological replicates cho mỗi điều kiện. Nếu điều kiện cho phép, 5–6 replicates hoặc nhiều hơn sẽ giúp cải thiện độ tin cậy, đặc biệt khi làm việc với mẫu có biến thiên sinh học cao như mẫu mô không đồng nhất.

Tóm tắt các giải pháp RNA-Seq

Hình 4: Tóm tắt các giải pháp transcriptomics phù hợp cho các RNA mục tiêu (Nguồn thông tin: dịch vụ Novogene)

Kết luận

Không có một giải pháp RNA-Seq duy nhất phù hợp cho mọi câu hỏi nghiên cứu. Nếu mục tiêu là phân tích biểu hiện gen mã hóa protein, mRNA-Seq có thể là lựa chọn tối ưu. Nếu cần khảo sát RNA điều hòa, lncRNA-Seq, sRNA-Seq hoặc circRNA-Seq sẽ phù hợp hơn. Trong các nghiên cứu khám phá toàn diện, Whole Transcriptome-Seq giúp mở rộng góc nhìn trên nhiều lớp RNA cùng lúc.

Việc lựa chọn đúng RNA mục tiêu, phương pháp chuẩn bị thư viện, loại thư viện, độ sâu giải trình tự và kiểm soát chất lượng mẫu chặt chẽ sẽ giúp tối ưu dữ liệu đầu ra, giúp tiết kiệm chi phí và tăng khả năng diễn giải sinh học.

Với kinh nghiệm triển khai các giải pháp giải trình tự thế hệ mới, Novogene cùng đối tác chiến lược GeneSmart tại Việt Nam có thể hỗ trợ nhà nghiên cứu xây dựng thiết kế RNA-Seq phù hợp với từng mục tiêu nghiên cứu, từ phân tích biểu hiện gen cơ bản đến các dự án transcriptomics chuyên sâu.

------------

GENESMART CO., LTD | Phân phối ủy quyền 10X Genomics, Altona, Biosigma, Hamilton, IT-IS (Novacyt), Norgen Biotek, Rainin tại Việt Nam.

Website: https://genesmart.vn/

Hotline: 0947 528 778

Email: info@genesmart.vn