1) Vì sao phải thực hiện giải trình tự RNA tế bào đơn?
2) Giải trình tự RNA tế bào đơn được thực hiện như thế nào?
3) Công nghệ giải trình tự RNA tế bào đơn của 10X Genomics hoạt động như thế nào?
4) Dữ liệu đầu ra sau khi giải trình tự RNA tế bào đơn là gì?
Phía trên là các câu hỏi thường gặp của bất kỳ ai khi nghe về công nghệ giải trình tự RNA tế bào đơn (scRNA-seq). Ở bài viết này, GeneSmart sẽ làm sáng tỏ các câu hỏi trên thông qua việc cung cấp kiến thức cơ bản nhất về công nghệ giải trình tự RNA tế bào đơn (scRNA-seq) của 10X Genomics.
1) Vì sao phải thực hiện giải trình tự RNA tế bào đơn?
Cơ thể người trưởng thành có khoảng 37.2 nghìn tỷ tế bào và chúng đều có cùng một bộ nhiễm sắc thể. Nhưng trong thực tế, cơ thể lại có nhiều loại tế bào khác nhau, đó là vì mỗi loại tế bào chỉ biểu hiện một tập hợp các gene nhất định. Vì vậy để hiểu rõ vai trò của các tế bào khác nhau thì cần phải phân tích biểu hiện gene của chúng. Giải trình tự RNA (bulk RNA-seq) là một trong những cách phân tích biểu hiện gene hiệu quả nhất, vì nó có khả năng cung cấp thông tin của toàn bộ hệ phiên mã (whole transcriptome).
Dù vậy, công nghệ bulk RNA-seq chỉ phù hợp với mẫu đầu vào đồng nhất, chỉ chứa một quần thể tế bào. Trong thực tế, các mẫu mô thường không đồng nhất (heterogeneity), chúng chứa nhiều quần thể tế bào khác nhau. Vì vậy bulk RNA-seq có thể dẫn đến những phát hiện không chính xác (Hình 1).
Giải trình tự RNA tế bào đơn (scRNA-seq) cho phép phân tích biểu hiện gene của từng tế bào trong mẫu, chính là chìa khóa để các nhà nghiên cứu có thể phân loại, mô tả đặc điểm và phân biệt các tế bào khác nhau ở mức độ phiên mã. Từ đó có thể xác định các quần thể tế bào hiếm nhưng quan trọng về mặt chức năng, chẳng hạn như quần thể tế bào liên quan đến tình trạng bệnh tật.
2) Giải trình tự RNA tế bào đơn được thực hiện như thế nào?
Khái niệm giải trình tự RNA tế bào đơn (scRNA-seq) được nhắc đến lần đầu vào năm 2009, kể từ đó các công bố về các công nghệ scRNA-seq khác nhau liên tục được ra mắt, chủ yếu giải quyết 2 vấn đề chính của scRNA-seq đó là: thông lượng (throughput) và chi phí trên mỗi tế bào (cost per cell) (Hình 2).
Hầu hết công nghệ giải trình tự RNA tế bào đơn (scRNA-seq) thông lượng cao hiện nay đều sử dụng cell barcode để đánh dấu các phân tử mục tiêu của từng tế bào (Hình 3). Nhờ việc sử dụng cell barcode, phần mềm phân tích có thể phân nhóm dữ liệu đầu ra thành các bộ dữ liệu riêng cho từng tế bào.
3) Công nghệ giải trình tự RNA tế bào đơn của 10X Genomics
Để giải trình tự RNA tế bào đơn, 10X Genomics sử dụng công nghệ Next GEM, trong đó các phân tử mục tiêu (RNA, DNA và Feature Barcode) của từng tế bào sẽ được gắn một trình tự nhận diện gọi là cell barcode (10X barcode). Sau khi đã gắn 10X barcode, mẫu sẽ được chuẩn bị thư viện giải trình tự với quy trình không khác biệt gì so với quy trình giải trình tự thông thường. Điểm khác biệt duy nhất chính là mỗi đoạn đọc (read) đều mang 10X barcode, nhờ đó phần mềm có thể phân nhóm các đoạn đọc thành các bộ dữ liệu riêng cho từng tế bào đơn (Hình 3).
Một quy trình giải trình tự tế bào đơn có thể tóm tắt thông qua 5 bước (Hình 4): 1-Chuẩn bị mẫu, 2-Tạo thư viện tế bào đơn, 3-Giải trình tự và 4-Phân tích dữ liệu và 5-Trực quan hóa dữ liệu.
Vậy làm thế nào để gắn 10X barcode lên các phân tử mục tiêu của từng tế bào? Để làm được điều này, công nghệ Next GEM sử dụng kết hợp 2 yếu tố quan trọng:
1-Hệ thống droplet microfluidic giúp đưa mỗi tế bào đơn vào trong một vi giọt phản ứng, mỗi vi giọt phản ứng giống như một ống nghiệm riêng biệt nên sẽ không xảy ra phản ứng chéo.
2-Gel Bead chứa hàng triệu các oligonucleotide (primer) mang 10X barcode để đánh dấu lên tế bào đơn, gel bead sẽ được đưa vào trong vi giọt cùng với tế bào đơn thông qua hệ thống droplet microfluidic.
3.1. Hệ thống droplet microfludic của 10X Genomic (Chromium)
Chromium iX, Chromium X và Chromium Connect là những thiết bị dựa trên nền tảng droplet microfluidic gọi là Chromium. Trong đó, Chromium iX và Chromium X chỉ phục vụ mục đích đưa tế bào đơn (single cell) vào trong các vi giọt phản ứng. Chromium Connect thì được bổ sung tính năng chuẩn bị thư viện tự động, giúp giảm 80% thời gian thao tác tay, cũng như giảm thiểu các sai số do thao tác hút nhả pipette gây ra (Hình 5).
Nguyên lý công nghệ droplet microfluidic của nền tảng Chromium rất đơn giản, nền tảng Chromium sử dụng các vi kênh để trộn 2 pha nước và dầu với nhau tạo thành các vi giọt nhũ tương nước-trong-dầu. Tế bào và gel bead sẽ được nạp vào pha nước; hỗn hợp vi giọt tạo ra sẽ có một số vi giọt chỉ chứa gel bead, một số vi giọt chỉ chứa tế bào, một số vi giọt chứa cả gel bead và tế bào và một lượng lớn vi giọt không chứa bất kỳ gel bead hay tế bào nào (Hình 6).
Các vi giọt có chứa gel bead (bất kể có chứa hay không chứa tế bào) đều được gọi chung là GEM (gel bead-in-emulsion), số lượng GEM tạo ra ở mỗi kênh trong một lần chạy là vô cùng lớn, về lý thuyết có thể đạt bằng đúng lượng gel bead được đưa vào. Lượng gel bead và lượng tế bào nạp vào càng nhiều thì tỷ lệ vi giọt chứa đồng thời cả gel bead lẫn tế bào càng lớn, hay nói cách khác là tỷ lệ GEM có chứa tế bào càng lớn. Tuy nhiên, để tránh tình trạng trong GEM chứa nhiều tế bào (doublet hay multiplet) thì nên duy trì lượng tế bào nạp vào ở mức thấp nhất có thể và tăng lượng gel bead lên mức tối đa.
Vậy quá trình tạo GEM chứa tế bào đơn trên nền tảng Chromium đạt hiệu quả đến mức nào? Để đánh giá hiệu quả của nền tảng Chromium, chúng ta có thể dựa trên một số thông số cơ bản:
1) Thông lượng (throughput): Số lượng kênh (mẫu) cho mỗi lần chạy và số lượng dữ liệu tế bào dự kiến trên mỗi kênh.
2) Kích thước tế bào (cell size): Kích thước tế bào tối thiểu và tối đa có thể nạp vào kênh vi giọt.
3) Hiệu quả bắt giữ (capture efficiency): Tỷ lệ tế bào có được dữ liệu giải trình tự. Ví dụ: Nạp vào 10,000 tế bào và thu được dữ liệu giải trình tự của 1,000 tế bào thì “hiệu quả bắt giữ” là 10%.
4) Tỷ lệ dữ liệu đa bào (multiplet rate): Doublet (hay multiplet) là thuật ngữ dùng để chỉ các GEM chứa từ 2 tế bào trở lên, tỷ lệ doublet/multiplet càng thấp thì dữ liệu thu được càng đáng tin cậy hơn.
5) Thời gian xử lý (processing time): Thời gian cần thiết để hoàn tất quá trình tạo GEM.
STT | Thông số kỹ thuật | Bộ kit chuẩn | Bộ kit HT |
1 | Thông lượng (throughput) | 1 – 8 kênh, 500 – 10K tế bào/kênh | 1 – 16 kênh, 2K – 20K tế bào/kênh |
2 | Kích thước tế bào (cell size) | ≤30 μm | ≤30 μm |
3 | Hiệu quả bắt giữ (capture efficiency) | 65% | 65% |
4 | Tỷ lệ dữ liệu đa bào (multiplet rate) | 0.8% mỗi 1,000 tế bào | 0.4% mỗi 1,000 tế bào |
5 | Thời gian xử lý (processing time) | 18 phút (tự động) | 18 phút (tự động) |
3.2 Cấu tạo Gel Bead của 10X Genomics
Gel Bead đóng vai trò quan trọng trong việc gắn 10X barcode lên các phân tử mục tiêu (RNA, DNA và Feature Barcode) cho từng tế bào đơn trong mẫu. Trên bề mặt gel bead là hàng triệu primer, tùy vào loại kit sử dụng mà cấu tạo primer trên gel bead sẽ có đôi chút khác biệt. Trong đó, Single Cell 3′ v3.1 Gel Bead là loại gel bead chuyên dụng để phân tích biểu hiện gene tế bào đơn (Single Cell Gene Expression) thông qua giải trình tự đầu 3’ của mRNA.
Single Cell 3′ v3.1 Gel Bead mang 3 loại primer khác nhau, một loại mang đuôi poly(dT) và 2 loại mang đuôi Capture Sequence. Cấu trúc primer trên Single Cell 3′ v3.1 Gel Bead gồm 4 vùng trình tự:
– Read1: Một phần của trình tự Read1 trong giải trình tự Illumina, chủ yếu đóng vai trò làm vị trí bám mồi PCR thứ nhất (1st PCR handle) cho bước khuếch đại cDNA phía sau (Hình 9).
– 10X barcode (hay cell barcode): Trình tự dài 16 nucleotide dùng để đánh dấu tế bào, mỗi gel bead sẽ mang một trình tự 10X barcode riêng, không giống nhau. Tất cả các primer trên cùng một gel bead sẽ có 10X barcode giống nhau.
– UMI (unique molecular identifier): Trình tự dài 12 nucleotide dùng để đánh dấu từng phân tử mục tiêu trong tế bào, các primer trên cùng một gel bead sẽ có trình tự UMI khác nhau. UMI giúp phân biệt các bản sao phiên mã có bản chất sinh học với các bản sao do PCR tạo ra, từ đó cho phép định lượng mức độ biểu hiện của từng gene thông qua việc đếm số lượng UMI khác nhau.
– Poly(dT)VN: Trình tự dùng để bắt giữ đuôi poly(A) của mRNA.
– Capture Sequence: Trình tự sử dụng trong các phân tích mở rộng (tùy chọn) như: 1-gộp nhiều mẫu vào một kênh” (CellPlex), 2-phân tích protein bề mặt tế bào hay 3-phát hiện biến đổi do CRISPR gây ra (CRISPR screening) thông qua một công nghệ bổ trợ khác gọi là Feature Barcode (Xem thêm về công nghệ Feature Barcode TẠI ĐÂY).
3.3 Single Cell 3′ v3.1 Gel Bead gắn 10X barcode lên RNA của tế bào bằng cách nào?
Sau khi tạo GEM, tế bào sẽ bị ly giải và gel bead sẽ tự tan, khiến primer và mRNA bắt cặp tự do trong vi giọt. Kế tiếp một phản ứng phiên mã ngược (RT) sẽ diễn ra, sử dụng trình tự mRNA làm khuôn và kéo dài primer của gel bead, tạo ra các cDNA mang 10X barcode và UMI. Enzyme RT trong công nghệ của 10X Genomics có đặc điểm là sẽ tự động gắn thêm một số nucleotide C vào đầu 3’ của cDNA sau khi đã đi hết chiều dài của mRNA. Đuôi poly(dC) sẽ của cDNA sẽ tiếp tục bắt cặp với 3 nucleotide rG trên của một trình tự gọi là Template Switch Oligo (TSO), sau đó sử dụng TSO làm khuôn để tiếp tục kéo dài cDNA (Hình 8). Vùng trình tự được kéo dài ra từ khuôn TSO đóng vai trò làm vị trí bám mồi PCR thứ hai (2nd PCR handle) cho bước khuếch đại cDNA phía sau (Hình 9).
Sau khi đã tạo được các cDNA mang barcode, GEM sẽ được loại bỏ để thu hồi các cDNA mang barcode. Nhờ có barcode nên việc trộn chung cDNA của các tế bào khác nhau trong cùng một ống nghiệm sẽ không làm ảnh hưởng đến các bước phân tích dữ liệu phía sau.
Sau khi được thu hồi, toàn bộ cDNA mang barcode sẽ được khuếch đại bằng PCR nhằm đảm bảo đủ lượng cDNA cần thiết cho phân tích dữ liệu, bởi vì lượng mRNA trong mỗi tế bào là cực kỳ ít (tế bào động vật có vú có chưa đến 0.1 pg mRNA), trong khi đó lượng mRNA cần để đủ dữ liệu phân tích trong giải trình tự phải tính bằng μg, tương đương hàng triệu tế bào (Hình 9).
3.4 Chuẩn bị thư viện Single Cell 3′ Gene Expression (SC-3’GEX)
Sau khi có đủ lược cDNA mang barcode cần thiết, quá trình tạo thư viện SC-3’GEX sẽ diễn ra. Vì bản chất thư viện SC-3’GEX là thư viện giải trình tự Illumina, kích thước tối ưu của thư viện sẽ từ 300 – 600 bp. Đồng thời việc giữ lại phía mang barcode của cDNA là bắt buộc trong phân tích tế bào đơn. Do đó, thư viện SC-3’GEX chỉ giữ lại đoạn cDNA mang thông tin của 100 – 400 nucleotide ở đầu 3’ của mRNA.
Để làm được điều này, cDNA mang barcode sẽ trải qua các quá trình phân cắt (fragmentation), sửa chữa tạo đầu bằng, gắn đuôi A để gắn Read2. Trình tự Read2 sẽ đóng vai trò làm vị trí bám mồi PCR thứ hai (2nd PCR handle) trong phản ứng PCR gắn index. Cuối cùng, phản ứng PCR gắn index diễn ra nhằm tạo ra thư viện SC-3’GEX hoàn chỉnh mang đầy đủ cấu trúc của một thư viện giải trình tự Illumina (Hình 10).
Trong đó:
– P5 và P7: Các trình tự adapter để thư viện có thể bám và tạo cụm (cluster) trên flow-cell của Illumina.
– i7 và i5: Cặp trình tự index để phân biệt giữa thư viện này với thư viện khác. Thư viện SC-3’GEX của 10X Genomics sử dụng 2 index giúp giảm thiểu ảnh hưởng của Index Hopping (Xem thêm TẠI ĐÂY).
– Read1 và Read2: Các vị trí để mồi giải trình tự bám vào để thực hiện giải trình tự.
3.5 Giải trình tự thư viện Single Cell 3′ Gene Expression (SC-3’GEX)
Giải pháp Chromium Single Cell của 10X Genomics tương thích với tất cả các hệ thống giải trình tự của Illumina, đồng thời đòi hỏi bộ kit giải trình tự có thể thực hiện được 138 chu kỳ* (Bảng 2):
Bước | Số chu kỳ | Dữ liệu thu được |
Read 1 | 28 | 10X Barcode và UMI |
i7 index | 10 | index 1 |
i5 index | 10 | index 2 |
Read 2 | 90 | 90nt của trình tự mRNA |
* Hiện nay các bộ kit 100 chu kỳ của các hệ thống NextSeq 1000/2000, NovaSeq 6000 và NovaSeq X/X Plus đều được bổ sung 38 chu kỳ để có thể giải thư viện Chromium Single Cell của 10X Genomics. Xem số chu kỳ tối đa của các bộ kit Illumina TẠI ĐÂY.
Giải trình tự RNA tế bào đơn (scRNA-seq) là giải trình tự 2 đầu (paired-end), tuy nhiên thuật ngữ đoạn đọc (read) trong giải trình tự 1 đầu (single-end) thường được sử dụng để nói về dữ liệu scRNA-seq, trong đó 1 đoạn đọc (read) = 1 cặp đoạn đọc paired-end (read1 + read2).
Độ sâu giải trình tự (sequencing depth) tối thiểu cho thư viện SC-3’GEX là 20,000 đoạn đọc (read) trên mỗi tế bào. Tùy vào loại mẫu và mục đích nghiên cứu, độ sâu giải trình tự có thể sẽ phải được tăng lên cho phù hợp.
Làm sao tính được độ sâu giải trình tự phù hợp?
Sau mỗi lần chạy giải trình tự tế bào đơn, phần mềm Cell Ranger của 10X Genomics sẽ đưa ra một file gọi là web_summary.html có chứa những thông tin cơ bản về dữ liệu của lần chạy đó, xem thêm TẠI ĐÂY, trong đó bao gồm độ bão hòa giải trình tự (sequencing saturation, SS).
Độ bão hòa giải trình tự (SS) có thể phản ánh số đoạn đọc (read) cần tăng thêm để có thể thu được một UMI mới thông qua công thức X = 1/(1 – SS). Trong đó, X là số đoạn đọc (read) cần tăng thêm.
Như vậy, nếu độ bão hòa giải trình tự (SS) là 50% thì cứ mỗi 2 đoạn đọc (read) tăng thêm thì có thể thu được một UMI mới. Ngược lại, nếu độ bão hòa giải trình tự (SS) là 90% thì cần 10 đoạn đọc (read) tăng thêm mới có thể thu được một UMI mới. Xem thêm về độ bão hòa giải trình tự TẠI ĐÂY.
Đối với mục đích nghiên cứu là phân nhóm dữ liệu thành các quần thể tế bào để phân tích, việc phát hiện tất cả các UMI trong từng tế bào là không cần thiết, lúc này có thể sử dụng độ bão hòa giải trình tự (SS) ở mức thấp. Tuy nhiên nếu mục đích nghiên cứu là phân tích các gene có biểu hiện thấp thì có thể sẽ cần độ bão hòa giải trình tự (SS) ở mức cao để có thể bắt giữ được các gene này.
4) Phân tích dữ liệu giải trình tự RNA tế bào đơn (scRNA-seq)
Dữ liệu giải trình tự RNA tế bào đơn (scRNA-seq) gồm 3 trình tự quan trọng là 10X barcode, UMI ở Read1 và 90 nucleotide của mRNA ở Read2. Trong đó, 90 nucleotide của mRNA được sử dụng để xác định đoạn đọc (read) thuộc gene nào. Cuối cùng dữ liệu scRNA-seq sẽ được thể hiện dưới dạng ma trận đếm (count matrix) (Bảng 3).
Cell 1 | Cell 2 | Cell 3 | … | Cell N | |
Gene 1 | 3 | 15 | 2 | . | 4 |
Gene 2 | 0 | 5 | 8 | . | 16 |
Gene 3 | 14 | 0 | 1 | . | 2 |
… | . | . | . | . | . |
Gene M | 25 | 3 | 1 | . | 2 |
Trong đó:
– Mỗi cột là dữ liệu của một 10X barcode (một tế bào)
– Mỗi hàng là dữ liệu của một gene.
– Số bên trong mỗi ô là số lượng UMI khác nhau đếm được (số bản sao phiên mã)
Từ ma trận đếm (count matrix), có thể sử dụng thuật toán phân tích thành phần chính (PCA) để giảm chiều dữ liệu, cũng như các thuật toán t-SNE hay UMAP để hiển thị dữ liệu dạng đồ thị 2D. Xem thêm TẠI ĐÂY.
Đồ thị t-SNE và UMAP có thể xem là linh hồn của giải trình tự RNA tế bào đơn, vì chúng thể hiện những quần thể tế bào khác nhau đang hiện diện (Hình 11), từ đó các nhà nghiên cứu có thể làm được nhiều phân tích phía sau, chẳng hạn như như so sánh thành phần tế bào giữa người khỏe mạnh và người bệnh, hay nghiên cứu sâu về biểu hiện gene ở một quần thể tế bào cụ thể.
Tài liệu tham khảo
1) Macaulay, I. C., & Voet, T. (2014). Single cell genomics: advances and future perspectives. PLoS genetics, 10(1), e1004126.
2) Jovic, D., Liang, X., Zeng, H., Lin, L., Xu, F., & Luo, Y. (2022). Single‐cell RNA sequencing technologies and applications: A brief overview. Clinical and Translational Medicine, 12(3), e694.
3) Danielski, K. (2022). Guidance on processing the 10x genomics single cell gene expression assay. In Single Cell Transcriptomics: Methods and Protocols (pp. 1-28). New York, NY: Springer US.
4) 10X Genomics (CG000315). Chromium Single Cell 3′ Reagent Kits User Guide (v3.1 Chemistry Dual Index).
------------
GENESMART CO., LTD | Phân phối ủy quyền 10X Genomics, Altona, Biosigma, Hamilton, IT-IS (Novacyt), Norgen Biotek, Rainin tại Việt Nam.