Giải trình tự và xây dựng hoàn chỉnh hệ gen người Việt Nam đầu tiên làm "trình tự tham chiếu" và bước đầu phân tích nhân chủng học tiến hóa người Việt Nam

Hệ gen hay còn gọi là bộ gen người (genome, toàn bộ tập hợp các gen) có một cấu trúc hết sức tinh vi và phức tạp, gồm 2 thành phần: i) Hệ gen nhân: kích thước khoảng 3,2 tỷ đơn vị chiều dài, được gọi là nucleotide hoặc cặp base (base pairs, bp; 1000 bp = 1 kilobase, kb) và ii) Hệ gen ty thể có kích thước hơn 16 kb. Mọi biểu hiện của sự sống, bao gồm các yếu tố quyết định sức khỏe mỗi người (khỏe mạnh hay ốm đau, bệnh tật,…) đều liên quan đến chức năng gen. Vì vậy, việc nghiên cứu cấu trúc và chức năng toàn bộ các gen của cơ thể là một vấn đề khoa học cơ bản có định hướng ứng dụng hết sức quan trọng.

Từ gần hai thập kỷ qua, sau khi giải mã thành công hệ gen người đầu tiên, công nghệ và thiết bị kỹ thuật đã phát triển vượt bậc. Nhờ đó, các nghiên cứu hệ gen người bước vào một thời kỳ mới có thể nhanh chóng xác định được hàng triệu chỉ thị trên toàn bộ hệ gen của các - thời kỳ của các phân tích đa hình bằng nghiên cứu tương quan trên toàn bộ hệ gen (GWAS - genome-wide association study), giúp phân tích sâu về đặc điểm di truyền ở người. Các nước đã và đang tiến hành nhiều chương trình, dự án lên tới 1000, 10.000, 100.000, thậm chí hàng triệu hệ gen người mang lại nhiều ứng dụng: xây dựng mới trình tự chuẩn tham chiếu đặc trưng quần thể, tạo cơ sở dữ liệu về đa hình giúp cho các nghiên cứu đặc điểm di truyền quần thể... Việt Nam, quốc gia với hơn dân số hiện nay là 90 triệu dân (số liệu cuối năm 2013), theo Tổng cục Thống kê dự kiến đến năm 2019 là 95,3 triệu dân (đứng thứ 13 trên thế giới về dân số) với 54 dân tộc anh em, được phân chia theo 5 ngữ hệ khác nhau, trong đó dân tộc Kinh chiếm tỷ lệ lớn nhất (gần 86%). Các dân tộc thiểu số (gần 14%) chủ yếu sống ở miền núi, vùng sâu, vùng xa và vùng biên giới. Mỗi quần thể người (dân tộc) khác nhau có những đặc điểm di truyền đặc trưng, thể hiện bằng sự phân bố tần suất allel các locus gen. Vì vậy, không thể áp dụng cơ sở dữ liệu của quần thể này cho một quần thể khác.

Xuất phát từ những nhu cầu thực tế nêu trên, nhóm nghiên cứu của Viện Nghiên cứu hệ gen, Viện Hàn lâm Khoa học và Công nghệ Việt Nam do PGS.TS. Nông Văn Hải đứng đầu đã thực hiện đề tài “Giải trình tự và xây dựng hoàn chỉnh hệ gen người Việt Nam đầu tiên làm ‘trình tự tham chiếu’ và bước đầu phân tích nhân chủng học tiến hóa người Việt Nam” với mục tiêu chính là giải trình tự hoàn chỉnh hệ gen của các thành viên của một số gia đình (bố mẹ và các con) để lựa chọn làm trình tự tham chiếu (reference sequence) sơ bộ đầu tiên của người Việt Nam phục vụ cho các nghiên cứu lâu dài về hệ gen người Việt Nam. Phân tích được đặc điểm đa hình cấu trúc phân tử (đa hình nucleotide đơn, SNP) trên cơ sở giải trình tự toàn bộ hệ gen ty thể và một phần nhiễm sắc thể Y của một số dân 13 tộc trong cộng đồng người Việt Nam, qua đó xác định nguồn gốc các dân tộc, quan hệ chủng loại phát sinh và nhân chủng học tiến hóa người Việt Nam.

Sau một thời gian triển khai thực hiện, nhóm đề tài đã thực hiện đầy đủ các nội dung nghiên cứu và đạt được các sản phẩm như đã đăng ký theo hợp đồng và thuyết minh.

Một số các sản phẩm chính đề tài đạt được: Sử dụng kỹ thuật giải trình tự thế hệ mới (hệ thống Illumina NextSeq500), đề tài đã tiến hành giải mã toàn bộ hệ gen (genome) của cá thể người Việt Nam. Toàn bộ cá thể mẫu đều cho kết quả đọc trình tự tương đối tốt với dữ liệu tối thiểu từ 100 Gb trên mẫu, tương đương với khoảng 33 lần bao phủ. Toàn bộ dữ liệu thô đã được lắp ráp với trình tự tham chiếu hg19, kết quả thu được số lượng SNV ở các mẫu dao động từ 3,5 đến 3,7 triệu SNV trong khi đó số lượng Indel xác định được từ 370 nghìn đến 533 nghìn Indel. Hơn 98% số SNV có mặt trong cơ sở dữ liệu dbSNP.v138 và cơ sở dữ liệu 1000genome, phần còn lại chiếm 1,17% là các đa hình cá thể hoặc đột biến. Các SNV chủ yếu nằm trong vùng intron, rất ít SNV nằm trong vùng exon.

Trình tự hoàn chỉnh của toàn bộ hệ gen của 10 cá thể này đã được sử dụng để xây dựng “trình tự tham chiếu” của người Việt Nam, có thể dùng làm trình tự tham chiếu cho các nghiên cứu tiếp theo. Sử dụng kỹ thuật giải trình tự thế hệ mới (hệ thống Illumina NextSeq500), đã tiến hành giải mã toàn bộ hệ gen ty thể của 609 cá thể nam thuộc 17 dân tộc ở cả 5 họ ngôn ngữ ở Việt Nam. Toàn bộ dữ liệu thô đã được lắp ráp với trình tự chuẩn RSRS, kết quả thu được 111 dòng mtDNA mới từ các nhóm đơn bội cũ trong. Đồng thời, cũng đã tìm thấy sự phân bố tập trung của các nhóm đơn bội đặc thù của Việt Nam vào khoảng 2,5-3 kya, tương ứng với bằng chứng khảo cổ học cho sự mở rộng theo hướng nông nghiệp của văn hoá Đông Sơn.

Sử dụng kỹ thuật SnaPshot, nhóm đề tài đã tiến hành xác định đa hình nucleotide đơn của 600 cá thể nam thuộc 17 dân tộc ở cả 5 họ ngôn ngữ ở Việt Nam. Kết quả xác định được 57 đa hình nucleotide đơn thuộc các nhóm đơn bội O, N, C, D, F, H, L, NO, R và Q. Để lưu trữ dữ liệu thuận tiện cho việc khai thác và chia sẻ dữ liệu, đề tài đã xây dựng cơ sở dữ liệu genome của cá thể, SNP hệ gen ty thể của 609 cá thể thuộc 17 dân tộc, SNP trên NST Y của 600 cá thể thuộc 17 dân tộc ở người Việt Nam.

Những kết quả bước đầu của của đề tài này đã làm tiền đề và mở ra các nghiên cứu tiếp theo về nhân chủng học tiến hóa người Việt Nam. Tuy nhiên, với thời gian và kinh phí có hạn dữ liệu về hệ gen ty thể và NST Y còn hạn chế, nghiên cứu mới chỉ thực hiện được trên 17 dân tộc. Việc nghiên cứu toàn bộ cộng đồng các dân tộc Việt Nam là rất cần thiết để có được số liệu đồng bộ, bổ sung vào cơ sở dữ liệu hiện có, giúp tiến hành nghiên cứu phân tích kỹ hơn về các dân tộc Việt Nam và là cơ sở dữ liệu tham khảo cho các nghiên cứu di truyền bệnh học.

Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu của Đề tài (Mã số 17010/2020) tại Cục Thông tin khoa học và công nghệ quốc gia.

P.T.T (NASATI)