Các phương pháp nhanh giải các bài toán phân tích mối quan hệ giữa các trình tự cho các tập dữ liệu lớn

Trong thời gian từ năm 2014 đến năm 2018, PGS.TS. Lê Sỹ Vinh cùng các cộng sự tại Trường Đại học Công nghệ đã thực hiện đề tài: “Các phương pháp nhanh giải các bài toán phân tích mối quan hệ giữa các trình tự cho các tập dữ liệu lớn”. Mục tiêu của đề tài là nghiên cứu các phương pháp nhanh để giải các bài toán phân tích trình tự quan trọng. Cụ thể là: Phân tích các phương pháp nhanh để xây dựng mô hình thay thế axít amin. Đề xuất phương pháp mới (và xây dựng chương trình máy tính) để xây dựng mô hình thay thế axít amin từ các tập dữ liệu lớn; Phân tích các phương pháp nhanh xác định mức độ tin cậy cho các cây phân loài. Đề xuất và/hoặc cải tiến các phương pháp (và phần mềm) xác định mức độ tin cậy cho các cây phân loài để chúng có thể làm việc trên các bộ dữ liệu lớn.

Một số kết quả của nghiên cứu:

Đề xuất phương pháp xây dựng mô hình thay thế axit amin cho các tập dữ liệu lớn

Nhóm nghiên cứu đã đề xuất phương pháp FastMG để chia bộ dữ liệu lớn thành các bộ dữ liệu nhỏ hơn nhằm giảm thời gian xây dựng cây phân loài, nhưng vẫn đảm bảo lưu giữ đủ thông tin để phục vụ việc xây dựng mô hình với độ chính xác cao. Thí nghiệm với nhiều bộ dữ liệu lớn cho thấy FastMG có tốc độ nhanh hơn hàng chục lần so với các phương pháp hiện tại. Các kết quả nghiên cứu này đã được đăng trong bài báo “FastMG: a simple, fast, and accurate maximum likelihood procedure to estimate amino acid replacement rate matrices from large data sets” trên tạp chí BMC Bioinformatics, 2014, 15:341.

Xây dựng mô hình thay thế axit amin cho hệ gen ti thể ở động vật

Chúng tôi thu thập 125,935 chuỗi protein ti thể từ 34,448 loài động vật để xây dựng ba mô hình: mtMet, mtVer và mtInv tương ứng cho các loài động vật chung, cho các loại động vật có xương sống và cho các loại động vật không có xương sống. Kết quả thử nghiệm trên dữ liệu thật cho thấy các mô hình mới xây dựng giúp tìm ra các cây phân loài tốt hơn các mô hình hiện tại. Kết quả nghiên cứu được đăng tải trong bài báo “Improved mitochondrial amino acid substitution models for metazoan evolutionary studies” trên tạp chí BMC Evolutionary Biology, 2017, 17:136 .

Đề xuất phương pháp UFBoot2 đánh giá độ tin cây của các cây phân loài bằng tiêu chuẩn cực đại khả năng cho các tập dữ liệu lớn

Đề tài đã đề xuất phương pháp cải tiến UFBoot2 để giải quyết các hạn chế lớn nêu trên của UFBoot. Thực nghiệm cho thấy, UFBoot 2 nhanh hơn phương pháp chuẩn 778 lần và 8.4 lần so với phương pháp đánh giá nhanh RAxML. Các kết quả nghiên cứu của phương pháp UFBoot2 được đăng tại bài báo “UFBoot2: Improving the Ultrafast Bootstrap Approximation” trên tạp chí uy tín Molecular Biology and Evolution 35(2), 518-522.

Đề xuất phương pháp MPBoot xây dựng và đánh giá nhanh cây phân loài dựa vào tiêu chuẩn tiết kiệm nhất

Đề tài đề xuất phương pháp MPBoot, một mở rộng của UFBoot2, cho phép cùng một lúc có thể xây dựng và đánh giá cây phân loài theo tiêu chuẩn tiết kiệm nhất. Các kết quả nghiên cứu này đã được đăng trong bài báo “MPBoot: fast phylogenetic maximum parsimony tree inference and bootstrap approximation” trên tạp chí BMC Evolutionary Biology, 2018, 18:11.

Đề xuất phương pháp xây dựng

Đồ thị tái tổ hợp tổ tiên cho hệ gen người Chúng tôi đề xuất phương pháp ARG4WG để xây dựng ARG cho toàn bộ hệ gen người. Thí nghiệm cho thấy ARG4WG có tốc độ nhanh hơn hàng trăm đến hàng nghìn lần so với phương pháp Margarita. Các kết quả nghiên cứu được đăng tại bài báo “Building Ancestral Recombination Graphs for Whole Genomes” trên tạp chí IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS, 14 (2), 478-483.

Đề xuất phương pháp dự đoán mức độ hiệu quả siRNA (siRNA efficacy)

Các tác giả đã phát triển mô hình dự đoán nhằm nâng cao khả năng dự đoán của mô hình. Ý tưởng chính là kết hợp các tiếp cận dựa trên các luật thiết kế các đoạn RNA có khả năng ức chế cao và dựa trên mô hình dự đoán. Các kết quả nghiên cứu này đã được đăng tại bài báo “MVRM: A hybrid approach to predict siRNA efficacy” trong kỉ yếu hội nghị quốc tế “Seventh International Conference on Knowledge and Systems Engineering”, 2015, 120:125.

Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu của Đề tài (Mã số 15170) tại Cục Thông tin Khoa học và Công nghệ Quốc gia.

N.P.D (NASATI)