Hệ thống kiểm tra đạo văn tiếng Việt

Trước đây, một số trường đại học ở Việt Nam đã mua các phần mềm kiểm tra đạo văn của nước ngoài để đánh giá bài làm hay các sản phẩm học thuật của người học. Tuy nhiên điểm yếu của các phần mềm ngoại là chỉ bán theo số lượng lớn tài khoản cho các đơn vị với chi phí bản quyền cao nên những người có nhu cầu kiểm tra cá nhân lại không thể sử dụng. Thêm vào đó, do chưa được tối ưu cho xử lý Tiếng Việt - “ngôn ngữ vốn cần phát hiện trùng lặp theo cả một đoạn dài thay vì so sánh kiểu word by word như một số ngôn ngữ khác”, việc dùng các phần mềm này cho các tài liệu trong nước cũng chưa thực sự hiệu quả. Điều đó đã thôi thúc nhóm nghiên cứu bao gồm các giảng viên và sinh viên của trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, thực hiện ý tưởng: “phải xây dựng được hệ thống kiểm tra trùng lặp đáp ứng được nhu cầu sử dụng tại Việt Nam, từ đó góp phần thúc đẩy sự nghiêm túc trong nghiên cứu và học tập trong nước”.

Việc xây dựng một phần mềm chống đạo văn như vậy đòi hỏi phải giải quyết rất nhiều vấn đề từ thu thập và xử lý dữ liệu cho đến công tác bảo mật và trải nghiệm người dùng. Nhưng theo anh Nguyễn Ngọc Sơn - cựu sinh viên trường ĐH Công nghệ, thành viên nghiên cứu chính và hiện đang làm việc tại Công ty Cổ phần Metis, cái khó nhất và quan trọng nhất làm nhóm nghiên cứu phải “đau đầu” chính là “làm sao để có thể phát hiện sự tương đồng trong văn bản trên hàng terabytes dữ liệu trên internet mà vẫn phải đảm bảo chất lượng, tốc độ kiểm tra cũng như khả năng chịu tải trên một hạ tầng phần cứng bị giới hạn”. “Bài toán này giống như bài toán của các công cụ tìm kiếm, tuy nhiên khác nhau ở chỗ: khi tìm kiếm trên Google, Cốc Cốc, người dùng thường tìm những từ khóa ngắn và có thể lặp lại, trong khi đó hệ thống trùng lặp lại luôn phải xử lý những câu văn dài nên khó áp dụng được các phương pháp tối ưu truy vấn của công cụ tìm kiếm. Thêm vào đó, dung lượng tính toán cũng thường cao hơn nhiều so với các từ khóa ngắn”, Nguyễn Ngọc Sơn giải thích.

Với một nhóm nghiên cứu không có quá nhiều tiềm lực để đầu tư vào cơ sở hạ tầng, họ lựa chọn tối ưu thuật toán và công nghệ trên tài nguyên đã có. Tư duy “con nhà nghèo nên phải vượt khó” đã đưa họ đến việc thiết kế hệ thống để cân bằng tải, sử dụng các kiến trúc và công nghệ mới như kiến trúc vi dịch vụ (microservices) và hàng đợi (queue) để các tài liệu gửi lên luôn luôn được đẩy vào danh sách “xếp hàng”. Nhờ vậy, khi có số lượng người dùng lớn, hệ thống cũng không bị quá tải mà luôn xử lý theo giới hạn xử lý tối đa của phần cứng. Song song với đó, nhóm cũng liên tục thử trên rất nhiều thư viện lập trình và nền tảng công nghệ khác nhau, từ trả phí đến mã nguồn mở, cũng như từ các thuật toán tương đồng đến các công nghệ big data và các hạ tầng phần cứng ở nhiều nơi để tìm ra giải pháp tối ưu tốc độ truy vấn tương đồng và đảm bảo kết quả trả về một cách nhanh nhất.

Sau gần bảy năm trải qua 4 phiên bản khác nhau, nhóm đã xây dựng và phát triển hoàn thiện được hệ thống hỗ trợ nâng cao chất lượng tài liệu DoIT phục vụ nhu cầu sử dụng của hàng ngàn thầy cô, sinh viên mỗi năm. Không chỉ được tích hợp khả năng kiểm tra chính tả, kiểm tra bài tập theo nhóm, hỗ trợ nhiều loại định dạng văn bản khác nhau và có thể áp dụng triển khai nội bộ cho các đơn vị, theo Nguyễn Ngọc Sơn, điểm vượt trội nhất của phần mềm này là khả năng xử lý tiếng Việt so với các phần mềm khác trên thế giới. Nhờ phát triển được một thuật toán riêng, sử dụng độ đo bất đối xứng nên việc kiểm tra, tính điểm trùng lặp giữa một câu văn ngắn và một câu văn dài trở nên chính xác hơn; hệ thống cũng phát hiện được cả những ký tự ẩn bất thường trong văn bản mà học viên có thể sử dụng để “lách luật”.

Hệ thống DoIT đã đạt giải Nhì Nhân tài Đất Việt 2017. Bên cạnh đó, quy trình kiểm tra trùng lặp trong nhóm văn bản cũng đã được Cục Sở hữu Trí tuệ (Bộ KH&CN) cấp bằng độc quyền sáng chế số 1-0026606, công bố ngày 25/12/2020. Hiện nay, hệ thống nâng cao chất lượng tài liệu DoIT đã được sử dụng ở khoảng 15 trường đại học.

P.A.T (NASATI)