Công cụ mới phát hiện các bài báo khoa học giả do AI tạo ra
Cập nhật vào: Thứ tư - 21/08/2024 00:16 Cỡ chữ
Khi ChatGPT và trí tuệ nhân tạo (AI) tạo ra các bài báo khoa học giống như thật, đặc biệt là đối với những người không làm trong lĩnh vực nghiên cứu đó, vậy làm thế nào để phát hiện ra bài báo nào là giả? Giờ đây, các nhà khoa học Anh và Trung Quốc đã phối hợp tạo ra một thuật toán máy học có tên là xFakeSci với khả năng phát hiện 94% các bài báo giả mạo, cao gấp hai lần so với các kỹ thuật khai thác dữ liệu phổ biến. Kết quả nghiên cứu đã được công bố trên tạp chí Scientific Reports.
Trong nghiên cứu, Ahmed Abdeen Hamed tại Đại học Binghamton cùng với GS. Xindong Wu tại Đại học Công nghệ Hợp Phì đã tạo ra 50 bài báo giả về ba chủ đề y học phổ biến, gồm có Alzheimer, ung thư và trầm cảm, sau đó so sánh với 50 bài báo thật về các chủ đề này.
Ông Hamed đã hỏi ChatGPT về các bài báo do AI tạo ra và có chia sẻ như sau: “Tôi đã cố gắng sử dụng chính xác các từ khóa mà tôi dùng để trích xuất tài liệu từ cơ sở dữ liệu PubMed của Viện Y tế quốc gia. Qua đó, sẽ có cơ sở chung để so sánh. Trực giác mách bảo có một mô hình được thể hiện trong các bài báo giả mạo, nhưng tôi không chưa định hình được".
Sau một số thử nghiệm, ông Hamed đã lập trình xFakeSci để phân tích hai đặc trưng chính liên quan đến cách viết các bài báo. Một là số lượng bigram, đó là hai từ thường xuất hiện cùng nhau chẳng hạn như "biến đổi khí hậu", "thử nghiệm lâm sàng" hoặc "tài liệu y sinh". Thứ hai là cách các bigram đó được liên kết với các từ và khái niệm khác trong văn bản.
Tuy nhiên, điều đáng chú ý là số lượng bigram trong các bài báo giả mạo rất ít, trong khi các bài báo thật lại nhiều hơn. Tuy nhiên, dù ít bigram nhưng cách chúng kết nối rất chặt chẽ. Giả thuyết được đưa ra là do văn phong khác nhau vì các nhà nghiên cứu là con người không có mục tiêu giống như AI được thúc đẩy để tạo ra một sản phẩm về chủ đề nhất định.
Ông Hamed cho rằng: "Do kiến thức hạn hẹp, ChatGPT cố gắng thuyết phục bạn bằng cách sử dụng những từ ngữ quan trọng nhất. Một nhà khoa học không có nhiệm vụ đưa ra lập luận thuyết phục bạn. Bài báo nghiên cứu thật sẽ báo cáo trung thực những gì đã xảy ra trong quá trình thử nghiệm và phương pháp được sử dụng. ChatGPT tập trung vào chiều sâu của một điểm duy nhất, trong khi khoa học thật sự tập trung vào chiều rộng".
Để phát triển xFakeSci hơn nữa, nhóm nghiên cứu sẽ mở rộng phạm vi chủ đề như kỹ thuật, nhân văn và nhiều chủ đề khác. AI theo dự báo, sẽ ngày càng tinh vi hơn, do đó, việc phân biệt thật, giả sẽ ngày càng khó khăn hơn.
N.P.D (NASATI), theo Techxplore, 5/8/2024