Gemini 3 của Google: tiến bộ tiên tiến trong lĩnh vực AI
Cập nhật vào: Thứ sáu - 28/11/2025 00:07
Cỡ chữ
Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo (AI), mô hình mới nhất của Google, Gemini 3, đã thu hút sự chú ý toàn cầu nhờ hiệu suất vượt trội trên nhiều tiêu chí đánh giá. Được công bố vào tháng 11 năm 2025, mô hình này đại diện cho một bước tiến lớn, vượt qua các đối thủ như GPT-5 của OpenAI và Claude của Anthropic trong các đánh giá về lý luận, khả năng đa phương thức và lập trình. Tuy nhiên, dù đạt được những thành tựu này, các chuyên gia cảnh báo rằng điểm số benchmark không đảm bảo độ tin cậy thực tế, làm dấy lên lo ngại về các vấn đề dai dẳng như ảo giác và nguy cơ "bong bóng AI" vỡ tung. Bài viết này khám phá các đột phá của Gemini 3, ý nghĩa của chúng và các cuộc tranh luận xung quanh việc triển khai, dựa trên các phân tích gần đây và ý kiến chuyên gia.
Sức mạnh của Gemini 3 thể hiện rõ nhất qua kết quả benchmark, mà Google quảng bá như bằng chứng cho "lý luận cấp độ tiến sĩ". Trong kỳ thi Humanity's Last Exam - một bài kiểm tra nghiêm ngặt gồm 2.500 câu hỏi khó ở các lĩnh vực toán học, khoa học và nhân văn - Gemini 3 đạt 37,5%, vượt qua kỷ lục trước đó của GPT-5 là 26,5%. Bước nhảy vọt này nhấn mạnh tiến bộ của Google trong giải quyết vấn đề phức tạp, đặc biệt qua chế độ "Deep Think" giúp tăng cường lý luận lặp lại. Tương tự, trên benchmark ARC-AGI-2, được thiết kế để đo lường trí thông minh linh hoạt và lý luận trừu tượng, Gemini 3 Pro đạt 31,1%, gần gấp đôi 17,6% của GPT-5.1, trong khi biến thể Deep Think đẩy lên 45,1%. Những thành tựu này nhờ vào huấn luyện độc quyền của Google trên dữ liệu khổng lồ, bao gồm các bài tập chứng minh định lý, và tối ưu hóa kiến trúc mixture-of-experts (MoE), cho phép xử lý lên đến 1 triệu token đầu vào.
Ngoài lý luận, Gemini 3 nổi bật ở các nhiệm vụ đa phương thức và tự động. Nó dẫn đầu trong benchmark như ScreenSpot Pro, đạt độ chính xác 73% khi hiểu ảnh chụp màn hình từ ứng dụng như AutoCAD và Photoshop - gấp đôi mức cao nhất trước đó. Trong lập trình, nó thống trị LiveCodeBench với xếp hạng ELO trên 2400 và gần đạt hoàn hảo trên các bài toán AIME với tích hợp công cụ, đạt 100%. Những khả năng này mở rộng sang ứng dụng thực tế, như tự động hóa tạo mã, sắp xếp email và phân tích tài liệu. Google dự định tích hợp Gemini 3 vào công cụ Tìm kiếm, nâng cao kết quả với hình ảnh và mô phỏng do AI tạo, có thể cách mạng hóa trải nghiệm người dùng hàng ngày.
Tuy nhiên, những chiến thắng này bị hoài nghi từ cộng đồng AI. Luc Rocher, chuyên gia tại Đại học Oxford, cảnh báo không nên diễn giải quá mức benchmark, lưu ý rằng ngay cả bước nhảy từ 80% lên 90% độ chính xác có thể không biểu thị "tư duy" thực sự, một khái niệm chủ quan. Nhiều bài kiểm tra dựa trên hình thức trắc nghiệm không đánh giá lý luận giải thích, giống như đánh giá bác sĩ hoặc luật sư chỉ qua câu hỏi nhỏ. Ngoài ra, còn rủi ro rò rỉ dữ liệu trong huấn luyện, nơi mô hình ghi nhớ đáp án thay vì học kỹ năng tổng quát, làm giảm tính minh bạch đánh giá. Adam Mahdi, một nhà nghiên cứu khác tại Oxford, nhấn mạnh giá trị thực sự của Gemini 3 nằm ở "lập trình tác nhân" - quy trình tự động cho nhiệm vụ phức tạp – hơn là trò chuyện thông thường, nhưng vẫn còn nghi vấn về khả năng mở rộng ngoài môi trường kiểm soát.
Lo ngại về độ tin cậy vẫn là điểm yếu lớn. Tài liệu kỹ thuật của Google thừa nhận Gemini 3 vẫn tạo thông tin sai lệch với tần suất tương đương các mô hình hàng đầu, với một nghiên cứu báo cáo tỷ lệ ảo giác 88% dù dẫn đầu độ chính xác 53% trên benchmark độ tin cậy mới. Vấn đề này đặc biệt đáng báo động ở lĩnh vực cần độ tin cao như y tế, tài chính và pháp lý, nơi sai sót có thể dẫn đến hậu quả nghiêm trọng. Gary Marcus, nhà phê bình AI nổi tiếng, nhấn mạnh khó khăn liên tục với lý luận hình ảnh và vật lý, lập luận rằng chỉ mở rộng quy mô không đạt được trí tuệ nhân tạo tổng quát (AGI). Phản hồi cộng đồng trên nền tảng như X phản ánh sự tiếp nhận lẫn lộn: trong khi một số khen ngợi lập trình và lý luận, nhiều người báo cáo "lỗi ngớ ngẩn" ở nhiệm vụ đơn giản, như theo dõi mũi tên vẽ tay hoặc giải đố thị giác cơ bản.
Bối cảnh rộng lớn hơn làm tăng lo ngại này. Với hàng nghìn tỷ USD đầu tư vào cơ sở hạ tầng AI, bao gồm trung tâm dữ liệu, ngày càng lo sợ về "bong bóng AI" giống các chu kỳ hype công nghệ trước. Rocher lập luận rằng xác thực thực sự sẽ đến từ việc áp dụng người dùng và độ tin cậy chứng minh, không chỉ điểm số phòng thí nghiệm. Phản ứng của đối thủ - như thỏa thuận 30 tỷ USD của Anthropic với Microsoft và quảng bá Grok của xAI - báo hiệu cạnh tranh gay gắt, nhưng tích hợp dọc của Google vào phần cứng (TPUs) và dữ liệu mang lại lợi thế về hiệu quả và chi phí. Dù vậy, ảo giác và thiên kiến, bắt nguồn từ dữ liệu huấn luyện, vẫn chưa giải quyết, thúc đẩy lời kêu gọi cải thiện tính diễn giải và bảo vệ đạo đức.
Trong ứng dụng tác nhân, Gemini 3 tỏa sáng với kết quả tốt hơn 3,7 lần ở nhiệm vụ cần tự chủ, như phát triển phần mềm qua IDE Antigravity mới. Người dùng trên X nhấn mạnh tiềm năng trong tái cấu trúc mã không lỗi và giải đố lambda-calculus, lĩnh vực mà các phiên bản trước thất bại. Tuy nhiên, các đặc thù như giải thích quá dài hoặc thất bại trong viết sáng tạo cho thấy nó tối ưu cho độ chính xác kỹ thuật hơn là đa năng.
P.T (NASTIS), theo New Scientist, 11/2025
Liên hệ
Tiếng Việt
Tiếng Anh








