Mạng thần kinh CLIP phản chiếu các tế bào thần kinh não người trong nhận dạng hình ảnh

Open AI, công ty nghiên cứu do Elon Musk thành lập, vừa phát hiện ra rằng mạng thần kinh nhân tạo CLIP của họ cho thấy hành vi tương tự như não người. Phát hiện này khiến các nhà khoa học hy vọng vào tiềm năng tương lai của các mạng AI trong việc xác định hình ảnh trong các biểu tượng, khái niệm và chuỗi ký tự.

Nguồn: Open AI

Trong khi não người xử lý hình ảnh trực quan bằng cách liên hệ một loạt các khái niệm trừu tượng với một chủ đề bao quát, thì nơ-ron sinh học đầu tiên được ghi nhận hoạt động theo một kiểu tương tự với các tế bào thần kinh “Halle Berry”. Tế bào thần kinh này có khả năng nhận diện các bức ảnh và bản phác thảo của nữ diễn viên và kết nối những hình ảnh đó với tên "Halle Berry".

Giờ đây, hệ thống thị giác đa phương thức của OpenAI tiếp tục vượt trội hơn các hệ thống hiện có, cụ thể là với các đặc điểm "Spider-Man", tế bào thần kinh nhân tạo có thể nhận dạng không chỉ hình ảnh ký tự "người nhện" mà còn cả nhân vật truyện tranh trong cả hình minh họa và thể loại người đóng. Khả năng nhận ra một khái niệm duy nhất được biểu hiện trong các ngữ cảnh khác nhau chứng tỏ khả năng trừu tượng hóa của CLIP. Tương tự như bộ não con người, khả năng trừu tượng hóa cho phép hệ thống thị giác gắn một loạt hình ảnh và ký tự vào một chủ đề trung tâm.

Tuy nhiên, sự khác biệt giữa tế bào thần kinh sinh học và nhân tạo nằm ở ngữ nghĩa so với kích thích thị giác. Trong khi các tế bào thần kinh trong não kết nối một cụm đầu vào trực quan với một khái niệm duy nhất, thì các tế bào thần kinh AI phản ứng với một cụm các ý tưởng. Bằng cách kiểm tra chính xác cách thức hoạt động của các hệ thống chẳng hạn như CLIP, các nhà nghiên cứu có thể tìm hiểu thêm về cách các tế bào thần kinh của con người nhận ra một loạt các khái niệm phổ biến, chẳng hạn như nét mặt, người nổi tiếng, vùng địa lý và biểu tượng tôn giáo, trong số những người khác. Tương tự như vậy, bằng cách nghiên cứu cách CLIP hình thành thuật ngữ của nó, các nhà khoa học hy vọng sẽ khám phá ra nhiều điểm tương đồng hơn với não người.

Các nhóm nghiên cứu đã kiểm tra CLIP theo hai phạm vi: 1) Trực quan hóa tính năng, xem xét mức độ kích hoạt mạnh mẽ để đáp ứng với lượng đầu vào trực quan của tế bào thần kinh và 2) Các tập dữ liệu mẫu, đánh giá sự phân bố của các hình ảnh kích hoạt tập dữ liệu mà tế bào thần kinh phản hồi. Cho đến nay, các nhóm nghiên cứu đã phát hiện ra rằng các tế bào thần kinh CLIP dường như vô cùng đa diện, có nghĩa là chúng phản ứng với nhiều khái niệm độc đáo ở mức độ trừu tượng cao.

Giống như hệ thống nhận dạng, CLIP cũng bộc lộ nhiều dạng sai lệch khác nhau. Ví dụ, tế bào thần kinh "Trung Đông" của hệ thống có liên quan đến chủ nghĩa khủng bố, cùng với tế bào thần kinh "nhập cư" phản hồi đầu vào liên quan đến Mỹ Latinh.

Về những hạn chế đối với những phát hiện này và còn chỗ để nghiên cứu thêm, các nhà khoa học thừa nhận rằng, mặc dù sự khéo léo của CLIP trong việc định vị các vùng địa lý, các thành phố riêng lẻ và thậm chí các địa danh, hệ thống dường như không thể hiện một tế bào thần kinh "San Francisco" riêng biệt gắn với mốc phân giới chẳng hạn như Twin Peaks để định danh San Francisco.

P.T.T (NASATI), theo https://techxplore.com/news/2021-03-neural-network-mirrors-human-brain.html, 9/3/2021