3D-GRAND: Bộ Dữ Liệu Văn Bản 3D mới tăng cường khả năng hiểu không gian cho AI Robot gia đình
Cập nhật vào: Chủ nhật - 13/07/2025 13:05
Cỡ chữ
Một bộ dữ liệu văn bản 3D mới, được chú thích có tên 3D-GRAND có thể giúp đào tạo AI hiện thân, như rô bốt gia đình, kết nối ngôn ngữ với không gian 3D. Nghiên cứu này, do các nhà nghiên cứu của Đại học Michigan dẫn đầu, đã được trình bày tại Hội nghị Thị giác máy tính và nhận dạng mẫu (CVPR) ở Nashville, Tennessee vào ngày 15 tháng 6 vừa qua, và đã được công bố trên arXiv gần đây.
Khi được thử nghiệm so với các bộ dữ liệu 3D trước đây, mô hình được huấn luyện trên 3D-GRAND đạt độ chính xác liên kết 38%, vượt qua mô hình tốt nhất trước đó 7,7%. 3D-GRAND cũng giảm đáng kể hiện tượng ảo giác xuống chỉ còn 6,67% so với tỷ lệ 48% của các mô hình tiên tiến trước đây.
Bộ dữ liệu này góp phần vào thế hệ rô bốt gia đình tiếp theo sẽ vượt xa các rô bốt hút bụi hiện có trong nhà. Trước khi chúng ta có thể ra lệnh cho rô bốt "lấy cuốn sách cạnh đèn trên bàn cạnh giường ngủ và mang nó cho tôi", rô bốt phải được huấn luyện để hiểu ngôn ngữ đề cập đến điều gì trong không gian.
"Các mô hình ngôn ngữ đa phương thức lớn chủ yếu được đào tạo trên văn bản với hình ảnh 2D, nhưng chúng ta sống trong một thế giới 3D. Nếu chúng ta muốn một rô bốt tương tác với chúng ta, nó phải hiểu các thuật ngữ không gian và góc nhìn, diễn giải hướng của đối tượng trong không gian, và liên kết ngôn ngữ trong môi trường 3D phong phú", Joyce Chai, giáo sư khoa học máy tính và kỹ thuật tại U-M và tác giả cao cấp của nghiên cứu cho biết.
Trong khi các mô hình AI dựa trên văn bản hoặc hình ảnh có thể rút ra một lượng lớn thông tin từ internet, dữ liệu 3D lại khan hiếm. Thậm chí còn khó tìm hơn dữ liệu 3D có dữ liệu văn bản được liên kết – nghĩa là các từ cụ thể như "ghế sofa" được liên kết với tọa độ 3D bao quanh chiếc ghế sofa thực tế.
Giống như tất cả các LLM, 3D-LLM hoạt động tốt nhất khi được đào tạo trên các bộ dữ liệu lớn. Tuy nhiên, việc xây dựng một bộ dữ liệu lớn bằng cách chụp ảnh các phòng bằng camera sẽ tốn thời gian và chi phí vì người chú thích phải chỉ định thủ công các đối tượng và mối quan hệ không gian của chúng, cũng như liên kết các từ với các đối tượng tương ứng.
Nhóm nghiên cứu đã thực hiện một cách tiếp cận mới, tận dụng AI tạo sinh để tạo ra các căn phòng tổng hợp được chú thích tự động với cấu trúc 3D. Bộ dữ liệu 3D-GRAND kết quả bao gồm 40.087 cảnh gia đình được ghép nối với 6,2 triệu mô tả được liên kết chặt chẽ của căn phòng. "Một lợi thế lớn của dữ liệu tổng hợp là các nhãn có sẵn miễn phí vì bạn đã biết vị trí của ghế sofa, điều này làm cho quá trình quản lý dễ dàng hơn", Jianing Jed Yang, một nghiên cứu sinh tiến sĩ khoa học máy tính và kỹ thuật tại U-M và tác giả chính của nghiên cứu cho biết.
Sau khi tạo dữ liệu 3D tổng hợp, một quy trình AI đầu tiên đã sử dụng các mô hình thị giác để mô tả màu sắc, hình dạng và vật liệu của từng đối tượng. Từ đây, một mô hình chỉ dựa trên văn bản đã tạo ra các mô tả toàn bộ cảnh trong khi sử dụng biểu đồ cảnh – bản đồ có cấu trúc về cách các đối tượng liên quan đến nhau – để đảm bảo mỗi cụm danh từ được liên kết với các đối tượng 3D cụ thể.
Một bước kiểm soát chất lượng cuối cùng đã sử dụng bộ lọc ảo giác để đảm bảo mỗi đối tượng được tạo ra trong văn bản thực sự có một đối tượng liên quan trong cảnh 3D.
Các nhà đánh giá con người đã kiểm tra ngẫu nhiên 10.200 cặp chú thích phòng để đảm bảo độ tin cậy bằng cách đánh giá xem có bất kỳ sự không chính xác nào trong các câu hoặc đối tượng do AI tạo ra hay không. Các chú thích tổng hợp có tỷ lệ lỗi thấp khoảng 5% đến 8%, tương đương với các chú thích của con người chuyên nghiệp. "Với quy mô của bộ dữ liệu, chú thích dựa trên LLM giảm cả chi phí và thời gian theo một bậc độ lớn so với chú thích của con người, tạo ra 6,2 triệu chú thích chỉ trong hai ngày. Việc thu thập dữ liệu chất lượng cao ở quy mô lớn được công nhận rộng rãi là điều cần thiết để xây dựng các mô hình AI hiệu quả", Yang nói.
Để đưa bộ dữ liệu mới vào thử nghiệm, nhóm nghiên cứu đã huấn luyện một mô hình trên 3D-GRAND và so sánh nó với ba mô hình cơ sở (3D-LLM, LEO và 3D-VISTA). Điểm chuẩn ScanRefer đánh giá độ chính xác liên kết - mức độ trùng lặp của hộp giới hạn dự đoán với ranh giới đối tượng thực - trong khi một điểm chuẩn mới được giới thiệu có tên 3D-POPE đánh giá hiện tượng ảo giác đối tượng.
Mô hình được huấn luyện trên 3D-GRAND đạt độ chính xác liên kết 38% với tỷ lệ ảo giác chỉ 6,67%, vượt xa các mô hình tạo sinh cạnh tranh. Trong khi 3D-GRAND đóng góp cho cộng đồng mô hình 3D-LLM, thử nghiệm trên rô bốt sẽ là bước tiếp theo. "Sẽ rất thú vị khi thấy 3D-GRAND giúp rô bốt hiểu không gian tốt hơn và đảm nhận các góc nhìn không gian khác nhau như thế nào, có khả năng cải thiện cách chúng giao tiếp và hợp tác với con người", Chai nói.
P.T.T (NASTIS), theo https://techxplore.com/, 7/2025
Liên hệ
Tiếng Việt
Tiếng Anh








