Nghiên cứu phát triển công nghệ xử lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo
Cập nhật vào: Thứ ba - 23/06/2020 12:38 Cỡ chữ
Bộ Thông tin và Truyền thông vừa tổ chức Lễ ra mắt nền tảng công nghệ xử lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo VAIS và VBEE. Đây là một trong chuỗi sự kiện giới thiệu các nền tảng số “Make in Vietnam” nhằm thực hiện “Chương trình chuyển đổi số quốc gia đến năm 2025, định hướng đến năm 2030” đã được Thủ tướng Chính phủ phê duyệt.
Công nghệ vượt trội
VAIS và VBEE là hai công nghệ lõi trong nền tảng công nghệ xử lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo tiên phong tại Việt Nam. Với chiều sâu nghiên cứu về công nghệ nói chung và đặc thù ngôn ngữ tiếng Việt nói riêng, công nghệ của VAIS Và VBEE đã giải quyết triệt để được những vấn đề mà các giải pháp nước ngoài chưa khắc phục được dành cho tiếng Việt.
Trong đó, VAIS là nền tảng công nghệ lõi chuyển giọng nói tiếng Việt thành văn bản (Speech To Text) tiên phong tại Việt Nam, với những đặc trưng: Nhận dạng được đầy đủ giọng nói cả 3 miền Bắc, Trung, Nam với độ chính xác lên đến 95%; chuyển đổi giọng nói tiếng Việt thành văn bản với kết quả tức thì, với tốc độ vượt trội có thể nhanh gấp 500 lần thời lượng âm thanh.
Bên cạnh đó, VAIS còn nhận dạng tốt trong môi trường nhiễu và ở khoảng cách xa. Đặc biệt, nền tảng này có tính năng chuẩn hóa văn bản đầu ra: Tên riêng, ngày, tháng, số, hỗ trợ nhiều loại định dạng âm thanh đầu vào; cung cấp giải pháp cho người dùng trực tiếp hoặc kết nối thông qua API tại: https://vais.vn/.
Còn Vbee là nền tảng công nghệ lõi về giọng nói nhân tạo Việt có cảm xúc (chuyển đổi văn bản thành giọng nói trí tuệ nhân tạo tiếng Việt có cảm xúc - Text To Speech) tiên phong tại Việt Nam. Với hơn 10 năm nghiên cứu và phát triển chuyên sâu, công nghệ Vbee những đặc trưng nổi bật như có thể học theo bất kỳ giọng của một người nào đó trong vòng 4 giờ đồng hồ với độ tương tự trên 95%.
Đồng thời, giọng nói Vbee đa dạng vùng miền (Bắc, Trung, Nam...), giới tính và độ tuổi (nam, nữ); có thể dự đoán cách đọc, các từ viết tắt, từ vay mượn, các từ ngữ đặc trưng của tiếng Việt mà các giải pháp nước ngoài không thể. Vbee xây dựng thành công nền tảng Vbee cloud (https://www.vbee.vn), cho phép người sử dụng, doanh nghiệp, lập trình viên có thể sử dụng trực tiếp hoặc qua tích hợp (API) một cách dễ dàng và thuận tiện.
Vbee đã đóng gói thành công cho các giải pháp toàn diện trong các lĩnh vực sử dụng giọng nói nhân tạo của Vbee như: giải pháp về nội dung nhân tạo (sách nói, báo nói, lồng tiếng phim tự động, thu âm tự động…), giải pháp về tổng đài nhân tạo (vận tải, tài chính, thương mại điện tử…), giải pháp nhà thông minh (giao tiếp với thiết bị qua ngôn ngữ), giải pháp chatbot chăm sóc, tư vấn khách hàng.
Xu hướng tất yếu
Trong xu hướng chuyển đổi số nói chung, việc ứng dụng giọng nói nhân tạo và công nghệ xử lý tiếng nói là một xu hướng tất yếu không thể tránh khỏi. Trên thế giới, chúng ta đã chứng kiến sự đổi mới mạnh mẽ trong mọi dịch vụ áp dụng công nghệ giọng nói nhân tạo, có thể thấy trong các lĩnh vực sản xuất nội dung nhân tạo.
Chẳng hạn, báo nói, clip, sách nói, lồng tiếng phim tự động, bóc băng tự động, tổng đài trí tuệ nhân tạo tự động tra cứu và trả lời khách hàng thay cho con người, các lĩnh vực như trợ lý ảo thông minh, lĩnh vực giao tiếp người máy... Đã tới lúc, tất cả dịch vụ, con người và máy móc sẽ trao đổi và “hiểu nhau” thông qua ngôn ngữ tự nhiên thay cho phím bấm và các tần số điều khiển.
Dựa vào xu hướng và tình hình thực tế tại Việt Nam, việc chuyển đổi số mạnh mẽ chắc chắn không thể tránh khỏi việc chúng ta cần xây dựng và làm chủ những công nghệ lõi và hệ sinh thái các dịch vụ sử dụng công nghệ tiếng nói.
Việc xây dựng các công nghệ lõi này không những khắc phục được những đặc thù của ngôn ngữ Việt Nam mà còn giúp chúng ta chủ động triển khai dịch vụ một cách phù hợp, tiết kiệm chi phí, tăng tính bảo mật an ninh thông tin quốc gia. Công nghệ lõi về xử lý giọng nói tiếng Việt sẽ giúp Việt Nam mở rộng cơ hội trong mọi lĩnh vực chuyển đổi số.
Phát biểu tại Lễ ra mắt nền tảng công nghệ xử lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo VAIS và VBEE, Thứ trưởng Bộ Thông tin và Truyền thông Nguyễn Thành Hưng nhấn mạnh, nền tảng công nghệ xử lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo VAIS và Vbee là hai nền tảng số “Make in Việt Nam” tiếp theo được Bộ Thông tin và Truyền thông lựa chọn giới thiệu và bảo trợ về truyền thông trong khuôn khổ Chương trình chuyển đổi số quốc gia.
Theo đánh giá của các cơ quan chức năng, đây là hai nền tảng tiên phong về công nghệ lõi và thích sử dụng trí tuệ nhân tạo để chuyển đổi giọng nói và văn bản tiếng Việt. Nền tảng hiện đã được nhiều cơ quan nhà nước ở Trung ương và địa phương sử dụng. Ví dụ, Văn phòng Trung ương Đảng, Văn phòng Chính phủ, rõ nét nhất là Ủy ban Thường vụ Quốc hội, Bộ Thông tin và Truyền thông, Ủy ban nhân dân thành phố Hà Nội cùng hơn 50 đơn vị báo chí, truyền hình cũng đã sử dụng để phục vụ gỡ băng bài phát biểu tại các kỳ họp, sự kiện.
Trong đó, nền tảng VBEE đã cung cấp dịch vụ cho hơn 20.000 khách hàng cá nhân, hơn 500 doanh nghiệp, tổng công ty sử dụng rộng rãi trong 3 lĩnh vực chính là Tổng đài tự động, giải pháp tương tác thiết bị thông minh nội dung số tự động.
“Cả hai nền tảng VAIS và VBEE đều đứng trước thị trường rất rộng lớn với gần trăm triệu người dân Việt Nam, 700.000 doanh nghiệp, 126.000.000 thuê bao di động, điện thoại và tỷ lệ người sử dụng Internet Việt Nam hiện nay là 68,7%…” - Thứ trưởng Nguyễn Thành Hưng nhấn mạnh, đồng thời cho rằng, với năng lực sáng tạo của các doanh nghiệp công nghệ số Việt Nam và tiềm năng to lớn của thị trường trong nước, sẽ có càng nhiều các nền tảng mới ra đời, góp phần thúc đẩy mạnh mẽ tiến trình chuyển đổi số quốc gia.
Sự ra đời của các nền tảng công nghệ xử lý giọng nói tiếng Việt ứng dụng trí tuệ nhân tạo là minh chứng rõ ràng về năng lực sáng tạo của doanh nghiệp công nghệ số Việt Nam. Bộ Thông tin và Truyền thông cam kết sẽ tiếp tục giới thiệu đến các đại diện các cơ quan, đơn vị, bộ, ngành và các cơ quan báo chí, truyền thông về các nền tảng này.
NASATI