Thông báo ngày 25/9 của OpenAI nêu rõ những tính năng trên sẽ được bổ sung vào các phiên bản trả phí của dịch vụ ChatGPT, theo đó cho phép người dùng nói chuyện với AI và thậm chí chỉ cho AI xem những gì họ đang nói đến.
OpenAI cho biết: “Giọng nói và hình ảnh mở ra cho bạn nhiều hướng ứng dụng ChatGPT trong cuộc sống."
OpenAI gợi ý rằng người dùng có thể chụp ảnh một địa danh khi đi du lịch và trò chuyện trực tiếp cùng ChatGPT về điều thú vị ở địa điểm đó; có thể chụp ảnh những thứ có bên trong chiếc tủ lạnh để ChatGPT gợi ý về công thức bữa ăn hoặc chụp ảnh bài tập Toán của con để nhận được lời giải.
Dự kiến, cập nhật mới trên ChatGPT sẽ có mặt cho người dùng trong hai tuần tới, nhưng mới chỉ dành cho những người đăng ký gói Plus và Enterprise. Dự án này cũng được phát triển hướng tới hệ điều hành điện thoại thông minh của Apple và Google. Không những thế, công ty này cũng đang hợp tác với các diễn viên lồng tiếng để khiến các tương tác bằng giọng nói qua ChatGPT trở nên thực tế hơn.
Nhà sáng tạo ChatGPT cho biết: “Giờ đây, bạn có thể sử dụng giọng nói để trò chuyện qua lại với trợ lý của mình. Nói chuyện với công cụ này khi đang di chuyển, yêu cầu kể một câu chuyện trước khi đi ngủ cho các con của bạn, hoặc nhờ công cụ này giải quyết một cuộc tranh luận trên bàn ăn".
Đây là một trong những nỗ lực mà OpenAI đang triển khai để cạnh tranh ở cuộc hát triển trí tuệ nhân tạo ngày càng gia tăng giữa các công ty công nghệ.
Thời gian qua, Google đã công bố một loạt bản cập nhật cho Bard và Microsoft đã thêm tính năng tìm kiếm trực quan vào Bing. Các “gã khổng lồ” công nghệ đang chạy đua để tung ra không chỉ các ứng dụng chatbot mới mà còn cả các tính năng mới để khuyến khích người dùng sử dụng trí tuệ nhân tạo (AI) vào cuộc sống hàng ngày.
OpenAI thành lập năm 2016, trong khi ChatGPT được tung ra cuối năm ngoái và nhanh chóng gây sốt nhờ khả năng trả lời các câu hỏi một cách tự nhiên. Bản cập nhật mới được đánh giá sẽ tăng cường sức mạnh lớn cho AI này, trở thành đối trọng đối với các trợ lý ảo truyền thống.
"Việc bổ sung khả năng thoại và hình ảnh đưa ChatGPT tiến xa hơn trên con đường trở thành một mô hình đa phương thức thực sự: một chatbot có thể 'nhìn' và 'nghe' thế giới, cũng như phản hồi bằng giọng nói và hình ảnh bên cạnh văn bản", Washington Post bình luận.
Trong khi đó, các nhà nghiên cứu AI đánh giá mô hình đa phương thức là giai đoạn cạnh tranh tiếp theo trong lĩnh vực trí tuệ nhân tạo. Chúng dự kiến được áp dụng cho nhiều lĩnh vực trong đời sống, như trên smartphone, TV, xe hơi, loa thông minh.