OpenAI, tổ chức nghiên cứu hàng đầu về trí tuệ nhân tạo, hôm nay đã công bố "bản cập nhật mùa xuân" cho mô hình AI của mình, GPT-4o, với khả năng xử lý và phản hồi hình ảnh, âm thanh và văn bản theo thời gian thực. Mô hình mới này được đánh giá cao bởi giới chuyên môn vì sự tương đồng đáng kinh ngạc với khả năng suy luận của con người.
Trong sự kiện ra mắt, CTO của OpenAI, Mira Murati, đã giới thiệu GPT-4o, một bước tiến đột phá trong lĩnh vực AI với khả năng giao tiếp tự nhiên và thể hiện cảm xúc qua giọng nói. Điểm nhấn của sự kiện là việc CEO Sam Altman ám chỉ sự tiệm cận của GPT-4o với AI trong bộ phim "Her", qua bài đăng trên mạng xã hội với nội dung ngắn gọn: "Her".
Mô hình mới không chỉ có giọng nói giống con người mà còn có khả năng bắt chước cách đọc và biểu đạt của con người, thậm chí còn có thể cười và điều chỉnh giọng điệu tùy theo ngữ cảnh. Đáng chú ý, GPT-4o còn có thể phản hồi tự nhiên và ngắt lời, tạo ra một cuộc trò chuyện mượt mà và gần giống với giao tiếp con người.
GPT-4o cũng được trang bị khả năng diễn giải biểu đồ, hỗ trợ mã hóa, phân tích cảm xúc và hình ảnh, đồng thời duy trì một giọng điệu vui vẻ. Trong một bản demo, AI này thậm chí còn có thể phân tích video và dự đoán hoạt động của người đối diện.
Mặc dù có một số trục trặc nhỏ trong quá trình thử nghiệm, nhưng những sự cố này lại khiến GPT-4o trở nên "gần giống hệt con người" hơn. OpenAI thông báo rằng GPT-4o sẽ sớm được triển khai rộng rãi trên ChatGPT trong vài tuần tới, với phiên bản trả phí có sức mạnh gấp năm lần so với phiên bản miễn phí.
CTO Murati nhấn mạnh: "Lần đầu tiên, OpenAI đã đạt được bước tiến lớn trong việc cải thiện tính dễ sử dụng của AI. Điều này đóng vai trò quan trọng trong việc hình thành tương lai tương tác giữa con người và máy móc, nơi AI GPT-4o đang dần biến mô hình hợp tác giữa con người và AI trở nên tự nhiên và thuận tiện hơn."
Thành công của GPT-4 có được là nhờ sự kết hợp giữa tiến bộ về sức mạnh tính toán, kỹ thuật đào tạo mô hình và lượng dữ liệu đào tạo khổng lồ. Supercomputer có tốc độ tính toán mạnh mẽ cho phép xử lý lượng thông tin khổng lồ được sử dụng để đào tạo mô hình. Các kỹ thuật đào tạo mô hình tiên tiến, chẳng hạn như học tập củng cố và học tập tự giám sát, giúp mô hình tìm hiểu cách tạo ra phản hồi giống con người. Lượng dữ liệu đào tạo khổng lồ cung cấp cho mô hình kiến thức và ngữ cảnh rộng lớn để hiểu và tạo ra ngôn ngữ giống con người.