Alibaba Cloud đang đầu tư vào một loại trí tuệ nhân tạo mới được thiết kế để mô phỏng thế giới thực tốt hơn bằng một phương pháp khác so với các chatbot như ChatGPT của OpenAI.
Sự thay đổi này nhận ra những hạn chế của “các mô hình ngôn ngữ lớn” được đào tạo chủ yếu trên văn bản. Thay vào đó, các nhà phát triển đang bắt đầu tập trung nhiều hơn vào “các mô hình thế giới” được xây dựng trên video và các tình huống vật lý thực tế.
Để nắm bắt xu hướng này, Alibaba đã dẫn đầu khoản đầu tư 2 tỷ nhân dân tệ (290 triệu đô la) vào ShengShu, công ty khởi nghiệp đứng sau công cụ tạo video AI Vidu, công ty thông báo hôm thứ Sáu. TAL Education và Baidu Ventures cũng tham gia vào vòng gọi vốn Series B.
Khoản đầu tư này diễn ra khoảng hai tháng sau khi ShengShu huy động được 600 triệu nhân dân tệ từ Qiming Venture Partners và các nhà đầu tư khác. Công ty khởi nghiệp này từ chối tiết lộ định giá của mình.
ShengShu cho biết khoản tài trợ mới nhất sẽ hỗ trợ phát triển một “mô hình thế giới tổng quát” sử dụng AI để kết nối hai lĩnh vực hiện đang tách biệt: thế giới kỹ thuật số của trò chơi và video do AI tạo ra, và thế giới vật lý của xe tự lái và robot.
“ShengShu tin rằng một mô hình thế giới tổng quát, được xây dựng trên dữ liệu đa phương thức như thị giác, âm thanh và xúc giác, sẽ nắm bắt cách thức hoạt động của thế giới vật lý một cách tự nhiên hơn so với các mô hình ngôn ngữ phức tạp,” công ty khởi nghiệp ba năm tuổi này cho biết trong một tuyên bố.
“Mục tiêu của chúng tôi là kết nối nhận thức và hành động,” Zhu Jun, người sáng lập ShengShu, cho biết trong một tuyên bố, cho phép các hệ thống AI mô hình hóa và dự đoán hành vi trong thế giới thực một cách nhất quán hơn.
Mô hình Vidu Q3 Pro mới nhất của ShengShu, được phát hành vào tháng 1, nằm trong số 10 mô hình AI hàng đầu để tạo video từ văn bản và hình ảnh, theo Artificial Analysis.
Công ty đã ra mắt Vidu trên toàn cầu vài tháng trước khi OpenAI phổ biến rộng rãi công cụ Sora (hiện đã ngừng hoạt động) để tạo video bằng AI. Các công ty video ngắn của Trung Quốc như Kuaishou và ByteDance cũng đã phát hành các công cụ AI cạnh tranh tương tự để tạo video.
Cuộc cạnh tranh mô hình thế giới
Alibaba đã mở rộng đầu tư vào các công ty khởi nghiệp liên quan. Gã khổng lồ công nghệ Trung Quốc và Baidu Ventures tháng trước đã dẫn đầu khoản đầu tư 50 triệu đô la vào Tripo AI, một nền tảng sử dụng AI để nhanh chóng tạo ra các mô hình 3D kỹ thuật số từ ảnh chụp. Tripo cho biết họ cũng đang chuyển từ các kỹ thuật được sử dụng bởi các mô hình ngôn ngữ sang các công cụ AI dựa trên không gian vật lý và đang phát triển mô hình thế giới của riêng mình.
Vào tháng 9, Alibaba cũng dẫn đầu khoản đầu tư 60 triệu đô la vào PixVerse, công ty đã phát hành mô hình thế giới AI vào đầu năm nay cho phép người dùng điều khiển cách video diễn ra trong quá trình tạo ra nó.
Alibaba, khởi đầu từ thương mại điện tử, cũng đã phát hành các mô hình AI mã nguồn mở miễn phí để tạo video và vào tháng 2, đã ra mắt một mô hình để vận hành robot.
Hôm thứ Sáu, Shengshu cho biết họ đã thiết lập quan hệ đối tác chiến lược với các công ty đang phát triển trí tuệ nhân tạo thể hiện – các hệ thống như robot hình người tương tác với thế giới vật lý – để sử dụng trong môi trường công nghiệp, thương mại và gia đình.
Mô hình thế giới rất quan trọng đối với robot vì công nghệ này cần nhiều hơn là chỉ các mô hình ngôn ngữ học (LLM) để hoạt động, Kevin Kelly, đồng sáng lập tạp chí công nghệ Wired của Mỹ, đã viết vào tháng trước trên Substack của mình.
Cuối cùng, để sao chép trí thông minh của con người, AI sẽ cần ba điều: khả năng suy luận, hiểu biết về thế giới vật lý và học hỏi liên tục, Kelly nói. Mặc dù AI dành cho lĩnh vực học tập vẫn chưa được phát triển, nhưng chatbot được hỗ trợ bởi LLM đã tạo ra yếu tố kiến thức, ông nói, khiến mô hình thế giới trở thành một lĩnh vực trọng yếu cần có bước đột phá.