Nhà phát triển AI Trung Quốc DeepSeek cho biết họ đã chi 294.000 USD để huấn luyện mô hình R1, thấp hơn nhiều so với con số được báo cáo cho các đối thủ Mỹ, trong một bài báo có khả năng sẽ khơi dậy tranh luận về vị trí của Bắc Kinh trong cuộc đua phát triển trí tuệ nhân tạo.
Cập nhật hiếm hoi từ công ty có trụ sở tại Hàng Châu - ước tính đầu tiên mà họ công bố về chi phí huấn luyện R1 - xuất hiện trong một bài báo được bình duyệt trên tạp chí học thuật Nature xuất bản vào thứ Tư.
Việc DeepSeek công bố những gì họ gọi là hệ thống AI chi phí thấp vào tháng 1 đã khiến các nhà đầu tư toàn cầu bán tháo cổ phiếu công nghệ vì lo ngại rằng các mô hình mới này có thể đe dọa sự thống trị của các nhà lãnh đạo AI, bao gồm Nvidia (NVDA.O).
Kể từ đó, công ty và nhà sáng lập Lương Văn Phong phần lớn đã biến mất khỏi tầm mắt công chúng, ngoài việc đưa ra một vài cập nhật sản phẩm mới.
Bài báo trên Nature, trong đó liệt kê Lương là một trong những đồng tác giả, cho biết mô hình R1 tập trung vào lập luận của DeepSeek tốn 294.000 USD để huấn luyện và sử dụng 512 chip Nvidia H800. Một phiên bản trước của bài báo được công bố vào tháng 1 không chứa thông tin này.
Sam Altman, Giám đốc điều hành của gã khổng lồ AI Mỹ OpenAI, cho biết vào năm 2023 rằng cái mà ông gọi là “huấn luyện mô hình nền tảng” đã tốn “nhiều hơn” 100 triệu USD - mặc dù công ty của ông không cung cấp số liệu chi tiết cho bất kỳ sản phẩm nào.
Chi phí huấn luyện cho các mô hình ngôn ngữ lớn cung cấp năng lượng cho các chatbot AI đề cập đến các chi phí phát sinh từ việc vận hành một cụm chip mạnh mẽ trong vài tuần hoặc vài tháng để xử lý lượng lớn văn bản và mã.
Một số tuyên bố của DeepSeek về chi phí phát triển và công nghệ mà họ sử dụng đã bị các công ty và quan chức Mỹ đặt câu hỏi.
Các chip H800 được đề cập được Nvidia thiết kế cho thị trường Trung Quốc sau khi Mỹ vào tháng 10 năm 2022 cấm công ty này xuất khẩu các chip AI mạnh hơn H100 và A100 sang Trung Quốc.
Các quan chức Mỹ nói với Reuters vào tháng 6 rằng DeepSeek có quyền truy cập vào “số lượng lớn” chip H100 được mua sau khi các biện pháp kiểm soát xuất khẩu của Mỹ được áp dụng. Nvidia nói với Reuters vào thời điểm đó rằng DeepSeek đã sử dụng các chip H800 được mua hợp pháp, không phải H100.
Trong một tài liệu thông tin bổ sung kèm theo bài báo trên Nature, công ty lần đầu tiên thừa nhận rằng họ sở hữu các chip A100 và cho biết đã sử dụng chúng trong các giai đoạn chuẩn bị phát triển.
“Về nghiên cứu của chúng tôi trên DeepSeek-R1, chúng tôi đã sử dụng các GPU A100 để chuẩn bị cho các thí nghiệm với một mô hình nhỏ hơn,” các nhà nghiên cứu viết. Sau giai đoạn ban đầu này, R1 được huấn luyện trong tổng cộng 80 giờ trên cụm 512 chip H800, họ bổ sung.
Trước đó đã có thông tin rằng ,một lý do DeepSeek có thể thu hút những bộ óc xuất sắc nhất ở Trung Quốc là vì họ là một trong số ít công ty trong nước vận hành một cụm siêu máy tính A100.