Trong thế giới công nghệ ngày càng bị cuốn theo những lời hứa về "siêu trí tuệ" nhân tạo – nơi AI có thể giải toán, lập luận logic, hay thậm chí "tư duy" như con người – nghiên cứu vừa được Apple công bố là một cú hãm phanh gấp. Không ồn ào, không biểu diễn hình ảnh ấn tượng, nhóm nghiên cứu của Apple âm thầm đưa ra một đánh giá: những gì được gọi là "AI lý luận" hóa ra chỉ là một cách diễn đạt phóng đại cho hành vi dự đoán từ khóa tiếp theo.
Báo cáo tập trung vào các mô hình lý luận mạnh nhất hiện nay – những "ngôi sao" mới nổi như Claude 3.7 Thinking của Anthropic, DeepSeek R1, Gemini Flash Thinking của Google, và cả các mô hình hàng đầu của OpenAI. Trong những bài kiểm tra logic do chính nhóm nghiên cứu thiết kế, từ trò chơi đơn giản như "qua sông" đến các thử thách cổ điển như Tháp Hà Nội, các mô hình đều cho thấy một đặc điểm đáng lo ngại: khả năng suy luận sụp đổ hoàn toàn khi độ phức tạp tăng.
Thật vậy, "độ chính xác bằng không" là kết luận không thể bỏ qua. Một số mô hình vẫn tạo ra các chuỗi suy nghĩ tưởng như rất “thông minh”, nhưng lại bỏ qua các bước cơ bản trong lời giải – không khác gì một học sinh giỏi cố tình làm rối bài toán để rồi… sai ngay từ phép tính đầu tiên.
Thách thức lớn nhất mà nhóm Apple đưa ra không chỉ là về mặt kỹ thuật, mà nằm ở nhận thức của xã hội về AI. Chúng ta đang gán cho các hệ thống học sâu khả năng “lý luận” – một khái niệm đầy hàm nghĩa triết học, tâm lý và logic – trong khi những gì chúng làm thực chất là thống kê xác suất dựa trên dữ liệu huấn luyện khổng lồ.
Chúng “nói như thật”, nhưng không hiểu những gì mình nói. Chúng “giải quyết vấn đề”, nhưng không có khái niệm gì về bản chất vấn đề. Khi độ khó vượt khỏi giới hạn của mẫu huấn luyện, chúng không tìm cách nghĩ sâu hơn, mà… suy nghĩ ít lại.
Apple gọi đây là "hành vi phản trực giác". Một số mô hình dùng ít token hơn cho những bài toán khó hơn – giống như học sinh bỏ luôn phần làm bài vì thấy quá rối. Đây không phải là tư duy, mà là giới hạn.
Phản ứng từ cộng đồng AI rất đáng chú ý. Gary Marcus, một trong những nhà phê bình có tiếng trong ngành, gọi đây là “một kết quả tàn khốc” cho các tín đồ AGI. Ông nhấn mạnh: "Ai còn nghĩ LLM là con đường ngắn nhất đến AGI, thì có lẽ đang tự lừa mình."
Andrew Rogoyski của Đại học Surrey thì nhìn vấn đề ở góc độ hệ thống: "Chúng ta đã đến điểm ngõ cụt với phương pháp hiện tại." Lời nhận định ấy không chỉ mang tính khoa học, mà còn là cảnh báo cho toàn bộ ngành công nghiệp AI đang rót hàng tỷ USD vào các mô hình ngày càng lớn, nhưng chưa chắc thông minh hơn.
Nghiên cứu của Apple không phủ nhận thành tựu của AI trong ngôn ngữ, hình ảnh hay tự động hóa. Nhưng nó nhấn mạnh một ranh giới quan trọng: khả năng đoán đúng không có nghĩa là hiểu đúng. Và “trí tuệ” nhân tạo, ít nhất vào lúc này, vẫn chưa thật sự có “trí tuệ”.
Trong hành trình đến AGI, có thể đây là lúc cần dừng lại, nhìn lại, và đặt lại câu hỏi: Chúng ta đang cố gắng tạo ra một bộ não điện tử thật sự – hay chỉ là một cỗ máy bắt chước ngày càng khéo léo?