Tại Google I/O 2025, CEO Sundar Pichai không chỉ công bố một tính năng mới, mà còn khơi lại một giấc mơ xưa cũ: giấc mơ về một thế giới nơi ngôn ngữ không còn là rào cản. Với khả năng dịch giọng nói trực tiếp trong cuộc gọi, khớp cả ngữ điệu và biểu cảm, Google đang biến công nghệ trở thành công cụ cảm xúc – không còn chỉ là kênh truyền đạt thông tin, mà là cầu nối giữa các nền văn hóa.
Công nghệ này sẽ được triển khai trước tiên trên Google Meet và hoạt động theo thời gian thực với độ trễ rất thấp – điều mà nhiều đối thủ khác chưa đạt được. Trong đoạn video trình diễn, người nói tiếng Tây Ban Nha được “phiên dịch” thành tiếng Anh bằng một giọng nói nhân tạo nhưng mang đậm dấu ấn cá nhân – từ âm sắc, tốc độ cho tới ngữ điệu, khiến cuộc đối thoại xuyên ngôn ngữ trở nên liền mạch, tự nhiên và thậm chí... xúc động.
Dưới lớp công nghệ tưởng chừng hào nhoáng ấy là một thông điệp lớn hơn: AI giờ đây không còn chỉ đơn giản là “hiểu” người dùng, mà đang học cách “trở thành” họ trong giao tiếp. Khả năng giữ nguyên giọng gốc khi dịch – dù có xử lý qua máy – là bước tiến từ “dịch” sang “chuyển tải cảm xúc”. Và đó là lúc AI bắt đầu chen chân vào địa hạt mà chỉ con người từng sở hữu: sự đồng cảm trong lời nói.
Ý tưởng gọi điện thoại xuyên rào cản ngôn ngữ không mới. Từ Skype, Zoom tới các startup nhỏ, nhiều đơn vị đã theo đuổi điều này. Nhưng đa phần dừng ở mức dịch văn bản theo thời gian thực, hoặc dịch giọng máy móc, thiếu cảm xúc và không thể dùng trong môi trường chuyên nghiệp. Google – với nền tảng AI hội thoại Gemini, hạ tầng cloud mạnh và dữ liệu khổng lồ – có lợi thế để làm điều đó tốt hơn, mượt hơn và có chiều sâu hơn.
Tính năng hiện chỉ hỗ trợ tiếng Anh và Tây Ban Nha, và giới hạn cho thuê bao AI Pro hoặc Ultra. Nhưng đó chỉ là bước dạo đầu. Trong lộ trình dài hơi, Google hướng đến việc đưa ngôn ngữ “ra khỏi phương trình” trong giao tiếp toàn cầu – không chỉ giữa người với người, mà giữa doanh nghiệp với khách hàng, bệnh nhân với bác sĩ, người học với giáo viên.
Điều ít người để ý là tính năng mới này không tồn tại đơn độc. Nó là mảnh ghép mới nhất trong tầm nhìn lớn hơn mà Google đã xây dựng từ dự án Starline (2021), nơi họ muốn biến gọi điện thành trải nghiệm tương tác sống động – không chỉ “nghe và nói” mà “thấy, cảm và kết nối”. Việc ra mắt phần cứng Google Beam tại I/O 2025 – thiết bị chuyên dụng hỗ trợ các cuộc gọi siêu thực – cho thấy Google nghiêm túc theo đuổi viễn cảnh này: khi khoảng cách địa lý, khác biệt ngôn ngữ và thậm chí là thiếu vắng cảm xúc đều có thể được AI bù đắp.
Tính năng mới của Google không đơn thuần là một bản cập nhật hấp dẫn trên Google Meet. Nó là chỉ dấu cho thấy AI đang dịch chuyển từ vai trò “hỗ trợ công việc” sang “tái thiết lập cách con người giao tiếp”. Và khi AI có thể truyền tải đúng giọng nói, ngữ điệu và cảm xúc của bạn sang một ngôn ngữ khác – thì không chỉ ngôn ngữ, mà ranh giới giữa các nền văn hóa cũng bắt đầu được hòa giải.