Google chính thức phát hành Gemini 3, thế hệ mô hình đa phương thức mới có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video trong cùng một luồng suy luận. Hãng cho biết mô hình đạt điểm số cao trên nhiều bài kiểm tra về lý luận thị giác.
Khác với các bản trước chủ yếu ghép nối nhiều mô hình con, Gemini 3 được huấn luyện theo hướng hợp nhất từ đầu, giúp giảm độ trễ khi chuyển đổi giữa các loại dữ liệu đầu vào. Điều này mở đường cho các ứng dụng như trợ lý xem video trực tiếp và mô tả nội dung theo thời gian thực.
Giới phân tích nhận định cuộc đua giữa các hãng lớn về mô hình đa phương thức sẽ còn tiếp diễn trong nửa cuối năm 2026, khi ranh giới giữa xử lý ảnh, âm thanh và ngôn ngữ ngày càng mờ nhạt. Với các nhà phát triển Việt Nam, đây là cơ hội để xây dựng ứng dụng phân tích nội dung đa phương tiện với chi phí thấp hơn trước.
