Hai chiếc mũ khác nhau
Khi nói "AI trong robot", người ta thường gom chung tất cả vào một rổ. Thực ra có hai họ mô hình rất khác
AI tạo sinh (Generative AI)
Đầu vào → đầu ra dạng nội dung mới: văn bản, hình ảnh, âm thanh, code. Ví dụ:
- Model ngôn ngữ lớn (LLM) viết email.
- Mô hình text-to-image vẽ ảnh minh hoạ.
- Mô hình text-to-speech đọc thông báo với giọng tự nhiên.
AI Agent
Đầu vào → đầu ra là hành động trong thế giới thật hoặc số. Agent phải:
- Cảm nhận môi trường.
- Lập kế hoạch.
- Gọi công cụ (tool) hoặc điều khiển cơ khí.
- Quan sát kết quả và điều chỉnh.
Tại sao robot cần cả hai
Lấy ví dụ yêu cầu: "Chiko, nhắc bé Minh đi ngủ và đọc cho bé một truyện cổ tích ngắn."
- Agent layer: Xác định vị trí bé, di chuyển tới phòng, điều chỉnh ánh sáng.
- Generative layer: Sinh ra một câu chuyện phù hợp độ tuổi, đọc với giọng đọc truyện dịu dàng.
Thiếu bên nào cũng không hoàn chỉnh. Nếu chỉ có generative, robot không biết đi đâu. Nếu chỉ có agent, robot nói năng cứng nhắc như điện thoại IVR.
Kiến trúc Bytehome
Chúng tôi tách rõ:
- Planner (agent) — chạy local, ưu tiên độ trễ và tính xác định.
- Content synthesizer (generative) — có thể chạy local cho tác vụ nhỏ, hoặc đám mây cho tác vụ phức tạp, có lớp an toàn kiểm duyệt output.
Điều quan trọng
Đừng bị choáng ngợp bởi mô hình "tất cả trong một". Một robot tốt là robot biết dùng đúng loại AI cho đúng công việc, đúng thời điểm, với đúng chi phí tính toán.