[Hacker News] Decoupled DiLoCo: Resilient, Distributed AI Training at Scale
Nguồn: Google DeepMind Tóm tắt Google DeepMind công bố nghiên cứu về Decoupled DiLoCo (Distributed Low-Communication) — một kiến trúc huấn luyện phân tán mới cho phép huấn luyện LLM quy mô lớn trên nhiều data center toàn cầu với băng thông thấp và khả năng chịu lỗi phần cứng cao hơn. Nghiên cứu được công bố ngày 23 tháng 4 năm 2026 bởi Arthur Douillard và nhóm DiLoCo. Kiến trúc truyền thống để huấn luyện mô hình frontier AI đòi hỏi hàng nghìn chip phải đồng bộ hóa gần như tức thời với nhau....