[Hacker News] Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Tóm tắt

Google DeepMind công bố nghiên cứu về Decoupled DiLoCo (Distributed Low-Communication) — một kiến trúc huấn luyện phân tán mới cho phép huấn luyện LLM quy mô lớn trên nhiều data center toàn cầu với băng thông thấp và khả năng chịu lỗi phần cứng cao hơn. Nghiên cứu được công bố ngày 23 tháng 4 năm 2026 bởi Arthur Douillard và nhóm DiLoCo.

Kiến trúc truyền thống để huấn luyện mô hình frontier AI đòi hỏi hàng nghìn chip phải đồng bộ hóa gần như tức thời với nhau. Cách tiếp cận này hiệu quả nhưng đặt ra thách thức lớn khi mở rộng quy mô vì độ trễ mạng giữa các data center khác nhau sẽ kéo chậm toàn bộ quá trình huấn luyện.

Decoupled DiLoCo giải quyết vấn đề bằng cách chia quá trình huấn luyện thành các “island” compute độc lập, với dữ liệu chảy bất đồng bộ giữa các island. Khi có lỗi xảy ra ở một phần, các phần khác vẫn có thể tiếp tục học một cách hiệu quả, không như Data-Parallel truyền thống bị ảnh hưởng toàn bộ bởi bất kỳ sự cố nào.

Kiến trúc này mở ra khả năng huấn luyện các mô hình AI trên phần cứng đa dạng và phân tán địa lý, giảm sự phụ thuộc vào các cụm máy tính đồng nhất và liên tục. DeepMind đang khám phá hướng tiếp cận này như một trong nhiều chiến lược để mở rộng quy mô training cho các mô hình thế hệ tiếp theo.

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt