Nguồn: Google Engineering Blog

Tóm tắt

Google công bố tích hợp Rapid Storage — dựa trên kiến trúc lưu trữ Colossus (cùng hệ thống file system vận hành YouTube và Google Search) — trực tiếp vào PyTorch ecosystem thông qua giao diện chuẩn fsspec. Rapid Bucket là giải pháp high-performance object storage trong dedicated zonal buckets, thay thế legacy REST API bằng persistent gRPC bidirectional streams, đạt throughput 15+ TiB/s, latency dưới 1ms cho random reads/appends, và 20M+ QPS.

Vấn đề cốt lõi mà giải pháp này giải quyết là GPU utilization thấp trong training — khi model size tăng, data loading và checkpointing trở thành bottleneck chính vì REST-based object storage không đáp ứng được yêu cầu throughput và latency của distributed training hiện đại. Rapid Bucket tối ưu hóa toàn bộ data path qua 4 cơ chế: stateful gRPC streaming (tái sử dụng kết nối cho nhiều operations), direct path (kết nối trực tiếp đến Colossus files), zonal co-location (compute và storage cùng zone), và backward-compatible API (không cần thay đổi code).

Benchmark trên dataset 451GB với 16 GKE nodes mỗi node 8 A4 GPU cho thấy cải thiện 23% tổng thời gian training. Microbenchmark cho kết quả ấn tượng hơn: throughput đọc tăng 4.8x (cả sequential và random), throughput ghi tăng 2.8x. Điểm đặc biệt là migration gần như zero-effort: chỉ cần đổi bucket type sang Rapid Bucket, gcsfs tự động detect và switch từ HTTP sang BiDi-gRPC. Tích hợp hoạt động với toàn bộ PyTorch ecosystem: Hugging Face Datasets, PyTorch Lightning, vLLM, Weights & Biases.

👉 Đọc bài gốc