[Pinterest Engineering] Finding zombies in our systems: A real-world story of CPU bottlenecks

Nguồn: Pinterest Engineering Tóm tắt Đội ngũ Kubernetes platform tại Pinterest đã trải qua cuộc điều tra kéo dài hơn ba tháng để xác định nguyên nhân gốc rễ khiến các Ray training job trên GPU bị crash do mất kết nối mạng. Vấn đề bắt đầu khi đội ML platform báo cáo rằng các distributed training job — thường chạy hàng giờ trên phần cứng GPU đắt tiền — gặp sự cố mạng ngắt quãng, dẫn đến tỉ lệ thành công giảm hơn 25%....

16/04/2026 · 2 min · dhphong