Nguồn: Cloudflare Engineering

Tóm tắt

Bài viết mô tả cách nhóm SRE của Cloudflare đã điều tra và xử lý một sự cố kỹ thuật phức tạp liên quan đến SaltStack — hệ thống quản lý cấu hình (configuration management) được sử dụng rộng rãi trong hạ tầng Cloudflare để quản lý hàng nghìn máy chủ. Sự cố xuất phát từ một vấn đề tinh tế và khó phát hiện trong quá trình thực thi Salt state, dẫn đến hành vi không mong muốn trên một tập con máy chủ trong mạng lưới toàn cầu.

Quá trình điều tra đòi hỏi nhóm kỹ sư phải sàng lọc khối lượng dữ liệu log khổng lồ từ hệ thống Salt master và các minion để tìm ra nguyên nhân gốc rễ. Nhóm đã sử dụng kết hợp nhiều công cụ phân tích log, viết các script tùy chỉnh và tận dụng API của Salt để truy vấn trạng thái hệ thống trên diện rộng. Thách thức lớn nhất là tìm ra “hạt cát” — lỗi cụ thể — trong “đống muối” — tập dữ liệu khổng lồ từ hàng nghìn nút mạng.

Bài học rút ra từ sự cố này dẫn đến một số cải tiến quan trọng trong quy trình vận hành. Cloudflare đã cải thiện hệ thống giám sát (monitoring) và cảnh báo (alerting) cho các hoạt động Salt, xây dựng công cụ tốt hơn để phân tích trạng thái đồng bộ hóa cấu hình giữa các máy chủ, và thiết lập các kiểm tra tự động (automated checks) để phát hiện sớm các trường hợp cấu hình không nhất quán. Sự cố này cũng thúc đẩy việc đánh giá lại chiến lược quản lý cấu hình tổng thể, đặc biệt là cách thức kiểm soát việc áp dụng thay đổi trên quy mô lớn với ít rủi ro nhất.

👉 Đọc bài gốc