Nguồn: Cloudflare Engineering

Tóm tắt

Cloudflare đã chuyển đổi hệ thống logging nội bộ sang sử dụng OpenTelemetry (OTel), một tiêu chuẩn mở cho việc thu thập và xuất dữ liệu telemetry. Quyết định này được thúc đẩy bởi nhu cầu chuẩn hóa cách thu thập dữ liệu observability trên hàng trăm dịch vụ khác nhau, đồng thời giảm sự phụ thuộc vào các giải pháp độc quyền.

Trước khi chuyển sang OpenTelemetry, Cloudflare sử dụng nhiều hệ thống logging khác nhau với các định dạng và giao thức không tương thích, gây ra khó khăn trong việc tổng hợp và phân tích dữ liệu. Việc tích hợp OpenTelemetry Collector vào kiến trúc pipeline cho phép định tuyến linh hoạt dữ liệu logs, metrics và traces đến nhiều backend khác nhau mà không cần thay đổi mã nguồn của từng dịch vụ.

Quá trình di chuyển không diễn ra mà không có thách thức. Một trong những vấn đề lớn là xử lý khối lượng dữ liệu telemetry khổng lồ mà Cloudflare tạo ra — hàng tỷ sự kiện mỗi ngày. Nhóm kỹ thuật phải tối ưu hóa cấu hình của OpenTelemetry Collector để đạt được hiệu suất cần thiết, bao gồm việc điều chỉnh batch processing, memory limits và các chiến lược sampling phù hợp.

Sau khi hoàn thành quá trình di chuyển, Cloudflare đã nhận thấy nhiều lợi ích rõ rệt. Khả năng correlate dữ liệu từ nhiều nguồn khác nhau được cải thiện đáng kể nhờ trace IDs thống nhất. Các kỹ sư có thể dễ dàng hơn trong việc theo dõi một yêu cầu qua nhiều dịch vụ, từ đó rút ngắn thời gian phát hiện và chẩn đoán sự cố. Kinh nghiệm này cũng mang lại những bài học có giá trị về cách quản lý việc di chuyển hệ thống observability ở quy mô lớn mà không làm gián đoạn hoạt động của hệ thống sản xuất.

👉 Đọc bài gốc