Nguồn: GitHub Blog

Tóm tắt

GitHub công bố cập nhật về tình trạng availability sau hai sự cố gần đây, đồng thời chia sẻ kế hoạch tăng cường reliability. Tháng 10/2025, GitHub bắt đầu kế hoạch tăng capacity 10X; đến tháng 2/2026, yêu cầu đã vượt lên 30X do agentic development workflows bùng nổ từ nửa sau tháng 12/2025. Mọi chỉ số đều tăng mạnh: repo mới tạo đạt 20M/tháng, commits đạt 1,4 tỷ, pull request merged đạt 90M.

Sự tăng trưởng theo cấp số nhân này không chỉ stress một hệ thống đơn lẻ. Mỗi pull request có thể chạm đến Git storage, mergeability checks, branch protection, GitHub Actions, search, notifications, permissions, webhooks, APIs, background jobs, caches và databases. Ở quy mô lớn, các kém hiệu quả nhỏ cộng dồn: queues dài ra, cache misses biến thành database load, indexes tụt hậu, và một dependency chậm có thể ảnh hưởng nhiều product experience.

Sự cố ngày 23/4 liên quan đến merge queue — pull requests gặp regression ảnh hưởng đến merge queue operations, không có data loss nhưng state của default branches bị sai và không thể tự động sửa tất cả. Sự cố ngày 27/4 liên quan đến Elasticsearch cluster bị overload (có khả năng do botnet attack), khiến search-backed features không trả về kết quả, dù Git operations và API không bị ảnh hưởng.

Hướng khắc phục của GitHub tập trung vào: di chuyển webhooks ra khỏi MySQL, tách isolate critical services (git, GitHub Actions), giảm thiểu blast radius bằng cách loại bỏ single points of failure, và migrate performance-sensitive code từ Ruby monolith sang Go. Ưu tiên được đặt rõ ràng: availability trước, capacity sau, tính năng mới cuối cùng.

👉 Đọc bài gốc