[The Pragmatic Engineer] The Pulse: AI load breaks GitHub – why not other vendors?

Nguồn: The Pragmatic Engineer Tóm tắt GitHub đang trải qua giai đoạn reliability tệ nhất trong lịch sử gần đây: tháng 4/2026, uptime đo được bởi third-party tracker chỉ đạt 86% (zero nines), kèm theo một data integrity incident nghiêm trọng và nhiều outage liên tiếp. GitHub leadership giải thích nguyên nhân là do 3.5x tăng service load từ AI workloads — nhưng nhiều kỹ sư cho rằng đây là self-inflicted wounds....

01/05/2026 · 2 min · dhphong

[Hacker News] An Update on GitHub Availability

Nguồn: GitHub Blog Tóm tắt GitHub công bố cập nhật về tình trạng availability sau hai sự cố gần đây, đồng thời chia sẻ kế hoạch tăng cường reliability. Tháng 10/2025, GitHub bắt đầu kế hoạch tăng capacity 10X; đến tháng 2/2026, yêu cầu đã vượt lên 30X do agentic development workflows bùng nổ từ nửa sau tháng 12/2025. Mọi chỉ số đều tăng mạnh: repo mới tạo đạt 20M/tháng, commits đạt 1,4 tỷ, pull request merged đạt 90M....

28/04/2026 · 2 min · dhphong

[Turso Blog] Carl Sverre ruined my day. And it was glorious

Nguồn: Turso Blog Tóm tắt Turso là một bản viết lại hoàn toàn của SQLite bằng Rust, có khả năng chạy như cơ sở dữ liệu cục bộ hoặc truy cập qua mạng. Một trong những thách thức lớn mà đội ngũ phát triển đối mặt là đảm bảo hai package khác nhau — @tursodatabase/database (native binary) và @tursodatabase/serverless (pure-JS) — phải có API hoàn toàn giống nhau và trả về kết quả nhất quán....

24/04/2026 · 2 min · dhphong

[Cloudflare Engineering] Making Rust Workers reliable: panic and abort recovery in wasm-bindgen

Nguồn: Cloudflare Engineering Tóm tắt Cloudflare Workers hỗ trợ Rust thông qua việc biên dịch sang WebAssembly (Wasm), nhưng Wasm có một số “sharp edges” khi xử lý lỗi. Khi một Rust Worker gặp panic hoặc abort không được xử lý, runtime có thể rơi vào trạng thái không xác định, gây ảnh hưởng đến các request tiếp theo — thậm chí “brick” Worker trong một khoảng thời gian. Nguyên nhân gốc rễ nằm ở wasm-bindgen, thư viện tạo bindings giữa Rust và JavaScript....

23/04/2026 · 2 min · dhphong

[PlanetScale Blog] Graceful degradation in Postgres

Nguồn: PlanetScale Blog Tóm tắt Graceful degradation là khả năng hệ thống tiếp tục hoạt động ở mức giảm sút khi một phần của nó gặp sự cố hoặc bị quá tải. Trong ngữ cảnh Postgres, điều này có nghĩa là ứng dụng vẫn có thể phục vụ người dùng ngay cả khi database đang bị stress hoặc không hoàn toàn sẵn sàng. Caching là hình thức phổ biến nhất của graceful degradation....

14/04/2026 · 2 min · dhphong

[Cloudflare Engineering] Improving platform resilience at Cloudflare through automation

Nguồn: Cloudflare Engineering Tóm tắt Cloudflare đã phát triển hệ thống tự động hóa toàn diện để cải thiện khả năng phục hồi của nền tảng Workers, tập trung vào việc phát hiện, ứng phó và phục hồi từ các sự cố mà không cần can thiệp thủ công. Khi vận hành ở quy mô hàng triệu yêu cầu mỗi giây trên hàng trăm địa điểm trên toàn cầu, ngay cả những sự cố nhỏ cũng có thể có tác động rất lớn nếu không được xử lý nhanh chóng....

13/04/2026 · 2 min · dhphong