[PagerDuty Blog] How to use an SRE agent to reduce downtime

Nguồn: PagerDuty Blog Tóm tắt SRE agent là một AI-powered partner được thiết kế để tự động hóa các tác vụ lặp lại và tốn thời gian nhất trong incident response. Khác với automation script truyền thống vốn chỉ thực thi lệnh mù quáng theo kịch bản định sẵn, SRE agent có khả năng phân tích tình huống mới, đặt ra hypothesis và học từ kết quả — tạo ra một partner thích ứng linh hoạt hơn nhiều....

01/05/2026 · 2 min · dhphong

[Hacker News] Our agent found a bug with WireGuard in Google Kubernetes Engine

Nguồn: Lovable Blog Tóm tắt Lovable — nền tảng tạo hơn 50 sandbox mỗi giây lúc cao điểm — gặp phải loạt lỗi kết nối không rõ nguyên nhân: mở project thất bại, clone code từ GitHub timeout, và “Connection reset by peer”. Kỹ sư infrastructure Sascha đã dùng AI agent để phân tích hàng triệu dòng log trong Clickhouse, phát hiện ra các pod anetd (implementation của Cilium của Google trên GKE) đang restart khoảng 120 lần trong 6 ngày — gần 1 lần crash mỗi giờ....

01/05/2026 · 2 min · dhphong

[Red Hat Blog] Designing multitenant GPU infrastructure: Isolation across virtualization and Kubernetes platforms

Nguồn: Red Hat Blog Tóm tắt Khi AI workload chuyển từ thử nghiệm sang production, các tổ chức muốn chia sẻ GPU infrastructure giữa nhiều tenant để tối ưu chi phí. Tuy nhiên, trong môi trường multi-tenant, thiếu isolation có thể dẫn đến performance interference, latency không thể đoán trước, và thậm chí data exposure giữa các workload. Red Hat phân tích rằng isolation trong GPU infrastructure phải được thiết kế qua 4 layer độc lập: (1) Hardware isolation — xác định tenant nào sở hữu GPU vật lý nào, thực thi qua VFIO và IOMMU; (2) Fabric isolation — kiểm soát việc GPU giao tiếp qua high-speed interconnect như NVLink, xGMI; (3) Scheduler isolation — đảm bảo orchestrator không mix GPU từ các fabric domain khác nhau vào cùng một workload; (4) Virtualization isolation — kiểm soát resource partition trong từng GPU (full passthrough, MIG, hay time-slicing)....

01/05/2026 · 2 min · dhphong

[Salesforce Engineering] How AI-Driven Kubernetes Optimization Reclaimed Millions from 47% Idle Capacity

Nguồn: Salesforce Engineering Blog Tóm tắt Salesforce phát hiện rằng gần 47% tổng chi phí Kubernetes trên nền tảng Hyperforce bị lãng phí do over-provisioning. Hơn 8.000 service Kubernetes được quản lý, nhưng configuration drift qua nhiều năm khiến việc tối ưu hóa thủ công trở nên bất khả thi — service owner thiếu visibility và thiếu tự tin để thay đổi config trong môi trường production phức tạp. Giải pháp là xây dựng Capacity Optimization Agent — một hệ thống AI phân tích cấu hình service qua các repository, tính toán resource allocation tối ưu, và tạo pull request trực tiếp để áp dụng thay đổi....

01/05/2026 · 2 min · dhphong

[The Pragmatic Engineer] The Pulse: AI load breaks GitHub – why not other vendors?

Nguồn: The Pragmatic Engineer Tóm tắt GitHub đang trải qua giai đoạn reliability tệ nhất trong lịch sử gần đây: tháng 4/2026, uptime đo được bởi third-party tracker chỉ đạt 86% (zero nines), kèm theo một data integrity incident nghiêm trọng và nhiều outage liên tiếp. GitHub leadership giải thích nguyên nhân là do 3.5x tăng service load từ AI workloads — nhưng nhiều kỹ sư cho rằng đây là self-inflicted wounds....

01/05/2026 · 2 min · dhphong

[Bytebytego] The Tech Stack Powering Wise

Nguồn: Bytebytego Tóm tắt Wise — nền tảng chuyển tiền quốc tế phục vụ hơn 15,6 triệu khách hàng và xử lý £36 tỷ mỗi quý — được xây dựng trên hơn 1.000 microservice với 850+ kỹ sư tổ chức theo mô hình autonomous squad. Yếu tố cốt lõi giữ toàn bộ hệ thống hoạt động nhất quán là một internal platform engineering strategy: chassis framework, Kubernetes CRP (Compute Runtime Platform), và Spinnaker với canary analysis tự động....

30/04/2026 · 2 min · dhphong

[Discord Engineering] You've Got (Too Much) Mail: Behind the Scenes of the 3/25/26 Voice Outage

Nguồn: Discord Engineering Tóm tắt Vào ngày 25 tháng 3 năm 2026, dịch vụ voice và video của Discord bị gián đoạn nghiêm trọng trong khoảng 3 tiếng đồng hồ, từ 12:13 đến 15:30 PDT. Nguyên nhân bắt nguồn từ một thay đổi cấu hình định kỳ trong quá trình migration sang Kubernetes — nhóm kỹ thuật tăng CPU/memory của pod và giảm số lượng pod theo tỷ lệ để kiểm tra CPU utilization....

30/04/2026 · 2 min · dhphong

[Kubernetes Blog] Kubernetes v1.36: Tiered Memory Protection with Memory QoS

Nguồn: Kubernetes Blog Tóm tắt Kubernetes v1.36 giới thiệu các cập nhật quan trọng cho tính năng Memory QoS (alpha) — tính năng sử dụng cgroup v2 memory controller để cung cấp hướng dẫn tốt hơn cho kernel trong việc quản lý bộ nhớ container. Thay đổi lớn nhất là “tiered memory reservation” qua memoryReservationPolicy: TieredReservation: Guaranteed Pods nhận hard protection qua memory.min (kernel không bao giờ reclaim), trong khi Burstable Pods nhận soft protection qua memory....

30/04/2026 · 2 min · dhphong

[Hacker News] HashiCorp co-founder says GitHub 'no longer a place for serious work'

Nguồn: The Register via Hacker News Tóm tắt Mitchell Hashimoto, đồng sáng lập HashiCorp và tác giả của Ghostty — một terminal emulator đang được cộng đồng lập trình viên đón nhận nồng nhiệt — đã tuyên bố sẽ chuyển dự án khỏi GitHub sau hàng loạt sự cố gián đoạn dịch vụ. Theo Hashimoto, tần suất downtime của GitHub hiện nay đã đạt mức không thể chấp nhận được đối với công việc nghiêm túc....

29/04/2026 · 2 min · dhphong

[Kubernetes Blog] Kubernetes v1.36: Staleness Mitigation and Observability for Controllers

Nguồn: Kubernetes Blog Tóm tắt Kubernetes v1.36 giới thiệu tính năng giảm thiểu staleness (dữ liệu cũ) cho các controller, giải quyết một vấn đề lâu dài ảnh hưởng đến nhiều controller trong hệ sinh thái. Staleness xảy ra khi cache của controller chưa được cập nhật kịp với trạng thái thực tế của API server, dẫn đến các hành động không chính xác hoặc bị bỏ lỡ — thường chỉ được phát hiện khi đã xảy ra sự cố trong môi trường production....

29/04/2026 · 2 min · dhphong

[Hacker News] Ghostty Is Leaving GitHub

Nguồn: Mitchell Hashimoto Tóm tắt Mitchell Hashimoto, tác giả của Vagrant và Ghostty, công bố quyết định di chuyển dự án terminal emulator Ghostty ra khỏi GitHub sau 18 năm gắn bó. Quyết định này không xuất phát từ một sự kiện đơn lẻ mà là kết quả tích luỹ từ nhiều tháng outage liên tiếp ảnh hưởng đến khả năng làm việc hàng ngày — Actions, Issues, PR review bị gián đoạn gần như mỗi ngày....

29/04/2026 · 2 min · dhphong

[Hacker News] An Update on GitHub Availability

Nguồn: GitHub Blog Tóm tắt GitHub công bố cập nhật về tình trạng availability sau hai sự cố gần đây, đồng thời chia sẻ kế hoạch tăng cường reliability. Tháng 10/2025, GitHub bắt đầu kế hoạch tăng capacity 10X; đến tháng 2/2026, yêu cầu đã vượt lên 30X do agentic development workflows bùng nổ từ nửa sau tháng 12/2025. Mọi chỉ số đều tăng mạnh: repo mới tạo đạt 20M/tháng, commits đạt 1,4 tỷ, pull request merged đạt 90M....

28/04/2026 · 2 min · dhphong

[Reddit Engineering] The Zero Trust Odyssey

Nguồn: Reddit Engineering Tóm tắt (Không thể truy cập nội dung đầy đủ — Reddit Engineering yêu cầu đăng nhập) Bài viết từ Reddit Engineering chia sẻ hành trình chuyển đổi sang mô hình Zero Trust network security. Zero Trust là mô hình bảo mật loại bỏ khái niệm “trusted perimeter” — mọi request đều phải được xác thực, ủy quyền và mã hóa, bất kể xuất phát từ trong hay ngoài mạng nội bộ....

28/04/2026 · 1 min · dhphong

[Hacker News] GoDaddy gave a domain to a stranger without any documentation

Nguồn: Hacker News Tóm tắt Anchor Web Services, một công ty hosting website nhỏ, ghi lại sự cố nghiêm trọng: GoDaddy đã transfer domain keystonept.com của khách hàng sang một bên thứ ba không xác định vào ngày 15/1/2025 — mà không có bất kỳ sự đồng ý hay ký xác nhận nào từ chủ sở hữu. Lỗ hổng quy trình của GoDaddy nằm ở chỗ email xác thực transfer được gửi đến địa chỉ trong WHOIS record (contact@keystonept....

27/04/2026 · 2 min · dhphong

[Kubernetes Blog] Kubernetes v1.36: Fine-Grained Kubelet API Authorization Graduates to GA

Nguồn: Kubernetes Blog Tóm tắt Kubernetes v1.36 đánh dấu tính năng Fine-Grained Kubelet API Authorization chính thức lên GA (Generally Available). Tính năng này giải quyết vấn đề bảo mật cơ bản trong các cluster: trước đây, kubelet API sử dụng mô hình authorization all-or-nothing — một principal hoặc có full access vào tất cả kubelet APIs, hoặc không có gì. Với fine-grained authorization, các component như metrics scraper, log aggregator, hay CI/CD system chỉ cần được cấp quyền truy cập vào những kubelet API endpoint cụ thể mà họ thực sự cần....

25/04/2026 · 2 min · dhphong

[Kubernetes Blog] Kubernetes v1.36: User Namespaces in Kubernetes are finally GA

Nguồn: Kubernetes Blog Tóm tắt Kubernetes v1.36 chính thức đưa User Namespaces lên GA — tính năng bảo mật container quan trọng đã được phát triển qua nhiều năm. User Namespaces là một Linux kernel feature cho phép map user IDs bên trong container sang một dải UID khác trên host, thường là unprivileged UIDs. Vấn đề cốt lõi mà tính năng này giải quyết: trong Kubernetes không có User Namespaces, một container process chạy với UID 0 (root) bên trong container thực chất cũng là UID 0 trên host....

25/04/2026 · 2 min · dhphong

[Netflix Tech Blog] Scaling Camera File Processing at Netflix

Nguồn: Netflix Tech Blog Tóm tắt Netflix xây dựng Media Production Suite (MPS) nhằm tự động hoá và chuẩn hoá các quy trình xử lý file phim ảnh ở quy mô toàn cầu. Trước khi có MPS, các sản phẩm phim truyện phải đối mặt với các vấn đề như wrangling file tốn nhiều thời gian, thiếu nhất quán giữa các show và khu vực, cũng như lỗi do con người gây ra trong các quy trình thủ công....

25/04/2026 · 2 min · dhphong

[Red Hat Blog] Confidential guest reset on QEMU hypervisor: Design choices and approach

Nguồn: Red Hat Blog Tóm tắt QEMU 11.0 giới thiệu một tính năng mới quan trọng cho confidential computing: khả năng reset (reboot) các SEV-SNP và TDX VMs. Trước đây, các confidential guest sử dụng AMD SEV-ES, SEV-SNP, hay Intel TDX sẽ bị terminate nếu cố reboot — không như non-confidential VMs hay AMD SEV cơ bản có thể reset bình thường. Nguyên nhân kỹ thuật: trong SEV-SNP và TDX, không chỉ memory mà cả CPU register state và VMCS đều được mã hoá trong vùng private memory của guest....

25/04/2026 · 2 min · dhphong

[Reddit Engineering] From Reddit's first engineer to its first Senior Technical Fellow

Nguồn: Reddit Engineering Tóm tắt (Không thể truy cập nội dung đầy đủ) Reddit Engineering công bố bài viết về hành trình kỹ thuật của engineer đầu tiên của Reddit, người vừa được thăng lên vị trí Senior Technical Fellow — cấp bậc kỹ thuật cao nhất của công ty. Đây là cột mốc đặc biệt trong lịch sử một trong những nền tảng cộng đồng lớn nhất thế giới....

25/04/2026 · 1 min · dhphong

[Tailscale Engineering] This month at Tailscale for April 2026

Nguồn: Tailscale Engineering Tóm tắt Bản cập nhật tháng 4/2026 của Tailscale tập trung vào Aperture — sản phẩm AI gateway của hãng. Các tính năng mới bao gồm custom guardrails với pre-LLM-call hooks cho phép strip hoặc block PII trước khi request đến LLM, cũng như khả năng restrict tool access cho AI agents cụ thể. Về observability và compliance, Aperture bổ sung cấu hình log retention với thời gian có thể đặt về 0, kết hợp với S3-compatible export cho capture logs....

25/04/2026 · 1 min · dhphong