Distributed-Systems

[Hacker News] Durable queues, streams, pub/sub, and a cron scheduler — inside your SQLite file

Nguồn: Honker Tóm tắt Honker là một SQLite loadable extension cung cấp durable queues, event streams, pub/sub và cron scheduler — toàn bộ trong cùng một file SQLite, không cần broker bên ngoài như Redis hay RabbitMQ. Cross-process wake latency đạt ~0.7ms p50 trên M-series laptop. Điểm đặc biệt là Honker implement Postgres-style NOTIFY/LISTEN semantics trên SQLite mà không cần client polling hay daemon. Điều này có nghĩa là queue enqueue và business write có thể commit trong cùng một transaction — INSERT INTO orders và queue....

[Hacker News] Lessons from Building an OTel Normalizer for GenAI

Nguồn: groundcover Blog Tóm tắt OpenTelemetry (OTel) được quảng bá rộng rãi như chuẩn thống nhất cho GenAI observability, nhưng thực tế khi xây dựng normalizer thu thập telemetry từ nhiều SDK và LLM provider khác nhau, groundcover phát hiện ra rằng “chuẩn” này còn rất phân mảnh. Mỗi SDK — dù tuân thủ OTel GenAI semantic conventions — phát ra attributes với tên khác nhau, cấu trúc khác nhau và quirks riêng của từng provider....

[Discord Engineering] You've Got (Too Much) Mail: Behind the Scenes of the 3/25/26 Voice Outage

Nguồn: Discord Engineering Tóm tắt Vào ngày 25 tháng 3 năm 2026, dịch vụ voice và video của Discord bị gián đoạn nghiêm trọng trong khoảng 3 tiếng đồng hồ, từ 12:13 đến 15:30 PDT. Nguyên nhân bắt nguồn từ một thay đổi cấu hình định kỳ trong quá trình migration sang Kubernetes — nhóm kỹ thuật tăng CPU/memory của pod và giảm số lượng pod theo tỷ lệ để kiểm tra CPU utilization....

[Hacker News] An Update on GitHub Availability

Nguồn: GitHub Blog Tóm tắt GitHub công bố cập nhật về tình trạng availability sau hai sự cố gần đây, đồng thời chia sẻ kế hoạch tăng cường reliability. Tháng 10/2025, GitHub bắt đầu kế hoạch tăng capacity 10X; đến tháng 2/2026, yêu cầu đã vượt lên 30X do agentic development workflows bùng nổ từ nửa sau tháng 12/2025. Mọi chỉ số đều tăng mạnh: repo mới tạo đạt 20M/tháng, commits đạt 1,4 tỷ, pull request merged đạt 90M....

[Hacker News] Branimir Lambov from IBM on Cassandra

Nguồn: Hacker News Tóm tắt Branimir Lambov là một trong những committer lâu năm của Apache Cassandra, hiện làm việc tại IBM sau khi công ty này mua lại DataStax. Với bằng Tiến sĩ về tính toán số thực xác định từ Đại học Aarhus (2005) và hơn 11 năm đóng góp cho Cassandra, ông có nền tảng kỹ thuật sâu rộng trải dài từ xử lý tín hiệu số đến xử lý ngôn ngữ tự nhiên....

[Bytebytego] EP212: Data Warehouse vs Data Lake vs Data Mesh

Nguồn: Bytebytego Tóm tắt Bài viết EP212 của ByteByteGo cung cấp một cái nhìn tổng quan về ba mô hình lưu trữ và quản lý dữ liệu phổ biến: Data Warehouse, Data Lake và Data Mesh. Lưu trữ dữ liệu là phần dễ thực hiện, nhưng quyết định nơi và cách tổ chức dữ liệu mới là thách thức thực sự trong các hệ thống quy mô lớn. Data Warehouse là kho dữ liệu có cấu trúc cao, được tối ưu cho truy vấn phân tích (OLAP)....

[Databricks Blog] Operational databases: How they work and when to use them

Nguồn: Databricks Blog Tóm tắt Databricks phân tích kiến trúc và trường hợp sử dụng của operational databases — lớp dữ liệu phục vụ các ứng dụng real-time với yêu cầu latency thấp và throughput cao. Bài viết phân biệt rõ ràng operational databases với data warehouses: trong khi data warehouses tối ưu cho analytical queries (OLAP) trên lượng lớn dữ liệu lịch sử, operational databases (OLTP) phục vụ transactional workloads với read/write latency ở mức milliseconds....

[Netflix Tech Blog] Scaling Camera File Processing at Netflix

Nguồn: Netflix Tech Blog Tóm tắt Netflix xây dựng Media Production Suite (MPS) nhằm tự động hoá và chuẩn hoá các quy trình xử lý file phim ảnh ở quy mô toàn cầu. Trước khi có MPS, các sản phẩm phim truyện phải đối mặt với các vấn đề như wrangling file tốn nhiều thời gian, thiếu nhất quán giữa các show và khu vực, cũng như lỗi do con người gây ra trong các quy trình thủ công....

[Reddit Engineering] From Reddit's first engineer to its first Senior Technical Fellow

Nguồn: Reddit Engineering Tóm tắt (Không thể truy cập nội dung đầy đủ) Reddit Engineering công bố bài viết về hành trình kỹ thuật của engineer đầu tiên của Reddit, người vừa được thăng lên vị trí Senior Technical Fellow — cấp bậc kỹ thuật cao nhất của công ty. Đây là cột mốc đặc biệt trong lịch sử một trong những nền tảng cộng đồng lớn nhất thế giới....

[Hacker News] I am building a cloud

Nguồn: crawshaw.io Tóm tắt David Crawshaw, đồng sáng lập Tailscale, công bố Series A cho exe.dev — một startup mới với tham vọng xây dựng lại cloud computing từ nền tảng. Bài viết là một phản ánh cá nhân và thẳng thắn về những vấn đề cốt lõi mà các cloud provider hiện tại không thể giải quyết bằng cách thêm abstraction lên trên. Crawshaw chỉ ra ba vấn đề cơ bản: VM là sai shape vì bị ràng buộc với CPU/memory bundle thay vì cho phép chạy nhiều VM linh hoạt; disk bị hỏng vì remote block devices được thiết kế cho thời HDD nhưng tạo ra overhead 10x với SSD (trong khi MacBook cá nhân đạt 500k IOPS); và networking có giá egress gấp 10 lần data center thông thường khiến các dự án nhỏ không thể affordable....

[The Pragmatic Engineer] Designing Data-intensive Applications with Martin Kleppmann

Nguồn: The Pragmatic Engineer Tóm tắt Martin Kleppmann, tác giả cuốn “Designing Data-Intensive Applications” — một trong những cuốn sách kỹ thuật được tham chiếu nhiều nhất trong ngành — đã có cuộc phỏng vấn với Gergely Orosz (The Pragmatic Engineer) về scaling, bản cập nhật mới của cuốn sách, và tương lai của các hệ thống trong kỷ nguyên AI. Cuộc trò chuyện kéo dài khoảng 1 giờ 25 phút, đề cập đến những thay đổi căn bản trong thiết kế hệ thống khi AI trở thành thành phần cốt lõi....

[Bytebytego] How DoorDash Launches a New Country in One Week

Nguồn: Bytebytego Tóm tắt DoorDash đã giải quyết bài toán mở rộng quốc tế bằng cách tái kiến trúc hệ thống onboarding Dasher từ một mớ if/else theo từng quốc gia thành một nền tảng module hóa. Trước đây, việc thêm một thị trường mới tốn hàng tháng kỹ thuật vì logic quốc gia nằm rải rác khắp codebase với ba phiên bản API tồn tại song song, trong đó V3 vẫn gọi xuống V2 handler và ghi vào V2 database tables....

[engineering.fb.com] Modernizing the Facebook Groups Search to Unlock the Power of Community Knowledge

Nguồn: Engineering at Meta Tóm tắt Meta đã tái kiến trúc Facebook Groups Search từ hệ thống keyword-based truyền thống sang kiến trúc hybrid retrieval kết hợp tìm kiếm lexical và semantic. Ba điểm ma sát chính được xác định: discovery (hệ thống keyword bỏ sót content do mismatch ngôn ngữ tự nhiên), consumption (người dùng phải đọc nhiều comment để tìm consensus), và validation (khó khai thác trí tuệ tập thể để đưa ra quyết định mua sắm)....

[Hacker News] A type-safe, realtime collaborative Graph Database in a CRDT

Nguồn: @codemix/graph Tóm tắt (Nội dung trang được render bằng JavaScript — tóm tắt dựa trên metadata và mô tả) @codemix/graph là một open-source TypeScript property graph database được xây dựng trên nền tảng CRDT (Conflict-free Replicated Data Type). Điểm đặc biệt là database này kết hợp type safety của TypeScript với khả năng realtime collaborative, cho phép nhiều client đồng thời đọc và ghi dữ liệu mà không cần coordination tập trung....

[Pinterest Engineering] Smarter URL Normalization at Scale: How MIQPS Powers Content Deduplication at Pinterest

Nguồn: Pinterest Engineering Tóm tắt Pinterest xử lý hàng triệu URL từ các merchant domain mỗi ngày, trong đó cùng một trang sản phẩm có thể xuất hiện dưới hàng chục biến thể URL khác nhau — với tracking parameter, session token, hay analytics tag khác nhau. Bài toán deduplication đòi hỏi một hệ thống chuẩn hóa URL đủ chính xác để nhận diện nội dung giống nhau dù URL có khác biệt....

[Salesforce Engineering] How Agentforce Lead Nurturing Agents Generated $100M+ Pipeline Under Rate-Limited Infrastructure

Nguồn: Salesforce Engineering Tóm tắt Nhóm kỹ thuật Salesforce đã xây dựng Agentforce Lead Nurturing Agents — một hệ thống agent tự trị chuyển đổi Sales Cloud từ một hệ thống lưu trữ dữ liệu thụ động thành một engine hành động chủ động. Hệ thống này đã tạo ra hơn 100 triệu USD pipeline, hơn 10.000 cơ hội bán hàng, và đóng góp vào 1.500 deal đã chốt thông qua automated workflow....

[NVIDIA Developer Blog] Full-Stack Optimizations for Agentic Inference with NVIDIA Dynamo

Nguồn: NVIDIA Developer Blog Tóm tắt Các coding agent như Claude Code và Codex đang tạo ra pattern sử dụng inference mới: mỗi session gửi hàng trăm API call mang toàn bộ lịch sử conversation, tạo ra áp lực cực lớn lên KV cache. Stripe hiện có agent tạo 1.300+ PR mỗi tuần; Ramp cho biết 30% PR được merge đến từ agent — đây là workload thực tế mà infrastructure cần phục vụ ngay bây giờ....

[PlanetScale Blog] Behind the scenes: How Database Traffic Control works

Nguồn: PlanetScale Blog Tóm tắt Database Traffic Control của PlanetScale được implement ở tầng database proxy — tất cả connections từ application đều đi qua proxy này trước khi đến MySQL hoặc PostgreSQL thực sự. Kiến trúc này cho phép PlanetScale intercept và kiểm soát toàn bộ queries trước khi chúng đến database, tạo ra khả năng kiểm soát real-time mà không cần thay đổi code ứng dụng. Khi một query đến proxy, nó đi qua rule evaluation pipeline gồm ba bước: rule matching (so sánh query với tất cả active rules), action determination (nếu nhiều rules match thì rule có priority cao nhất thắng), và action execution (throttle, block, hoặc kill)....

[PlanetScale Blog] Graceful degradation in Postgres

Nguồn: PlanetScale Blog Tóm tắt Graceful degradation là khả năng hệ thống tiếp tục hoạt động ở mức giảm sút khi một phần của nó gặp sự cố hoặc bị quá tải. Trong ngữ cảnh Postgres, điều này có nghĩa là ứng dụng vẫn có thể phục vụ người dùng ngay cả khi database đang bị stress hoặc không hoàn toàn sẵn sàng. Caching là hình thức phổ biến nhất của graceful degradation....

[Bytebytego] How LinkedIn Feed Uses LLMs to Serve 1.3 Billion Users

Nguồn: ByteByteGo Newsletter Tóm tắt LinkedIn Feed phải phục vụ 1.3 tỷ users với nội dung personalized — một bài toán recommendation system ở scale khổng lồ. ByteByteGo phân tích cách LinkedIn đã tích hợp Large Language Models vào pipeline hiện có để cải thiện relevance mà không sacrifice latency. Architecture tổng thể gồm nhiều layers: candidate retrieval (lọc hàng triệu posts xuống vài nghìn candidates), ranking (dùng LLMs để score candidates dựa trên user profile và engagement history), và serving (cache results và fallback mechanisms khi LLM latency không đáp ứng SLA)....