Performance

[Google Engineering Blog] Speeding Up AI: Bringing Google Colossus to PyTorch via GCSFS and Rapid Bucket

Nguồn: Google Engineering Blog Tóm tắt Google công bố tích hợp Rapid Storage — dựa trên kiến trúc lưu trữ Colossus (cùng hệ thống file system vận hành YouTube và Google Search) — trực tiếp vào PyTorch ecosystem thông qua giao diện chuẩn fsspec. Rapid Bucket là giải pháp high-performance object storage trong dedicated zonal buckets, thay thế legacy REST API bằng persistent gRPC bidirectional streams, đạt throughput 15+ TiB/s, latency dưới 1ms cho random reads/appends, và 20M+ QPS....

[Salesforce Developer] Beyond Static Analysis: How Scale Center's New Database Insights Thinks Like a DBA

Nguồn: Salesforce Developer Blog Tóm tắt Salesforce vừa ra mắt tính năng Database Insights trong Scale Center — một công cụ phân tích hiệu năng SOQL theo hướng bottom-up thay vì top-down truyền thống. Trong khi các công cụ cũ chỉ phân tích static metadata của Apex code, Database Insights bắt đầu từ nơi thực sự xảy ra vấn đề: tầng cơ sở dữ liệu. Vấn đề cốt lõi được gọi là “runtime reality gap” — các scanner tĩnh không thể biết giá trị thực của bind variable trong SOQL dynamic, dẫn đến không phân biệt được giữa “selective success” (query dùng index để truy vấn đúng 10 records từ hàng triệu) và “table-scan terror” (database phải scan toàn bộ bảng vì không dùng được index)....

[Hacker News] Mounting tar archives as a filesystem in WebAssembly

Nguồn: Jeroen’s Notes Tóm tắt Bài viết trình bày một kỹ thuật tối ưu hóa cho WebAssembly: thay vì giải nén toàn bộ file .tar.gz trước khi sử dụng, có thể tạo một file index nhỏ chứa thông tin về size và offset của từng file bên trong tar, sau đó mount trực tiếp tar blob qua Emscripten’s WORKERFS mà không cần copy dữ liệu. Kỹ thuật này hoạt động được nhờ ba yếu tố: tar có cấu trúc flat với dữ liệu contiguous và byte-addressable; WORKERFS của Emscripten được thiết kế để serve reads từ Blob objects bằng cách slice blob theo offset mà không copy vào Wasm heap; và browser có sẵn native DecompressionStream API để gunzip hiệu quả....

[Turso Blog] Turso Sync: a much, much, much better way to sync

Nguồn: Turso Blog Tóm tắt Turso — bản viết lại SQLite bằng Rust — đã giới thiệu cơ chế sync mới hoàn toàn khác với libSQL Embedded Replicas trước đó. Vấn đề cốt lõi của Embedded Replicas là nó replication dựa trên physical pages, không có cách tốt để theo dõi logical stream of changes trong SQLite, dẫn đến nhiều hạn chế nghiêm trọng: lãng phí bandwidth, không thể write locally, và thường xuyên phải bootstrap lại toàn bộ database từ cloud khi trang phân kỳ....

[Hacker News] XOR'ing a register with itself is the idiom for zeroing it out. Why not sub?

Nguồn: The Old New Thing - Microsoft Dev Blogs Tóm tắt Raymond Chen trong blog “The Old New Thing” giải thích tại sao xor eax, eax là idiom chuẩn để zeroing một register trong assembly x86, thay vì dùng sub eax, eax — dù cả hai đều cho kết quả bằng 0. Về mặt toán học, eax XOR eax = 0 và eax - eax = 0 là tương đương, nhưng CPU xử lý chúng khác nhau ở cấp độ vi kiến trúc....

[Hacker News] How to make a fast dynamic language interpreter

Nguồn: zef-lang.dev Tóm tắt (Không thể truy cập nội dung đầy đủ — kết nối không thành công) Bài viết từ tác giả ngôn ngữ lập trình Zef, chia sẻ các kỹ thuật để xây dựng interpreter cho dynamic language có hiệu năng cao. Dynamic language interpreter thường bị cho là chậm do overhead của type checking tại runtime, nhưng có nhiều kỹ thuật để giảm thiểu đáng kể chi phí này....

[NVIDIA Developer Blog] Run High-Throughput Reinforcement Learning Training with End-to-End FP8 Precision

Nguồn: NVIDIA Developer Blog Tóm tắt Khi các LLM chuyển từ text generation đơn thuần sang complex reasoning, reinforcement learning (RL) trở thành thành phần cốt lõi. Các thuật toán như GRPO (Group Relative Policy Optimization) cho phép model cải thiện liên tục qua iterative feedback. Tuy nhiên, RL training loop đặc biệt về cấu trúc: chia thành hai phase riêng biệt — generation phase với yêu cầu latency thấp, và training phase yêu cầu throughput cao....

[Hacker News] A cache-friendly IPv6 LPM with AVX-512 (linearized B+-tree, real BGP benchmarks)

Nguồn: Hacker News / GitHub Tóm tắt Thư viện planb-lpm là một cài đặt lại sạch của thuật toán PlanB từ bài báo NSDI ‘26, thực hiện IPv6 longest-prefix-match (LPM) sử dụng cấu trúc linearized B+-tree kết hợp với AVX-512 SIMD. Thuật toán gốc được đề xuất bởi nhóm nghiên cứu từ Đại học Tsinghua, nhằm tối ưu tra cứu địa chỉ IPv6 trong các bộ định tuyến phần mềm với tốc độ cao....

[Hacker News] Binary GCD

Nguồn: Algorithmica HPC Tóm tắt Binary GCD (hay Stein’s algorithm) là biến thể hiệu quả của thuật toán Euclid để tính ước chung lớn nhất, tận dụng các phép tính bit thay vì phép chia modulo tốn kém. Thay vì dùng a % b, thuật toán sử dụng phép dịch bit và phép trừ — những phép tính có độ trễ thấp hơn nhiều trên CPU hiện đại. Bài viết trên Algorithmica (dự án giáo dục HPC của Sergey Slotin) trình bày chi tiết các bước tối ưu hóa: loại bỏ số chẵn bằng cách dịch bit, tránh phân nhánh không cần thiết, và cách CPU hiện đại xử lý các nhánh dự đoán....

[Hacker News] Optimizing Ruby Path Methods

Nguồn: byroot.github.io Tóm tắt Bài viết từ một kỹ sư tại Intercom trình bày quá trình tối ưu hóa các path method trong Ruby, đặc biệt trong bối cảnh cải thiện CI pipeline cho một monolith lớn. Điểm khởi đầu là nhận thấy rằng các thao tác liên quan đến filesystem path (như File.join, Pathname, expand_path) chiếm tỷ lệ đáng kể trong profiling data của các test suite phức tạp....

[Hacker News] Do you even need a database?

Nguồn: DB Pro Blog Tóm tắt Bài viết từ đội ngũ DB Pro đặt ra câu hỏi thực dụng: khi nào thì thực sự cần database? Luận điểm xuất phát từ một sự thật cơ bản — database cũng chỉ là files. SQLite là một file duy nhất, PostgreSQL là một thư mục files với process đứng trước nó. Vì vậy câu hỏi không phải là “dùng files hay không” mà là “dùng files của database hay files của chính mình”....

[Palantir Blog] Frontend Engineering at Palantir: Polar Scaled Tiles in Zodiac

Nguồn: Palantir Blog Tóm tắt Đội kỹ sư frontend của Palantir chia sẻ giải pháp kỹ thuật cho một vấn đề tưởng chừng đơn giản trong Zodiac — thư viện 3D globe tự xây dựng trên Three.js: rendering chính xác ở vùng cực. Hệ thống map tiling truyền thống (Web Mercator) chia thế giới thành các ô vuông đều nhau theo độ kinh/vĩ, nhưng khi render trên hình cầu 3D, các ô này trở thành những tam giác mỏng hội tụ ở cực, tạo ra hàng nghìn geometry không cần thiết và làm frame rate sụp đổ....

[Pinterest Engineering] Finding zombies in our systems: A real-world story of CPU bottlenecks

Nguồn: Pinterest Engineering Tóm tắt Đội ngũ Kubernetes platform tại Pinterest đã trải qua cuộc điều tra kéo dài hơn ba tháng để xác định nguyên nhân gốc rễ khiến các Ray training job trên GPU bị crash do mất kết nối mạng. Vấn đề bắt đầu khi đội ML platform báo cáo rằng các distributed training job — thường chạy hàng giờ trên phần cứng GPU đắt tiền — gặp sự cố mạng ngắt quãng, dẫn đến tỉ lệ thành công giảm hơn 25%....

[JavaScript Weekly] MDN ditches React for web components in frontend rebuild

Nguồn: JavaScript Weekly Issue 781 Tóm tắt MDN (Mozilla Developer Network) — tài liệu tham khảo web tiêu chuẩn cho hàng triệu developer — đã rebuild toàn bộ frontend stack, từ bỏ React và chuyển sang Web Components kết hợp với một hệ thống server component tự phát triển. Quyết định này được Leo McArdle (MDN) ghi lại chi tiết, giải thích các lý do kỹ thuật và trade-off. Động lực chính là giảm lượng JavaScript không cần thiết shipped đến người dùng trên mỗi trang....

[NVIDIA Developer Blog] NVIDIA NVbandwidth: Your Essential Tool for Measuring GPU Interconnect and Memory Performance

Nguồn: NVIDIA Developer Blog Tóm tắt NVbandwidth là công cụ CUDA-based của NVIDIA dùng để đo bandwidth và latency cho các memory copy pattern khác nhau trên hệ thống GPU đơn và đa GPU. Công cụ hỗ trợ cả hai phương pháp copy engine (CE) và kernel copy, báo cáo băng thông thực tế đang được sử dụng, từ đó giúp kỹ sư hiểu rõ đặc tính hiệu suất của hệ thống GPU....

[PlanetScale Blog] High memory usage in Postgres is good, actually

Nguồn: PlanetScale Blog Tóm tắt Khi theo dõi một Postgres server và thấy memory usage lên đến 70-90% RAM, phản ứng đầu tiên thường là lo lắng và muốn điều tra. Thực tế, trong hầu hết các trường hợp, memory usage cao trong Postgres không phải là vấn đề — đó là dấu hiệu Postgres đang hoạt động hiệu quả. Postgres sử dụng bộ nhớ theo nhiều cách khác nhau. Shared buffers là cache in-memory cho data pages: khi Postgres đọc dữ liệu từ disk, các page được lưu vào shared buffers để các lần đọc sau phục vụ từ RAM thay vì disk....

[Hacker News] B-trees and database indexes (2024)

Nguồn: PlanetScale Blog Tóm tắt B-tree là cấu trúc dữ liệu cân bằng tự động, được sử dụng rộng rãi để triển khai index trong database. Mỗi node của B-tree chứa keys và values: node gốc và node nội bộ dùng để dẫn đường tìm kiếm, còn node lá chứa con trỏ đến dữ liệu thực. Tính chất tự cân bằng đảm bảo độ phức tạp tìm kiếm luôn là O(log n)....

[Hacker News] How to make Firefox builds 17% faster

Nguồn: blog.farre.se Tóm tắt Servo, browser engine viết bằng Rust được duy trì bởi Linux Foundation, sử dụng WebIDL (Web Interface Definition Language) để tự động sinh code binding giữa JavaScript và Rust. Quy trình code generation được thực hiện bởi một Python script, nhận đầu vào là các file .webidl và template, xuất ra Rust code. Vấn đề là script này không thể được cache bởi sccache hoặc bất kỳ build cache tool nào, khiến CI phải chạy lại từ đầu mỗi lần build....

[Cloudflare Engineering] Building Jetflow: a framework for flexible, performant data pipelines at Cloudflare

Nguồn: Cloudflare Engineering Tóm tắt Jetflow là một framework nội bộ được Cloudflare phát triển bằng ngôn ngữ Go để xử lý các pipeline dữ liệu quy mô lớn. Hệ thống này được thiết kế để giải quyết những thách thức đặc thù của Cloudflare, nơi hàng petabyte dữ liệu cần được xử lý, biến đổi và phân phối mỗi ngày với yêu cầu về độ trễ thấp và độ tin cậy cao....

[Cloudflare Engineering] Cloudflare just got faster and more secure, powered by Rust

Nguồn: Cloudflare Engineering Tóm tắt Cloudflare đã hoàn thành một dự án kỹ thuật đầy tham vọng: thay thế NGINX — phần mềm web server truyền thống đã phục vụ hạ tầng Cloudflare trong nhiều năm — bằng một proxy server hoàn toàn mới được viết bằng Rust, có tên mã là Pingora. Quyết định này xuất phát từ những hạn chế cơ bản của kiến trúc NGINX trong việc đáp ứng quy mô và yêu cầu đặc thù của Cloudflare, đặc biệt là mô hình xử lý kết nối per-worker-process khiến việc chia sẻ tài nguyên giữa các kết nối trở nên kém hiệu quả....