[Hacker News] Advanced Quantization Algorithm for LLMs – Intel AutoRound

Nguồn: GitHub: intel/auto-round Tóm tắt AutoRound là bộ công cụ quantization tiên tiến cho Large Language Models (LLMs) và Vision-Language Models (VLMs), được phát triển bởi Intel. Thuật toán sử dụng sign-gradient descent để đạt độ chính xác cao ở ultra-low bit width (2–4 bits) với overhead tuning tối thiểu, đồng thời tương thích rộng với các hardware platform (CPU/XPU/CUDA). Điểm nổi bật là AutoRound đã được tích hợp vào hệ sinh thái chính: vLLM (5/2025), SGLang (10/2025), Transformers của HuggingFace (5/2025), và LLM-Compressor (11/2025)....

01/05/2026 · 2 min · dhphong

[Hacker News] Show HN: Auto-Architecture: Karpathy's Loop, pointed at a CPU

Nguồn: GitHub via Hacker News Tóm tắt Auto-Architecture là một thử nghiệm áp dụng “Karpathy’s Loop” — vòng lặp nghiên cứu tự động (propose, implement, measure, keep the wins) — vào lĩnh vực thiết kế kiến trúc CPU, thay vì môi trường machine learning truyền thống. Andrej Karpathy đã chứng minh rằng một coding agent có thể tự tìm ra 20 tối ưu hóa training trong 2 ngày với một GPU đơn....

29/04/2026 · 2 min · dhphong

[Bytebytego] How Stripe Detects Fraudulent Transactions Within 100 ms

Nguồn: Bytebytego Tóm tắt Stripe Radar đánh giá hơn 1.000 tín hiệu về mỗi giao dịch trong vòng dưới 100 mili-giây, đạt độ chính xác 99,9% trên hàng tỷ giao dịch hợp lệ. Hệ thống đã trải qua nhiều lần cải tổ kiến trúc, trong đó quyết định đáng chú ý nhất là loại bỏ XGBoost dù biết rõ nó đang cải thiện độ chính xác — vì giữ lại nó cản trở mọi cải tiến khác....

28/04/2026 · 2 min · dhphong

[Hacker News] Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

Nguồn: Google DeepMind Tóm tắt Google DeepMind công bố nghiên cứu về Decoupled DiLoCo (Distributed Low-Communication) — một kiến trúc huấn luyện phân tán mới cho phép huấn luyện LLM quy mô lớn trên nhiều data center toàn cầu với băng thông thấp và khả năng chịu lỗi phần cứng cao hơn. Nghiên cứu được công bố ngày 23 tháng 4 năm 2026 bởi Arthur Douillard và nhóm DiLoCo. Kiến trúc truyền thống để huấn luyện mô hình frontier AI đòi hỏi hàng nghìn chip phải đồng bộ hóa gần như tức thời với nhau....

28/04/2026 · 2 min · dhphong

[Pinterest Engineering] From Clicks to Conversions: Architecting Shopping Conversion Candidate Generation at Pinterest

Nguồn: Pinterest Engineering Tóm tắt Nhóm kỹ thuật Pinterest chia sẻ kiến trúc hệ thống tạo ra candidate (ứng viên) cho tính năng Shopping Conversion — hệ thống gợi ý sản phẩm không chỉ tối ưu hóa cho clicks mà còn cho conversions (tức là người dùng thực sự mua hàng). Đây là sự chuyển dịch quan trọng từ hệ thống recommendation truyền thống chỉ đo engagement sang hệ thống tối ưu hóa kết quả kinh doanh thực sự....

28/04/2026 · 2 min · dhphong

[Hacker News] TurboQuant: A first-principles walkthrough

Nguồn: Hacker News Tóm tắt TurboQuant là một bài hướng dẫn tương tác giải thích các kỹ thuật quantization mô hình AI từ nguyên lý cơ bản (first principles). Bài viết trình bày cách các mô hình có thể được nén bằng cách giảm độ chính xác số học của các tham số — từ float32 xuống int8 hoặc int4 — mà vẫn duy trì hiệu năng chấp nhận được....

27/04/2026 · 1 min · dhphong

[engineering.fb.com] Modernizing the Facebook Groups Search to Unlock the Power of Community Knowledge

Nguồn: Engineering at Meta Tóm tắt Meta đã tái kiến trúc Facebook Groups Search từ hệ thống keyword-based truyền thống sang kiến trúc hybrid retrieval kết hợp tìm kiếm lexical và semantic. Ba điểm ma sát chính được xác định: discovery (hệ thống keyword bỏ sót content do mismatch ngôn ngữ tự nhiên), consumption (người dùng phải đọc nhiều comment để tìm consensus), và validation (khó khai thác trí tuệ tập thể để đưa ra quyết định mua sắm)....

22/04/2026 · 2 min · dhphong

[NVIDIA Developer Blog] Run High-Throughput Reinforcement Learning Training with End-to-End FP8 Precision

Nguồn: NVIDIA Developer Blog Tóm tắt Khi các LLM chuyển từ text generation đơn thuần sang complex reasoning, reinforcement learning (RL) trở thành thành phần cốt lõi. Các thuật toán như GRPO (Group Relative Policy Optimization) cho phép model cải thiện liên tục qua iterative feedback. Tuy nhiên, RL training loop đặc biệt về cấu trúc: chia thành hai phase riêng biệt — generation phase với yêu cầu latency thấp, và training phase yêu cầu throughput cao....

21/04/2026 · 2 min · dhphong

[Hacker News] The future of everything is lies, I guess: Where do we go from here?

Nguồn: aphyr.com Tóm tắt Kyle Kingsbury (aphyr — tác giả của Jepsen, nổi tiếng với database correctness testing) kết thúc loạt bài dài 10 phần về tác động của AI với lời kêu gọi chủ động kháng cự. Bài viết lấy ô tô làm ẩn dụ: không phải “xe hơi có nhanh không” (câu trả lời rõ rồi), mà là “xe hơi đã thay đổi hình dạng của các thành phố ra sao” — từ đó nhìn AI không qua lăng kính tiện lợi mà qua lăng kính tác động cấu trúc lên xã hội....

17/04/2026 · 2 min · dhphong

[Pinterest Engineering] Finding zombies in our systems: A real-world story of CPU bottlenecks

Nguồn: Pinterest Engineering Tóm tắt Đội ngũ Kubernetes platform tại Pinterest đã trải qua cuộc điều tra kéo dài hơn ba tháng để xác định nguyên nhân gốc rễ khiến các Ray training job trên GPU bị crash do mất kết nối mạng. Vấn đề bắt đầu khi đội ML platform báo cáo rằng các distributed training job — thường chạy hàng giờ trên phần cứng GPU đắt tiền — gặp sự cố mạng ngắt quãng, dẫn đến tỉ lệ thành công giảm hơn 25%....

16/04/2026 · 2 min · dhphong

[Red Hat Blog] 233% 3-year return on investment and 13 months payback with Red Hat AI

Nguồn: Red Hat Blog Tóm tắt Red Hat đã ủy thác cho Forrester Consulting thực hiện nghiên cứu Total Economic Impact™ (TEI) nhằm đánh giá tiềm năng hoàn vốn đầu tư mà các doanh nghiệp có thể đạt được khi triển khai Red Hat AI. Forrester đã phỏng vấn bốn khách hàng có kinh nghiệm sử dụng nền tảng này và tổng hợp dữ liệu thành một tổ chức đại diện....

14/04/2026 · 2 min · dhphong

[Hacker News] Show HN: Continual Learning with .md

Nguồn: GitHub - SunAndClouds/ReadMe Tóm tắt ReadMe là một dự án thử nghiệm cách sử dụng các file Markdown như là medium cho continual learning của AI models. Thay vì training lại model từ đầu mỗi khi có kiến thức mới, ReadMe cho phép models “đọc” và integrate thông tin mới từ các file .md trong runtime. Approach này giải quyết một trong những challenges cơ bản của AI deployment: làm thế nào để update kiến thức của model mà không cần expensive retraining cycle....

14/04/2026 · 1 min · dhphong

[The Morning Paper] Bias in word embeddings

Nguồn: The Morning Paper Tóm tắt Bài viết phân tích vấn đề thiên kiến (bias) trong các mô hình word embedding, dựa trên nghiên cứu học thuật về cách các biểu diễn từ ngữ trong không gian vector phản ánh và khuếch đại các định kiến xã hội có trong dữ liệu huấn luyện. Các mô hình như Word2Vec và GloVe được huấn luyện trên lượng lớn văn bản từ internet, nơi chứa đựng nhiều thiên kiến về giới tính, chủng tộc và các yếu tố nhân khẩu học khác....

13/04/2026 · 2 min · dhphong