Quantization

[Hacker News] Advanced Quantization Algorithm for LLMs – Intel AutoRound

Nguồn: GitHub: intel/auto-round Tóm tắt AutoRound là bộ công cụ quantization tiên tiến cho Large Language Models (LLMs) và Vision-Language Models (VLMs), được phát triển bởi Intel. Thuật toán sử dụng sign-gradient descent để đạt độ chính xác cao ở ultra-low bit width (2–4 bits) với overhead tuning tối thiểu, đồng thời tương thích rộng với các hardware platform (CPU/XPU/CUDA). Điểm nổi bật là AutoRound đã được tích hợp vào hệ sinh thái chính: vLLM (5/2025), SGLang (10/2025), Transformers của HuggingFace (5/2025), và LLM-Compressor (11/2025)....

[Hacker News] TurboQuant: A first-principles walkthrough

Nguồn: Hacker News Tóm tắt TurboQuant là một bài hướng dẫn tương tác giải thích các kỹ thuật quantization mô hình AI từ nguyên lý cơ bản (first principles). Bài viết trình bày cách các mô hình có thể được nén bằng cách giảm độ chính xác số học của các tham số — từ float32 xuống int8 hoặc int4 — mà vẫn duy trì hiệu năng chấp nhận được....

[Hacker News] 4-bit floating point FP4

Nguồn: johndcook.com Tóm tắt Bài viết giải thích định dạng số thực dấu phẩy động 4-bit (FP4), một bước tiến mới trong xu hướng giảm precision của các mô hình AI/ML. Trong khi FP32 và FP16 đã quen thuộc với cộng đồng lập trình, FP4 đặt ra thách thức thiết kế nghiêm túc: chỉ với 4 bit, không gian biểu diễn cực kỳ hạn chế — phải cân bằng giữa range và precision....