Nguồn: GitHub: intel/auto-round
Tóm tắt
AutoRound là bộ công cụ quantization tiên tiến cho Large Language Models (LLMs) và Vision-Language Models (VLMs), được phát triển bởi Intel. Thuật toán sử dụng sign-gradient descent để đạt độ chính xác cao ở ultra-low bit width (2–4 bits) với overhead tuning tối thiểu, đồng thời tương thích rộng với các hardware platform (CPU/XPU/CUDA).
Điểm nổi bật là AutoRound đã được tích hợp vào hệ sinh thái chính: vLLM (5/2025), SGLang (10/2025), Transformers của HuggingFace (5/2025), và LLM-Compressor (11/2025). Quantize mô hình 7B parameters mất khoảng 10 phút trên một GPU. Đặc biệt, mô hình INT2-mixed DeepSeek-R1 (~200GB) vẫn giữ được 97,9% độ chính xác so với bản gốc BF16.
Các cập nhật gần đây (2026) bao gồm: block-wise FP8 quantization, hỗ trợ MTP layer quantization, và mixed-precision AutoScheme API. AutoRound hỗ trợ xuất ra nhiều định dạng: AutoRound, AutoAWQ, AutoGPTQ, và GGUF — đảm bảo maximum compatibility với inference backends phổ biến. Với MXFP4 và NVFP4, AutoRound cũng đang mở rộng sang các datatype mới ngoài weight-only quantization.
Đây là lựa chọn thực tế cho teams muốn deploy LLM lớn trên phần cứng hạn chế mà không chấp nhận đánh đổi đáng kể về chất lượng output. Mô hình 2-3 bits với độ chính xác cao là hướng đi mở ra khả năng chạy các mô hình cỡ 70B+ trên hardware consumer-grade.