Nguồn: johndcook.com
Tóm tắt
Bài viết giải thích định dạng số thực dấu phẩy động 4-bit (FP4), một bước tiến mới trong xu hướng giảm precision của các mô hình AI/ML. Trong khi FP32 và FP16 đã quen thuộc với cộng đồng lập trình, FP4 đặt ra thách thức thiết kế nghiêm túc: chỉ với 4 bit, không gian biểu diễn cực kỳ hạn chế — phải cân bằng giữa range và precision.
Tác giả phân tích cấu trúc bit của FP4: với các variant khác nhau như E2M1 (2 bit exponent, 1 bit mantissa) hay E1M2, mỗi lựa chọn đánh đổi giữa dynamic range và độ chính xác tuyệt đối. FP4 chủ yếu được sử dụng trong quantization của LLM weights, nơi mà storage và memory bandwidth là bottleneck chính, còn accuracy loss có thể được bù đắp qua calibration.
Việc thiếu chuẩn hóa IEEE cho FP4 có nghĩa là các framework khác nhau (NVIDIA, Google, Meta) có thể dùng layout bit khác nhau, gây khó khăn cho interoperability. Bài viết là tài liệu ngắn gọn và chính xác cho ai muốn hiểu nền tảng toán học đằng sau các kỹ thuật quantization hiện đại.