Nguồn: NVIDIA Developer Blog
Tóm tắt
Khi các LLM chuyển từ text generation đơn thuần sang complex reasoning, reinforcement learning (RL) trở thành thành phần cốt lõi. Các thuật toán như GRPO (Group Relative Policy Optimization) cho phép model cải thiện liên tục qua iterative feedback. Tuy nhiên, RL training loop đặc biệt về cấu trúc: chia thành hai phase riêng biệt — generation phase với yêu cầu latency thấp, và training phase yêu cầu throughput cao.
Để tăng hiệu suất, NVIDIA sử dụng FP8 precision (8-bit floating point) thay cho FP16/BF16 thông thường. FP8 giảm memory footprint đáng kể, cho phép chạy model lớn hơn trên cùng hardware, đồng thời tăng throughput nhờ giảm memory bandwidth bottleneck. Trong một số trường hợp generation bị bound bởi memory bandwidth, FP8 có thể cải thiện tốc độ do ít bytes hơn trên mỗi parameter.
NVIDIA NeMo RL — thư viện open source trong NVIDIA NeMo framework — triển khai end-to-end FP8 training cho RL workload. Thách thức chính là duy trì accuracy khi dùng precision thấp: NeMo RL áp dụng mixed-precision strategy, chỉ dùng FP8 cho các linear layer trong khi giữ FP32 cho các thành phần nhạy cảm về numerical stability.
Bài viết là tài liệu kỹ thuật quan trọng cho các team đang scale RL training, đặc biệt trong context post-training và RLHF cho các reasoning model thế hệ mới.