[NVIDIA Developer Blog] Run High-Throughput Reinforcement Learning Training with End-to-End FP8 Precision

Nguồn: NVIDIA Developer Blog Tóm tắt Khi các LLM chuyển từ text generation đơn thuần sang complex reasoning, reinforcement learning (RL) trở thành thành phần cốt lõi. Các thuật toán như GRPO (Group Relative Policy Optimization) cho phép model cải thiện liên tục qua iterative feedback. Tuy nhiên, RL training loop đặc biệt về cấu trúc: chia thành hai phase riêng biệt — generation phase với yêu cầu latency thấp, và training phase yêu cầu throughput cao....

21/04/2026 · 2 min · dhphong

[Google Engineering Blog] MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs

Nguồn: Google Engineering Blog Tóm tắt Google thông báo MaxText, framework training LLM của mình, giờ đây hỗ trợ Supervised Fine-Tuning (SFT) và Reinforcement Learning (RL) trên cấu hình single-host TPU (v5p-8 và v6e-8). Đây là bước tiến quan trọng vì trước đây post-training thường yêu cầu cluster nhiều host, làm tăng chi phí và phức tạp infrastructure đáng kể. SFT trong MaxText tích hợp native với Hugging Face datasets, hỗ trợ load checkpoint từ cả MaxText lẫn Hugging Face (như Gemma 3), và được tối ưu bằng thư viện Tunix — một JAX-based library thiết kế riêng cho post-training efficiency....

17/04/2026 · 2 min · dhphong