[Hacker News] Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs

Nguồn: GitHub - cauchy221/Alignment-Whack-a-Mole-Code Tóm tắt Nghiên cứu “Alignment Whack-a-Mole” phát hiện một vấn đề quan trọng trong alignment của LLMs: fine-tuning một mô hình đã được align để từ chối tiết lộ nội dung sách có bản quyền có thể vô tình kích hoạt lại khả năng recall đó. Nghiên cứu được đặt tên theo trò chơi Whack-a-Mole — khi “đập” một vấn đề alignment xuống, vấn đề khác lại xuất hiện ở chỗ khác....

30/04/2026 · 2 min · dhphong

[Google Engineering Blog] MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs

Nguồn: Google Engineering Blog Tóm tắt Google thông báo MaxText, framework training LLM của mình, giờ đây hỗ trợ Supervised Fine-Tuning (SFT) và Reinforcement Learning (RL) trên cấu hình single-host TPU (v5p-8 và v6e-8). Đây là bước tiến quan trọng vì trước đây post-training thường yêu cầu cluster nhiều host, làm tăng chi phí và phức tạp infrastructure đáng kể. SFT trong MaxText tích hợp native với Hugging Face datasets, hỗ trợ load checkpoint từ cả MaxText lẫn Hugging Face (như Gemma 3), và được tối ưu bằng thư viện Tunix — một JAX-based library thiết kế riêng cho post-training efficiency....

17/04/2026 · 2 min · dhphong