[Hacker News] Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs

Nguồn: GitHub - cauchy221/Alignment-Whack-a-Mole-Code Tóm tắt Nghiên cứu “Alignment Whack-a-Mole” phát hiện một vấn đề quan trọng trong alignment của LLMs: fine-tuning một mô hình đã được align để từ chối tiết lộ nội dung sách có bản quyền có thể vô tình kích hoạt lại khả năng recall đó. Nghiên cứu được đặt tên theo trò chơi Whack-a-Mole — khi “đập” một vấn đề alignment xuống, vấn đề khác lại xuất hiện ở chỗ khác....

30/04/2026 · 2 min · dhphong

[Hacker News] Even 'uncensored' models can't say what they want

Nguồn: morgin.ai Tóm tắt Bài viết lập luận rằng ngay cả các model được quảng cáo là “uncensored” — đã được fine-tune để loại bỏ safety restriction — vẫn không thực sự tự do về mặt biểu đạt. Các hạn chế không chỉ đến từ RLHF hay safety fine-tuning, mà còn được nhúng sâu vào bản thân dữ liệu training từ internet — vốn có các quy chuẩn ngôn ngữ và topic taboo riêng....

21/04/2026 · 1 min · dhphong