Nguồn: GitHub - cauchy221/Alignment-Whack-a-Mole-Code

Tóm tắt

Nghiên cứu “Alignment Whack-a-Mole” phát hiện một vấn đề quan trọng trong alignment của LLMs: fine-tuning một mô hình đã được align để từ chối tiết lộ nội dung sách có bản quyền có thể vô tình kích hoạt lại khả năng recall đó. Nghiên cứu được đặt tên theo trò chơi Whack-a-Mole — khi “đập” một vấn đề alignment xuống, vấn đề khác lại xuất hiện ở chỗ khác.

Cơ chế được đề xuất là: LLMs lưu trữ kiến thức về sách có bản quyền trong các weights của model, và alignment training chỉ suppress behavior này thay vì xóa knowledge. Khi fine-tuning được thực hiện cho một task khác (ví dụ: cải thiện instruction-following), quá trình fine-tuning có thể điều chỉnh các weights theo cách vô tình giảm suppression, cho phép model “nhớ lại” và reproduce nội dung bản quyền mà trước đó nó từ chối.

Điều này có hàm ý quan trọng cho cả AI safety và copyright law: nếu fine-tuning là đủ để bypass copyright protections, thì những guardrails hiện tại dựa hoàn toàn vào alignment training có thể không đủ mạnh về mặt pháp lý và kỹ thuật. Các biện pháp bảo vệ mạnh hơn có thể yêu cầu kiến trúc thay đổi ở tầng training data hoặc model architecture, chứ không chỉ ở RLHF/DPO.

Repository GitHub chứa code để reproduce các thực nghiệm của nghiên cứu, cho phép cộng đồng kiểm chứng và nghiên cứu sâu hơn về cơ chế này.

👉 Đọc bài gốc