[Hacker News] Even 'uncensored' models can't say what they want

Tóm tắt

Bài viết lập luận rằng ngay cả các model được quảng cáo là “uncensored” — đã được fine-tune để loại bỏ safety restriction — vẫn không thực sự tự do về mặt biểu đạt. Các hạn chế không chỉ đến từ RLHF hay safety fine-tuning, mà còn được nhúng sâu vào bản thân dữ liệu training từ internet — vốn có các quy chuẩn ngôn ngữ và topic taboo riêng.

Luận điểm trung tâm là “uncensored” chỉ xóa bỏ một lớp hạn chế rõ ràng nhất, nhưng không thể xóa bỏ bias được học từ corpus training. Model vẫn có xu hướng tránh né hoặc xử lý kém các topic nhất định — không phải vì bị instruction-tuned để từ chối, mà vì dữ liệu training vốn có distribution lệch.

Đây là góc nhìn hữu ích cho các nhà nghiên cứu và kỹ sư làm việc về model behavior, interpretability, và alignment: ranh giới giữa “learned behavior” và “censored behavior” mờ hơn nhiều so với những gì marketing của uncensored model ngụ ý.

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt