Ai-Safety

[Hacker News] Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs

Nguồn: GitHub - cauchy221/Alignment-Whack-a-Mole-Code Tóm tắt Nghiên cứu “Alignment Whack-a-Mole” phát hiện một vấn đề quan trọng trong alignment của LLMs: fine-tuning một mô hình đã được align để từ chối tiết lộ nội dung sách có bản quyền có thể vô tình kích hoạt lại khả năng recall đó. Nghiên cứu được đặt tên theo trò chơi Whack-a-Mole — khi “đập” một vấn đề alignment xuống, vấn đề khác lại xuất hiện ở chỗ khác....

[Hacker News] GPT-5.5 Bio Bug Bounty

Nguồn: OpenAI Tóm tắt OpenAI công bố chương trình Bug Bounty tập trung vào rủi ro sinh học (Bio Bug Bounty) cho mô hình GPT-5.5. Đây là chương trình thưởng dành cho các nhà nghiên cứu bảo mật phát hiện những cách mà mô hình có thể bị khai thác để hỗ trợ tạo ra vũ khí sinh học hoặc cung cấp thông tin nguy hiểm liên quan đến sinh học....

[Hacker News] The Future of Everything Is Lies, I Guess: Safety

Nguồn: Aphyr Tóm tắt Kyle Kingsbury (Aphyr) — tác giả của Jepsen distributed systems testing framework — tiếp tục series bài viết sắc bén về AI safety và cách các AI companies trình bày sản phẩm của họ. Với background là một trong những người có tiếng nói nhất trong distributed systems verification, Aphyr mang một lens độc đáo: ông biết rõ khoảng cách giữa claims về system correctness và reality....