[Hacker News] 4TB of voice samples just stolen from 40k AI contractors at Mercor

Tóm tắt

Ngày 4/4/2026, nhóm tống tiền Lapsus$ đăng bán dữ liệu từ Mercor — một nền tảng tuyển dụng contractor cho các dự án AI training. Bộ dữ liệu bị đánh cắp ước tính khoảng 4TB, bao gồm thông tin của hơn 40.000 contractor: mẫu giọng nói, scan giấy tờ tùy thân (hộ chiếu/CMND) và selfie webcam. Năm vụ kiện tập thể được nộp trong 10 ngày sau khi sự kiện xảy ra, với lập luận rằng Mercor thu thập voice prints mà không làm rõ đây là biometric identifier vĩnh viễn.

Điều làm vụ breach này nguy hiểm hơn thông thường là sự kết hợp dữ liệu: pipeline onboarding của Mercor yêu cầu scan giấy tờ tùy thân, selfie, rồi recording giọng nói đọc đoạn text trong môi trường yên tĩnh. Wall Street Journal đưa tin tháng 2/2026 rằng các công cụ voice cloning chất lượng cao off-the-shelf chỉ cần 15 giây audio sạch. Các bản ghi của Mercor trung bình dài 2-5 phút. Đây là mức vượt ngưỡng cần thiết để clone giọng nói hoàn toàn và kết hợp với ID document để tạo định danh tổng hợp hoàn chỉnh.

Các vector tấn công thực tế đã được ghi nhận: bypass xác thực giọng nói ngân hàng (nhiều ngân hàng Mỹ/Anh vẫn dùng voiceprint matching), deepfake video call theo mô hình vụ Arup 2024 (25 triệu USD bị chuyển sau một cuộc call deepfake), gian lận bảo hiểm qua giọng synthetic (tăng 475% theo Pindrop năm 2025), và scam mạo danh người thân nhắm vào người cao tuổi.

Khuyến nghị cho các contractor bị ảnh hưởng: xóa bỏ audio công khai có thể index được (YouTube, podcast, Zoom recordings), xóa và đăng ký lại voiceprint với Google/Amazon/Apple và ngân hàng từ môi trường âm học khác, yêu cầu ngân hàng tắt voiceprint authentication và chuyển sang hardware key/app token, và chạy mọi file audio đáng ngờ qua deepfake detector trước khi hành động.

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt