[Hacker News] AI cybersecurity is not proof of work

Tóm tắt

Salvatore Sanfilippo (antirez — tác giả của Redis) lập luận rằng phép loại suy “proof of work” không chính xác khi áp dụng vào lĩnh vực an ninh mạng AI. Trong mô hình proof of work (như đào Bitcoin), bên có nhiều tài nguyên tính toán hơn luôn thắng vì bài toán chỉ cần đủ phép thử. Tuy nhiên, việc tìm kiếm lỗ hổng bảo mật trong phần mềm hoàn toàn khác — số lần thử không bao giờ đủ nếu mô hình AI không có đủ “trí tuệ” để hiểu bản chất của vấn đề.

Lập luận trung tâm là: khi cho một LLM yếu chạy M lần thử trên cùng một đoạn code, về lý thuyết các nhánh thực thi có thể khám phá sẽ đạt đến trạng thái bão hòa. Sau điểm bão hòa đó, giới hạn không còn là “số lần chạy M” mà là “mức độ trí tuệ I của mô hình”. Đây là điểm khác biệt cơ bản so với proof of work: nhiều GPU không đồng nghĩa với khả năng tìm bug tốt hơn.

Bài viết lấy ví dụ thực tế từ bug SACK của OpenBSD — một lỗ hổng đòi hỏi phải hiểu đồng thời ba yếu tố: thiếu kiểm tra start window, tràn số nguyên (integer overflow), và điều kiện nhánh code không bao giờ nên được thực thi. Các mô hình yếu thường hallucinate rằng “có vẻ như có vấn đề ở đây” dựa trên pattern matching, nhưng không thực sự hiểu tại sao ba yếu tố đó kết hợp tạo ra lỗ hổng có thể khai thác được. Thú vị hơn, mô hình càng mạnh thì càng ít hallucinate — nghĩa là chúng sẽ không báo lỗi nếu chưa đủ mạnh để hiểu thực sự, thay vì đoán mò.

Kết luận của antirez: an ninh mạng trong tương lai sẽ không phải cuộc đua GPU, mà là cuộc đua về chất lượng mô hình. Bên có mô hình tốt hơn và truy cập nhanh hơn vào các mô hình đó sẽ chiến thắng — không phải bên có nhiều compute hơn.

👉 Đọc bài gốc

Tóm tắt#

Tóm tắt