Benchmark on Tech News Feed

Benchmark on Tech News Feed https://news.dhphong.com/tags/benchmark/ Recent content in Benchmark on Tech News Feed Hugo -- 0.131.0 vi Tue, 14 Apr 2026 01:45:20 +0700 [Hacker News] N-Day-Bench – Can LLMs find real vulnerabilities in real codebases? https://news.dhphong.com/posts/2026-04-14-n-day-bench-can-llms-find-real-vulnerabilities-in-real-codebases/ Tue, 14 Apr 2026 01:45:20 +0700 https://news.dhphong.com/posts/2026-04-14-n-day-bench-can-llms-find-real-vulnerabilities-in-real-codebases/ Nguồn: N-Day-Bench Tóm tắt N-Day-Bench là một benchmark mới đánh giá khả năng của LLMs trong việc phát hiện các vulnerability đã biết (N-day vulnerabilities) trong các codebase thực tế. Khác với các benchmark học thuật sử dụng synthetic examples, N-Day-Bench sử dụng các CVEs thực từ các open-source projects phổ biến. Benchmark được thiết kế để đo lường xem LLMs có thể reproduce quá trình phân tích security của một human researcher hay không — bao gồm việc đọc code, hiểu context, và xác định chính xác vị trí cũng như bản chất của lỗ hổng.