<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Benchmark on Tech News Feed</title>
    <link>https://news.dhphong.com/tags/benchmark/</link>
    <description>Recent content in Benchmark on Tech News Feed</description>
    <generator>Hugo -- 0.131.0</generator>
    <language>vi</language>
    <lastBuildDate>Tue, 14 Apr 2026 01:45:20 +0700</lastBuildDate>
    <atom:link href="https://news.dhphong.com/tags/benchmark/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>[Hacker News] N-Day-Bench – Can LLMs find real vulnerabilities in real codebases?</title>
      <link>https://news.dhphong.com/posts/2026-04-14-n-day-bench-can-llms-find-real-vulnerabilities-in-real-codebases/</link>
      <pubDate>Tue, 14 Apr 2026 01:45:20 +0700</pubDate>
      <guid>https://news.dhphong.com/posts/2026-04-14-n-day-bench-can-llms-find-real-vulnerabilities-in-real-codebases/</guid>
      <description>Nguồn: N-Day-Bench
Tóm tắt N-Day-Bench là một benchmark mới đánh giá khả năng của LLMs trong việc phát hiện các vulnerability đã biết (N-day vulnerabilities) trong các codebase thực tế. Khác với các benchmark học thuật sử dụng synthetic examples, N-Day-Bench sử dụng các CVEs thực từ các open-source projects phổ biến.
Benchmark được thiết kế để đo lường xem LLMs có thể reproduce quá trình phân tích security của một human researcher hay không — bao gồm việc đọc code, hiểu context, và xác định chính xác vị trí cũng như bản chất của lỗ hổng.</description>
    </item>
  </channel>
</rss>
