Llm | Tech News Feed

[Hacker News] Grok 4.3

Nguồn: xAI Docs Tóm tắt xAI ra mắt Grok 4.3 — phiên bản mới trong dòng model Grok, được cung cấp qua API. Theo tài liệu chính thức, Grok 4.3 hỗ trợ context window 200K token với pricing $1.25/1M input tokens và $2.50/1M output tokens. Cached token có giá thấp hơn đáng kể ở $0.20/1M tokens, giúp giảm chi phí cho các ứng dụng có prompt system lớn được tái sử dụng nhiều lần....

[Hacker News] Advanced Quantization Algorithm for LLMs – Intel AutoRound

Nguồn: GitHub: intel/auto-round Tóm tắt AutoRound là bộ công cụ quantization tiên tiến cho Large Language Models (LLMs) và Vision-Language Models (VLMs), được phát triển bởi Intel. Thuật toán sử dụng sign-gradient descent để đạt độ chính xác cao ở ultra-low bit width (2–4 bits) với overhead tuning tối thiểu, đồng thời tương thích rộng với các hardware platform (CPU/XPU/CUDA). Điểm nổi bật là AutoRound đã được tích hợp vào hệ sinh thái chính: vLLM (5/2025), SGLang (10/2025), Transformers của HuggingFace (5/2025), và LLM-Compressor (11/2025)....

[Hacker News] Alignment whack-a-mole: Finetuning activates recall of copyrighted books in LLMs

Nguồn: GitHub - cauchy221/Alignment-Whack-a-Mole-Code Tóm tắt Nghiên cứu “Alignment Whack-a-Mole” phát hiện một vấn đề quan trọng trong alignment của LLMs: fine-tuning một mô hình đã được align để từ chối tiết lộ nội dung sách có bản quyền có thể vô tình kích hoạt lại khả năng recall đó. Nghiên cứu được đặt tên theo trò chơi Whack-a-Mole — khi “đập” một vấn đề alignment xuống, vấn đề khác lại xuất hiện ở chỗ khác....

[Hacker News] The Zig project's rationale for their anti-AI contribution policy

Nguồn: Simon Willison’s Weblog Tóm tắt Zig là một trong số ít dự án open-source lớn với chính sách cấm hoàn toàn LLM-generated contributions — không cho issues, pull requests, hay comments trên bug tracker. Simon Willison tổng hợp và phân tích lập luận của Loris Cro (VP of Community tại Zig Software Foundation) về lý do tại sao chính sách này tồn tại, và đây được đánh giá là articulation rõ ràng nhất về blanket ban LLM trong open source đến nay....

[Martin Fowler] Structured-Prompt-Driven Development (SPDD)

Nguồn: Martin Fowler Tóm tắt Structured Prompt-Driven Development (SPDD) là một phương pháp kỹ thuật phần mềm do Thoughtworks phát triển, coi prompt là artifact bậc nhất trong quy trình delivery — được version control, review, tái sử dụng và cải tiến qua từng iteration, thay vì chỉ là những đoạn chat ad hoc với LLM. Cốt lõi của SPDD là REASONS Canvas — một cấu trúc 7 thành phần: Requirements, Entities, Approach, Structure, Operations, Norms, Safeguards....

[Hacker News] Claude Pro: Opus model will only be available if extra usage is enabled

Nguồn: Claude Help Center Tóm tắt Trang hỗ trợ của Anthropic cung cấp hướng dẫn chi tiết về cấu hình model cho Claude Code, công cụ lập trình AI của hãng. Người dùng có ba phương pháp để thay đổi model đang sử dụng: lệnh /model ngay trong phiên làm việc, cờ --model khi khởi động Claude Code, hoặc biến môi trường để thiết lập model mặc định lâu dài....

[Hacker News] Talkie: a 13B vintage language model from 1930

Nguồn: Talkie LM Tóm tắt Nhóm nghiên cứu bao gồm Nick Levine, David Duvenaud và Alec Radford giới thiệu Talkie — một mô hình ngôn ngữ 13B tham số được huấn luyện hoàn toàn trên các văn bản trước năm 1931. Đây là ví dụ về “vintage language model” (mô hình ngôn ngữ cổ điển), một khái niệm được đặt ra để chỉ các mô hình LM được huấn luyện trên văn bản lịch sử nhằm mô phỏng tư duy và kiến thức của con người ở thời đại đó....

[Hacker News] SWE-bench Verified no longer measures frontier coding capabilities

Nguồn: Hacker News Tóm tắt OpenAI tuyên bố ngừng sử dụng SWE-bench Verified — benchmark đo năng lực lập trình AI phổ biến nhất — do lo ngại về data contamination. Bằng chứng: khi prompt model với GitHub issue text từ benchmark, các model tái tạo chính xác file diff trong dataset, cho thấy memorization thay vì reasoning thực sự. Cụ thể, 15% ví dụ trong SWE-bench Verified bị o3 “memorize” và 4% bởi o4-mini....

[Hacker News] GPT-5.5 Bio Bug Bounty

Nguồn: OpenAI Tóm tắt OpenAI công bố chương trình Bug Bounty tập trung vào rủi ro sinh học (Bio Bug Bounty) cho mô hình GPT-5.5. Đây là chương trình thưởng dành cho các nhà nghiên cứu bảo mật phát hiện những cách mà mô hình có thể bị khai thác để hỗ trợ tạo ra vũ khí sinh học hoặc cung cấp thông tin nguy hiểm liên quan đến sinh học....

[Hacker News] Simulacrum of Knowledge Work

Nguồn: Happy Fellow Blog Tóm tắt Bài viết đặt câu hỏi cốt lõi về kỷ nguyên AI-assisted work: làm sao biết output có chất lượng tốt mà không tự làm lại từ đầu? Tác giả mô tả tình huống nhận một bản báo cáo phân tích thị trường — có ngày tháng sai, nhiều đoạn văn mâu thuẫn nhau, và nguồn trích dẫn không tồn tại — nhưng đọc qua lại trông rất thuyết phục và chuyên nghiệp....

[Hacker News] Which one is more important: more parameters or more computation? (2021)

Nguồn: ParlAI / Meta AI Tóm tắt Nghiên cứu từ năm 2021 của Meta AI (qua ParlAI) khảo sát câu hỏi cơ bản trong scaling LLM: tăng số lượng tham số (parameters) hay tăng lượng tính toán (computation) mỗi token có lợi hơn? Hai đại lượng này thường bị gộp chung vì trong Transformer chuẩn, chúng gắn chặt với nhau. Nhóm nghiên cứu đề xuất hai kiến trúc tách biệt hai chiều này: Hash Layers (tăng parameters không tăng FLOP) và Ladder/Staircase (tăng computation không tăng parameter count)....

[Hacker News] DeepSeek v4

Nguồn: DeepSeek API Docs Tóm tắt DeepSeek chính thức phát hành DeepSeek-V4 Preview — open-source với hai phiên bản: V4-Pro (1.6T tổng / 49B active parameters) và V4-Flash (284B tổng / 13B active). Đây là mốc quan trọng trong dòng model Mixture-of-Experts (MoE) của DeepSeek, hỗ trợ context length lên đến 1 triệu token với chi phí cạnh tranh. DeepSeek-V4-Pro được đánh giá ngang ngửa các top closed-source model trong các benchmark toán học, STEM và coding....

[Hacker News] Lambda Calculus Benchmark for AI

Nguồn: LamBench Tóm tắt LamBench là một benchmark đánh giá khả năng suy luận của các LLM thông qua các bài toán lambda calculus — một nhánh toán học lý thuyết về computation và functional programming. Khác với benchmark code thông thường, lambda calculus thuần túy không có shortcut từ việc nhớ training data; model phải thực sự “tính toán”. Kết quả ranking hiện tại (120 câu hỏi) rất thú vị: GPT-5....

[Hacker News] Show HN: A Karpathy-style LLM wiki your agents maintain (Markdown and Git)

Nguồn: GitHub - nex-crm/wuphf Tóm tắt WUPHF là một framework open-source cho phép chạy một “văn phòng AI” nơi nhiều AI agent (CEO, PM, engineer, designer…) cùng làm việc trong một không gian chia sẻ với shared brain. Được viết bằng Go 1.25+, framework cung cấp giao diện web và TUI mode qua tmux, khởi động chỉ bằng một lệnh npx wuphf. Kiến trúc của WUPHF cho phép các agent nhìn thấy nhau đang làm gì, tranh luận về task, và claim công việc thay vì hoạt động ẩn sau API calls....

[Hacker News] DeepSeek v4

Nguồn: DeepSeek API Docs Tóm tắt DeepSeek đã ra mắt phiên bản mới DeepSeek v4 với hai model: deepseek-v4-flash và deepseek-v4-pro. Đây là thế hệ tiếp theo thay thế cho deepseek-chat và deepseek-reasoner — hai model cũ sẽ bị deprecated vào ngày 24/07/2026. API tương thích với cả định dạng OpenAI và Anthropic, cho phép sử dụng SDK của cả hai provider mà không cần thay đổi code đáng kể. deepseek-v4-flash tương ứng với non-thinking mode (trước đây là deepseek-chat), trong khi deepseek-v4-pro có thinking mode tích hợp với các tham số như reasoning_effort: "high"....

[Anthropic Engineering] An update on recent Claude Code quality reports

Nguồn: Anthropic Engineering Tóm tắt Anthropic đã công bố phân tích hậu kiểm (postmortem) chi tiết về ba thay đổi riêng biệt đã ảnh hưởng đến chất lượng Claude Code trong vài tháng qua. Tất cả vấn đề đã được khắc phục kể từ ngày 20 tháng 4 (v2.1.116). Thứ nhất, ngày 4 tháng 3, mức reasoning effort mặc định của Claude Code đã bị hạ từ high xuống medium để giảm độ trễ — quyết định này sau đó bị hoàn tác vào ngày 7 tháng 4....

[OpenAI Blog] Introducing GPT-5.5

Nguồn: OpenAI Blog Tóm tắt OpenAI ra mắt GPT-5.5, phiên bản cải tiến tiếp theo trong dòng sản phẩm GPT-5. Mô hình này được thiết kế để nâng cao khả năng lập luận, coding và xử lý tác vụ phức tạp so với GPT-5, đồng thời được tối ưu cho agentic workloads đang ngày càng phổ biến. GPT-5.5 đi kèm với System Card riêng mô tả đánh giá an toàn, Bio Bug Bounty program mới để phát hiện khả năng sinh học nguy hiểm tiềm năng, và tích hợp vào Databricks Data Intelligence Platform thông qua quan hệ đối tác chiến lược với Databricks....

[Hacker News] Kernel code removals driven by LLM-created security reports

Nguồn: LWN.net Tóm tắt Linux kernel maintainer Jakub Kicinski và nhóm core networking đề xuất loại bỏ hàng loạt subsystem lỗi thời, bao gồm giao thức amateur radio (AX.25, NET/ROM, ROSE), ATM protocols, ISDN subsystem, và nhiều driver Ethernet cũ. Lý do được nêu rõ ràng: các subsystem này liên tục bị báo cáo lỗi bảo mật được tạo ra bởi LLM và công cụ fuzzing tự động (syzbot), nhưng không có maintainer nào đủ quan tâm hoặc có thể xử lý khối lượng báo cáo này....

[Hacker News] Even 'uncensored' models can't say what they want

Nguồn: morgin.ai Tóm tắt Bài viết lập luận rằng ngay cả các model được quảng cáo là “uncensored” — đã được fine-tune để loại bỏ safety restriction — vẫn không thực sự tự do về mặt biểu đạt. Các hạn chế không chỉ đến từ RLHF hay safety fine-tuning, mà còn được nhúng sâu vào bản thân dữ liệu training từ internet — vốn có các quy chuẩn ngôn ngữ và topic taboo riêng....

[Hacker News] Kimi K2.6: Advancing open-source coding

Nguồn: Kimi Blog Tóm tắt Moonshot AI công bố Kimi K2.6 — phiên bản cải tiến của dòng model K2 tập trung vào coding. Kimi K2.6 được open source, tiếp nối xu hướng của các AI lab Trung Quốc (Qwen, DeepSeek) trong việc phát hành model mạnh dưới license cho phép sử dụng thương mại. Các cải tiến chính của K2.6 tập trung vào code generation chất lượng cao, khả năng hiểu và refactor codebase lớn, và hiệu năng trên các coding benchmark tiêu chuẩn....