Claude Opus 4.7 đạt kỷ lục SWE-bench - dẫn đầu các AI code agents

📰 Nguồn gốc

Nguồn: Anthropic (2026 Agentic Coding Trends Report)

Ngày đăng: 15/05/2026

Link: https://resources.anthropic.com/hubfs/2026%20Agentic%20Coding%20Trends%20Report.pdf

📝 Tóm tắt

Anthropic đã phát hành Claude Opus 4.7 vào 16/4/2026 với cải thiện đáng kể trên SWE-bench — một benchmark đánh giá khả năng AI agents giải quyết các bài toán lập trình thực tế. Trên SWE-bench Verified, Claude 4.7 đạt 87.6%, tăng từ 80.8% (cải thiện 7 điểm). Trên SWE-bench Pro (phiên bản khó hơn), Claude đạt 64.3%, tăng từ 53.4%, vượt qua tất cả public competitors hiện tại. Claude Code (CLI agent) do đó trở thành dẫn đầu về chất lượng mã.

🔑 Điểm chính

SWE-bench Verified: 87.6% (trước: 80.8%) — 7 điểm cải thiện
SWE-bench Pro: 64.3% (trước: 53.4%) — 11 điểm cải thiện trên benchmark khó hơn
Claude Code là CLI agent từ Anthropic, được xây dựng trên Claude Opus 4.7
Cải thiện này cho thấy Anthropic đang tập trung vào coding capabilities như một lĩnh vực cạnh tranh chính
GitHub Copilot đang chuyển sang billing dựa trên AI Credits (từ 1/6/2026)

💡 Tại sao dev VN cần biết?

Nếu bạn đang xài hoặc cân nhắc AI code agent (Cursor, Copilot, Claude Code), đây là proof-of-concept rằng Claude Code nay không chỉ viết code nhanh mà còn viết code chất lượng cao — đủ khả năng để vượt qua các benchmark lập trình chuyên sâu. Điều này có ý nghĩa: bạn có thể tin tưởng Claude Code cho các bài toán phức tạp, chứ không chỉ viết boilerplate. Ngoài ra, GitHub Copilot đang thay đổi mô hình pricing, điều này có thể ảnh hưởng đến chi phí của bạn nếu đang sử dụng. Đây là thời điểm tốt để đánh giá lại các options: Cursor, Claude Code hay Copilot.

Claude Opus 4.7 đạt kỷ lục SWE-bench - dẫn đầu các AI code agents

📰 Nguồn gốc

📝 Tóm tắt

🔑 Điểm chính

💡 Tại sao dev VN cần biết?

Bài viết liên quan

Anthropic Acquires Stainless, the Dev Tools Startup Used by OpenAI & Google

Google AI Studio: Build Native Android Apps with AI

Google I/O 2026: Gemini 3.5 Flash, Antigravity 2.0, và Agentic Gemini Era