编程模型排行榜2026
AI 大模型编程能力真实评测
数据来源: Arena AI Leaderboard · 224,709 票 · 59 个模型
更新日期: 2026年4月1日
🇨🇳国产模型崛起!Top 30 占 10 席
📊 Arena AI 排行榜说明
Arena AI 是一个独立的 AI 模型对比平台,开发者通过匿名投票选出两个 AI 回答中更好的一个。 排行榜根据 ELO 评分系统计算,反映模型在真实编程任务中的表现。分数越高代表编程能力越强。
| 排名 | 模型 | 评分 |
|---|---|---|
| 1 | claude-opus-4-6-thinking | 1546 |
| 2 | claude-opus-4-6 | 1543 |
| 3 | claude-sonnet-4-6 | 1521 |
| 4 | claude-opus-4-5-thinking-32k | 1491 |
| 5 | claude-opus-4-5 | 1465 |
| 6 | gpt-5.4-high | 1457 |
| 7 | gemini-3.1-pro-preview | 1456 |
| 8 | qwen3.6-plus-preview国产 | 1454 |
| 9 | glm-5国产 | 1441 |
| 10 | glm-4.7国产 | 1439 |
| 11 | gemini-3-pro | 1438 |
| 12 | gemini-3-flash | 1436 |
| 13 | mimo-v2-pro国产 | 1433 |
| 14 | kimi-k2.5-thinking国产 | 1429 |
| 15 | minimax-m2.7国产 | 1428 |
| 16 | gpt-5.4-medium | 1427 |
| 17 | kimi-k2.5-instant国产 | 1408 |
| 18 | gpt-5.3-codex | 1407 |
| 19 | gpt-5.2 | 1403 |
| 20 | minimax-m2.5国产 | 1396 |
| 21 | gpt-5-medium | 1392 |
| 22 | minimax-m2.1-preview国产 | 1391 |
| 23 | gemini-3-flash-thinking | 1391 |
| 24 | gpt-5.1-medium | 1390 |
| 25 | claude-sonnet-4-5-thinking-32k | 1388 |
| 26 | qwen3.5-397b-a17b国产 | 1386 |
| 27 | claude-sonnet-4-5 | 1386 |
| 28 | grok-4.20-beta-reasoning | 1386 |
| 29 | gpt-5.4-mini-high | 1385 |
| 30 | claude-opus-4-1 | 1384 |
🏆 顶尖编程模型详解
🇨🇳 国产模型
qwen3.6-plus-preview(阿里云)国产
评分: 1454 分 · 1,125 票
通义千问Qwen 3.6,国产之光!阿里云推出的旗舰编程模型,在复杂代码理解和生成方面表现惊人,逼近顶级闭源模型。
glm-5(智谱AI)国产
评分: 1441 分 · 4,536 票 · $1/$3.20/M tokens · 202.8K 上下文
智谱GLM-5,国产大模型领军者!由清华大学技术团队打造,在代码补全和bug修复方面表现优异,中文编程场景尤为出色。
glm-4.7(智谱AI)国产
评分: 1439 分 · 4,876 票 · $0.39/$1.75/M tokens · 202.8K 上下文
智谱GLM-4.7,高性价比国产编程模型,价格亲民性能强劲,特别适合国内开发者使用。
mimo-v2-pro(小米)国产
评分: 1433 分 · 2,903 票 · $1/$3/M tokens · 1M 上下文
小米MIMO V2,国产手机厂商推出的编程模型!小米AI实验室打造,在移动端代码开发方面有独特优势。
kimi-k2.5-thinking(月之暗面)国产
评分: 1429 分 · 6,694 票 · $0.60/$3/M tokens
月之暗面Kimi K2.5思考版,国产明星创业公司产品!支持超长上下文,在代码理解和推理方面表现出色。
minimax-m2.7(MiniMax)国产
评分: 1428 分 · 2,716 票 · $0.30/$1.20/M tokens · 204.8K 上下文
MiniMax M2.7,国产高性价比编程模型!价格极低性能却不俗,适合预算有限的创业团队和个人开发者。
kimi-k2.5-instant(月之暗面)国产
评分: 1408 分 · 3,610 票 · $0.38/$1.91/M tokens · 262.1K 上下文
Kimi K2.5 极速版,月之暗面快速响应编程模型,适合日常代码补全和简单问答场景。
minimax-m2.5(MiniMax)国产
评分: 1396 分 · 6,716 票 · $0.12/$1/M tokens · 196.6K 上下文
MiniMax M2.5,超低价国产模型!每百万token仅需$0.12,适合预算紧张但需要稳定编程辅助的开发者。
minimax-m2.1-preview(MiniMax)国产
评分: 1391 分 · 9,275 票 · $0.27/$0.95/M tokens · 196.6K 上下文
MiniMax M2.1 预览版,国产口碑模型!高投票量说明用户认可度高,是个人开发者的省钱之选。
qwen3.5-397b-a17b(阿里云)国产
评分: 1386 分 · 5,559 票 · $0.39/$2.34/M tokens · 262.1K 上下文
通义千问Qwen 3.5超大杯!3970亿参数国产巨无霸,阿里云开源力作,在编程能力上表现优异。
🌍 国际模型
claude-opus-4-6-thinking(Anthropic)
评分: 1546 分 · 3,698 票 · $5/$25/M tokens · 1M 上下文
Claude Opus 4.6 思考版,Anthropic最强编程模型,专为复杂代码推理设计,在代码生成、调试和架构设计方面表现卓越。
claude-opus-4-6(Anthropic)
评分: 1543 分 · 4,479 票 · $5/$25/M tokens · 1M 上下文
Claude Opus 4.6,Anthropic旗舰模型,能理解复杂代码库、生成高质量代码、修复bug并提供优化建议。
claude-sonnet-4-6(Anthropic)
评分: 1521 分 · 7,086 票 · $3/$15/M tokens · 1M 上下文
Claude Sonnet 4.6,高性价比编程模型,性能接近 Opus,价格更亲民,是很多开发者的首选。
claude-opus-4-5-thinking-32k(Anthropic)
评分: 1491 分 · 13,254 票 · $5/$25/M tokens · 200K 上下文
Claude Opus 4.5 思考版,专注深度代码推理,适合需要复杂分析和多轮思考的编程任务。
claude-opus-4-5(Anthropic)
评分: 1465 分 · 14,248 票 · $5/$25/M tokens · 200K 上下文
Claude Opus 4.5,20万token上下文处理大型代码文件,适合大型项目的代码重构和迁移。
gpt-5.4-high(OpenAI)
评分: 1457 分 · 1,495 票
GPT-5.4 High,OpenAI最新高端编程模型,代码生成和理解有显著提升,特别擅长复杂逻辑推理。
gemini-3.1-pro-preview(Google)
评分: 1456 分 · 5,467 票 · $2/$12/M tokens · 1M 上下文
Gemini 3.1 Pro,Google最强编程模型,支持超长上下文处理,与Google生态系统集成良好。
gemini-3-pro(Google)
评分: 1438 分 · 17,165 票 · $2/$12/M tokens · 1M 上下文
Gemini 3 Pro,Google主力编程模型,拥有百万token上下文,在大型项目代码分析方面优势明显。
gemini-3-flash(Google)
评分: 1436 分 · 13,282 票 · $0.50/$3/M tokens · 1M 上下文
Gemini 3 Flash,轻量快速版Google编程模型,适合日常代码补全和简单编程任务。
gpt-5.4-medium(OpenAI)
评分: 1427 分 · 1,579 票
GPT-5.4 Medium,OpenAI中端编程模型,在代码生成质量和使用成本之间取得平衡。
gpt-5.3-codex(OpenAI)
评分: 1407 分 · 2,974 票 · $1.75/$14/M tokens · 400K 上下文
GPT-5.3 Codex,OpenAI专业编程模型,400K上下文适合处理中型代码项目。
gpt-5.2(OpenAI)
评分: 1403 分 · 1,460 票 · $1.75/$14/M tokens · 400K 上下文
GPT-5.2,OpenAI主流编程模型,各方面表现均衡,适合各类开发场景。
gpt-5-medium(OpenAI)
评分: 1392 分 · 3,753 票 · $1.25/$10/M tokens · 400K 上下文
GPT-5 Medium,OpenAI中端主力,在代码补全和简单编程任务上表现稳定。
gemini-3-flash-thinking(Google)
评分: 1391 分 · 12,208 票 · $0.50/$3/M tokens · 1M 上下文
Gemini 3 Flash 思考版,Google轻量级推理模型,适合需要简单思考的编程任务。
gpt-5.1-medium(OpenAI)
评分: 1390 分 · 6,124 票 · $1.25/$10/M tokens · 400K 上下文
GPT-5.1 Medium,OpenAI成熟稳定版本,经过多次迭代优化,编程能力可靠。
claude-sonnet-4-5-thinking-32k(Anthropic)
评分: 1388 分 · 15,916 票 · $3/$15/M tokens · 200K 上下文
Claude Sonnet 4.5 思考版,性价比较高的Claude编程模型,适合需要深度思考的复杂代码任务。
claude-sonnet-4-5(Anthropic)
评分: 1386 分 · 18,512 票 · $3/$15/M tokens · 200K 上下文
Claude Sonnet 4.5,Anthropic最受欢迎的编程模型,投票量最高说明用户使用最广泛。
grok-4.20-beta-reasoning(xAI)
评分: 1386 分 · 3,030 票 · $2/$6/M tokens · 2M 上下文
Grok 4.20,马斯克xAI推出的编程模型,拥有200万token超大上下文,擅长复杂代码分析。
gpt-5.4-mini-high(OpenAI)
评分: 1385 分 · 1,198 票 · $0.75/$4.50/M tokens · 400K 上下文
GPT-5.4 Mini High,OpenAI轻量级高端模型,性价比不错,适合日常编程辅助。
claude-opus-4-1(Anthropic)
评分: 1384 分 · 8,570 票 · $15/$75/M tokens · 200K 上下文
Claude Opus 4.1,早期旗舰版本,虽然价格较高但编程能力依然强劲。
💡 如何选择编程模型?
🤑 预算优先
国产模型如 MiniMax M2.5 ($0.12/$1)、GLM-4.7 ($0.39/$1.75) 性价比最高,适合个人开发者和创业团队。
🚀 性能优先
Claude Opus 4.6 系列在编程能力上表现最佳,适合处理复杂的企业级代码库和关键业务系统。
🇨🇳 国产偏好
智谱GLM、阿里Qwen、月之暗面Kimi 对中文语境理解更好,代码注释和文档生成更符合国内习惯。