编程模型排行榜2026

AI 大模型编程能力真实评测

数据来源: Arena AI Leaderboard · 224,709 票 · 59 个模型

更新日期: 2026年4月1日

📊 Arena AI 排行榜说明

Arena AI 是一个独立的 AI 模型对比平台,开发者通过匿名投票选出两个 AI 回答中更好的一个。 排行榜根据 ELO 评分系统计算,反映模型在真实编程任务中的表现。分数越高代表编程能力越强。

🇨🇳 国产模型🌍 国际模型
排名模型评分
1
claude-opus-4-6-thinking
1546
2
claude-opus-4-6
1543
3
claude-sonnet-4-6
1521
4
claude-opus-4-5-thinking-32k
1491
5
claude-opus-4-5
1465
6
gpt-5.4-high
1457
7
gemini-3.1-pro-preview
1456
8
qwen3.6-plus-preview国产
1454
9
glm-5国产
1441
10
glm-4.7国产
1439
11
gemini-3-pro
1438
12
gemini-3-flash
1436
13
mimo-v2-pro国产
1433
14
kimi-k2.5-thinking国产
1429
15
minimax-m2.7国产
1428
16
gpt-5.4-medium
1427
17
kimi-k2.5-instant国产
1408
18
gpt-5.3-codex
1407
19
gpt-5.2
1403
20
minimax-m2.5国产
1396
21
gpt-5-medium
1392
22
minimax-m2.1-preview国产
1391
23
gemini-3-flash-thinking
1391
24
gpt-5.1-medium
1390
25
claude-sonnet-4-5-thinking-32k
1388
26
qwen3.5-397b-a17b国产
1386
27
claude-sonnet-4-5
1386
28
grok-4.20-beta-reasoning
1386
29
gpt-5.4-mini-high
1385
30
claude-opus-4-1
1384

🏆 顶尖编程模型详解

🇨🇳 国产模型

8

qwen3.6-plus-preview(阿里云)国产

评分: 1454 · 1,125 票

通义千问Qwen 3.6,国产之光!阿里云推出的旗舰编程模型,在复杂代码理解和生成方面表现惊人,逼近顶级闭源模型。

9

glm-5(智谱AI)国产

评分: 1441 · 4,536 票 · $1/$3.20/M tokens · 202.8K 上下文

智谱GLM-5,国产大模型领军者!由清华大学技术团队打造,在代码补全和bug修复方面表现优异,中文编程场景尤为出色。

10

glm-4.7(智谱AI)国产

评分: 1439 · 4,876 票 · $0.39/$1.75/M tokens · 202.8K 上下文

智谱GLM-4.7,高性价比国产编程模型,价格亲民性能强劲,特别适合国内开发者使用。

13

mimo-v2-pro(小米)国产

评分: 1433 · 2,903 票 · $1/$3/M tokens · 1M 上下文

小米MIMO V2,国产手机厂商推出的编程模型!小米AI实验室打造,在移动端代码开发方面有独特优势。

14

kimi-k2.5-thinking(月之暗面)国产

评分: 1429 · 6,694 票 · $0.60/$3/M tokens

月之暗面Kimi K2.5思考版,国产明星创业公司产品!支持超长上下文,在代码理解和推理方面表现出色。

15

minimax-m2.7(MiniMax)国产

评分: 1428 · 2,716 票 · $0.30/$1.20/M tokens · 204.8K 上下文

MiniMax M2.7,国产高性价比编程模型!价格极低性能却不俗,适合预算有限的创业团队和个人开发者。

17

kimi-k2.5-instant(月之暗面)国产

评分: 1408 · 3,610 票 · $0.38/$1.91/M tokens · 262.1K 上下文

Kimi K2.5 极速版,月之暗面快速响应编程模型,适合日常代码补全和简单问答场景。

20

minimax-m2.5(MiniMax)国产

评分: 1396 · 6,716 票 · $0.12/$1/M tokens · 196.6K 上下文

MiniMax M2.5,超低价国产模型!每百万token仅需$0.12,适合预算紧张但需要稳定编程辅助的开发者。

22

minimax-m2.1-preview(MiniMax)国产

评分: 1391 · 9,275 票 · $0.27/$0.95/M tokens · 196.6K 上下文

MiniMax M2.1 预览版,国产口碑模型!高投票量说明用户认可度高,是个人开发者的省钱之选。

26

qwen3.5-397b-a17b(阿里云)国产

评分: 1386 · 5,559 票 · $0.39/$2.34/M tokens · 262.1K 上下文

通义千问Qwen 3.5超大杯!3970亿参数国产巨无霸,阿里云开源力作,在编程能力上表现优异。

🌍 国际模型

1

claude-opus-4-6-thinking(Anthropic)

评分: 1546 · 3,698 票 · $5/$25/M tokens · 1M 上下文

Claude Opus 4.6 思考版,Anthropic最强编程模型,专为复杂代码推理设计,在代码生成、调试和架构设计方面表现卓越。

2

claude-opus-4-6(Anthropic)

评分: 1543 · 4,479 票 · $5/$25/M tokens · 1M 上下文

Claude Opus 4.6,Anthropic旗舰模型,能理解复杂代码库、生成高质量代码、修复bug并提供优化建议。

3

claude-sonnet-4-6(Anthropic)

评分: 1521 · 7,086 票 · $3/$15/M tokens · 1M 上下文

Claude Sonnet 4.6,高性价比编程模型,性能接近 Opus,价格更亲民,是很多开发者的首选。

4

claude-opus-4-5-thinking-32k(Anthropic)

评分: 1491 · 13,254 票 · $5/$25/M tokens · 200K 上下文

Claude Opus 4.5 思考版,专注深度代码推理,适合需要复杂分析和多轮思考的编程任务。

5

claude-opus-4-5(Anthropic)

评分: 1465 · 14,248 票 · $5/$25/M tokens · 200K 上下文

Claude Opus 4.5,20万token上下文处理大型代码文件,适合大型项目的代码重构和迁移。

6

gpt-5.4-high(OpenAI)

评分: 1457 · 1,495 票

GPT-5.4 High,OpenAI最新高端编程模型,代码生成和理解有显著提升,特别擅长复杂逻辑推理。

7

gemini-3.1-pro-preview(Google)

评分: 1456 · 5,467 票 · $2/$12/M tokens · 1M 上下文

Gemini 3.1 Pro,Google最强编程模型,支持超长上下文处理,与Google生态系统集成良好。

11

gemini-3-pro(Google)

评分: 1438 · 17,165 票 · $2/$12/M tokens · 1M 上下文

Gemini 3 Pro,Google主力编程模型,拥有百万token上下文,在大型项目代码分析方面优势明显。

12

gemini-3-flash(Google)

评分: 1436 · 13,282 票 · $0.50/$3/M tokens · 1M 上下文

Gemini 3 Flash,轻量快速版Google编程模型,适合日常代码补全和简单编程任务。

16

gpt-5.4-medium(OpenAI)

评分: 1427 · 1,579 票

GPT-5.4 Medium,OpenAI中端编程模型,在代码生成质量和使用成本之间取得平衡。

18

gpt-5.3-codex(OpenAI)

评分: 1407 · 2,974 票 · $1.75/$14/M tokens · 400K 上下文

GPT-5.3 Codex,OpenAI专业编程模型,400K上下文适合处理中型代码项目。

19

gpt-5.2(OpenAI)

评分: 1403 · 1,460 票 · $1.75/$14/M tokens · 400K 上下文

GPT-5.2,OpenAI主流编程模型,各方面表现均衡,适合各类开发场景。

21

gpt-5-medium(OpenAI)

评分: 1392 · 3,753 票 · $1.25/$10/M tokens · 400K 上下文

GPT-5 Medium,OpenAI中端主力,在代码补全和简单编程任务上表现稳定。

23

gemini-3-flash-thinking(Google)

评分: 1391 · 12,208 票 · $0.50/$3/M tokens · 1M 上下文

Gemini 3 Flash 思考版,Google轻量级推理模型,适合需要简单思考的编程任务。

24

gpt-5.1-medium(OpenAI)

评分: 1390 · 6,124 票 · $1.25/$10/M tokens · 400K 上下文

GPT-5.1 Medium,OpenAI成熟稳定版本,经过多次迭代优化,编程能力可靠。

25

claude-sonnet-4-5-thinking-32k(Anthropic)

评分: 1388 · 15,916 票 · $3/$15/M tokens · 200K 上下文

Claude Sonnet 4.5 思考版,性价比较高的Claude编程模型,适合需要深度思考的复杂代码任务。

27

claude-sonnet-4-5(Anthropic)

评分: 1386 · 18,512 票 · $3/$15/M tokens · 200K 上下文

Claude Sonnet 4.5,Anthropic最受欢迎的编程模型,投票量最高说明用户使用最广泛。

28

grok-4.20-beta-reasoning(xAI)

评分: 1386 · 3,030 票 · $2/$6/M tokens · 2M 上下文

Grok 4.20,马斯克xAI推出的编程模型,拥有200万token超大上下文,擅长复杂代码分析。

29

gpt-5.4-mini-high(OpenAI)

评分: 1385 · 1,198 票 · $0.75/$4.50/M tokens · 400K 上下文

GPT-5.4 Mini High,OpenAI轻量级高端模型,性价比不错,适合日常编程辅助。

30

claude-opus-4-1(Anthropic)

评分: 1384 · 8,570 票 · $15/$75/M tokens · 200K 上下文

Claude Opus 4.1,早期旗舰版本,虽然价格较高但编程能力依然强劲。

💡 如何选择编程模型?

🤑 预算优先

国产模型如 MiniMax M2.5 ($0.12/$1)、GLM-4.7 ($0.39/$1.75) 性价比最高,适合个人开发者和创业团队。

🚀 性能优先

Claude Opus 4.6 系列在编程能力上表现最佳,适合处理复杂的企业级代码库和关键业务系统。

🇨🇳 国产偏好

智谱GLM、阿里Qwen、月之暗面Kimi 对中文语境理解更好,代码注释和文档生成更符合国内习惯。