Official n8n AI
Benchmark

We rank the top LLMs by what we really care about:
how they work in n8n.

Model	Average Run Cost	Overall	Tool Use	Hallucination	Logic	Scoring	Classification	Structured Output	Speed	Cost
Grok 4 Fast	$0.00125	88	64	83	91	38	50	100	86	98
Qwen3 VL 235B A22B Instruct	$0.0016	86	51	91	96	55	39	83	86	98
Grok 4.1 Fast	$0.00125	84	58	89	89	34	50	92	75	97
GPT-5.1 Chat	$0.01125	82	51	83	84	26	50	92	97	91
GPT-5.1-Codex	$0.01125	82	64	86	87	45	39	92	86	70
Claude Haiku 4.5	$0.0075	80	51	97	77	14	50	92	93	87
Qwen3 Max	$0.009	79	64	97	91	28	29	83	85	87
Devstral 2 2512	$0.00036	79	58	71	84	51	29	75	86	99
Grok 3 Mini	$0.00175	78	64	83	82	49	19	92	70	96
Claude Sonnet 4.5	$0.0225	78	64	100	89	16	39	100	86	60
Gemini 3 Pro Preview	$0.016	78	77	97	87	34	50	92	67	28
Qwen3 Coder Flash	$0.00225	77	32	80	77	49	39	67	95	97
Seed 1.6 Flash	$0.000525	76	32	54	80	61	39	75	87	98
GLM 4.6	$0.0025	75	51	94	73	34	39	67	71	96
Gemini 3 Flash Preview	$0.004	74	58	91	82	18	19	83	96	97
GPT-5.1	$0.01125	74	39	83	87	34	29	92	83	79
Mercury	$0.00175	73	26	29	66	53	50	75	100	99
Mistral Medium 3.1	$0.003	73	58	74	84	37	10	83	92	95
DeepSeek V3.2 Exp	$0.00121	73	58	89	84	20	50	75	28	98
MiMo-V2-Flash	$0.000595	73	45	94	47	20	50	75	78	99
GPT-5.2 Chat	$0.01575	73	45	80	89	16	29	92	93	80
GPT-5.2	$0.01575	72	64	80	87	20	19	92	86	75
Mistral Large 3 2512	$0.00325	72	45	80	84	26	29	67	87	95
Kimi K2 0711	$0.0037	72	39	94	82	18	29	83	84	94
GPT-5 Mini	$0.00225	71	39	69	84	30	29	92	71	93
DeepSeek V3.1	$0.0014	70	51	91	77	20	19	83	70	98
GPT-5.1-Codex-Mini	$0.00225	70	39	43	84	34	29	92	84	94
Pixtral Large 2411	$0.013	69	45	63	49	38	50	50	88	85
Ministral 3 8B 2512	$0.000825	69	26	86	70	59	19	42	93	99
Kimi K2.5	$0.0045	69	58	97	84	32	19	92	36	75
Gemini 2.5 Flash	$0.00275	68	32	97	87	47	19	8	98	95
KAT-Coder-Pro V1	$0.001449	68	45	89	80	8	19	83	81	97
Qwen3 Coder Plus	$0.0075	68	19	97	89	22	10	92	92	89
Llama 4 Scout	$0.00055	68	13	51	59	61	50	25	94	100
Llama 4 Maverick	$0.00105	68	26	80	75	47	29	33	91	99
Codestral 2508	$0.00195	67	45	9	61	49	39	67	89	97
Llama 3.1 Nemotron 70B Instruct	$0.0066	66	26	89	54	45	29	42	89	94
Mistral Small 3.2 24B	$0.00039	66	26	66	68	57	19	50	82	100
Claude Opus 4.5	$0.0375	66	58	97	80	12	19	100	86	30
Llama 3.3 Nemotron Super 49B V1.5	$0.0007	65	51	77	82	49	29	8	54	97
GPT-5	$0.01125	65	51	86	80	28	19	92	59	54
Mixtral 8x22B Instruct	$0.013	65	32	69	68	53	19	50	91	80
Llama 3.3 70B Instruct	$0.00084	65	6	100	59	55	10	67	79	99
Grok 4	$0.0225	64	45	97	73	30	50	100	33	0
Qwen3 VL 8B Instruct	$0.00065	63	0	86	73	63	29	75	19	94
Mistral Small 3	$0.00029	62	19	91	51	38	19	33	95	100
gpt-oss-120b	$0.0003	62	39	37	82	32	29	25	90	100
gpt-oss-20b	$0.00022	61	45	34	75	51	19	33	72	99
MiniMax M2	$0.0015	60	45	57	73	16	39	42	55	86
Mistral Medium 3	$0.003	60	39	69	77	8	29	25	92	95
DeepSeek V3.2	$0.0016	60	19	97	80	20	29	33	58	98
Llama 3.1 405B Instruct	$0.01925	58	19	80	7	65	39	8	86	75
Gemini 2.5 Pro	$0.01125	57	45	91	82	28	19	25	74	41
Trinity Mini	$0.0003	56	6	74	80	16	10	75	62	98
Gemini 2.5 Flash Lite	$0.0007	56	19	34	82	34	19	25	89	98
GLM 4.7	$0.00275	54	39	100	80	18	10	75	0	79
Ministral 3 14B 2512	$0.0011	54	19	63	73	26	0	42	88	99
Ministral 3 3B 2512	$0.00055	53	32	31	45	32	29	8	89	99
Llama 3.1 70B Instruct	$0.0022	53	26	0	30	57	19	42	91	98
Llama 3.1 8B Instruct	$0.000115	39	32	37	0	0	39	0	54	100