Skip to content

11. 3. 2026 - Nasazení modelu GPT-5.4

OpenAI na své straně k 4. 2. 2026 zvýšilo thinking effort pro nastavení Medium pro předchozí používaný model GPT-5.2 natolik, že průměrná útrata vzrostla skoro o 30 % na zprávu.

Jde o to, že vstupní tokeny jsou za určitou cenu, zatímco výstupní tokeny, mezi které se počítají i thinking tokeny, jsou zhruba 12x dražší. I relativně malé zvýšení úsilí při uvažování proto vede k viditelnému navýšení ceny.

Dne 5. 3. 2026 vyšel model GPT-5.4, který jak podle našich interních benchmarků, tak například ARC AGI v2, ukazuje zvýšení úspěšnosti při snížení ceny. Jeho nízké úsilí vypadá kvalitněji než Medium u GPT-5.2.

10.3. jsme tedy do produkce zavedli nový model s výchozím nastavením thinking effort na Low. Současně s tím se naše úvahy ubíraly směrem dát pokročilým uživatelům více možností a volnosti měnit parametry modelu - dostat odpovědi promyšlenější tam, kde je to třeba, nebo rychlejší a levnější, pokud netrvají na hlubším průzkumu, nebo není na škodu si déle počkat. Výchozí nastavení jsme tedy dali thinking effort na Low s možností konfigurace. S tímto to bylo v produkci celý den. Po nasbírání dat jsme 11. 3. 2026 vrátili výchozí nastavení thinking effortu na Medium.

První produkční data

Pro srovnání uvádíme tři po sobě jdoucí dny:

DatumModel a nastaveníPozitivní z celkuNegativní zpětná vazbaPrůměrná spotřeba
9. 3. 2026GPT-5.2, Medium76 z 88 (86,4 %)128 316 kreditů
10. 3. 2026GPT-5.4, nízké uvažování, nízká podrobnost98 z 106 (92,5 %)83 337 kreditů
11. 3. 2026GPT-5.4, střední uvažování, nízká podrobnost108 z 113 (95,6 %)54 718 kreditů

Graficky je trend vidět níže:

Srovnání pozitivní zpětné vazby a průměrné spotřeby kreditů

První den po nasazení GPT-5.4 tedy přinesl současně více pozitivní zpětné vazby a výrazně nižší průměrnou spotřebu kreditů oproti 9. 3. 2026. Po návratu na Medium dne 11. 3. 2026 průměrná spotřeba znovu vzrostla, ale zůstala pod úrovní původního nastavení GPT-5.2.

Budeme to průběžně vyhodnocovat a do dokumentace postupně doplníme doporučení pro jednotlivé skupiny uživatelů a typy dotazů.

ARC AGI v2 benchmark

VitePress build pro CODEXIS AI dokumentaci.