Appearance
11. 3. 2026 - Nasazení modelu GPT-5.4
OpenAI na své straně k 4. 2. 2026 zvýšilo thinking effort pro nastavení Medium pro předchozí používaný model GPT-5.2 natolik, že průměrná útrata vzrostla skoro o 30 % na zprávu.
Jde o to, že vstupní tokeny jsou za určitou cenu, zatímco výstupní tokeny, mezi které se počítají i thinking tokeny, jsou zhruba 12x dražší. I relativně malé zvýšení úsilí při uvažování proto vede k viditelnému navýšení ceny.
Dne 5. 3. 2026 vyšel model GPT-5.4, který jak podle našich interních benchmarků, tak například ARC AGI v2, ukazuje zvýšení úspěšnosti při snížení ceny. Jeho nízké úsilí vypadá kvalitněji než Medium u GPT-5.2.
10.3. jsme tedy do produkce zavedli nový model s výchozím nastavením thinking effort na Low. Současně s tím se naše úvahy ubíraly směrem dát pokročilým uživatelům více možností a volnosti měnit parametry modelu - dostat odpovědi promyšlenější tam, kde je to třeba, nebo rychlejší a levnější, pokud netrvají na hlubším průzkumu, nebo není na škodu si déle počkat. Výchozí nastavení jsme tedy dali thinking effort na Low s možností konfigurace. S tímto to bylo v produkci celý den. Po nasbírání dat jsme 11. 3. 2026 vrátili výchozí nastavení thinking effortu na Medium.
První produkční data
Pro srovnání uvádíme tři po sobě jdoucí dny:
| Datum | Model a nastavení | Pozitivní z celku | Negativní zpětná vazba | Průměrná spotřeba |
|---|---|---|---|---|
| 9. 3. 2026 | GPT-5.2, Medium | 76 z 88 (86,4 %) | 12 | 8 316 kreditů |
| 10. 3. 2026 | GPT-5.4, nízké uvažování, nízká podrobnost | 98 z 106 (92,5 %) | 8 | 3 337 kreditů |
| 11. 3. 2026 | GPT-5.4, střední uvažování, nízká podrobnost | 108 z 113 (95,6 %) | 5 | 4 718 kreditů |
Graficky je trend vidět níže:
První den po nasazení GPT-5.4 tedy přinesl současně více pozitivní zpětné vazby a výrazně nižší průměrnou spotřebu kreditů oproti 9. 3. 2026. Po návratu na Medium dne 11. 3. 2026 průměrná spotřeba znovu vzrostla, ale zůstala pod úrovní původního nastavení GPT-5.2.
Budeme to průběžně vyhodnocovat a do dokumentace postupně doplníme doporučení pro jednotlivé skupiny uživatelů a typy dotazů.
