Claude Opus 4.8 review: eerste week

AI-tools leren gebruiken?

In onze masterclass leer je ChatGPT, Claude en Gemini effectief inzetten voor je werk.

Dennis Claassen

AI-trainer · 35+ teams getraind

Key Takeaways

•Opus 4.8 is uit sinds 28 mei 2026, zo'n 41 dagen na 4.7. Beschikbaar op de API, Bedrock, Vertex AI en GitHub Copilot (Anthropic; GitHub Changelog).
•De cijfers zijn beter, niet spectaculair. SWE-Bench Pro stijgt van 64,3% naar 69,2% en het model laat ~4× minder fouten in eigen code passeren (Anthropic). Simon Willison noemt het een bescheiden maar merkbare verbetering (simonwillison.net).
•De eerste week ging mis door een token-bug. Opus 4.8 spawnde te veel parallelle subagents, waardoor abonnementen in 2-3 dagen leegliepen in plaats van 7. Op 1 juni kwam de fix plus een reset van de limieten (Pasquale Pillitteri).
•Goedkoper per token, maar verbose. $5/M input en $25/M output, maar het model gebruikt ~30% meer turns dan GPT-5.5 (Anthropic; The Decoder).
•Upgraden? Niet blind. Test eerst op een zijtak voordat je iets migreert waar promptgedrag telt (Verdent).

Stel je voor: je leest op 28 mei dat het nieuwe topmodel van Anthropic GPT-5.5 verslaat op bijna elke coding-benchmark, en je denkt "mooi, even overzetten." Drie dagen later is je Claude-abonnement op. Niet je weeklimiet bijna aan het einde van de week, nee, helemaal leeg. En je had niks bijzonders gedaan.

Dat is precies wat een hoop mensen overkwam met Claude Opus 4.8. De eerste week was een achtbaan, en juist dáárom is dit een leuk model om een week later te reviewen. Niet de launch-day hype, niet alleen de cijfers, maar het hele verhaal: het mooie, het irritante en de fix die het rechttrok.

Even vooraf eerlijk zijn. Anthropic zelf noemt 4.8 een bescheiden stap, en de meest geciteerde onafhankelijke stem, Simon Willison, bevestigt dat: "a modest but tangible improvement." Onthoud die zin. We komen er aan het eind op terug.

Claude Opus 4.8 in het kort

Opus 4.8 kwam uit op 28 mei 2026, ongeveer 41 dagen na 4.7 (Anthropic). Het draait op de Claude API (model-id claude-opus-4-8), Amazon Bedrock, Google Vertex AI en sinds dag één ook in GitHub Copilot (GitHub Changelog).

Wat is er nieuw? In het kort:

•Effort control op claude.ai en in Cowork. Je kiest hoeveel "moeite" het model in een antwoord steekt. De default staat nu op high, en voor coding raadt Anthropic expliciet xhigh aan (StationX).
•Dynamic workflows, een research preview in Claude Code waarmee het model tot 1.000 subagents per run kan aansturen (max 16 tegelijk). Opt-in (TechCrunch).
•Goedkopere fast mode, ongeveer 3× goedkoper dan de fast mode op 4.6/4.7 (Anthropic).
•Een eerlijker model. Het laat naar eigen zeggen ~4× minder fouten in zijn eigen code ongemerkt passeren dan 4.7 (Anthropic).

Klinkt netjes. De vraag is natuurlijk of je daar in de praktijk iets van merkt.

De cijfers: beter, geen aardverschuiving

Een mooi getal op een leaderboard is niet hetzelfde als een betere ervaring in je editor. Maar de benchmarks zijn wel de basis, dus daar beginnen we.

Op Terminal-Bench 2.1 scoort 4.8 een 92,3%, op OSWorld-Verified 84%, en het is het eerste model dat door de 10% breekt op de Legal Agent Benchmark (all-pass) (Anthropic). De belangrijkste voor developers is SWE-Bench Pro, de agentic coding-test. Daar gaat het van 64,3% (4.7) naar 69,2% (4.8) (Anthropic; Verdent).

Vijf procentpunt. Mooi, maar geen aardverschuiving. En dat is precies het punt.

Opus 4.8 vs GPT-5.5

Tegen GPT-5.5 wint Opus 4.8 op de meeste benchmarks: SWE-Bench Pro 69,2% versus 58,6% (een verschil van 10,6 punten) en GDPval-AA 1.890 versus 1.769 (The Decoder; DataCamp). GPT-5.5 houdt wel Terminal-Bench 2.1 vast.

Maar nu de nuance die bijna niemand erbij vertelt. Volgens Artificial Analysis gebruikt Opus 4.8 ongeveer 30% meer passes dan GPT-5.5 om tot een antwoord te komen (The Decoder). Het is dus slimmer, maar ook praatgrager. Tegenover zijn eigen voorganger valt dat juist mee: 15% minder passes en 35% minder output-tokens dan 4.7. Zuiniger dan 4.7, niet zuiniger dan GPT.

Waarom dat ertoe doet, lees je verderop bij het kostenplaatje. Winnen op benchmarks zegt namelijk weinig over wat een run je uiteindelijk kost.

Wat zeggen gebruikers ná een week écht?

Een review zonder de praktijk is een persbericht navertellen. Dus: wat vinden mensen die er een week mee gewerkt hebben?

De lof

Het meest gehoorde compliment gaat over eerlijkheid, niet over een benchmark. Simon Willison prijst dat Anthropic zélf "modest" durft te zeggen in plaats van weer een revolutie te beloven. Hij noemt ook een technische toevoeging "really powerful": de Messages API accepteert nu een system-bericht midden in een gesprek, zonder dat je prompt-cache breekt (simonwillison.net).

Klein detail, groot gemak: het minimale cachebare prompt is verlaagd van 4.096 naar 1.024 tokens. Korte prompts profiteren nu ook van caching (Anthropic). StationX vat het sentiment samen met een duidelijk advies: "Yes, switch most things to 4.8" (StationX).

De klachten

En dan de andere kant, want die is er ook. Op launch-day stond Hacker News vol developers die klaagden over twee dingen: over-eager refusals (het beruchte "malware reminder"-patroon, waarbij het model legitieme code weigert) en kortere antwoorden dan ze gewend waren (StationX).

Dat kortere is deels uitlegbaar. De default effort staat op high, niet op xhigh. Voor coding moet je die zelf opschroeven, anders krijg je een zuiniger model dan je verwacht. Wist je dat niet, dan voelt 4.8 ineens minder grondig. Snap je het wel, dan zet je het even goed en is het probleem weg.

Het token-drain-drama (en de fix van 1 juni)

Dit is het verhaal dat de eerste week echt domineerde. En het is een mooi voorbeeld van hoe snel een community de verkeerde schuldige aanwijst.

Een Max-20x-gebruiker meldde in GitHub issue #52502 dat zijn plan in 2-3 dagen op was, in plaats van de gebruikelijke 7. Veel mensen wezen meteen naar dynamic workflows, dat nieuwe ding met die 1.000 subagents. Logisch, maar fout: dynamic workflows is opt-in. De meeste klagers hadden het niet eens aanstaan.

De echte boosdoener was Opus 4.8 zelf. Het model beoordeelde operaties als parallelliseerbaar die dat helemaal niet waren, en spawnde daardoor te veel parallelle subagents (The New Stack). Elke subagent vreet tokens. Vermenigvuldig dat en je limiet smelt.

Op 1 juni 2026 trok Anthropic het recht. Ze fixten de bug én resetten de 5-uurs- en weeklimieten voor Pro- en Max-gebruikers. Hun eigen woorden: "We fixed an issue that caused some Claude Code sessions to spawn excessive parallel subagents, burning through usage faster than expected" (Pasquale Pillitteri).

Belangrijk voor je beeld vandaag: dit was een bug, geen ontwerpkeuze, en hij is verholpen. Maar het laat wel zien dat een agressiever, autonomer model nieuwe risico's meebrengt. Hoe meer het model zelf beslist, hoe harder een verkeerde aanname je in de kosten raakt.

Dynamic workflows: hype of handig?

Dynamic workflows zélf is een interessant ding. Het is een research preview in Claude Code (beschikbaar op Enterprise, Team en Max) waarmee het model een grote taak opknipt en tot 1.000 subagents per run aanstuurt, maximaal 16 tegelijk (TechCrunch).

Het indrukwekkendste voorbeeld tot nu toe: een ontwikkelaar portte Bun van Zig naar Rust. Zo'n 750.000 regels code, waarvan 99,8% van de testsuite groen, en 11 dagen van eerste commit tot merge (TechCrunch). Dat is geen speeltje meer, dat is serieus werk.

Maar wees nuchter: het heet niet voor niets "research preview." Voor de meeste teams is dit nog geen dagelijkse tool. Wil je de techniek erachter beter begrijpen, lees dan onze losse uitleg over dynamic workflows en het gerelateerde concept ultracode.

Wat kost Opus 4.8?

"Beter" betekent niks als je het niet kunt betalen, dus: het prijsplaatje.

Variant	Input (per miljoen tokens)	Output (per miljoen tokens)
Regulier	$5	$25
Fast mode (2,5× sneller)	$10	$50

Bron: Anthropic product page. De fast mode is ongeveer 3× goedkoper dan die op 4.6/4.7 (toen $30/$150). Met prompt caching bespaar je tot 90%, met batch-verwerking tot 50%.

Op papier dus aantrekkelijk. Maar weet je nog die ~30% extra turns versus GPT-5.5? Daar zit de adder. Een lagere prijs per token helpt je weinig als het model er meer tokens doorheen jaagt om bij hetzelfde antwoord te komen. Reken dus niet op de sticker, reken op je werkelijke verbruik. Het kostenvoordeel kan deels verdampen, afhankelijk van wat je doet.

Moet jij upgraden van 4.7?

Het korte antwoord: waarschijnlijk wel, maar niet blind.

Verdent verwoordt het scherp: "4.8 is not a straightforward swap." Elke model-update kan promptgedrag subtiel verschuiven. Hun advies, dat ik onderschrijf: "test on a side branch before adopting widely" (Verdent).

Voor wie is upgraden interessant?

•Coders en agent-bouwers. De winst op SWE-Bench Pro en het ~4× lagere foutpercentage zijn concreet. Zet wel effort op xhigh.
•Teams die op kosten letten. Tegenover 4.7 is 4.8 zuiniger in output-tokens, en de fast mode is fors goedkoper.

Voor wie nog even wacht?

•Heb je prompts of pipelines die op exact gedrag van 4.7 leunen? Dan is een paar dagen testen op een zijtak slimmer dan een harde overstap.
•Werk je in een Pro/Max-plan en zat je in die eerste-week-chaos? De bug is gefixt, maar check je verbruik even voordat je 4.8 op alles loslaat.

Wil je dieper in welke coding-tool het beste bij je past, dan is dat een ander verhaal dan welk model je kiest. Daarvoor hebben we een aparte vergelijking van Codex, Claude Code en Antigravity en een complete Claude Code-gids voor 2026.

Conclusie: is Opus 4.8 z'n hype waard?

Terug naar die zin van Willison: "a modest but tangible improvement." Na een week vol cijfers, klachten en een fix denk ik dat dat de eerlijkste samenvatting blijft.

Opus 4.8 is duidelijk beter dan 4.7. Niet schokkend beter, wel merkbaar: betere code, minder fouten die erdoor glippen, slimmere tool-calls en een goedkopere fast mode. Tegelijk was de lancering rommelig, is het model praatgrager dan de concurrent, en moet je de effort-instelling kennen om er het beste uit te halen. Dat zijn geen dealbreakers, het zijn dingen die je gewoon moet weten. De praatgrage stijl betekent wel dat het prijsvoordeel per token in de praktijk deels verdampt — reken op je eigen verbruik, niet op de sticker.

Wat mij vooral opvalt: de eerlijkheid waarmee Anthropic dit bracht ("modest") en de bug binnen vier dagen rechttrok, doet meer voor mijn vertrouwen dan welke benchmark dan ook. Een topmodel dat zichzelf niet overschreeuwt, daar kun je mee werken.

Wil je leren hoe je modellen als Claude en GPT slim voor je bedrijf inzet, zonder door de bomen het bos kwijt te raken? Kijk dan eens naar onze ChatGPT, Claude & Gemini-training. Dan haal je uit zo'n update precies wat jouw team eraan heeft.

AI Training

Wil je AI leren inzetten?

In onze praktische trainingen leer je hoe je ChatGPT, Claude en andere AI-tools effectief inzet voor jouw werk.

Bekijk trainingen

Bronnen

Veelgestelde vragen

Wat is er nieuw in Claude Opus 4.8?

Opus 4.8 (uit op 28 mei 2026) voegt effort control toe op claude.ai en in Cowork, een dynamic-workflows research preview in Claude Code die tot 1.000 subagents per run aanstuurt, een fast mode die zo'n 3x goedkoper is dan op 4.6/4.7, en een model dat naar eigen zeggen ongeveer 4x minder fouten in zijn eigen code laat passeren dan 4.7. Bron: Anthropic (anthropic.com/news/claude-opus-4-8).

Is Opus 4.8 echt beter dan 4.7?

Ja, maar bescheiden. SWE-Bench Pro stijgt van 64,3% naar 69,2% en het foutpercentage in eigen code is ongeveer 4x lager. Tegenover 4.7 gebruikt 4.8 ook 15% minder passes en 35% minder output-tokens. Simon Willison vat het samen als 'a modest but tangible improvement'. Een merkbare, geen schokkende stap.

Waarom raakte mijn Claude-limiet zo snel op met Opus 4.8?

Door een bug, niet door dynamic workflows. In de eerste week markeerde Opus 4.8 operaties als parallelliseerbaar die dat niet waren, waardoor Claude Code te veel parallelle subagents spawnde en abonnementen in 2-3 dagen leegliepen in plaats van 7. Anthropic fixte dit op 1 juni 2026 en resette de 5-uurs- en weeklimieten voor Pro- en Max-gebruikers. Bron: Pasquale Pillitteri / GitHub issue #52502.

Wat kost Claude Opus 4.8 en is fast mode het waard?

Regulier $5 per miljoen input-tokens en $25 per miljoen output-tokens; fast mode (2,5x sneller) $10/$50, ongeveer 3x goedkoper dan de fast mode op 4.6/4.7. Met prompt caching bespaar je tot 90%, met batch tot 50%. Let op: het model is verbose en gebruikt ~30% meer turns dan GPT-5.5, dus het prijsvoordeel kan in de praktijk deels verdampen. Bron: Anthropic product page; The Decoder.

Moet ik upgraden van Opus 4.7 naar 4.8?

Voor de meeste coders en agent-bouwers wel, maar niet blind. Verdent waarschuwt dat 4.8 'not a straightforward swap' is omdat een update promptgedrag subtiel kan verschuiven. Het advies: test eerst op een zijtak voordat je iets migreert waar exact gedrag telt. Zet voor coding de effort op xhigh, anders krijg je kortere antwoorden dan je gewend bent.

Plan een kennismakingsgesprek

Claude Opus 4.8 review: na een week eerlijk getest