Rate limits
Rate limits (gebruikslimieten / snelheidslimieten)
Simpele Uitleg
Een rate limit is een bovengrens die een AI-aanbieder oplegt aan hoeveel je in een bepaalde tijd mag gebruiken. Het is geen straf, maar een verdeelmechanisme: het beschermt de servers tegen overbelasting en zorgt dat de capaciteit eerlijk over alle gebruikers verdeeld wordt. Anthropic omschrijft het zo: de limieten zijn er om misbruik te voorkomen en om een eerlijke verdeling van middelen te garanderen. Belangrijk om te snappen: rate limits werken anders in een abonnement (zoals Claude of ChatGPT) dan op de API voor ontwikkelaars.
Technische Definitie
Rate limits komen in twee werelden voor. In een chat-abonnement (claude.ai, de ChatGPT-app, Claude Code op Pro/Max) tel je gebruik per tijdvenster; bij Claude is dat een rollend sessievenster van vijf uur plus een weeklimiet. Op de API meet Anthropic in drie tegelijk lopende metrics per modelklasse: RPM (requests per minute), ITPM (input tokens per minute) en OTPM (output tokens per minute). OpenAI voegt daar dag-varianten aan toe (RPD en TPD). De API gebruikt een token-bucket-algoritme: je capaciteit wordt continu bijgevuld tot je maximum, niet op een vast moment in één keer gereset. Overschrijd je een limiet, dan krijg je een HTTP 429-fout met een retry-after header.
Waarom Dit Belangrijk Is
Waarom loop je tegen een muur terwijl je niets fout doet? Omdat een rate limit normaal capaciteitsbeheer is, geen straf. Iedereen heeft limieten, ook betalende gebruikers. Het verschil tussen wel of niet productief werken zit vaak in begrijpen welke limiet je raakt en waarom.
Voor wie chat in een abonnement betekent het: een lang gesprek met grote bijlagen en een zwaar model vreet je gebruik veel sneller op dan korte, gerichte vragen. Snap je het rollende venster, dan plan je je werk slimmer.
Voor ontwikkelaars die tegen de API programmeren is het cruciaal: één app die 429-fouten niet netjes afvangt valt om bij de eerste piek. Wie Claude Code of een eigen tool bouwt, leert in de Claude Code Masterclass hoe je hier praktisch mee omgaat.
Hoe Het Werkt
Vergelijk een rate limit met een emmer met een gaatje die continu wordt bijgevuld (het token-bucket-algoritme). Elk verzoek schept water uit de emmer; de kraan vult hem gestaag weer aan tot de rand. Zolang er water in zit, mag je door. Is hij leeg, dan moet je wachten tot de kraan hem heeft bijgevuld.
Praktisch gevolg: een limiet van 60 verzoeken per minuut wordt afgedwongen als ongeveer 1 per seconde. Stuur je in twee seconden 100 verzoeken, dan raak je de limiet, ook al blijf je over de hele minuut ruim onder de 60. Een plotselinge piek (burst) is dus het probleem, niet je totaal.
Op de API tel je drie dingen tegelijk: aantal verzoeken (RPM), tokens die je stuurt (ITPM) en tokens die het model teruggeeft (OTPM). Je raakt de limiet zodra je er één van overschrijdt; welke je het eerst raakt hangt af van je gebruikspatroon.
In een Claude-abonnement werkt het anders: een sessievenster van vijf uur dat start bij je eerste bericht en vijf uur later reset, plus een weeklimiet die zeven dagen na je sessiestart reset. Al je Claude-oppervlakken (claude.ai, Claude Code, Claude Desktop) putten uit dezelfde pot.
Use Cases
Plannen rond je abonnementslimiet
Een gebruiker op een Claude-abonnement weet dat het sessievenster vijf uur duurt en bij het eerste bericht start. Door zware taken (lange gesprekken, grote bijlagen, een krachtig model) bewust te spreiden en korte vragen tussendoor licht te houden, haalt hij meer uit één venster. Werkt hij in Claude Code, dan houdt hij in de gaten hoe vol het venster zit.
429-fouten netjes afvangen in een app
Een ontwikkelaar bouwt een app op de API en vangt elke 429-fout af met exponential backoff plus jitter: kort wachten, opnieuw proberen, de wachttijd verdubbelen bij herhaalde fouten, met willekeurige spreiding zodat niet alle retries tegelijk terugkomen. De retry-after header bepaalt hoe lang hij minimaal moet wachten.
Doorvoer verhogen met prompt caching
Een team met een groot, vast systeemprompt zet dat in een cache. Voor de meeste Claude-modellen tellen gecachte input-tokens niet mee voor de ITPM-limiet, dus het ongecachte verbruik keldert en het team verwerkt veel meer per minuut binnen dezelfde limiet. Zie prompt caching voor de details.
Een hogere tier verdienen
Een startup begint op de API in de laagste tier met bescheiden limieten. Naarmate de betaalde uitgaven stijgen, schuift de aanbieder de organisatie automatisch op naar een hogere tier met hogere limieten. Tiers gaan over vertrouwen en betalingsgeschiedenis, niet over een knop die je indrukt.
Voorbeelden
Chatter raakt het 5-uurs venster
Ontwikkelaar raakt RPM, niet TPM
Cache verviervoudigt de doorvoer
Veelgemaakte Fouten
"Mijn limiet reset elk uur op een vast kloktijdstip"
Op de API klopt dat niet: daar geldt het token-bucket-mechanisme dat continu bijvult, geen reset op de klok. In een Claude-abonnement is het een rollend venster van vijf uur dat start bij jouw eigen eerste bericht, niet om een vast uur. Het venster is dus persoonlijk en verschuift mee.
"Een token-limiet is hetzelfde als een berichten-limiet"
Tokens meten tekstomvang (ruwweg stukjes woorden), niet het aantal berichten. Eén lang bericht met een grote bijlage kost veel meer tokens dan tien korte vragen. Zie de term token voor wat een token precies is.
"De ChatGPT-app en de API delen dezelfde limiet"
Een abonnement en de API zijn aparte systemen met aparte limieten. Je betaalde chat-abonnement geeft je geen API-tegoed en andersom. Verwar de twee werelden niet: in een abonnement tel je gebruik per venster, op de API tel je requests en tokens per minuut.
"Als ik direct opnieuw probeer na een 429, lukt het wel"
Eerder opnieuw proberen dan de retry-after header aangeeft, faalt sowieso en maakt het drukker. Respecteer de wachttijd en gebruik exponential backoff. Een hogere max_tokens instellen kost trouwens geen extra rate-limit bij Anthropic: OTPM telt alleen tokens die het model echt genereert.
Tools Die Dit Gebruiken
Veelgestelde Vragen
Hoe werken limits bij Claude?
Wat is een rate limit precies?
Wat betekent error 429 en hoe los ik het op?
Waarom krijg ik een rate limit terwijl ik weinig tokens gebruik?
Wat is het verschil tussen rate limits in een abonnement en op de API?
Hoe verhoog ik mijn rate limits?
Gerelateerde Termen
Wil je deze term in de praktijk leren toepassen?