intermediateTechnisch

6 min leestijd

Rate limits

Rate limits (gebruikslimieten / snelheidslimieten)

Door Dennis Claassen · Laatst bijgewerkt feb 2026

Simpele Uitleg

Een rate limit is een bovengrens die een AI-aanbieder oplegt aan hoeveel je in een bepaalde tijd mag gebruiken. Het is geen straf, maar een verdeelmechanisme: het beschermt de servers tegen overbelasting en zorgt dat de capaciteit eerlijk over alle gebruikers verdeeld wordt. Anthropic omschrijft het zo: de limieten zijn er om misbruik te voorkomen en om een eerlijke verdeling van middelen te garanderen. Belangrijk om te snappen: rate limits werken anders in een abonnement (zoals Claude of ChatGPT) dan op de API voor ontwikkelaars.

Technische Definitie

Rate limits komen in twee werelden voor. In een chat-abonnement (claude.ai, de ChatGPT-app, Claude Code op Pro/Max) tel je gebruik per tijdvenster; bij Claude is dat een rollend sessievenster van vijf uur plus een weeklimiet. Op de API meet Anthropic in drie tegelijk lopende metrics per modelklasse: RPM (requests per minute), ITPM (input tokens per minute) en OTPM (output tokens per minute). OpenAI voegt daar dag-varianten aan toe (RPD en TPD). De API gebruikt een token-bucket-algoritme: je capaciteit wordt continu bijgevuld tot je maximum, niet op een vast moment in één keer gereset. Overschrijd je een limiet, dan krijg je een HTTP 429-fout met een retry-after header.

Waarom Dit Belangrijk Is

Waarom loop je tegen een muur terwijl je niets fout doet? Omdat een rate limit normaal capaciteitsbeheer is, geen straf. Iedereen heeft limieten, ook betalende gebruikers. Het verschil tussen wel of niet productief werken zit vaak in begrijpen welke limiet je raakt en waarom.

Voor wie chat in een abonnement betekent het: een lang gesprek met grote bijlagen en een zwaar model vreet je gebruik veel sneller op dan korte, gerichte vragen. Snap je het rollende venster, dan plan je je werk slimmer.

Voor ontwikkelaars die tegen de API programmeren is het cruciaal: één app die 429-fouten niet netjes afvangt valt om bij de eerste piek. Wie Claude Code of een eigen tool bouwt, leert in de Claude Code Masterclass hoe je hier praktisch mee omgaat.

Hoe Het Werkt

Vergelijk een rate limit met een emmer met een gaatje die continu wordt bijgevuld (het token-bucket-algoritme). Elk verzoek schept water uit de emmer; de kraan vult hem gestaag weer aan tot de rand. Zolang er water in zit, mag je door. Is hij leeg, dan moet je wachten tot de kraan hem heeft bijgevuld.

Praktisch gevolg: een limiet van 60 verzoeken per minuut wordt afgedwongen als ongeveer 1 per seconde. Stuur je in twee seconden 100 verzoeken, dan raak je de limiet, ook al blijf je over de hele minuut ruim onder de 60. Een plotselinge piek (burst) is dus het probleem, niet je totaal.

Op de API tel je drie dingen tegelijk: aantal verzoeken (RPM), tokens die je stuurt (ITPM) en tokens die het model teruggeeft (OTPM). Je raakt de limiet zodra je er één van overschrijdt; welke je het eerst raakt hangt af van je gebruikspatroon.

In een Claude-abonnement werkt het anders: een sessievenster van vijf uur dat start bij je eerste bericht en vijf uur later reset, plus een weeklimiet die zeven dagen na je sessiestart reset. Al je Claude-oppervlakken (claude.ai, Claude Code, Claude Desktop) putten uit dezelfde pot.

Use Cases

Plannen rond je abonnementslimiet

Een gebruiker op een Claude-abonnement weet dat het sessievenster vijf uur duurt en bij het eerste bericht start. Door zware taken (lange gesprekken, grote bijlagen, een krachtig model) bewust te spreiden en korte vragen tussendoor licht te houden, haalt hij meer uit één venster. Werkt hij in Claude Code, dan houdt hij in de gaten hoe vol het venster zit.

429-fouten netjes afvangen in een app

Een ontwikkelaar bouwt een app op de API en vangt elke 429-fout af met exponential backoff plus jitter: kort wachten, opnieuw proberen, de wachttijd verdubbelen bij herhaalde fouten, met willekeurige spreiding zodat niet alle retries tegelijk terugkomen. De retry-after header bepaalt hoe lang hij minimaal moet wachten.

Doorvoer verhogen met prompt caching

Een team met een groot, vast systeemprompt zet dat in een cache. Voor de meeste Claude-modellen tellen gecachte input-tokens niet mee voor de ITPM-limiet, dus het ongecachte verbruik keldert en het team verwerkt veel meer per minuut binnen dezelfde limiet. Zie prompt caching voor de details.

Een hogere tier verdienen

Een startup begint op de API in de laagste tier met bescheiden limieten. Naarmate de betaalde uitgaven stijgen, schuift de aanbieder de organisatie automatisch op naar een hogere tier met hogere limieten. Tiers gaan over vertrouwen en betalingsgeschiedenis, niet over een knop die je indrukt.

Voorbeelden

Chatter raakt het 5-uurs venster

Iemand op een Claude-abonnement stelt een paar lange vragen met grote bijlagen en krijgt na ongeveer drie uur de melding dat hij zijn limiet nadert. Reden: het rollende sessievenster van vijf uur, plus het feit dat bijlage-grootte en gesprekslengte het verbruik snel opmaken. Na de reset (vijf uur na de sessiestart) kan hij weer verder.

Ontwikkelaar raakt RPM, niet TPM

Een ontwikkelaar stuurt 100 korte verzoeken in twee seconden en krijgt een 429-fout, ondanks de lage token-aantallen. Hij raakte zijn requests-per-minute-limiet, niet zijn token-limiet: het token-bucket-mechanisme dwingt af op ongeveer per-seconde-basis. OpenAI noemt eenzelfde voorbeeld: 20 verzoeken van elk 100 tokens kan een RPM-limiet van 20 opvullen, ook al raak je je TPM-limiet niet aan. Oplossing: verzoeken spreiden en de retry-after header respecteren.

Cache verviervoudigt de doorvoer

Anthropic geeft dit voorbeeld in de officiele docs: met een ITPM-limiet van 2.000.000 en 80% cache-hits verwerk je effectief 10.000.000 input-tokens per minuut (2 miljoen ongecached plus 8 miljoen gecached). De gecachte tokens tellen niet mee voor de limiet. Uitzondering: Claude Haiku 3.5 telt cache-reads wel mee.

Veelgemaakte Fouten

"Mijn limiet reset elk uur op een vast kloktijdstip"

Op de API klopt dat niet: daar geldt het token-bucket-mechanisme dat continu bijvult, geen reset op de klok. In een Claude-abonnement is het een rollend venster van vijf uur dat start bij jouw eigen eerste bericht, niet om een vast uur. Het venster is dus persoonlijk en verschuift mee.

"Een token-limiet is hetzelfde als een berichten-limiet"

Tokens meten tekstomvang (ruwweg stukjes woorden), niet het aantal berichten. Eén lang bericht met een grote bijlage kost veel meer tokens dan tien korte vragen. Zie de term token voor wat een token precies is.

"De ChatGPT-app en de API delen dezelfde limiet"

Een abonnement en de API zijn aparte systemen met aparte limieten. Je betaalde chat-abonnement geeft je geen API-tegoed en andersom. Verwar de twee werelden niet: in een abonnement tel je gebruik per venster, op de API tel je requests en tokens per minuut.

"Als ik direct opnieuw probeer na een 429, lukt het wel"

Eerder opnieuw proberen dan de retry-after header aangeeft, faalt sowieso en maakt het drukker. Respecteer de wachttijd en gebruik exponential backoff. Een hogere max_tokens instellen kost trouwens geen extra rate-limit bij Anthropic: OTPM telt alleen tokens die het model echt genereert.

Tools Die Dit Gebruiken

Anthropic APIOpenAI APIClaude Codeclaude.aiChatGPT

Veelgestelde Vragen

Hoe werken limits bij Claude?

In een Claude-abonnement geldt een rollend sessievenster van vijf uur dat start bij je eerste bericht en vijf uur later reset, plus een weeklimiet die zeven dagen na je sessiestart reset. Al je Claude-oppervlakken (claude.ai, Claude Code, Claude Desktop) putten uit dezelfde pot. Op de API tel je apart in requests en tokens per minuut.

Wat is een rate limit precies?

Een rate limit is een bovengrens op hoeveel je in een bepaalde tijd mag gebruiken bij een AI-aanbieder. Het beschermt de servers tegen overbelasting en verdeelt de capaciteit eerlijk over alle gebruikers. Het is geen straf maar normaal capaciteitsbeheer; iedereen heeft limieten.

Wat betekent error 429 en hoe los ik het op?

Een 429-fout ("Too Many Requests") betekent dat je een rate limit hebt overschreden. De aanbieder geeft een retry-after header mee die zegt hoeveel seconden je minimaal moet wachten. De aanbevolen aanpak is exponential backoff met jitter: kort wachten, opnieuw proberen, de wachttijd verdubbelen bij herhaalde fouten, met willekeurige spreiding.

Waarom krijg ik een rate limit terwijl ik weinig tokens gebruik?

Waarschijnlijk raak je je requests-per-minute-limiet en niet je token-limiet. De API werkt met een token-bucket-mechanisme dat ongeveer per seconde afdwingt, dus een korte piek van veel verzoeken kan de limiet raken terwijl je token-totaal laag blijft. Spreid je verzoeken in de tijd.

Wat is het verschil tussen rate limits in een abonnement en op de API?

In een abonnement tel je gebruik per tijdvenster (bij Claude een rollend venster van vijf uur plus een weeklimiet), bedoeld voor mensen die chatten. Op de API tel je in requests en tokens per minuut (RPM, ITPM, OTPM), bedoeld voor apps en code. Het zijn aparte systemen met aparte limieten.

Hoe verhoog ik mijn rate limits?

Op de API zijn limieten gekoppeld aan een usage tier; naarmate je betaalde uitgaven stijgen, schuif je automatisch op naar een hogere tier met hogere limieten. In een abonnement upgrade je naar een hoger plan of koop je extra usage-credits. Ontwikkelaars kunnen hun effectieve doorvoer ook verhogen met prompt caching, omdat gecachte input-tokens bij de meeste Claude-modellen niet meetellen.

Gerelateerde Termen

API Token Context Window Tool Use / Function Calling Claude Code Claude LLM

Wil je deze term in de praktijk leren toepassen?

Bekijk de Claude Code Masterclass Plan Kennismaking