intermediateTechnisch

6 min leestijd

Prompt caching

Door Dennis Claassen · Laatst bijgewerkt feb 2026

Simpele Uitleg

Prompt caching is een functie van AI-API's waarmee een stuk tekst dat je telkens opnieuw meestuurt maar één keer hoeft te worden verwerkt. Denk aan een lang systeeminstructie-blok, een handleiding, een hele codebase of een set voorbeelden. Het model bewaart de verwerkte begintekst tijdelijk en hergebruikt die bij volgende verzoeken. Het resultaat: goedkoper en sneller bij herhaalde context. Anthropic noemt het zelf het 'hervatten vanaf een bekende start' van je prompt, wat de verwerkingstijd en kosten flink verlaagt voor taken die zich herhalen. Het bewaart dus de verwerking van je invoer, niet het antwoord zelf.

Technische Definitie

Prompt caching slaat de interne verwerkingsstaat van een prompt-prefix tijdelijk op, zodat een volgend verzoek met exact dezelfde begintekst die verwerking kan hergebruiken in plaats van opnieuw uit te voeren. Bij een nieuw verzoek vergelijkt het systeem de prefix met wat al in de cache staat. Komt het overeen, dan volgt een cache hit (goedkoop en snel). Zo niet, dan wordt de hele prompt verwerkt en de prefix opgeslagen voor de volgende keer. Anthropic werkt met expliciete cache breakpoints (`cache_control`), waarbij de volgorde tools, system, dan messages is. OpenAI doet dit automatisch en hasht typisch het begin van de prompt. Google Gemini biedt impliciete (automatische) en expliciete (handmatige) caching. Een cache hit vereist een 100% identieke prefix; één afwijkend teken vooraan breekt de cache.

Waarom Dit Belangrijk Is

Waarom zou je je druk maken om prompt caching als je gewoon met een AI-API werkt? Omdat het direct twee dingen raakt waar elk bedrijf op let: kosten en snelheid. Veel toepassingen sturen bij elk verzoek dezelfde grote context mee, zoals een vast instructie-blok, merkrichtlijnen of een kennisbestand. Zonder caching betaal je daar elke keer opnieuw voor.

Met caching wordt dat herhaalde stuk maar één keer echt verwerkt. Anthropic spreekt van tot circa 90% lagere kosten en tot circa 85% lagere latentie op lange prompts (op dit moment, varieert per aanbieder en model). Voor een chatbot of een interne tool die de hele dag draait, telt dat snel op.

Het is ook een kerntechniek bij het bouwen van agents en tools met Claude Code. In de Claude Code Masterclass leer je hoe je context slim opbouwt zodat caching maximaal werkt.

Hoe Het Werkt

Prompt caching werkt in drie stappen die je makkelijk kunt onthouden.

Stap 1: het werkt op de prefix, het begin van je prompt tot een bepaald punt. Het systeem maakt een soort vingerafdruk (een hash) van dat begin. OpenAI doet dit automatisch en hasht typisch het eerste stukje; Anthropic gebruikt expliciete breekpunten die je zelf markeert.

Stap 2: bij een nieuw verzoek kijkt het systeem of die begintekst al in de cache staat. Staat hij er (cache hit), dan wordt de opgeslagen verwerking hergebruikt: goedkoop en snel. Staat hij er niet, dan wordt de hele prompt verwerkt en het begin opgeslagen voor de volgende keer.

Stap 3, de gouden regel: zet vaste, herhaalde tekst vooraan en wisselende tekst (de vraag van de gebruiker) achteraan. OpenAI, Google en Anthropic zeggen dit alle drie. De cache hit vereist een exact identiek begin, dus één veranderd teken vooraan breekt alles.

Let op twee grenzen die per aanbieder verschillen. Er geldt een minimumlengte (op dit moment vaak rond 1.024 tokens; te kort betekent geen caching, zonder foutmelding). En de cache is vluchtig: hij verloopt na korte inactiviteit (op dit moment doorgaans enkele minuten, soms te verlengen). In AI gebruiken voor bedrijven leer je hoe je dit praktisch inzet.

Use Cases

Chatbot met een vast instructie-blok

Een klantenservice-bot stuurt bij elke vraag hetzelfde lange systeeminstructie-blok en dezelfde merkrichtlijnen mee. Door dat blok vooraan te plaatsen en te cachen, wordt het maar één keer verwerkt. Alleen de wisselende klantvraag achteraan wordt steeds opnieuw verwerkt, wat de bot goedkoper en sneller maakt.

Vragen stellen over een groot document of codebase

Je laadt één keer een lang document of een hele codebase als context en stelt er daarna veel vragen over. De grote vaste context staat vooraan en blijft in de cache; elke nieuwe vraag profiteert van een cache hit zolang je binnen het tijdvenster blijft.

Few-shot prompting met vaste voorbeelden

Bij few-shot prompting zet je een set vaste voorbeelden vooraan om het model te sturen. Die voorbeelden veranderen niet tussen verzoeken, dus ze zijn ideaal om te cachen. Alleen de nieuwe invoer onderaan wisselt.

Multi-turn gesprekken

In een doorlopend gesprek groeit de geschiedenis aan het begin van elke prompt. Door die groeiende, maar verder vaste, geschiedenis te cachen betaal je niet elke beurt opnieuw de volle prijs voor wat al gezegd is.

Voorbeelden

Anthropic: cache_control op het systeem-blok

Bij Anthropic markeer je het breekpunt met `cache_control` van type `ephemeral`. Alles tot en met dat blok wordt gecachet; de wisselende gebruikersvraag staat in messages erna.

curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -d '{
    "model": "<huidig model>",
    "max_tokens": 1024,
    "system": [
      {
        "type": "text",
        "text": "You are an AI assistant tasked with analyzing literary works...",
        "cache_control": {"type": "ephemeral"}
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Analyze the major themes in Pride and Prejudice."
      }
    ]
  }'

OpenAI: automatisch, zonder code-wijziging

Bij OpenAI gebeurt caching automatisch zodra je prompt lang genoeg is (op dit moment vanaf ongeveer 1.024 tokens). Je hoeft niets te markeren en betaalt niets extra voor het wegschrijven. De enige actie van jou: zet de vaste instructies en voorbeelden vooraan en de gebruiker-specifieke informatie achteraan, zodat het begin tussen verzoeken identiek blijft.

Gemini: impliciet of expliciet

Google biedt twee smaken. Impliciete caching staat op nieuwere modellen standaard aan, vraagt geen setup en kent geen opslagkosten. Expliciete caching regel je zelf en geeft een gegarandeerde besparing, maar rekent opslagkosten zolang de cache leeft. Gecachte tokens worden op de nieuwste modellen tegen circa een tiende van de normale inputprijs gefactureerd (op dit moment).

Veelgemaakte Fouten

"Prompt caching betekent dat het antwoord wordt hergebruikt."

Nee. Het bewaart de interne verwerking van je invoer (de prefix), niet het uitvoer-antwoord. Hetzelfde begin geeft dus niet automatisch hetzelfde antwoord. Wat je beschrijft is response caching, een heel andere techniek die output opslaat.

"Mijn prompts worden zo met andere bedrijven gedeeld."

Nee. Caches zijn geïsoleerd per organisatie. Verschillende organisaties delen nooit een cache, ook niet bij exact identieke prompts. OpenAI stelt expliciet dat caches niet tussen organisaties worden gedeeld.

"Het werkt op elke prompt, ook korte."

Nee. Er geldt een minimumlengte (op dit moment vaak rond 1.024 tokens, varieert per aanbieder en model). Is je prompt korter, dan wordt er niets gecachet, en je krijgt geen foutmelding. Te kort gelijkt dus stil op 'geen caching'.

"Eenmaal gecachet, blijft het bewaard."

Nee. De cache is vluchtig en verloopt na korte inactiviteit (op dit moment doorgaans enkele minuten, soms te verlengen). Komt er een tijdje geen verzoek met dezelfde prefix, dan moet de eerstvolgende keer alles opnieuw worden verwerkt.

Tools Die Dit Gebruiken

ClaudeChatGPTGeminiClaude Code

Veelgestelde Vragen

Wat is prompt caching?

Prompt caching is een functie van AI-API's waarmee een stuk tekst dat je telkens opnieuw meestuurt maar één keer hoeft te worden verwerkt. Het model bewaart de verwerkte begintekst (de prefix) tijdelijk en hergebruikt die bij volgende verzoeken. Daardoor wordt herhaalde context goedkoper en sneller. Het bewaart de verwerking van je invoer, niet het antwoord.

Wanneer loont prompt caching?

Het loont als je dezelfde grote context vaak hergebruikt binnen een korte tijdspanne: lange systeeminstructies, vaste kennisbestanden, few-shot voorbeelden of doorlopende gesprekken. Het loont niet bij korte, telkens compleet andere, eenmalige prompts. Bij sommige aanbieders betaal je dan zelfs iets extra voor het wegschrijven naar de cache zonder dat je het terugverdient.

Wat is het verschil tussen prompt caching en response caching?

Prompt caching bewaart de interne verwerking van je invoer (de prefix), zodat een volgend verzoek met hetzelfde begin sneller en goedkoper is. Response caching bewaart een eerder gegeven antwoord en geeft dat opnieuw terug. Prompt caching levert dus niet automatisch hetzelfde antwoord op; het versnelt alleen de verwerking van de invoer.

Worden mijn gecachte prompts met andere bedrijven gedeeld?

Nee. Caches zijn geïsoleerd per organisatie. Verschillende organisaties delen nooit een cache, zelfs niet als ze exact dezelfde prompt sturen. Dit is vastgelegd beleid bij de grote aanbieders, zoals OpenAI dat expliciet stelt.

Hoe activeer ik prompt caching?

Dat verschilt per aanbieder. Bij OpenAI gebeurt het automatisch zodra je prompt lang genoeg is; je hoeft niets te doen behalve vaste tekst vooraan zetten. Bij Anthropic markeer je het breekpunt zelf met `cache_control`. Bij Google kies je tussen automatische (impliciete) en handmatige (expliciete) caching.

Waarom werkt mijn prompt caching niet?

Meestal door één van twee oorzaken. Je prompt is te kort (er geldt op dit moment vaak een minimum rond 1.024 tokens, en je krijgt geen foutmelding). Of het begin van je prompt is niet exact identiek aan de vorige keer; één afwijkend teken vooraan breekt de cache al. Controleer ook of er niet te veel tijd tussen verzoeken zat, want de cache verloopt na korte inactiviteit.

Gerelateerde Termen

Prompt Engineering Context Window Token API Claude Code Context Engineering Few-shot Learning Rate limits

Wil je deze term in de praktijk leren toepassen?

Bekijk de Claude Code Masterclass Plan Kennismaking