Simpele Uitleg
Prompt caching is een functie van AI-API's waarmee een stuk tekst dat je telkens opnieuw meestuurt maar één keer hoeft te worden verwerkt. Denk aan een lang systeeminstructie-blok, een handleiding, een hele codebase of een set voorbeelden. Het model bewaart de verwerkte begintekst tijdelijk en hergebruikt die bij volgende verzoeken. Het resultaat: goedkoper en sneller bij herhaalde context. Anthropic noemt het zelf het 'hervatten vanaf een bekende start' van je prompt, wat de verwerkingstijd en kosten flink verlaagt voor taken die zich herhalen. Het bewaart dus de verwerking van je invoer, niet het antwoord zelf.
Technische Definitie
Prompt caching slaat de interne verwerkingsstaat van een prompt-prefix tijdelijk op, zodat een volgend verzoek met exact dezelfde begintekst die verwerking kan hergebruiken in plaats van opnieuw uit te voeren. Bij een nieuw verzoek vergelijkt het systeem de prefix met wat al in de cache staat. Komt het overeen, dan volgt een cache hit (goedkoop en snel). Zo niet, dan wordt de hele prompt verwerkt en de prefix opgeslagen voor de volgende keer. Anthropic werkt met expliciete cache breakpoints (`cache_control`), waarbij de volgorde tools, system, dan messages is. OpenAI doet dit automatisch en hasht typisch het begin van de prompt. Google Gemini biedt impliciete (automatische) en expliciete (handmatige) caching. Een cache hit vereist een 100% identieke prefix; één afwijkend teken vooraan breekt de cache.
Waarom Dit Belangrijk Is
Waarom zou je je druk maken om prompt caching als je gewoon met een AI-API werkt? Omdat het direct twee dingen raakt waar elk bedrijf op let: kosten en snelheid. Veel toepassingen sturen bij elk verzoek dezelfde grote context mee, zoals een vast instructie-blok, merkrichtlijnen of een kennisbestand. Zonder caching betaal je daar elke keer opnieuw voor.
Met caching wordt dat herhaalde stuk maar één keer echt verwerkt. Anthropic spreekt van tot circa 90% lagere kosten en tot circa 85% lagere latentie op lange prompts (op dit moment, varieert per aanbieder en model). Voor een chatbot of een interne tool die de hele dag draait, telt dat snel op.
Het is ook een kerntechniek bij het bouwen van agents en tools met Claude Code. In de Claude Code Masterclass leer je hoe je context slim opbouwt zodat caching maximaal werkt.
Hoe Het Werkt
Prompt caching werkt in drie stappen die je makkelijk kunt onthouden.
Stap 1: het werkt op de prefix, het begin van je prompt tot een bepaald punt. Het systeem maakt een soort vingerafdruk (een hash) van dat begin. OpenAI doet dit automatisch en hasht typisch het eerste stukje; Anthropic gebruikt expliciete breekpunten die je zelf markeert.
Stap 2: bij een nieuw verzoek kijkt het systeem of die begintekst al in de cache staat. Staat hij er (cache hit), dan wordt de opgeslagen verwerking hergebruikt: goedkoop en snel. Staat hij er niet, dan wordt de hele prompt verwerkt en het begin opgeslagen voor de volgende keer.
Stap 3, de gouden regel: zet vaste, herhaalde tekst vooraan en wisselende tekst (de vraag van de gebruiker) achteraan. OpenAI, Google en Anthropic zeggen dit alle drie. De cache hit vereist een exact identiek begin, dus één veranderd teken vooraan breekt alles.
Let op twee grenzen die per aanbieder verschillen. Er geldt een minimumlengte (op dit moment vaak rond 1.024 tokens; te kort betekent geen caching, zonder foutmelding). En de cache is vluchtig: hij verloopt na korte inactiviteit (op dit moment doorgaans enkele minuten, soms te verlengen). In AI gebruiken voor bedrijven leer je hoe je dit praktisch inzet.
Use Cases
Chatbot met een vast instructie-blok
Een klantenservice-bot stuurt bij elke vraag hetzelfde lange systeeminstructie-blok en dezelfde merkrichtlijnen mee. Door dat blok vooraan te plaatsen en te cachen, wordt het maar één keer verwerkt. Alleen de wisselende klantvraag achteraan wordt steeds opnieuw verwerkt, wat de bot goedkoper en sneller maakt.
Vragen stellen over een groot document of codebase
Je laadt één keer een lang document of een hele codebase als context en stelt er daarna veel vragen over. De grote vaste context staat vooraan en blijft in de cache; elke nieuwe vraag profiteert van een cache hit zolang je binnen het tijdvenster blijft.
Few-shot prompting met vaste voorbeelden
Bij few-shot prompting zet je een set vaste voorbeelden vooraan om het model te sturen. Die voorbeelden veranderen niet tussen verzoeken, dus ze zijn ideaal om te cachen. Alleen de nieuwe invoer onderaan wisselt.
Multi-turn gesprekken
In een doorlopend gesprek groeit de geschiedenis aan het begin van elke prompt. Door die groeiende, maar verder vaste, geschiedenis te cachen betaal je niet elke beurt opnieuw de volle prijs voor wat al gezegd is.
Voorbeelden
Anthropic: cache_control op het systeem-blok
curl https://api.anthropic.com/v1/messages \
-H "content-type: application/json" \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-d '{
"model": "<huidig model>",
"max_tokens": 1024,
"system": [
{
"type": "text",
"text": "You are an AI assistant tasked with analyzing literary works...",
"cache_control": {"type": "ephemeral"}
}
],
"messages": [
{
"role": "user",
"content": "Analyze the major themes in Pride and Prejudice."
}
]
}'OpenAI: automatisch, zonder code-wijziging
Gemini: impliciet of expliciet
Veelgemaakte Fouten
"Prompt caching betekent dat het antwoord wordt hergebruikt."
Nee. Het bewaart de interne verwerking van je invoer (de prefix), niet het uitvoer-antwoord. Hetzelfde begin geeft dus niet automatisch hetzelfde antwoord. Wat je beschrijft is response caching, een heel andere techniek die output opslaat.
"Mijn prompts worden zo met andere bedrijven gedeeld."
Nee. Caches zijn geïsoleerd per organisatie. Verschillende organisaties delen nooit een cache, ook niet bij exact identieke prompts. OpenAI stelt expliciet dat caches niet tussen organisaties worden gedeeld.
"Het werkt op elke prompt, ook korte."
Nee. Er geldt een minimumlengte (op dit moment vaak rond 1.024 tokens, varieert per aanbieder en model). Is je prompt korter, dan wordt er niets gecachet, en je krijgt geen foutmelding. Te kort gelijkt dus stil op 'geen caching'.
"Eenmaal gecachet, blijft het bewaard."
Nee. De cache is vluchtig en verloopt na korte inactiviteit (op dit moment doorgaans enkele minuten, soms te verlengen). Komt er een tijdje geen verzoek met dezelfde prefix, dan moet de eerstvolgende keer alles opnieuw worden verwerkt.
Tools Die Dit Gebruiken
Veelgestelde Vragen
Wat is prompt caching?
Wanneer loont prompt caching?
Wat is het verschil tussen prompt caching en response caching?
Worden mijn gecachte prompts met andere bedrijven gedeeld?
Hoe activeer ik prompt caching?
Waarom werkt mijn prompt caching niet?
Gerelateerde Termen
Wil je deze term in de praktijk leren toepassen?