Context Window

Simpele Uitleg

Stel je voor dat je een gesprek voert, maar je kunt alleen de laatste paar minuten onthouden. Dat is precies wat een context window is bij AI. Het bepaalt hoeveel tekst een AI-model als ChatGPT of Claude tegelijk kan "zien" en begrijpen. Alles wat buiten die window valt? Dat is het model vergeten.

Technische Definitie

Een context window is het maximale aantal tokens (stukjes tekst) dat een LLM in één keer kan verwerken. Dit omvat alles: je vraag, de achtergrond die je meegeeft, én het antwoord dat het model genereert. De huidige limieten: GPT-4o heeft 128K tokens (±300 pagina's), Claude gaat tot 200K tokens (±500 pagina's), en Gemini spant de kroon met 2 miljoen tokens. Die limiet bestaat omdat het attention-mechanisme in transformers steeds zwaarder wordt naarmate de input groeit.

Waarom Dit Belangrijk Is

Voor bedrijven maakt dit een concreet verschil. Stel: je wilt een compleet jaarverslag laten samenvatten, of je hele klantenservice-historie analyseren. Als die data niet in de context window past, moet je gaan knippen — en dan verlies je overzicht.

Maar groter is niet altijd beter. Het kost meer geld per request, antwoorden duren langer, en onderzoek van Chroma laat zien dat modellen slechter presteren als je te veel irrelevante informatie meegeeft. Bedrijven die AI serieus inzetten, leren daarom hoe ze slim met context omgaan — niet alles erin gooien, maar precies de juiste informatie meegeven. In onze ChatGPT, Claude & Gemini Masterclass leer je precies hoe je dit doet.

Hoe Het Werkt

Denk aan een bureau. De context window is hoe groot dat bureau is. Een klein bureau? Dan kun je maar een paar papieren tegelijk bekijken. Een groot bureau laat je tientallen documenten naast elkaar leggen.

Wanneer je een prompt stuurt naar een AI, wordt alles omgezet naar tokens — stukjes tekst van ongeveer 3 tot 4 karakters. Het model leest al die tokens, analyseert de verbanden ertussen, en genereert een antwoord. Zodra de context window vol is, kan het model geen nieuwe informatie meer verwerken.

Bij langere gesprekken "vergeet" het model daarom soms wat je aan het begin zei. Is je document te groot voor de window? Dan is RAG een slimme oplossing: je zoekt eerst de relevante stukken op en geeft alleen die mee. Wil je leren hoe je team hier effectief mee werkt? Bekijk dan AI als Teamsport.

Use Cases

Lange documenten samenvatten

Een juridisch kantoor laadt een contract van 200 pagina's in Claude (200K tokens) en vraagt om een samenvatting met de belangrijkste risico's. Zonder grote context window zou je het document in stukken moeten knippen — en dan mis je verbanden tussen clausules. Dit soort workflows leer je opzetten in de AI voor bedrijven training.

Codebase analyseren

Een development team laadt een complete codebase in een AI-model om bugs te vinden of refactoring-suggesties te krijgen. Met tools als Claude Code kun je hele projecten in context laden en er direct mee werken. De Claude Code Masterclass leert je hoe.

Klantgesprekken terugzoeken

Een support team uploadt alle chatlogs van een klant om snel context te krijgen over eerdere problemen. Met een grote context window hoef je niet handmatig door tientallen tickets te zoeken — de AI vindt de rode draad voor je.

AI als team-breed inzetten

Het echte verschil maak je pas als je hele team slim met context omgaat. Niet ieder voor zich, maar met gedeelde prompts, templates en workflows. Dat is precies wat we doen bij AI als Teamsport — AI inzetten als teamvaardigheid in plaats van individuele truc.

Voorbeelden

Vergelijking: kleine vs. grote context window

Je wilt een heel boek laten analyseren (±80.000 woorden = ±100K tokens).

- GPT-4o (128K): Past net, maar er blijft weinig ruimte over voor je vraag en het antwoord.
- Claude (200K): Ruim voldoende. Je kunt het boek meegeven plus een gedetailleerde prompt.
- Gemini (2M): Je kunt 10+ boeken tegelijk meegeven en vergelijken.

Meer context is niet gratis. Gemini met 2M tokens kost flink meer dan dezelfde vraag met 10K tokens relevante context. In de ChatGPT, Claude & Gemini Masterclass leer je welk model je wanneer inzet.

Wanneer RAG beter werkt dan een grote window

Een marketing team wil vragen beantwoorden over 5.000 productpagina's. Alles in de context window stoppen is onmogelijk én inefficiënt.

De oplossing: RAG met een vector database. Het systeem zoekt eerst de 5-10 meest relevante pagina's op en geeft alleen die mee. Resultaat: sneller, goedkoper, en betere antwoorden omdat het model niet verdwaalt in irrelevante informatie.

Veelgemaakte Fouten

"Meer context is altijd beter"

Onderzoek laat zien dat modellen slechter presteren met te veel irrelevante context. Een prompt van 2.000 tokens met precies de juiste informatie levert vaak betere resultaten op dan dezelfde vraag met 100.000 tokens aan achtergrond. Kwaliteit van context > kwantiteit.

"De context window is het geheugen van de AI"

De context window is geen langetermijngeheugen. Na elk gesprek is alles "vergeten". Wil je dat een AI iets onthoudt tussen sessies door? Dan heb je een database of RAG-systeem nodig. De context window is meer als werkgeheugen: tijdelijk en beperkt.

"Mijn gesprek past altijd in de context window"

Bij lange ChatGPT-gesprekken loop je stiekem tegen de limiet aan. Het model begint dan oudere berichten te "vergeten" of samen te vatten. Je merkt dit doordat de AI ineens context mist die je eerder gaf. Tip: begin een nieuw gesprek als je merkt dat de kwaliteit daalt.

Tools Die Dit Gebruiken

ChatGPT (128K tokens)Claude (200K tokens)Gemini (2M tokens)GPT-5 (400K tokens)

Veelgestelde Vragen

Hoeveel pagina's past er in een context window?

Reken met ongeveer 400 tokens per pagina normale tekst. ChatGPT (128K) past dan ±320 pagina's, Claude (200K) ±500 pagina's, en Gemini (2M) ±5.000 pagina's. Let op: code en technische tekst gebruiken meer tokens per pagina. En vergeet niet dat het antwoord van de AI ook tokens kost.

Wat gebeurt er als mijn tekst te lang is?

Dan krijg je een foutmelding of het model kapt je tekst af. De oplossing hangt af van je situatie: kies een model met een grotere window, knip je tekst in stukken, of gebruik RAG om alleen de relevante delen mee te geven. Bij chatgesprekken vat het model soms stilletjes oudere berichten samen om ruimte te maken.

Kost een grotere context window meer geld?

Ja. AI-providers rekenen per token. Als je 100K tokens meestuurt in plaats van 5K, betaal je dus 20x meer per request. Daarom is het slim om alleen relevante context mee te geven. Goede prompt engineering en technieken als RAG helpen je kosten laag te houden. In onze trainingen leer je hoe je dit in de praktijk doet.

Welk model heeft de grootste context window?

Gemini van Google leidt met 2 miljoen tokens. Claude van Anthropic biedt 200K standaard (en 1M in beta). GPT-5 ondersteunt 400K tokens input. Maar de grootste window is niet altijd de beste keuze — kosten, snelheid en de kwaliteit van het model op jouw taak zijn minstens zo belangrijk. Wil je leren welk model het beste past bij jouw bedrijf? Dat behandelen we uitgebreid in de ChatGPT, Claude & Gemini Masterclass.

Gerelateerde Termen

Token LLM RAG Embeddings Prompt Engineering Transformer

Wil je deze term in de praktijk leren toepassen?

Bekijk Trainingen Plan Kennismaking