Embeddings

Simpele Uitleg

Embeddings zijn hoe AI "betekenis" begrijpt. Het zet tekst om in getallen (vectoren), waarbij vergelijkbare betekenissen dichtbij elkaar komen — als coördinaten op een kaart. "Hond" en "puppy" liggen dicht bij elkaar, "hond" en "auto" ver uit elkaar. Hierdoor kan AI zoeken op betekenis in plaats van alleen exacte woorden.

Technische Definitie

Embeddings zijn dense numerieke vectoren die de semantische betekenis van tekst vastleggen in een hoog-dimensionale ruimte. Een embedding-model (zoals OpenAI text-embedding-3-small) is getraind op miljarden tekstparen om te leren welke zinnen vergelijkbaar zijn. De resulterende vectoren worden opgeslagen in een vector database en doorzocht via cosine similarity. Kosten: ~$0,02 per miljoen tokens bij OpenAI. Moderne modellen werken multilinguale en multimodaal (tekst, beeld, audio).

Waarom Dit Belangrijk Is

Zonder embeddings kan AI alleen zoeken op exacte woorden. Je zoekt "laptop repareren" maar je document heet "notebook herstellen" — gewoon zoeken vindt niks, embeddings wel.

Of je klant vraagt "wifi doet het niet" en je handleiding heet "internetverbinding oplossen" — embeddings begrijpen dat dit hetzelfde probleem is.

Embeddings zijn de onzichtbare motor achter RAG, semantic search en elke AI-chatbot die jouw documenten doorzoekt. Voor teams die AI inzetten voor kennisbeheer is dit de fundamentele technologie die alles mogelijk maakt.

Hoe Het Werkt

Stel je een gigantische kaart voor. Elk document in je bedrijf krijgt een plek op die kaart — niet op alfabet, maar op betekenis. Documenten over hetzelfde onderwerp staan dicht bij elkaar.

Zo werkt het:
1. Je stuurt je documenten naar een embedding-dienst (bijv. OpenAI)
2. Elk document wordt omgezet naar een lijst getallen (vector)
3. Die vectoren sla je op in een vector database
4. Als iemand zoekt, wordt de zoekvraag ook een vector
5. Het systeem vindt de documenten die het dichtst bij de vraag liggen

Dit is hoe ChatGPT en Claude jouw documenten doorzoeken in een RAG-systeem. Development teams bouwen dit in, de rest van het bedrijf profiteert.

Use Cases

Klantenservice chatbot

Je hebt honderden hulpartikelen. Een klant vraagt "ik heb nog geen geld terug". Embeddings vinden ook artikelen over "restitutie vertraging" en "terugbetaling procedure" — zelfs als die exacte woorden er niet in staan.

Interne kennisbank doorzoeken

Medewerkers zoeken "hoe vraag ik vakantie aan?" en vinden het document "Verlofprocedure" — omdat embeddings begrijpen dat "vakantie" en "verlof" hetzelfde betekenen. Ideaal voor teams met veel interne documentatie.

Dubbele vragen herkennen

Je support team krijgt dagelijks dezelfde vragen in andere bewoordingen. Embeddings herkennen: "deze vraag lijkt op vraag 127" en suggereren automatisch het bestaande antwoord.

Aanbevelingssystemen

Op je blog leest iemand over AI in marketing. Embeddings vinden vergelijkbare artikelen — niet op basis van tags, maar op basis van inhoudelijke overeenkomst. Lezers blijven langer op je site.

Voorbeelden

Embeddings in actie: zoeken op betekenis

Zoekopdracht: "laptop repareren"

Zonder embeddings: vindt alleen documenten met exact "laptop repareren".

Met embeddings: vindt ook "notebook herstellen", "computer troubleshooting" en "MacBook naar servicecentrum" — omdat de betekenis overeenkomt.

Dit werkt zelfs tussen talen: zoek in het Nederlands, vind relevante Engelse documenten.

Wat embeddings kosten

OpenAI's text-embedding-3-small kost $0,02 per miljoen tokens. Praktisch: 1.000 documenten embedden kost minder dan €1. Per zoekopdracht betaal je fracties van een cent. Het is een van de goedkoopste AI-toepassingen die je kunt implementeren.

Multilinguale embeddings

Moderne embedding-modellen begrijpen tientallen talen tegelijk. Een Nederlandse vraag vindt relevante Engelse documenten en andersom. Dit is waardevol voor internationale bedrijven die kennisbases in meerdere talen hebben.

Veelgemaakte Fouten

"Embeddings zijn te technisch voor ons"

Je hoeft de wiskunde niet te begrijpen om ze te gebruiken. Tools als Notion en Slack gebruiken embeddings onder de motorkap. En diensten als OpenAI doen het technische werk — jij stuurt tekst, krijgt vectoren terug.

"Alle embedding-modellen zijn gelijk"

De kwaliteit verschilt enorm. OpenAI, Cohere en Voyage AI hebben elk sterke en zwakke punten. Test met jouw eigen data welk model de beste resultaten geeft voor jouw taal en domein.

"Eenmalig embedden en klaar"

Als je documenten veranderen, moeten de embeddings opnieuw gegenereerd worden. Bouw een proces dat automatisch bijwerkt als content wijzigt, anders geeft je AI verouderde antwoorden.

Tools Die Dit Gebruiken

OpenAI Embeddings APICohere EmbedVoyage AIPineconeWeaviate

Veelgestelde Vragen

Wat kosten embeddings?

Zeer weinig. OpenAI's goedkoopste model kost $0,02 per miljoen tokens. Dat betekent: duizenden documenten embedden voor minder dan een euro. Het is een van de meest betaalbare AI-toepassingen.

Moet ik kunnen programmeren om embeddings te gebruiken?

Niet per se. Veel tools (Notion, NotebookLM, Pinecone) hebben embeddings ingebouwd. Een eigen systeem bouwen vraagt wel basiskennis van API's, maar er zijn talloze tutorials en no-code opties beschikbaar.

Werken embeddings ook in het Nederlands?

Ja. Moderne embedding-modellen ondersteunen tientallen talen, inclusief Nederlands. De kwaliteit is de afgelopen jaren enorm verbeterd — het verschil met Engels is minimaal geworden.

Gerelateerde Termen

Vector Database Semantic Search RAG LLM Token API Fine-tuning

Wil je deze term in de praktijk leren toepassen?

Bekijk Trainingen Plan Kennismaking