advancedGeavanceerd

7 min leestijd

Computer use

Computer use (browser-agents en screen control)

Door Dennis Claassen · Laatst bijgewerkt feb 2026

Simpele Uitleg

Computer use is een techniek waarbij een AI-model een computer of browser bedient zoals een mens: het kijkt naar het scherm via screenshots en stuurt vervolgens muis- en toetsenbordacties terug, zoals klikken op een coordinaat, typen, scrollen en sneltoetsen. Het model krijgt geen kant-en-klare knoppen-API, maar werkt op wat het ziet. Daardoor werkt het op vrijwel elke software, ook als er geen API bestaat. Je ziet de term ook als computer-using agent (CUA), browser-agent of screen control. Het zit een laag onder tool use en MCP: breder inzetbaar, maar trager en foutgevoeliger.

Technische Definitie

Bij Anthropic werkt computer use via een schema-loze tool die screenshot-, muis- en toetsenbordmogelijkheden biedt voor desktopinteractie. Volgens de officiele docs is de tool schema-loos: het schema zit ingebouwd in het model en kun je niet aanpassen. Het draait in een agent loop. Het model raakt de computer nooit zelf aan: "Your application must explicitly run the computer use tool; Claude cannot run it directly." Jouw code voert screenshots, muisbewegingen en toetsaanslagen uit, meestal in een virtueel X11-scherm (Xvfb) in een Docker-container met voorgeinstalleerde apps. OpenAI biedt eenzelfde patroon via een computer-call-loop in de API: het model levert een computer_call, jouw code voert die uit en stuurt een computer_call_output terug.

Waarom Dit Belangrijk Is

Waarom zou je een AI op een scherm laten klikken in plaats van een nette functie te laten aanroepen? Omdat de meeste software geen API heeft. Een oude desktopapp, een interne tool, een website zonder integratie: voor een gewone agent is dat een gesloten deur. Computer use opent die deur door het model gewoon te laten kijken en klikken, net als een medewerker. Dat maakt het de meest universele vorm van automatisering die er nu bestaat.

De keerzijde hoort bij de definitie: het is trager en foutgevoeliger dan een echte API, en het brengt risico's mee. Een webpagina of e-mail kan verborgen instructies bevatten die de agent kapen (prompt injection). Daarom hoort veiligheid hier geen voetnoot te zijn maar een ontwerpkeuze: een geisoleerde sandbox, een mens in de lus bij beslissingen met gevolgen, en internettoegang beperkt tot een allowlist. Wil je dit zelf bouwen of begrijpen hoe agents in de praktijk werken? In de Claude Code Masterclass leer je hoe je agents veilig en effectief inzet.

Hoe Het Werkt

De rode draad is een lus van vier stappen, bij Anthropic de "agent loop" genoemd. Het is simpel als je het ziet als: zien, beslissen, doen, opnieuw kijken.

1. Zien: jouw app stuurt een opdracht plus een screenshot naar het model.
2. Beslissen: het model bekijkt het scherm en geeft een actie terug, bijvoorbeeld een klik op coordinaat [500, 300] of "type deze tekst".
3. Doen: jouw applicatie voert die actie echt uit in een afgeschermde omgeving. Het model zelf raakt niets aan.
4. Opnieuw kijken: je maakt een nieuwe screenshot en stuurt die terug als resultaat. Herhaal tot de taak klaar is of een maximaal aantal stappen is bereikt. Die limiet voorkomt eindeloze, dure lussen.

Bij Anthropic vraagt het model een tool aan (stop_reason wordt tool_use), waarna jij een tool_result terugstuurt. Bij OpenAI loopt dezelfde lus via de API: het model levert een computer_call, jouw code voert die uit en stuurt een computer_call_output terug, net zo lang tot er geen computer_call meer komt. De basisacties zijn in alle versies hetzelfde: screenshot, left_click, type, key (sneltoets, bijvoorbeeld ctrl+s) en mouse_move. Uitgebreide acties zijn onder meer scroll, left_click_drag, right_click, double_click, hold_key en wait. De nieuwste tool-versie voegt op dit moment een zoom-actie toe om een schermdeel op volledige resolutie te bekijken. Het verschil met MCP en gewone tool use: daar roept het model een nette, voorgedefinieerde functie aan en krijgt gestructureerde data terug. Bij computer use moet het model zelf het scherm interpreteren en de juiste plek aanklikken.

Use Cases

Software automatiseren die geen API heeft

Een interne tool, een verouderde desktopapp of een leveranciersportaal zonder koppeling: computer use laat de AI er gewoon doorheen klikken en typen, net als een medewerker. Dit is de kerntoepassing, want juist hier helpt een gewone integratie niet.

Browser-taken uitvoeren

Formulieren invullen, informatie opzoeken op meerdere pagina's, gegevens overtikken van de ene site naar de andere. Anthropic biedt hiervoor ook "Claude in Chrome", een browser-extensie waarmee Claude op dit moment in beta meeleest, klikt en navigeert binnen je browser.

AI zijn eigen werk laten testen (browser-verificatie)

Bij agentic development bouwt de AI een web-app en test die daarna zelf in een echte browser. Google Antigravity start de server, opent een gecontroleerde browser, klikt door de flows en levert screenshots en walkthroughs op als bewijs. Zo verifieer je de logica van de agent in een oogopslag in plaats van alles zelf na te lopen.

Repetitieve klik-en-typ-taken

Terugkerende handelingen tussen verschillende programma's, zoals data uit een rapport overzetten naar een ander systeem. Begin met laag-risico taken zonder onomkeerbare gevolgen en houd een mens erbij voordat de agent iets definitiefs doet.

Voorbeelden

De computer use tool definieren (Anthropic)

Je geeft de tool mee aan het model en zet de schermafmetingen. Computer use is schema-loos, dus je geeft geen input-schema mee zoals bij gewone tools. Een beta-header is op dit moment nog vereist.

response = client.beta.messages.create(
    model="claude-opus-4-8",
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
    ],
    messages=[{"role": "user", "content": "Save a picture of a cat to my desktop."}],
    betas=["computer-use-2025-11-24"],
)

Een actie die het model teruggeeft

Zo ziet een actie eruit die het model terugstuurt. Een klik op een coordinaat, en daarna typen. Jouw code voert deze acties uit en stuurt het resultaat (een nieuwe screenshot) terug.

{ "action": "left_click", "coordinate": [500, 300] }

{ "action": "type", "text": "Hello, world!" }

OpenAI: dezelfde lus, andere naam

OpenAI's computer-use-model laat software bedienen via de interface: het inspecteert screenshots en geeft acties terug die jouw code uitvoert. Je stuurt de taak met de computer-tool, bekijkt de computer_call, voert de actie uit, stuurt een computer_call_output terug, en herhaalt tot er geen computer_call meer komt. OpenAI heeft Operator opgevolgd door agent mode, op dit moment geintegreerd in ChatGPT.

Veelgemaakte Fouten

"Het model bestuurt zelf direct de computer"

Nee. Het model geeft alleen acties terug; jouw code voert ze echt uit. Anthropic stelt het expliciet: "Your application must explicitly run the computer use tool; Claude cannot run it directly." Jij implementeert de screenshots, muisbewegingen en toetsaanslagen.

"Computer use is hetzelfde als MCP of tool use"

Nee. Bij MCP en tool use roept het model een nette, voorgedefinieerde functie aan en krijgt gestructureerde data terug. Bij computer use ziet het model het scherm en stuurt muis- en toetsacties. Computer use werkt zonder API maar is trager en foutgevoeliger. Ze kunnen elkaar aanvullen.

"Het is betrouwbaar genoeg voor onbewaakte taken met gevolgen"

Nog niet. Aanbieders raden aan: begin met laag-risico taken, houd een mens in de lus bij belangrijke gevolgen (betalingen, e-mails versturen, akkoord op voorwaarden), draai in een geisoleerde VM of sandbox, en beperk internettoegang tot een allowlist.

"Prompt injection is opgelost"

Nee. Een webpagina, e-mail of afbeelding kan verborgen instructies bevatten die de agent kapen. Anthropic schrijft dat "no browser agent is immune to prompt injection" en dat zelfs een laag aanvalspercentage "still represents meaningful risk". Zie prompt injection voor de uitleg.

Tools Die Dit Gebruiken

Claude (computer use tool)Claude in ChromeChatGPT agentOpenAI API (computer use)Google Antigravity

Veelgestelde Vragen

Wat is computer use?

Computer use is een techniek waarbij een AI-model een computer of browser bedient zoals een mens: het kijkt naar het scherm via screenshots en stuurt muis- en toetsenbordacties terug, zoals klikken, typen en scrollen. Het krijgt geen kant-en-klare knoppen-API maar werkt op wat het ziet. Daardoor werkt het op vrijwel elke software, ook zonder API.

Wat is het verschil tussen computer use en MCP of tool use?

Bij MCP en tool use roept het model een nette, voorgedefinieerde functie aan en krijgt gestructureerde data terug. Bij computer use moet het model zelf het scherm interpreteren en de juiste plek aanklikken. Computer use is breder inzetbaar omdat het geen API nodig heeft, maar het is trager en foutgevoeliger. De twee kunnen elkaar aanvullen.

Bestuurt de AI mijn computer echt zelf?

Nee. Het model geeft alleen acties terug, zoals een klik op een coordinaat of een stuk tekst om te typen. Jouw eigen code of omgeving voert die acties daadwerkelijk uit. Anthropic stelt dat Claude de tool niet zelf kan draaien; jij implementeert de screenshots, muis en het toetsenbord.

Is computer use veilig om te gebruiken?

Het kan veilig, mits je voorzorgen neemt. Draai het in een geisoleerde VM of sandbox met minimale rechten, geef geen gevoelige inloggegevens mee, beperk internettoegang tot een allowlist en laat een mens beslissingen met echte gevolgen bevestigen. Prompt injection is niet opgelost: een webpagina of e-mail kan de agent proberen te kapen.

Wat is een browser-agent?

Een browser-agent is een vorm van computer use die specifiek in de browser werkt: de AI leest de pagina, klikt, scrollt en vult formulieren in. Voorbeelden zijn Anthropic's Claude in Chrome (op dit moment in beta) en agent mode in ChatGPT. Google Antigravity gebruikt een browser-subagent om web-apps zelf te testen en met screenshots te verifieren.

Werkt computer use altijd foutloos?

Nee. Computer-use-agents zijn de afgelopen jaren sterk verbeterd, maar nog niet feilloos. Anthropic noemt het huidige vermogen "imperfect" en stelt dat handelingen die mensen moeiteloos doen, zoals scrollen, slepen en zoomen, op dit moment uitdagingen vormen. Begin daarom met laag-risico taken en controleer altijd de officiele docs voor de actuele stand.

Gerelateerde Termen

Tool Use / Function Calling MCP Prompt Injection AI Agent Agentic Loop Antigravity Human-in-the-Loop Claude Code

Wil je deze term in de praktijk leren toepassen?

Bekijk de Claude Code Masterclass Plan Kennismaking