Om KI-agenter og regnskap
I mars deltok jeg i en konkurranse hvor målet var å bruke kunstig intelligens for å løse oppgaver, NM i AI. Jeg og en venninne dannet lag og vårt mål var å lære. Resultatet ble deretter, vi havnet omtrent midt på rankingen. Det er ikke noe å skrive hjem om, men nå som det har gått en måneds tid siden jeg var med synes jeg fortsatt jeg lærte noen nyttige ting.
Oppgavene
Konkurransen bestod av tre oppgaver. Den første var levert av NorgesGruppen Data og handlet om å lage en modell som kunne kjenne igjen varer på hyllebilder fra butikker og klassifisere dem. Den andre var levert av Tripletex og handlet om å lage en agent som kunne håndtere oppgaver innen regnskap. Den tredje var an morsom oppgave levert av Astar Consulting (tror de stod for mesteparten av organiseringen). Oppgaven handlet om å lage prediksjoner for hvordan en verden, beskrevet av et pikselert kart med verdier som indikerte bebyggelse eller ikke osv, ville utvikle seg. Her har jeg notert noen av mine tanker rundt oppgaven levert av Tripletex.
Aldri mer skrive reiseregning for hånd?
Tripletexoppgaven var overraskende morsom til regnskap å være. Jeg hater, for eksempel, å levere reiseregninger. Med tilgang til Tripletex' API kan du lage en KI agent som klarer å levere reiseregning for deg bare med en kort beskrivelse av reisen og filer som inneholder kvitteringene. Hvert team fikk utdelt en Tripletex sandbox vi kunne teste agenten vår mot og det gikk overraskende greit å lage en agent som kunne det meste. Det eneste var at jeg måtte bruke den beste modellen fra Anthropic, Opus, for å få det til. Siden jeg var gjerrig (og med vilje ville prøve å få til å lage så billige løsninger som mulig) hadde jeg ikke spandert på meg selv en dyrere tilgang uten ratebegrensninger for Opus. Selv om min agent klarte oppgavene, bare den fikk nok tid, fungerte den dårlig i selve konkurransen fordi vi gikk til timeout før alt var gjennomført.
Billigere (og raskere) modeller
Jeg forsøkte meg på en blanding av modellene Sonnet og Opus hvor Sonnet tok seg av oppgaver i kategorier som var klassifisert som “enkle” og oppgaver av andre typer eller nye oppgaver vi ikke hadde møtt på før gikk til Opus. Dette fungerte ganske godt, men ga også timeout innimellom. Jeg prøvde så å bruke Claude Code til å overvåke loggene fra agenten og komme med forslag til forbedrede instruksjoner og prøve å gjøre instruksjonene så gode at til og med Haiku (raskere modell, men ikke like smart) kunne klare det. Resultatet ble fort at min regnskapsagents instruksjoner ble veldig tilpasset oppgavene i konkurransen og når jeg testet med en større variasjon av instruksjoner mot teamets sandbox feilet agenten brutalt. Haiku begynte å hallusinere endepunkter i APIen og lignende. Vi klarte ikke å lage en agent som både gjorde det bra i konkurransen og fungerte bra hvis vi utsatte den for en større variasjon av forespørsler.
Sikkerhet er krevende
En annen ting var at det var vanskelig å lage en virkelig nyttig agent uten at den også kunne overtales til gjøre sånne ting som å slette alle ansatte. Du vil jo at agenten skal ha tilganger nok til å gjøre alt du trenger at den gjør. Sikkerhet i et slikt system er ikke trivielt. Du kan antageligvis ikke bygge inn sikkerhet utelukkende i instruksjonene du gir din agent, men må ha ett lag i forkant av selve agenten som filtrerer vekk det som virker som skadelige prompts OG et lag mellom agenten og faktisk gjennomføring av forespørsler mot API som utelukker skadelige handlinger. Som å slette alt av bilag eller alle ansatte.
Leverandøravhengighet
I et produksjonsmiljø vil det nok være nærliggende å velge å bruke Opus, den dyreste og beste modellen fra Anthropic, eller tilsvarende fra en annen leverandør. I dag er nok tilgang til slike modeller underpriset sammenligned med hva det faktisk koster å vedlikeholde og videreutvikle slike ledende modeller. Likevel brukte laget vårt i overkant av 200 kroner på tokens en helg og da brukte vi mye Haiku og Sonnet, som er rimeligere. I dag bygger nok mange bedrifter tjenester basert å de beste modellene. Hva gjør man med tjenesten hvis leverandørene bestemmer seg for å sette opp prisen? Det var alt annet enn lett å bytte ut Opus med billigere alternativer. Jeg gjetter på at de største leverandørene fortsatt selger tilgang til en slags introduksjonspris og at den dagen mange nok har bygget opp avhengigheter, så vil prisen øke.
Du må nok skrive reiseregningen selv
Hvis vi, som hadde tilgang til en del gratis tokens (jeg hadde nettopp satt opp abonnement på Claude og hadde derfor noen gratis introduksjonstokens), brukte over 200 kroner på noen timer med forespørsler, hvor mye vil ikke det tilsvarende koste hvis en hel bedrift bruker det? Det skal godt gjøres å forsvare, økonomisk, å ha en agent som kanskje, kanskje ikke gjør som du vil heller enn å bare forvente at folk leverer sine egne reiseregninger. Hadde jeg vært sjef, så hadde jeg nok sagt at folk pent må laste ned den appen og taste inn de detaljene selv.
En smartere bruk
En smartere bruk kunne vært å utvikle en agent som hjelper regnskapsarbeidere utvikle, sammen med IT-folk, løsninger som automatiserer de mest tidkrevende oppgavene. Da utnytter du modeller som Opus' kapasitet til å finne fram til riktige API endepunkter og lignende på en måte som gjør det enklere å bygge inn sikkerhet og tilgangsstyring.