ChatGPT tager fejl oftere end du tror

80% korrekt — det lyder jo fint?

Vi snakker ikke bare om nøjagtighed — vi snakker om inkonsistens. Spørg det samme spørgsmål igen og igen, og du får forskellige svar.

— Mesut Cicek, Associate Professor, WSU

Forskere testede ChatGPT på over 700 videnskabelige hypoteser fra peer-reviewed artikler. Samme spørgsmål blev stillet 10 gange for at måle konsistens.

Men kig nærmere: den siger 'rigtigt' til ting der er forkerte

Studiet afslører to chokerende tal om AI-pålidelighed.

84% af falske udsagn bekræftes

ChatGPT bekræftede 84% af videnskabeligt forkerte påstande som sande. Kun 16% af usande udsagn fik korrekt afvisning.

Kun 60% bedre end tilfældigt gæt

Når man korrigerer for falske bekræftelser, er den reelle nøjagtighed kun 60% bedre end et møntkast.

5 sande, 5 falske — samme spørgsmål

Samme spørgsmål stillet 10 gange gav 5 gange 'sand' og 5 gange 'falsk'. Inkonsistensen er systemisk, ikke tilfældig.

Hvornår har I brugt AI-output uden at tjekke?

Tal med din sidemand i 3 minutter. Del derefter med gruppen.

Hvornår stoler I?

Tænk på en situation hvor I brugte AI-output direkte — i en mail, en rapport, en beslutning. Tjekkede I det bagefter? Hvorfor / hvorfor ikke?

Hvad kunne konsekvensen være?

Hvis AI'en bekræfter en falsk påstand som sand — og I handler på den — hvad er worst case i jeres organisation?

Juniorer kan ikke fange det, I kan

Erfarne fagfolk har domæneviden til at spotte fejl. Nye medarbejdere og studerende har det ikke.

Det usynlige problem

Når ChatGPT leverer et overbevisende, velformuleret svar der er faktuelt forkert — kræver det faglig erfaring at opdage fejlen. En junior der researcher med AI mangler simpelthen referencerammen.

Et ledelsesproblem

I skal designe processer der fanger fejlene, før de bliver til beslutninger. Det er ikke et teknologiproblem — det er et organisationsproblem.

Hvad gør I mandag morgen?

Bed om kilder

Spørg altid AI'en: 'Hvilke kilder bygger du det svar på?' Hvis den ikke kan pege på noget konkret, er svaret usikkert.

Spørg to gange

Stil det samme spørgsmål i en ny samtale. Får du et andet svar, ved du at AI'en er usikker — og du skal verificere selv.

Faglig review-gate

Indfør en regel: AI-output der påvirker beslutninger skal altid gennemses af en fagperson inden afsendelse. Især for juniorer.

Hvor ofte tror I, at ChatGPT svarer forkert?

5%

10%

20%

40%+