Back to blog Tagasi blogisse Operations Käitus

How to evaluate an AI system without being a data scientist Kuidas aru saada, kas su AI tegelikult töötab

Your team bought or built an AI tool. The demo was impressive. Six months in, you're not sure if it's earning its keep. You don't need to learn machine learning to find out. You need an afternoon, twenty real examples from last week, and the willingness to be honest about what you see. Here are the five checks that matter. Tiim ostis või ehitas AI-tööriista. Demo oli vaimustav. Pool aastat hiljem ei saa sa enam aru, kas sellest on tegelikult kasu. Õnneks ei pea sa masinõpet õppima, et asja selgeks teha. Vaja on ühte pärastlõunat, kahtekümmet päris näidet eelmisest nädalast ja natuke ausust. Siin on viis kontrolli, mis loevad.

1. Does it work on your data, not demo data? 1. Kas see töötab sinu andmetel, mitte demo andmetel?

Every AI demo works. That's the whole point of a demo — the vendor picked the inputs. Your job is to break out of their sandbox. Iga AI-demo töötab. See ongi demo mõte — müüja valis sisendid ise. Sinu töö on sealt välja saada.

Ten-minute exercise: Pull 20 real items from last week. Real customer emails, real invoices, real support tickets — whatever the AI is meant to handle. Feed them through. Then go through the outputs one by one and mark each as correct, wrong, or borderline. Kümneminutiline harjutus: võta eelmisest nädalast 20 päris näidet. Päris kliendikirjad, päris arved, päris tiketid — mis iganes see AI tegema peaks. Lase need läbi. Siis vaata tulemused ühekaupa üle ja märgi iga kui õige, vale või piiripealne.

Don't grade on a curve. If the system gets 17 out of 20 right but the 3 it misses are your biggest clients, it's failing. Your data has edge cases the demo didn't. Find them now, not when a customer complains. Ära anna allahindlust. Kui süsteem saab 20-st 17 õigeks, aga need kolm, mis mööda läksid, on su suurimad kliendid, siis asi ei tööta. Sinu andmetes on nurgad, mida demo ei näidanud. Leia need üles praegu, mitte siis, kui klient kaebab.

2. Is the output actually useful, or just fast? 2. Kas väljund on tegelikult kasulik või lihtsalt kiire?

"It saves us time" is the most abused claim in AI. Saving time on a draft that a human still has to rewrite isn't saving time — it's moving work from one desk to another. "Hoiab aega kokku" on AI-müügi kõige kulunum lause. Aja kokkuhoid mustandil, mille inimene niikuinii ümber kirjutab, ei ole aja kokkuhoid — see on töö ühelt laualt teisele tõstmine.

The real test: does a human ship the AI's output as-is, or do they always edit it? If every email draft needs 80% rewriting, you don't have an AI assistant. You have a very confident intern creating more work. Päris test: kas inimene saadab AI väljundi sellisel kujul välja või toimetab alati üle? Kui iga e-kirja mustandit tuleb 80% ulatuses ümber kirjutada, siis sul ei ole AI-assistent. Sul on väga enesekindel praktikant, kes tekitab juurde tööd.

Ten-minute exercise: For the 20 outputs above, ask the person who'd normally do this task: "Would you send this? Or would you redo it?" If the answer is "redo" more than a third of the time, the time savings are a story, not a number. Kümneminutiline harjutus: näita neid 20 väljundit inimesele, kes seda tööd tavaliselt teeb, ja küsi: "Kas sa saadaksid selle nii välja? Või teeksid uuesti?" Kui vastus on "teeksin uuesti" rohkem kui kolmandikul juhtudest, siis ajavõit on jutt, mitte number.

3. How does it fail — loudly or silently? 3. Kuidas see veateadab — valjult või vaikselt?

This is the question most managers skip, and it's the one that bites hardest. Selle küsimuse jätab enamik juhte vahele ja just see hammustab kõige kõvemini.

Loud failures are when the system refuses to answer, flags low confidence, or sends the task to a human. Those are fine. You can handle them. Valjud vead on siis, kui süsteem ütleb "ei tea", märgib kindluse madalaks või saadab ülesande inimesele edasi. Nendega saab hakkama.

Silent failures are when the AI confidently invents a policy that doesn't exist, attaches the wrong invoice, or summarises a meeting with details that were never said. Plausible nonsense. These are the dangerous ones because nobody catches them until a customer does. Vaiksed vead on need, kus AI mõtleb enesekindlalt välja poliitika, mida pole olemas, lisab vale arve või teeb koosolekust kokkuvõtte detailidega, mida keegi ei öelnud. Usutav jama. Need on ohtlikud, sest keegi ei märka neid enne, kui klient märkab.

Ten-minute exercise: In your 20-sample batch, count the silent failures separately. Even one or two per 20 is a serious problem at scale. If you can't tell which outputs are silent failures without checking every one manually, the system needs guardrails before it needs expansion. Kümneminutiline harjutus: loe oma 20 näite hulgas vaiksed vead eraldi kokku. Isegi üks-kaks 20 kohta on suures mahus juba tõsine probleem. Kui sa ei saa vaikseid vigu tuvastada ilma iga väljundit käsitsi kontrollimata, siis süsteem vajab piirajaid enne, kui see vajab laiendamist.

4. What does it actually cost per useful output? 4. Mis see päriselt maksab iga kasuliku väljundi kohta?

Vendors quote per-seat or per-call pricing. That's not your real cost. Müüja räägib sulle kasutajapõhisest hinnast või API-tariifist. See ei ole sinu tegelik kulu.

Add it up honestly: API bills, tool subscriptions, the reviewer's time to check outputs, the fixer's time to clean up silent failures, the engineer keeping the pipeline alive. Divide by the number of outputs you actually used — not the number generated. Pane ausalt kokku: API-arved, tööriistade tellimused, kontrollija aeg väljundite ülevaatamiseks, parandaja aeg vaiksete vigade korrastamiseks, inseneri aeg, kes süsteemi elus hoiab. Jaga see arv väljunditega, mida sa tegelikult kasutasid — mitte nendega, mis tekkisid.

This number tends to shock people. A tool that costs 200 euros a month in API fees can easily cost 2,000 euros a month once you count the human hours wrapped around it. That's fine if the output is worth it. It's not fine if you never did the math. See number paneb tavaliselt kulmu kergitama. Tööriist, mille API-arve on 200 eurot kuus, võib inimtundide kõrvale lisades maksta 2000 eurot kuus. See on okei, kui väljund on seda väärt. See ei ole okei, kui sa pole seda kunagi kokku arvutanud.

5. Are people actually using it? 5. Kas inimesed ikka kasutavad seda?

The single most underrated check. You can have a system that passes checks 1 through 4 and still deliver zero ROI if the team quietly works around it. Kõige alahinnatuim kontroll. Võid saada süsteemi, mis läbib kontrollid 1 kuni 4, ja ikka mitte mingit tulu näha, kui tiim seda vaikselt eirab.

Watch the behaviour, not the dashboard. Is the tool on every screen, or open nowhere? When someone has a tricky case, do they reach for the AI or Slack a colleague? Do new hires get shown the tool in week one, or discover it in month three? Vaata käitumist, mitte dashboard'i. Kas tööriist on igal ekraanil lahti või ei kuskil? Kui kellelgi on keerukam juhtum, kas ta läheb AI juurde või kirjutab kolleegile Slack'i? Kas uus töötaja näeb seda tööriista esimesel nädalal või avastab kolmandal kuul?

Ten-minute exercise: Ask three people on the team, one-on-one: "When did you last use it, and what for?" If answers are vague or defensive, you have your answer. Kümneminutiline harjutus: küsi kolmelt inimeselt tiimis eraldi: "Millal sa viimati seda kasutasid ja mille jaoks?" Kui vastused on uduks või kaitsvad, siis sa juba saidki vastuse.

Red flags to act on this month Punased lipud, millele tasub sel kuul reageerida

  • The vendor won't show you raw outputs on your data. If you have to trust benchmarks you can't reproduce, you don't have an evaluation — you have marketing. Müüja ei näita sulle sinu andmete peal tehtud toorväljundeid. Kui pead usaldama benchmarke, mida sa ise taastoota ei saa, siis sul pole hindamist — sul on reklaam.
  • Costs are growing faster than usage. That usually means the system is getting more expensive to run, not more valuable. Kulud kasvavad kiiremini kui kasutus. Tavaliselt tähendab see, et süsteemi ülalpidamine läheb kallimaks, mitte väärtuslikumaks.
  • The team has built a spreadsheet, script, or Slack channel to work around the tool. Quiet workarounds are the loudest verdict you'll get. Tiim on ehitanud Exceli, skripti või Slack'i kanali, et tööriistast mööda saada. Vaikne kõrvalepõige on kõige valjem hinnang, mis sa saad.
  • "We'll fix that in the next version" has been the answer for more than one quarter. "Parandame järgmises versioonis" on olnud vastuseks juba rohkem kui ühe kvartali.

You don't need a data scientist for any of this. You need a stopwatch, a sample of real work, and the discipline to look at what the system actually did instead of what it was supposed to do. If you're finding silent failures in an agent in production, that's the next read. Selle jaoks pole andmeteadlast vaja. Vaja on stopperit, näidet päris tööst ja distsipliini vaadata, mida süsteem tegelikult tegi — mitte seda, mida ta tegema pidi. Kui leiad vaikseid vigu tootmises töötava agendi juures, loe järgmiseks seda.

Let's talk Räägime

Not sure if your AI tool is actually working? Pole kindel, kas sinu AI-tööriist ikka töötab?

We'll run the five checks with you on real data. No fluff, just a clear verdict. Teeme sinuga viis kontrolli päris andmetel. Mitte tühja juttu, vaid selge hinnang.