Kolikokrat se črka "r" pojavi v angleški besedi za jagodo - "strawberry"? Glede na programe umetne inteligence - dvakrat.
S T R A W B E R Y. Očitno je, da so v tej besedi tri črke "r", vendar Chat GPT, Claude in Meta AI ter številni drugi programi umetne inteligence preprosto ne morejo prepoznati tretje črke. Ta uganka o umetni inteligenci je postala viralna, zato so TikTok preplavili videoposnetki ljudi, ki poskušajo z različnimi orodji za umetno inteligenco dobiti pravilen odgovor na to vprašanje.
Zakaj AI, umetna inteligenca ne more odgovoriti na to preprosto vprašanje?
TechCrunch je pojasnil, zakaj se to dogaja.
Modeli velikih jezikov (LLM), vrsta umetne inteligence, ki je usposobljena za razumevanje velikih količin besedil in ustvarjanje človeškega jezika, uporabljajo napredne algoritme za obdelavo naravnega jezika za izvajanje nalog, kot so prevajanje, povzemanje besedila, odgovarjanje na vprašanja in vodenje pogovorov.
Lahko pišejo eseje in rešujejo enačbe v nekaj sekundah. Lahko sintetizirajo terabajte podatkov hitreje, kot lahko ljudje odprejo knjigo. Večina LLM je zgrajenih na "transformatorjih", vrstah modelov za obdelavo zaporedij, ki uporablja mehanizem "pozornosti" za učinkovitejšo analizo konteksta in odnosov med besedami v stavku.
Transformatorji razdelijo besedilo na žetone, ki so nato lahko cele besede, zlogi ali črke, odvisno od modela. In tu nastane težava pri preprostih nalogah, kot je ta z besedo "jagoda".
"LLM dejansko ne prebere besedila. Ko vtipkate poizvedbo, se besedilo prevede v kodo," je za TechCrunch pojasnil Matthew Guzdial, docent na Univerzi v Alberti, ki je specializiran za umetno inteligenco. "Ko vidi besedo 'the', ima takšen model kodo, kaj beseda 'the' pomeni, ne ve pa za 't', 'h', 'e'," pojasnjuje.
Tako se vnos besedila v takšne programe spremeni v numerične predstavitve samega sebe, ki se nato kontekstualizirajo, da umetni inteligenci pomagajo priti do logičnega odgovora. Z drugimi besedami, umetna inteligenca lahko ve, da žetona "straw" in "berry" sestavljata besedo "strawberry", vendar hkrati ne razume, da je beseda "strawberry" sestavljena iz črk "s," t," "r", "a", "w", "b", "e", "r", "r" in "y", v tem določenem vrstnem redu. Zato ne more povedati, koliko črk "r" se pojavlja v tej besedi.
Ali obstaja rešitev?
Kyle Wiggers iz TechCruncha se je lotil tega vprašanja in se pogovarjal s Sheridan Feucht, doktorsko študentko na univerzi Northeastern, ki proučuje interpretabilnost LLM.
"Nekako težko se je izogniti vprašanju, kaj točno bi morala biti 'beseda' za jezikovni model, in tudi če bi se ljudje strinjali o popolnem besedišču za takšna orodja, bi ta orodja verjetno še vedno našla način za združevanje vnosov," je za TechCrunch povedala Feucht in dodala, da meni, da trenutno ni rešitve za takšne situacije. Problem postane še bolj zapleten, ko se LLM uči več jezikov.