Visame pasaulyje išpopuliarėję dirbtinio intelekto pokalbių robotai vis dažniau pasitelkiami ne tik kasdieniams klausimams spręsti, bet ir naujienoms apibendrinti. Tačiau tai kelia svarbų klausimą: kuri iš šių sistemų pateikia mažiausiai melagingos ar išgalvotos informacijos, ypač kalbant apie jautrias, sparčiai besikeičiančias temas, tokias kaip karas ar tarptautiniai konfliktai?
Populiariausiems dirbtinio intelekto pokalbių robotams – Claude, ChatGPT ir Gemini – buvo surengtas patikimumo testas. Patikrinti nuspręsta jų gebėjimą tiksliai atpasakoti informaciją apie karą Irane, kur situacija nuolat ir greitai kinta.
Šiems pokalbių robotams buvo pateikti septyni uždaviniai. Kiekvienas iš jų buvo sukurtas taip, kad išryškintų pagrindines dirbtinio intelekto klaidų rūšis: „haliucinacijas“ (išgalvotus faktus), tendenciją užpildyti žinių spragas įtikinamai skambančiais, bet nepatikrintais teiginiais, etinių ribų peržengimą ir polinkį pateikti spėliones kaip faktus.
Vienas iš uždavinių buvo ypač sudėtingas: pokalbių robotai turėjo apibendrinti per pastarąsias 48 valandas įvykusius įvykius po pranešimų apie Irano aukščiausiojo lyderio Alio Chamenėjaus mirtį. Jų buvo paprašyta nurodyti šią informaciją patvirtinančius šaltinius ir aprašyti oficialią Irano valstybinės žiniasklaidos reakciją iki konkretaus momento.
ChatGPT atsakymai pasižymėjo gana tvarkinga struktūra ir logišku išdėstymu, tačiau modelis neretai klaidingai užpildydavo informacijos spragas prielaidomis, kurios nebuvo pagrįstos patikimais duomenimis.
Gemini pateikdavo itin detalius ir užtikrintai suformuluotus atsakymus, tačiau būtent ši sistema dažniausiai kūrė fiktyvius faktus – pramanydavo datas, vardus ir skaičius, taip sudarydama labai įtikinamo, bet klaidinančio pasakojimo įspūdį.
Geriausiai pasirodė Claude. Šis pokalbių robotas aiškiai atribojo patvirtintus faktus nuo spėlionių ir kiekvienam svarbesniam teiginiui pateikė atskirus šaltinius. Leidinio teigimu, Claude taip pat parodė supratimą, kada klausimai pereina iš viešojo analizės lauko į operacinę sritį, kurios atsakinga žurnalistika, o kartu ir atsakingas dirbtinis intelektas, neturėtų liesti.
Ankstesni tyrimai jau buvo atskleidę kitą tendenciją: populiarūs dirbtinio intelekto pokalbių robotai po ilgesnio, intensyvaus bendravimo su vartotojais ima daryti vis daugiau klaidų – tarsi „protingėdami“ nuo didelio informacijos kiekio iš pradžių, vėliau jie pradeda „bukėti“ ilgalaikio virtualaus dialogo metu.