Ar saugu patikėti sveikatą robotams? Mokslininkai atskleidė, kur dirbtinis intelektas daro lemtingas klaidas
Naujas tyrimas rodo, kad generatyvinis dirbtinis intelektas (DI) vis dar neturi tokių mąstymo ir sprendimų priėmimo gebėjimų, kurie būtini saugiam naudojimui klinikinėje praktikoje.
DI pokalbių robotai, gavę išsamią klinikinę informaciją, geba tiksliau nustatyti galutinę diagnozę, tačiau daugiau nei 80 proc. atvejų nesugeba pateikti tinkamos diferencinės diagnozės. Tokią išvadą pateikė Bostone veikiančio ne pelno ligoninių ir mokslinių tyrimų tinklo „Mass General Brigham“ mokslininkai. Tai viena didžiausių sveikatos priežiūros sistemų Jungtinėse Valstijose.
Tyrimo rezultatai publikuoti atviros prieigos medicinos žurnale „JAMA Network Open“. Mokslininkai teigia, kad didieji kalbos modeliai (DKM) vis dar atsilieka nuo to lygio klinikinio samprotavimo, kuris reikalingas realiam darbui sveikatos priežiūroje.
„Nepaisant nuolatinių patobulinimų, paruošti naudoti didieji kalbos modeliai dar nėra tinkami diegti klinikoje be priežiūros“, – sakė vienas iš tyrimo autorių Marcas Succi.
Jo teigimu, DI kol kas nepajėgia atkurti diferencinės diagnozės sudarymo proceso, kuris yra klinikinio mąstymo pagrindas ir, pasak autoriaus, iš esmės sudaro „medicinos meną“.
Diferencinė diagnozė – tai pirmasis žingsnis, padedantis sveikatos priežiūros specialistams atskirti galimą ligą nuo kitų būklių, kurios gali turėti panašius simptomus.
Kaip buvo testuojami modeliai
Tyrėjai išanalizavo 21 didžiojo kalbos modelio veikimą, įskaitant naujausias tuo metu prieinamas „Claude“, „DeepSeek“, „Gemini“, „GPT“ ir „Grok“ versijas.
Modeliai buvo vertinami pagal 29 standartizuotus klinikinius scenarijus, pasitelkiant naujai sukurtą įrankį „PrIME-LLM“. Šis įrankis tikrina, kaip modelis susitvarko su skirtingais klinikinio samprotavimo etapais: pirminės diagnozės nustatymu, tinkamų tyrimų parinkimu, galutinės diagnozės pateikimu ir gydymo plano sudarymu.

Siekdami atkartoti realią klinikinę situaciją, mokslininkai informaciją modeliams pateikė palaipsniui: pradėjo nuo paciento amžiaus, lyties ir simptomų, vėliau pridėjo fizinės apžiūros duomenis ir laboratorinių tyrimų rezultatus.
Nors praktikoje diferencinė diagnozė yra būtina, kad būtų galima pagrįstai pereiti prie kitų žingsnių, tyrimo metu modeliams papildomi duomenys buvo pateikiami net ir tada, kai jie nesugebėdavo tinkamai susidoroti su diferencinės diagnozės etapu. Taip siekta įvertinti ir kitus klinikinio sprendimo etapus.
Tyrėjai nustatė, kad kalbos modeliai dažnai tiksliai pateikia galutinę diagnozę, tačiau prastai generuoja diferencines diagnozes ir sunkiai susidoroja su neapibrėžtumu.
Viena iš tyrimo autorių Arya Rao pažymėjo, kad toks nuoseklus vertinimas leidžia nebevertinti modelių kaip „egzaminuojamųjų“, o išbando juos gydytojo vaidmenyje.
„Šie modeliai puikiai įvardija galutinę diagnozę, kai informacija jau pilna, tačiau jiems sunkiausia atviroje situacijos pradžioje, kai duomenų dar mažai“, – teigė ji.
Mokslininkai nustatė, kad visi vertinti modeliai daugiau nei 80 proc. atvejų nesugebėjo pateikti tinkamos diferencinės diagnozės.
Tuo metu galutinės diagnozės nustatymo sėkmė, priklausomai nuo modelio, svyravo maždaug nuo 60 proc. iki daugiau nei 90 proc.
Dauguma modelių pasirodė tiksliau, kai be teksto gavo ir laboratorinių tyrimų bei vaizdinių tyrimų duomenis.
Tyrimas taip pat išskyrė geriausiai pasirodžiusių modelių grupę, į kurią pateko „Grok 4“, „GPT-5“, „GPT-4.5“, „Claude 4.5 Opus“, „Gemini 3.0 Flash“ ir „Gemini 3.0 Pro“.
Gydytojų vaidmuo išlieka esminis
Vis dėlto tyrimo autoriai pabrėžia, kad nepaisant pažangos tarp skirtingų versijų ir geresnių rezultatų modeliuose, optimizuotuose samprotavimui, paruošti naudoti didieji kalbos modeliai dar nėra pasiekę tokio intelekto lygio, kuris leistų juos saugiai diegti be griežtos kontrolės. Pasak jų, DI tebėra ribotas, kai reikia sudėtingesnio klinikinio samprotavimo.
„Mūsų rezultatai patvirtina, kad sveikatos priežiūroje didiesiems kalbos modeliams vis dar būtinas žmogus procese ir itin atidi priežiūra“, – teigė M. Succi.

Ispanijos Šeimos ir bendruomenės medicinos draugijos Dirbtinio intelekto ir skaitmeninės sveikatos darbo grupės narė Susana Manso García, kuri tyrime nedalyvavo, sakė, kad šios išvados siunčia aiškią žinutę visuomenei.
„Pats tyrimas pabrėžia, kad šių modelių negalima naudoti klinikiniams sprendimams priimti be priežiūros. Todėl, nors dirbtinis intelektas yra perspektyvus įrankis, žmogaus klinikinis sprendimas išlieka nepakeičiamas“, – sakė ji.
„Rekomendacija visuomenei – šias technologijas naudoti atsargiai, o kilus bet kokiam sveikatos klausimui visada kreiptis į sveikatos priežiūros specialistą“, – pridūrė S. Manso García.