Ar saugu patikėti sveikatą robotams? Mokslininkai atskleidė, kur dirbtinis intelektas daro lemtingas klaidas

2026-04-17, 17:55 4 min. skaitymo 0

Naujas tyrimas rodo, kad generatyvinis dirbtinis intelektas (DI) vis dar neturi tokių mąstymo ir sprendimų priėmimo gebėjimų, kurie būtini saugiam naudojimui klinikinėje praktikoje.

DI pokalbių robotai, gavę išsamią klinikinę informaciją, geba tiksliau nustatyti galutinę diagnozę, tačiau daugiau nei 80 proc. atvejų nesugeba pateikti tinkamos diferencinės diagnozės. Tokią išvadą pateikė Bostone veikiančio ne pelno ligoninių ir mokslinių tyrimų tinklo „Mass General Brigham“ mokslininkai. Tai viena didžiausių sveikatos priežiūros sistemų Jungtinėse Valstijose.

Tyrimo rezultatai publikuoti atviros prieigos medicinos žurnale „JAMA Network Open“. Mokslininkai teigia, kad didieji kalbos modeliai (DKM) vis dar atsilieka nuo to lygio klinikinio samprotavimo, kuris reikalingas realiam darbui sveikatos priežiūroje.

„Nepaisant nuolatinių patobulinimų, paruošti naudoti didieji kalbos modeliai dar nėra tinkami diegti klinikoje be priežiūros“, – sakė vienas iš tyrimo autorių Marcas Succi.

Jo teigimu, DI kol kas nepajėgia atkurti diferencinės diagnozės sudarymo proceso, kuris yra klinikinio mąstymo pagrindas ir, pasak autoriaus, iš esmės sudaro „medicinos meną“.

Diferencinė diagnozė – tai pirmasis žingsnis, padedantis sveikatos priežiūros specialistams atskirti galimą ligą nuo kitų būklių, kurios gali turėti panašius simptomus.

Kaip buvo testuojami modeliai

Tyrėjai išanalizavo 21 didžiojo kalbos modelio veikimą, įskaitant naujausias tuo metu prieinamas „Claude“, „DeepSeek“, „Gemini“, „GPT“ ir „Grok“ versijas.

Modeliai buvo vertinami pagal 29 standartizuotus klinikinius scenarijus, pasitelkiant naujai sukurtą įrankį „PrIME-LLM“. Šis įrankis tikrina, kaip modelis susitvarko su skirtingais klinikinio samprotavimo etapais: pirminės diagnozės nustatymu, tinkamų tyrimų parinkimu, galutinės diagnozės pateikimu ir gydymo plano sudarymu.

a person holding a cell phone in their hand

Siekdami atkartoti realią klinikinę situaciją, mokslininkai informaciją modeliams pateikė palaipsniui: pradėjo nuo paciento amžiaus, lyties ir simptomų, vėliau pridėjo fizinės apžiūros duomenis ir laboratorinių tyrimų rezultatus.

Nors praktikoje diferencinė diagnozė yra būtina, kad būtų galima pagrįstai pereiti prie kitų žingsnių, tyrimo metu modeliams papildomi duomenys buvo pateikiami net ir tada, kai jie nesugebėdavo tinkamai susidoroti su diferencinės diagnozės etapu. Taip siekta įvertinti ir kitus klinikinio sprendimo etapus.

Tyrėjai nustatė, kad kalbos modeliai dažnai tiksliai pateikia galutinę diagnozę, tačiau prastai generuoja diferencines diagnozes ir sunkiai susidoroja su neapibrėžtumu.

Viena iš tyrimo autorių Arya Rao pažymėjo, kad toks nuoseklus vertinimas leidžia nebevertinti modelių kaip „egzaminuojamųjų“, o išbando juos gydytojo vaidmenyje.

„Šie modeliai puikiai įvardija galutinę diagnozę, kai informacija jau pilna, tačiau jiems sunkiausia atviroje situacijos pradžioje, kai duomenų dar mažai“, – teigė ji.

Mokslininkai nustatė, kad visi vertinti modeliai daugiau nei 80 proc. atvejų nesugebėjo pateikti tinkamos diferencinės diagnozės.

Tuo metu galutinės diagnozės nustatymo sėkmė, priklausomai nuo modelio, svyravo maždaug nuo 60 proc. iki daugiau nei 90 proc.

Dauguma modelių pasirodė tiksliau, kai be teksto gavo ir laboratorinių tyrimų bei vaizdinių tyrimų duomenis.

Tyrimas taip pat išskyrė geriausiai pasirodžiusių modelių grupę, į kurią pateko „Grok 4“, „GPT-5“, „GPT-4.5“, „Claude 4.5 Opus“, „Gemini 3.0 Flash“ ir „Gemini 3.0 Pro“.

Gydytojų vaidmuo išlieka esminis

Vis dėlto tyrimo autoriai pabrėžia, kad nepaisant pažangos tarp skirtingų versijų ir geresnių rezultatų modeliuose, optimizuotuose samprotavimui, paruošti naudoti didieji kalbos modeliai dar nėra pasiekę tokio intelekto lygio, kuris leistų juos saugiai diegti be griežtos kontrolės. Pasak jų, DI tebėra ribotas, kai reikia sudėtingesnio klinikinio samprotavimo.

„Mūsų rezultatai patvirtina, kad sveikatos priežiūroje didiesiems kalbos modeliams vis dar būtinas žmogus procese ir itin atidi priežiūra“, – teigė M. Succi.

cardiology, md, diagnostic, arrhythmia, cardiologist, measure, equipment, checkup, cardiovascular, pressure, blood, adult, discussion, health, friendly, practice, general medicine, medical practice, working, family doctor, white coat, stethoscope, people

Ispanijos Šeimos ir bendruomenės medicinos draugijos Dirbtinio intelekto ir skaitmeninės sveikatos darbo grupės narė Susana Manso García, kuri tyrime nedalyvavo, sakė, kad šios išvados siunčia aiškią žinutę visuomenei.

Skaitykite mūsų naujienas „Facebook“ platformoje Sužinokite apie svarbiausius įvykius pirmieji!

Sekti

„Pats tyrimas pabrėžia, kad šių modelių negalima naudoti klinikiniams sprendimams priimti be priežiūros. Todėl, nors dirbtinis intelektas yra perspektyvus įrankis, žmogaus klinikinis sprendimas išlieka nepakeičiamas“, – sakė ji.

„Rekomendacija visuomenei – šias technologijas naudoti atsargiai, o kilus bet kokiam sveikatos klausimui visada kreiptis į sveikatos priežiūros specialistą“, – pridūrė S. Manso García.

Sekite mūsų naujienas patogiau

Pridėkite mus kaip mėgstamiausią šaltinį „Google Discover“, kad nepraleistumėte svarbiausių naujienų.
Taip pat galite mus nustatyti kaip pageidaujamą šaltinį „Google“ paieškoje.

Pridėti kaip pageidaujamą šaltinį

Temos: Dirbtinis intelektas Medicina

Šaltiniai:

Euronews.com

Ieva Kazlauskaitė

Sveikata man – tai ne tik gydymas, bet ir kasdieniai pasirinkimai, todėl apie ją ir rašau. Siekiu paprastai paaiškinti, kas iš tiesų svarbu gerai savijautai.