Model velikih jezika (LLM) može pisati uvjerljive članke zasnovane na brzim riječima, polagati ispite profesionalne osposobljenosti i pisati informacije prilagođene pacijentu i empatične. Međutim, pored dobro poznatih rizika fikcije, krhkosti i netačnih činjenica u LLM-u, druga neriješena pitanja postepeno postaju fokus, poput modela umjetne inteligencije koji sadrže potencijalno diskriminirajuće "ljudske vrijednosti" u svom stvaranju i korištenju, pa čak i ako LLM više ne izmišlja sadržaj i eliminira očigledno štetne izlazne rezultate, "LLM vrijednosti" i dalje mogu odstupati od ljudskih vrijednosti.
Bezbrojni primjeri ilustruju kako podaci korišteni za obuku AI modela kodiraju individualne i društvene vrijednosti, koje se mogu učvrstiti unutar modela. Ovi primjeri uključuju niz primjena, uključujući automatsku interpretaciju rendgenskih snimaka grudnog koša, klasifikaciju kožnih bolesti i algoritamsko donošenje odluka u vezi s raspodjelom medicinskih resursa. Kao što je navedeno u nedavnom članku u našem časopisu, pristrasni podaci o obuci mogu pojačati i otkriti vrijednosti i pristranosti prisutne u društvu. Naprotiv, istraživanja su također pokazala da se AI može koristiti za smanjenje pristranosti. Na primjer, istraživači su primijenili modele dubokog učenja na rendgenske snimke koljena i otkrili faktore koje standardni indikatori težine (ocjenjuju ih radiolozi) unutar koljenskog zgloba propuštaju, čime se smanjuju neobjašnjive razlike u boli između crnih i bijelih pacijenata.
Iako sve više ljudi shvata pristranost u AI modelima, posebno u pogledu podataka za obuku, mnogim drugim ulaznim tačkama ljudskih vrijednosti se ne posvećuje dovoljno pažnje u procesu razvoja i implementacije AI modela. Medicinska AI je nedavno postigla impresivne rezultate, ali u velikoj mjeri nije eksplicitno uzela u obzir ljudske vrijednosti i njihovu interakciju s procjenom rizika i probabilističkim zaključivanjem, niti je modelirana.
Da biste konkretizirali ove apstraktne koncepte, zamislite da ste endokrinolog koji treba propisati rekombinantni ljudski hormon rasta osmogodišnjem dječaku koji je ispod 3. percentila svoje dobi. Nivo stimuliranog ljudskog hormona rasta kod dječaka je ispod 2 ng/mL (referentna vrijednost >10 ng/mL, referentna vrijednost za mnoge zemlje izvan Sjedinjenih Američkih Država je >7 ng/mL), a njegov gen koji kodira ljudski hormon rasta otkrio je rijetke inaktivacijske mutacije. Vjerujemo da je primjena terapije ljudskim hormonom rasta očigledna i neosporna u ovom kliničkom okruženju.
Primjena terapije hormonom rasta u sljedećim scenarijima može izazvati kontroverze: visina 14-godišnjeg dječaka oduvijek je bila u 10. percentilu njegovih vršnjaka, a vrhunac hormona rasta nakon stimulacije je 8 ng/mL. Nema poznatih funkcionalnih mutacija koje mogu utjecati na visinu, niti drugih poznatih uzroka niskog rasta, a njegova koštana dob je 15 godina (tj. nema razvojnog kašnjenja). Samo dio kontroverze posljedica je razlika u graničnim vrijednostima koje su odredili stručnjaci na osnovu desetina studija o nivoima hormona rasta koji se koriste za dijagnosticiranje izoliranog nedostatka hormona rasta. Najmanje isto toliko kontroverzi proizlazi iz ravnoteže rizika i koristi korištenja terapije hormonom rasta iz perspektive pacijenata, roditelja pacijenata, zdravstvenih radnika, farmaceutskih kompanija i onih koji plaćaju. Pedijatrijski endokrinolozi mogu procijeniti rijetke neželjene efekte dnevnih injekcija hormona rasta tokom 2 godine s vjerovatnoćom da neće biti ili će doći samo do minimalnog rasta u odrasloj dobi u poređenju sa sadašnjošću. Dječaci mogu vjerovati da čak i ako se njihova visina poveća samo za 2 cm, vrijedi ubrizgavati hormon rasta, ali onaj koji plaća i farmaceutska kompanija mogu imati različita mišljenja.
Kao primjer uzimamo eGFR baziran na kreatininu, koji je široko korišteni indikator bubrežne funkcije za dijagnosticiranje i određivanje stadija kronične bolesti bubrega, postavljanje uvjeta za transplantaciju ili donaciju bubrega te određivanje kriterija za smanjenje i kontraindikacija za mnoge lijekove na recept. EGFR je jednostavna regresijska jednadžba koja se koristi za procjenu izmjerene brzine glomerularne filtracije (mGFR), što je referentni standard, ali metoda evaluacije je relativno glomazna. Ova regresijska jednadžba ne može se smatrati AI modelom, ali ilustrira mnoge principe o ljudskim vrijednostima i probabilističkom zaključivanju.
Prva ulazna tačka za ljudske vrijednosti koje ulaze u eGFR je odabir podataka za uklapanje jednačina. Originalni red koji se koristio za dizajniranje eGFR formule uglavnom se sastoji od crnih i bijelih učesnika, a njena primjenjivost na mnoge druge etničke grupe nije jasna. Sljedeće ulazne tačke za ljudske vrijednosti u ovu formulu uključuju: odabir tačnosti mGFR kao primarnog cilja za procjenu funkcije bubrega, šta je prihvatljiv nivo tačnosti, kako mjeriti tačnost i korištenje eGFR kao praga za pokretanje kliničkog donošenja odluka (kao što je određivanje uslova za transplantaciju bubrega ili propisivanje lijekova). Konačno, prilikom odabira sadržaja ulaznog modela, ljudske vrijednosti će također ući u ovu formulu.
Na primjer, prije 2021. godine, smjernice sugeriraju prilagođavanje nivoa kreatinina u formuli eGFR na osnovu dobi, spola i rase pacijenta (klasificirano samo kao crne ili ne-crne osobe). Prilagođavanje na osnovu rase ima za cilj poboljšanje tačnosti formule mGFR, ali 2020. godine velike bolnice su počele dovoditi u pitanje upotrebu eGFR na osnovu rase, navodeći razloge kao što su odgađanje podobnosti pacijenta za transplantaciju i konkretizacija rase kao biološkog koncepta. Istraživanja su pokazala da dizajniranje eGFR modela u smislu rase može imati dubok i različit utjecaj na tačnost i kliničke ishode; Stoga, selektivno fokusiranje na tačnost ili fokusiranje na dio ishoda odražava vrijednosne sudove i može prikriti transparentno donošenje odluka. Konačno, nacionalna radna grupa je predložila novu formulu koja je preuređena bez razmatranja rase kako bi se uravnotežila pitanja performansi i pravednosti. Ovaj primjer ilustruje da čak i jednostavna klinička formula ima mnogo ulaznih tačaka u ljudske vrijednosti.
U poređenju sa kliničkim formulama sa samo malim brojem prediktivnih indikatora, LLM može se sastojati od milijardi do stotina milijardi parametara (težina modela) ili više, što ga otežava razumijevanje. Razlog zašto kažemo „teško za razumjeti“ je taj što se u većini LLM-ova tačan način izazivanja odgovora putem pitanja ne može mapirati. Broj parametara za GPT-4 još nije objavljen; Njegov prethodnik GPT-3 imao je 175 milijardi parametara. Više parametara ne znači nužno i jače mogućnosti, jer će manji modeli koji uključuju više računarskih ciklusa (kao što je serija modela LLaMA [Large Language Model Meta AI]) ili modeli koji su fino podešeni na osnovu ljudskih povratnih informacija imati bolje performanse od većih modela. Na primjer, prema ljudskim procjeniteljima, model InstrumentGPT (model sa 1,3 milijarde parametara) nadmašuje GPT-3 u optimizaciji izlaznih rezultata modela.
Specifični detalji obuke GPT-4 još nisu otkriveni, ali su otkriveni detalji modela prethodne generacije, uključujući GPT-3, InstrumentGPT i mnoge druge LLM-ove otvorenog koda. Danas mnogi AI modeli dolaze s karticama modela; podaci o evaluaciji i sigurnosti GPT-4 objavljeni su u sličnoj sistemskoj kartici koju je obezbijedila kompanija za kreiranje modela OpenAI. Kreiranje LLM-a može se grubo podijeliti u dvije faze: početnu fazu predobuke i fazu finog podešavanja usmjerenu na optimizaciju izlaznih rezultata modela. U fazi predobuke, modelu se daje veliki korpus koji uključuje originalni internet tekst kako bi se obučio za predviđanje sljedeće riječi. Ovaj naizgled jednostavan proces "automatskog dovršavanja" proizvodi moćan osnovni model, ali može dovesti i do štetnog ponašanja. Ljudske vrijednosti će ući u fazu predobuke, uključujući odabir podataka predobuke za GPT-4 i odlučivanje o uklanjanju neprikladnog sadržaja kao što je pornografski sadržaj iz podataka predobuke. Uprkos ovim naporima, osnovni model možda i dalje nije ni koristan ni sposoban da sadrži štetne izlazne rezultate. U sljedećoj fazi finog podešavanja pojavit će se mnoga korisna i bezopasna ponašanja.
U fazi finog podešavanja, ponašanje jezičkih modela se često duboko mijenja kroz nadzirano fino podešavanje i učenje s pojačanjem zasnovano na ljudskim povratnim informacijama. U fazi nadziranog finog podešavanja, angažovano osoblje izvođača radova će pisati primjere odgovora za riječi koje izazivaju poticaje i direktno obučavati model. U fazi učenja s pojačanjem, zasnovanoj na ljudskim povratnim informacijama, ljudski evaluatori će sortirati izlazne rezultate modela kao primjere ulaznog sadržaja. Zatim će primijeniti gore navedene rezultate poređenja kako bi naučili "model nagrađivanja" i dodatno poboljšali model kroz učenje s pojačanjem. Nevjerovatno nisko nivo ljudskog učešća može fino podesiti ove velike modele. Na primjer, model InstrumentGPT koristio je tim od približno 40 izvođača radova regrutovanih sa web stranica za crowdsourcing i prošao je skrining test usmjeren na odabir grupe anotatora koji su osjetljivi na preferencije različitih populacijskih grupa.
Kao što pokazuju ova dva ekstremna primjera, naime jednostavna klinička formula [eGFR] i moćni LLM [GPT-4], ljudsko donošenje odluka i ljudske vrijednosti igraju nezamjenjivu ulogu u oblikovanju izlaznih rezultata modela. Mogu li ovi modeli umjetne inteligencije obuhvatiti svoje raznolike vrijednosti pacijenata i ljekara? Kako javno usmjeravati primjenu umjetne inteligencije u medicini? Kao što je spomenuto u nastavku, ponovno ispitivanje analize medicinskih odluka moglo bi pružiti principijelno rješenje za ova pitanja.
Analiza medicinskih odluka nije poznata mnogim kliničarima, ali može razlikovati probabilističko zaključivanje (za neizvjesne ishode vezane za donošenje odluka, poput toga da li primijeniti hormon rasta u kontroverznom kliničkom scenariju prikazanom na Slici 1) i faktore razmatranja (za subjektivne vrijednosti vezane za ove ishode, čija se vrijednost kvantificira kao "korisnost", poput vrijednosti povećanja muške visine od 2 cm), pružajući sistematska rješenja za složene medicinske odluke. U analizi odluka, kliničari prvo moraju odrediti sve moguće odluke i vjerovatnoće povezane sa svakim ishodom, a zatim uključiti korisnost pacijenta (ili druge strane) povezanu sa svakim ishodom kako bi odabrali najprikladniju opciju. Stoga, validnost analize odluka zavisi od toga da li je postavka ishoda sveobuhvatna, kao i od toga da li su mjerenje korisnosti i procjena vjerovatnoće tačni. Idealno, ovaj pristup pomaže da se osigura da su odluke zasnovane na dokazima i usklađene sa preferencijama pacijenta, čime se smanjuje jaz između objektivnih podataka i ličnih vrijednosti. Ova metoda je uvedena u medicinsku oblast prije nekoliko decenija i primijenjena je na donošenje pojedinačnih odluka pacijenata i procjenu zdravlja populacije, kao što je davanje preporuka za skrining kolorektalnog karcinoma opštoj populaciji.
U analizi medicinskih odluka razvijene su različite metode za dobijanje korisnosti. Većina tradicionalnih metoda direktno izvlači vrijednost iz pojedinačnih pacijenata. Najjednostavnija metoda je korištenje skale ocjenjivanja, gdje pacijenti procjenjuju svoj nivo preferencije za određeni ishod na digitalnoj skali (kao što je linearna skala u rasponu od 1 do 10), s najekstremnijim zdravstvenim ishodima (kao što su potpuno zdravlje i smrt) koji se nalaze na oba kraja. Metoda razmjene vremena je još jedna često korištena metoda. U ovoj metodi, pacijenti trebaju donijeti odluku o tome koliko zdravog vremena su spremni provesti u zamjenu za period lošeg zdravlja. Standardna metoda kockanja je još jedna često korištena metoda za određivanje korisnosti. U ovoj metodi, pacijenti se pitaju koju od dvije opcije preferiraju: ili živjeti određeni broj godina u normalnom zdravlju sa specifičnom vjerovatnoćom (p)(t) i snositi rizik od smrti sa vjerovatnoćom od 1-p; ili se pobrinuti da žive t godina pod unakrsnim zdravstvenim uslovima. Pitajte pacijente više puta pri različitim p-vrijednostima dok ne pokažu da nemaju preferenciju ni za jednu opciju, tako da se korisnost može izračunati na osnovu odgovora pacijenata.
Pored metoda koje se koriste za utvrđivanje individualnih preferencija pacijenata, razvijene su i metode za postizanje korisnosti za populaciju pacijenata. Posebno fokus grupe (okupljanje pacijenata radi razgovora o specifičnim iskustvima) mogu pomoći u razumijevanju njihovih perspektiva. Kako bi se efikasno agregirala korisnost grupe, predložene su različite tehnike strukturirane grupne diskusije.
U praksi, direktno uvođenje korisnosti u proces kliničke dijagnoze i liječenja oduzima mnogo vremena. Kao rješenje, anketni upitnici se obično distribuiraju nasumično odabranim populacijama kako bi se dobili rezultati korisnosti na nivou populacije. Neki primjeri uključuju 5-dimenzionalni upitnik EuroQol, kratki obrazac za 6-dimenzionalnu težinu korisnosti, indeks zdravstvene korisnosti i alat Core 30 Upitnika o kvaliteti života Evropske organizacije za istraživanje i liječenje raka (ECRO).
Vrijeme objave: 01. juni 2024.




