Didelių kalbinių modelių mokymas yra labai brangus. Svarbu ne tik turėti daug grafinių procesorių (GPU), bet ir kuo efektyviau juos išnaudoti. Didėjant modelių mastui, net ir nedideli neefektyvumo šaltiniai virsta milžiniškomis laiko ir energijos sąnaudomis.
Mokslininkų komanda iš MIT, bendradarbiaudama su tokiais partneriais kaip „NVidia“, teigia radusi praktišką būdą susigrąžinti švaistomus skaičiavimus mokymo metu – kai kuriais atvejais bendrą mokymo laiką pavyko sutrumpinti beveik perpus.
Tikslinė problema slypi pastiprinamuoju mokymusi (angl. reinforcement learning, RL), ypač vadinamojoje „išvyniojimo“ (angl. rollout) fazėje. Tai etapas, kai modelis sugeneruoja kelis galimus atsakymo variantus, kad „išmoktų“, kurie elgesio tipai veda prie geresnių rezultatų. Ši fazė itin svarbi loginio mąstymo ir samprotavimu pasižymintiems LLM, tačiau ji yra labai lėta.
„Išvyniojimo“ fazė gali sudaryti net iki 85 % viso vykdymo laiko. Pagrindinė priežastis – vadinamoji „ilgosios uodegos“ pasiskirstymo (angl. long-tail distribution) problema: dauguma sugeneruotų atsakymų baigiami greitai, tačiau nedidelė dalis yra gerokai ilgesni už vidurkį. Kadangi GPU turi sinchronizuotis, greičiau baigiantys skaičiavimus dažnai „dykinėja“, laukdami vėluojančiųjų.
MIT komandos pasiūlytas sprendimas, pavadintas „Taming the Long Tail“ (TLT), tiesiogiai kovoja su šiuo švaistymu. Vietoje to, kad GPU liktų neveiklūs, kol generuojami labai ilgi atsakymai, TLT šį laiką išnaudoja lengvo, „juodraštinio“ (angl. draft) modelio mokymui. Šis mažesnis modelis nuolat mokomas „skubos tvarka“ tuo pačiu metu, kai mokomas pagrindinis modelis.
Idėja remiasi spekuliatyviu dekodavimu (angl. speculative decoding) – technika, kai mažesnis modelis iš anksto prognozuoja kelis galimus ženklius (tokenus), o pagrindinis modelis juos vėliau patikrina lygiagrečiai. Tradicinis spekuliatyvus dekodavimas remiasi iš anksto fiksuotu „juodraščio“ modeliu, kuris pastiprinamojo mokymosi metu greitai pasensta, nes pagrindinis modelis nuolat keičiasi.
TLT pakeičia šią dinamiką. Mokydama „juodraštinį“ modelį pasitaikius progai, naudojant kitaip tuščiai stovinčius skaičiavimo resursus, sistema užtikrina, kad mažesnis modelis išliktų suderintas su pagrindiniu, nereikalaujant papildomo dedikuoto skaičiavimo laiko.
Atlikus bandymus su keliais loginį samprotavimą akcentuojančiais LLM ir realiais duomenų rinkiniais, rezultatai buvo įspūdingi. Tyrėjai fiksavo bendro mokymo paspartėjimą nuo 70 % iki 210 %, lyginant su stipriais atskaitos metodais – daugeliu atvejų tai reiškia maždaug dvigubai greitesnį mokymą. Svarbu tai, kad modelių tikslumas išliko nepakitęs.
Yra ir įdomi šalutinė nauda: nuolat mokomas „juodraštinis“ modelis tampa vertingu galutiniu produktu. Kadangi jis treniruojamas kartu su pagrindiniu modeliu, tam tikromis aplinkybėmis jis gali būti naudojamas kaip efektyvus modelis išvedimui (angl. inference), kai reikia greitesnių ir pigesnių užklausų apdorojimo sprendimų.
Šis darbas atskleidžia platesnę dabartinę dirbtinio intelekto tyrimų tendenciją – optimizavimą, o ne aklą „žaliąją jėgą“. Vietoje to, kad be galo didinti skaičiavimo klasterių apimtis, vis dažniau ieškoma būdų, kaip maksimaliai išspausti našumą iš jau turimos aparatūros.
Jei tokie metodai kaip TLT pasiteisins pramoniniu mastu, jie gali reikšmingai sumažinti tiek finansines, tiek aplinkosaugines sąnaudas, susijusias su naujos kartos loginio samprotavimo modelių mokymu.