Biomedicinski inženjeri Sveučilišta Duke predstavili su novu metodu za poboljšanje učinkovitosti modela strojnog učenja, usmjerenih na otkrivanje novih molekularnih terapeutika. Ovaj proces postiže značajne rezultate koristeći tek dio uobičajeno potrebnih podataka, s algoritmom koji aktivno identificira praznine u podacima, u nekim slučajevima povećavajući točnost i više od dvostruko. U osnovi, stručnjaci tvrde da bi dopuštanje umjetnoj inteligenciji da postavlja pitanja moglo učiniti pametnijom.
Ovaj inovativni pristup mogao bi pojednostaviti proces kojim znanstvenici identificiraju i kategoriziraju molekule s potencijalnim koristima u razvoju novih kandidata za lijekove i drugih materijala. Istraživanje je objavljeno 23. lipnja u časopisu Royal Society of Chemistry Digital Discovery.
Algoritmi strojnog učenja u otkrivanju molekula
Algoritmi strojnog učenja (AI) sve se više koriste za identifikaciju i predviđanje svojstava malih molekula, uključujući kandidate za lijekove i druge spojeve. Unatoč značajnom napretku u računalnoj snazi i algoritmima strojnog učenja, njihove sposobnosti ostaju ograničene zbog podataka koji se koriste za njihov trening, a koji su često daleko od savršenih.
Glavni problem je pristranost podataka, koju karakterizira prevelika zastupljenost jednog svojstva nad drugim u skupovima podataka. To je kao da algoritam uči razlikovati pse od mačaka na temelju milijardu fotografija pasa i samo stotinu mačaka, kako je objasnio Daniel Reker, asistent profesora biomedicinskog inženjeringa na Sveučilištu Duke.
Ovaj problem posebno je izražen u otkrivanju lijekova, gdje znanstvenici rade s podacima u kojima je više od 99% testiranih spojeva ocijenjeno kao “neučinkovito”, a samo je nekoliko molekula označeno kao potencijalno korisno.
Rješenje: Aktivno strojno učenje
Istraživači obično koriste poduzorkovanje podataka, gdje njihov algoritam uči iz malog, ali reprezentativnog podskupa podataka. No, ovaj pristup može eliminirati ključne podatkovne točke, utječući na točnost algoritma. Da bi to prevladali, Reker i njegovi suradnici koristili su tehniku poznatu kao aktivno strojno učenje.
Aktivno strojno učenje, koje omogućuje algoritmu da zatraži dodatne informacije u slučaju nejasnoća ili praznina u podacima, pokazalo je obećavajuće rezultate u poboljšanju učinkovitosti modela u predviđanju performansi.
Aktivno strojno učenje u razvoju lijekova
Tim s Dukea bio je prvi koji je primijenio aktivno strojno učenje na postojeće skupove podataka, posebno u kontekstu molekularne biologije i razvoja lijekova.
Tim je pokazao da aktivno poduzorkovanje preciznije identificira i predviđa molekularna svojstva nego standardne strategije poduzorkovanja. U nekim je slučajevima bilo čak 139% učinkovitije od algoritma treniranog na cijelom skupu podataka. Iznenađujuće, idealna količina podataka ispostavila se mnogo manjom nego što se očekivalo, ponekad su bila potrebna samo 10% dostupnih podataka.
Tim planira nastaviti proučavanje ove točke preokreta podataka i koristiti ovaj novi pristup za identifikaciju novih molekula za potencijalne terapijske ciljeve. Novi bi pristup mogao smanjiti potrebe i troškove pohrane podataka, čineći strojno učenje dostupnijim, produktivnijim i snažnijim.
Pridružite se raspravi u našoj Telegram grupi. KOZMOS Telegram –t.me/kozmoshr