PREDAVANJE: Strojno učenje iz neuravnoteženih podatkov PDF natisni

V okviru biostatističnega centra bo v torek, 22.4.2014, ob 12.00 na IBMI predaval izr. prof. dr. Marko Robnik-Šikonja

Strojno učenje iz neuravnoteženih podatkov

Številni zanimivi in praktično pomembni klasifikacijski problemi so predstavljeni z neuravnoteženo množico učnih podatkov, kar pomeni, da imamo dovolj primerov večinskega razreda, večinoma pa nas zanima manjšinski razred, za katerega imamo le malo podatkov. Takšni so na primer primeri redkih diagnoz, kjer je večina pregledanih oseb negativna, le malo pa je pozitivnih, katerih lastnosti bi se radi naučili. Podobne primere najdemo v genetiki, pri nelegalnih transakcijah na borzi, zavarovalniških goljufijah, napakah v proizvodnji, itd. Za splošne metode podatkovne analitike so tovrstni problemi težki, zaradi pomembnosti in velike razširjenosti pa je razvitih več pristopov, kako jih reševati. Predstavili bomo metode, ki se problema neuravnoteženih podatkov lotevajo z vzorčenjem in cenovno občutljivim učenjem ter nekaj specializiranih metod, ki poskušajo težavo reševati s spremembami v samem učnem algoritmu. Zadnji del predavanja bomo namenili metodam, ki smo jih proučevali v okviru naših raziskav, in sicer metodam za ocenjevanje atributov v neuravnoteženih množicah, metodam za generiranje delno umetnih učnih primerov in skupinskim metodam.

 

 

Svet statistike