Autor: Bc. Peter Chomič
Školiteľ: RNDr. JUDr. Pavol Sokol, PhD.
Abstrakt
V práci sa venujeme multinominálnej klasifikácii škodlivého kódu (malvéru). V rámci výskumnej práce sme si vytvorili vlastný dataset, ktorý je tvorený veľkým množstvom charakteristík vzoriek. Cieľom tejto práce je pomocou algoritmov na selekciu atribútov vylúčiť tie atribúty, ktoré nie sú dôležité pri klasifikácii. Chceme ukázať, že selekcia má pri klasifikácii malvéru kladný dopad na výsledky aj v prípade, keď sa selektuje len veľmi malá časť atribútov. Keďže atribútov je enormne veľké množstvo a mnohé metódy sú výpočtovo náročné, v rámci práce selekciu atribútov delíme na hrubú selekciu a jemnú selekciu. Pri hrubej selekcii používame výpočtovo nenáročné metódy, ktoré vylúčia atribúty, ktoré majú minimálny alebo žiadny vplyv na klasifikáciu. Po nej nasleduje jemná selekcia, pri ktorej porovnávame viacero metód. Výsledky jemnej selekcie porovnávame na viacerých metódach klasifikácie s cieľom nájsť najlepšiu kombináciu klasifikátora a selektora a zistiť, ktoré skupiny atribútov boli použité pri dosiahnutí najlepšieho výsledku.
Ciele
- Vytvorenie dátovej sady pre klasifikáciu malvéru.
- Porovnanie prístupov ku klasifikácii a určovaniu podobnosti malvéru.
- Vytvorenie modelu pre klasifikáciu malvéru využitím selekcie atribútov, jeho
implementácia a vyhodnotenie.
Literatúra
- Saxe, J., Sanders, H.: Malware data science – attack detection and attribution,
San Francisco, No starch press. 2018. - Monnappa, K.A.: Learning malware analysis, Packt. 2018.
- UCCI, Daniele; ANIELLO, Leonardo; BALDONI, Roberto. Survey of
Machine Learning Techniques for Malware Analysis. Computers & Security,
2018. - YE, Yanfang, et al. A survey on malware detection using data mining
techniques. ACM Computing Surveys (CSUR), 2017, 50.3: 41.
Priebeh práce
Zatiaľ nezverejnené