Title
Рано откривање уређаја заражених ботнет малвером коришћењем метода детекције аномалија мрежних токова
Creator
Jovanović, Đorđe D., 1994-
CONOR:
120973065
Copyright date
2024
Object Links
Select license
Autorstvo-Nekomercijalno 3.0 Srbija (CC BY-NC 3.0)
License description
Dozvoljavate umnožavanje, distribuciju i javno saopštavanje dela, i prerade, ako se navede ime autora na način odredjen od strane autora ili davaoca licence. Ova licenca ne dozvoljava komercijalnu upotrebu dela. Osnovni opis Licence: http://creativecommons.org/licenses/by-nc/3.0/rs/deed.sr_LATN Sadržaj ugovora u celini: http://creativecommons.org/licenses/by-nc/3.0/rs/legalcode.sr-Latn
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 02.04.2025.
Other responsibilities
Academic Expertise
Tehničko-tehnološke nauke
University
Univerzitet u Beogradu
Faculty
Elektrotehnički fakultet
Alternative title
Early discovery of the devices infected with botnet malware using network flow anomaly detection
Publisher
[Ђ. Д. Јовановић]
Format
127 стр.
description
Електротехника и рачунарство - Рачунарска техника и информатика / Electrical engineering and Computer Science - Computer Science and Information Technology
Abstract (sr)
Ботнети представљају скуп уређаја заражених малициозним софтвером, којима управља
злонамерни администратор (ботмастер), чији је циљ извођење различитих напада на
рачунарску инфраструктуру попут крађe података или дистрибуираних напада ускраћивања
сервиса (енг. Distributed Denial of Service, скр. DDoS). У последње време, ботнети
представљају све већу опасност, нарочито од тренутка када су мета постали уређаји типа
интернет ствари (енг. Internet of Things, скр. IoT) чији је број значајно порастао, а који се
често скромно одржавају. Већина досадашњих приступа у детекцији напада ботнета се
фокусира на детекцију самих напада (најчешће DDoS), након што се напади десе. С обзиром
на разорну моћ новијих ботнета, али и чињеницу да уређаји могу да буду део ботнета данима
и месецима пре него што се употребе за напад, од великог је значаја да се ботнет открије што
пре, како би се напад спречио, а ботнет неутралисао.
Овај рад нуди алтернативни приступ детекцији ботнета у односу на досадашње приступе:
рану детекцију заражених уређаја посматрањем мрежних токова командне и контролне
комуникације ботнета као временске серије и екстракцијом унутартоковских (енг. intraflow)
статистичких одлика из њих. Циљ овог метода екстракције одлика јесте уштеда рачунарских
ресурса потребних за детекцију, уз очувану високу прецизност детекције. Екстракција ових
одлика и примена техника машинског учења су остварили циљ детекције ботнет
комуникације пре него што се напад догоди. Као први корак, динамичком анализом
понашања и статичком анализом кода малвера, истражене су карактеристике мрежног
понашања примерака IoT ботнета који су прикупљани током четири године (2019-2023).
Анализом прикупљених примерака, осмишљен је механизам за екстракцију
карактеристичних временских низова и одлика из њих заснован на концепту софтверски
дефинисаних мрежа. Испитивани су различити модели машинског учења, тестирани на
једном јавном скупу података Чешког техничког универзитета (енг. Czech Technical
University, скр. CTU), као и на прикупљеним ботнет примерцима. Остварени резултати
детекције су били једнаки као у другим научним радовима из области, који су детекцију
вршили из снимака комплетног саобраћаја на линку, уз режијске трошкове (потребну
процесорску снагу, простор на дисковима итд.) мање до два реда величине.
У каснијој фази истраживања, прикупљени су додатни примерци ботнет апликација и
проширен је скуп екстрахованих одлика. Потом је тестиран систем машинског учења базиран
на екстремном градијентном ојачавању (енг. Extreme Gradient Boosting). Испитиване су
различите технике одабира одлика из временских низова, оптимизације хиперпараметара,
модела, као и техника генерисања вештачких узорака. На крају, за радне процесе са најбољим
резултатима, различитим груписањем скупа обучавања и тестног скупа, испитивана је
могућност детекције узорака новијег датума старијим узорцима и дата је анализа резултата.
Ова анализа је дала далеко боље резултате у детекцији ботнета уз вредност F1 мере од 0.9041
у случају радних процеса који не користе корак вештачког генерисања узорака, и вредност F1
мере од 0.9984 у случају радних процеса који користе корак вештачког генерисања узорака,
чиме је значајно премашила прецизност детекције других радова и методологија у области
чиме су потврђене полазне хипотезе овог рада да је коришћењем унутартоковских одлика
могуће реализовати овакав систем детекције.
Abstract (en)
Botnets represent a collection of devices infected with malicious software, controlled by a malicious
administrator (botmaster), aiming to execute various attacks on computer infrastructure, such as
data theft or DDoS (Distributed Denial of Service) attacks. Recently, botnets have become an
increasing threat, especially since Internet of Things (IoT) devices, often lacking security measures
of their own, and whose numbers have significantly grown in recent years, have become targets.
Most existing approaches to botnet attack detection focus on identifying attacks (usually DDoS)
post factum, i.e. after they occur. Given the destructive power of newer botnets and that devices can
be part of a botnet for days or months before being used in an attack, it is crucial to detect the botnet
as early as possible to prevent the attack and neutralize the botnet.
This thesis offers an alternative approach to botnet detection in comparison to previous methods:
early detection of infected devices by observing botnet command and control network flows as time
series and extracting intra-flow statistical features from them. The goal of this feature extraction
method is to save computational resources required for detection, while at the same time
maintaining high detection accuracy. The extraction of these features and the application of machine
learning techniques achieved the goal of detecting botnet communication before an attack occurs.
As a first step, dynamic behavior analysis and static malware code analysis were conducted to
investigate the network behavior characteristics of IoT botnet samples collected over four years
(2019-2023). Based on the analysis of the collected samples, a mechanism was devised to extract
characteristic time series and features from them based on the concept of software-defined
networking. Various machine-learning models were tested on a public dataset from the Czech
Technical University (CTU), and on collected botnet samples. The detection results were
comparable to other relevant scientific works in the field that performed detection from complete
traffic snapshots on the link, with overhead costs (required processing power, disk space, etc.)
reduced by up to two orders of magnitude.
In the later stages of the research, additional botnet application samples were collected, and the set
of extracted features was expanded. The machine learning system based on Extreme Gradient
Boosting was then tested. Various techniques for feature selection from time series, hyper-parameter
optimization, model selection, and artificial sample generation were examined. Finally, for pipelines
with the best results, the possibility of detecting newer samples with older ones was investigated by
grouping the training and test sets differently, and the results were analyzed. This analysis yielded
far better botnet detection results, with an F1 score of 0.9041 for pipelines that did not use artificial
sample generation and an F1 score of 0.9984 for pipelines that did use artificial sample generation,
significantly surpassing the detection accuracy of other studies and methodologies in the field. This
confirmed the initial hypothesis of this paper that using intra-flow features can enable the
realization of such a detection system.
Authors Key words
информациона безбедност, детекција ботнета, машинско учење,
софтверски дефинисане мреже
Authors Key words
information security, botnet detection, machine learning, software-defined
networks
Classification
004.056.53:621.39:004.738.5(043.3)
Type
Tekst
Abstract (sr)
Ботнети представљају скуп уређаја заражених малициозним софтвером, којима управља
злонамерни администратор (ботмастер), чији је циљ извођење различитих напада на
рачунарску инфраструктуру попут крађe података или дистрибуираних напада ускраћивања
сервиса (енг. Distributed Denial of Service, скр. DDoS). У последње време, ботнети
представљају све већу опасност, нарочито од тренутка када су мета постали уређаји типа
интернет ствари (енг. Internet of Things, скр. IoT) чији је број значајно порастао, а који се
често скромно одржавају. Већина досадашњих приступа у детекцији напада ботнета се
фокусира на детекцију самих напада (најчешће DDoS), након што се напади десе. С обзиром
на разорну моћ новијих ботнета, али и чињеницу да уређаји могу да буду део ботнета данима
и месецима пре него што се употребе за напад, од великог је значаја да се ботнет открије што
пре, како би се напад спречио, а ботнет неутралисао.
Овај рад нуди алтернативни приступ детекцији ботнета у односу на досадашње приступе:
рану детекцију заражених уређаја посматрањем мрежних токова командне и контролне
комуникације ботнета као временске серије и екстракцијом унутартоковских (енг. intraflow)
статистичких одлика из њих. Циљ овог метода екстракције одлика јесте уштеда рачунарских
ресурса потребних за детекцију, уз очувану високу прецизност детекције. Екстракција ових
одлика и примена техника машинског учења су остварили циљ детекције ботнет
комуникације пре него што се напад догоди. Као први корак, динамичком анализом
понашања и статичком анализом кода малвера, истражене су карактеристике мрежног
понашања примерака IoT ботнета који су прикупљани током четири године (2019-2023).
Анализом прикупљених примерака, осмишљен је механизам за екстракцију
карактеристичних временских низова и одлика из њих заснован на концепту софтверски
дефинисаних мрежа. Испитивани су различити модели машинског учења, тестирани на
једном јавном скупу података Чешког техничког универзитета (енг. Czech Technical
University, скр. CTU), као и на прикупљеним ботнет примерцима. Остварени резултати
детекције су били једнаки као у другим научним радовима из области, који су детекцију
вршили из снимака комплетног саобраћаја на линку, уз режијске трошкове (потребну
процесорску снагу, простор на дисковима итд.) мање до два реда величине.
У каснијој фази истраживања, прикупљени су додатни примерци ботнет апликација и
проширен је скуп екстрахованих одлика. Потом је тестиран систем машинског учења базиран
на екстремном градијентном ојачавању (енг. Extreme Gradient Boosting). Испитиване су
различите технике одабира одлика из временских низова, оптимизације хиперпараметара,
модела, као и техника генерисања вештачких узорака. На крају, за радне процесе са најбољим
резултатима, различитим груписањем скупа обучавања и тестног скупа, испитивана је
могућност детекције узорака новијег датума старијим узорцима и дата је анализа резултата.
Ова анализа је дала далеко боље резултате у детекцији ботнета уз вредност F1 мере од 0.9041
у случају радних процеса који не користе корак вештачког генерисања узорака, и вредност F1
мере од 0.9984 у случају радних процеса који користе корак вештачког генерисања узорака,
чиме је значајно премашила прецизност детекције других радова и методологија у области
чиме су потврђене полазне хипотезе овог рада да је коришћењем унутартоковских одлика
могуће реализовати овакав систем детекције.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.