Title
Детекција аномалија коришћењем мета података у аутоматизованим системима за машинско учење
Creator
Kotlar, Miloš, 1993-
CONOR:
100179721
Copyright date
2022
Object Links
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 11.07.2022.
Other responsibilities
Academic Expertise
Tehničko-tehnološke nauke
University
Univerzitet u Beogradu
Faculty
Elektrotehnički fakultet
Alternative title
Anomaly detection using meta features in automated machine learning systems
Publisher
[М. Котлар]
Format
113 стр.
description
Техничке науке - Електротехника и рачунарство - Рачунарска техника и информатика / Technical sciences - Electrical and computer engineering - Computing and informatics
Abstract (sr)
Генерисање велике количине података условљено развојем крајњих уређаја (енг. Edge
Devices) и интернет ствари (енг. Internet of Things) довело је до убрзаног развоја технологија и
алгоритама за машинско учење који се користе у системима за анализу и обраду података. Са
великом количином података у системима за њихову анализу и обраду, заснованим на
алгоритмима за машинско учење, перформансе система искључиво зависе од квалитета
података, одабраног модела и параметара модела. Аномалије у подацима представљају
инстанце које се разликују од дистрибуције података, утичу на квалитет података и могу да се
детектују коришћењем алгоритама за машинско учење. Предлог модела и параметара модела
за детекцију аномалија искључиво зависи од експертизе креатора система или доменског
експерта. У случајевима када не постоји узорак података са обележеним аномалијама, што је
чест случај у подацима из реалног света, предлог модела за детекцију аномалија није
тривијалан. Предлог модела за детекцију аномалија се може аутоматизовати, при чему такав
систем за аутоматизовано машинско учење (енг. AutoML) предлаже модел за детекцију
аномалија у подацима на основу података, мета података, одговарајуће оптимизационе
метрике и претходно стеченог знања. Како би се омогућила имплементација аутоматизованог
система за детекцију аномалија, потребно је дефинисати скуп функција за израчунавање мета
података који ће се користити за предлагање модела за одговарајућу оптимизациону метрику.
Предмет истраживања представља развој проширивог система за израчунавање мета
података. Идеја је да се систем за израчунавање мета података заснива на функцијама које
користе доменско знање и испуњавају критичне захтеве за примену у системима за
аутоматизовано машинско учење, а то су скалабилност и перформансе. Циљ истраживања је
да се предложи скуп функција за израчунавање мета података који ће испуњавати критичне
захтеве за наведену примену. Како би се предложио и евалуирао скуп функција за
израчунавање мета података потребно је да се постојећа решења упореде кроз различите
аспекте комплексности. Такође, потребно је да се дизајнирају експерименти и добију
резултати који ће моћи да се користе у будућим истраживањима у области аутоматизованог
машинског учења. На основу евалуације експерименталних резултата показано је да
предложени мета подаци постижу тачност од 87% и да испуњавају критичне захтеве за
примену у аутоматизованим системима за машинско учење, док постојећа решења постижу
тачност од 73% над целим репозиторијумом. У ситуацијама када не постоји значајна количина
скупова података предложено решење постиже и за 25% лошије перформансе. Значај
истраживања представља могућност имплементације аутоматизованих система за детекцију
аномалија заснованим на предложеном скупу функција за израчунавање мета података. У
случајевима када не постоји узорак података са обележеним аномалијама, или подаци нису
присутни, креатор података или доменски експерт ће моћи ефикасно да карактеризује
аномалије у подацима на основу доменског знања.
Abstract (en)
Proliferation of data and devices led to the rapid development of technology and
machine learning algorithms used in data analysis and processing systems. With a large amount
of data in systems for their analysis and processing, system's performance depends solely on
the quality of the data, the selected algorithm and the algorithm's parameters. Data anomalies
are instances that differ from data distribution, affect data quality, and can be detected using
machine learning algorithms. Selected algorithm and the parameters for anomaly detection
depend exclusively on the expertise of the system creator or domain expert. In cases where there
is no sample data with labeled anomalies, which is often the case in real-world, choosing right
algorithm for anomaly detection is not trivial problem. Algorithm selection for anomaly
detection tasks can be automated by using automated machine learning system (AutoML) that
proposes an algortihm for detecting anomalies based on data and meta-features. A growing
number of research papers shed light on AutoML frameworks, which are becoming a promising
solution for building complex machine learning models without human expertise and assistance. The
key challenge in enabling AutoML frameworks to build an efficient model for anomaly detection
tasks is to determine the best underlying model for a given task and optimization metric. The metalearning approaches based on a set of meta features that describes data properties can enable efficient
model selection in AutoML frameworks. The existing meta-learning approaches based on statistical
and information-theoretic meta features require large amounts of data and computational resources
to extract data properties.
The subject of research within this doctoral dissertation is the development of an
extensible system for extracting meta features based on domain-specific knowledge. In order to
evaluate the proposed set of meta-features, the goal is to compare the existing solutions through
different aspects of complexity against the proposed solution. Also, the goal is to design
experiments and get results that can be used in future research in the field of automated machine
learning in general. Based on the evaluation of experimental results, it is shown that the
proposed meta features achieve accuracy of 87% and meet the critical requirements for
application in AutoML systems, while the existing solutions achieve accuracy of 73%. In cases
where there is no significant number of datasets available for evaluation, the proposed solution
achieves 25% worse performance compared against the existing solutions. The significance of
the research is the possibility of implementing AutoML systems based on the proposed set of
meta features. In cases where there is no sample data with labeled anomalies, or data is not
present, the data creator or domain expert will be able to effectively characterize the anomalies
in the data, based on domain-specific knowledge.
Authors Key words
детекција аномалија, automl, карактеристике података, функције за мерење
сличности, мета подаци, мета учење, пренос знања између модела
Authors Key words
anomaly detection, automl, data properties, distance functions, meta features, metalearning, transfer learning
Classification
004.8:004.6(043.3)
Type
Tekst
Abstract (sr)
Генерисање велике количине података условљено развојем крајњих уређаја (енг. Edge
Devices) и интернет ствари (енг. Internet of Things) довело је до убрзаног развоја технологија и
алгоритама за машинско учење који се користе у системима за анализу и обраду података. Са
великом количином података у системима за њихову анализу и обраду, заснованим на
алгоритмима за машинско учење, перформансе система искључиво зависе од квалитета
података, одабраног модела и параметара модела. Аномалије у подацима представљају
инстанце које се разликују од дистрибуције података, утичу на квалитет података и могу да се
детектују коришћењем алгоритама за машинско учење. Предлог модела и параметара модела
за детекцију аномалија искључиво зависи од експертизе креатора система или доменског
експерта. У случајевима када не постоји узорак података са обележеним аномалијама, што је
чест случај у подацима из реалног света, предлог модела за детекцију аномалија није
тривијалан. Предлог модела за детекцију аномалија се може аутоматизовати, при чему такав
систем за аутоматизовано машинско учење (енг. AutoML) предлаже модел за детекцију
аномалија у подацима на основу података, мета података, одговарајуће оптимизационе
метрике и претходно стеченог знања. Како би се омогућила имплементација аутоматизованог
система за детекцију аномалија, потребно је дефинисати скуп функција за израчунавање мета
података који ће се користити за предлагање модела за одговарајућу оптимизациону метрику.
Предмет истраживања представља развој проширивог система за израчунавање мета
података. Идеја је да се систем за израчунавање мета података заснива на функцијама које
користе доменско знање и испуњавају критичне захтеве за примену у системима за
аутоматизовано машинско учење, а то су скалабилност и перформансе. Циљ истраживања је
да се предложи скуп функција за израчунавање мета података који ће испуњавати критичне
захтеве за наведену примену. Како би се предложио и евалуирао скуп функција за
израчунавање мета података потребно је да се постојећа решења упореде кроз различите
аспекте комплексности. Такође, потребно је да се дизајнирају експерименти и добију
резултати који ће моћи да се користе у будућим истраживањима у области аутоматизованог
машинског учења. На основу евалуације експерименталних резултата показано је да
предложени мета подаци постижу тачност од 87% и да испуњавају критичне захтеве за
примену у аутоматизованим системима за машинско учење, док постојећа решења постижу
тачност од 73% над целим репозиторијумом. У ситуацијама када не постоји значајна количина
скупова података предложено решење постиже и за 25% лошије перформансе. Значај
истраживања представља могућност имплементације аутоматизованих система за детекцију
аномалија заснованим на предложеном скупу функција за израчунавање мета података. У
случајевима када не постоји узорак података са обележеним аномалијама, или подаци нису
присутни, креатор података или доменски експерт ће моћи ефикасно да карактеризује
аномалије у подацима на основу доменског знања.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.