Title
Metodologija rešavanja semantičkih problema u obradi kratkih tekstova napisanih na prirodnim jezicima sa ograničenim resursima
Creator
Batanović, Vuk, 1987-, 63980553
Copyright date
2020
Object Links
Select license
Autorstvo-Nekomercijalno-Deliti pod istim uslovima 3.0 Srbija (CC BY-NC-SA 3.0)
License description
Dozvoljavate umnožavanje, distribuciju i javno saopštavanje dela, i prerade, ako se navede ime autora na način odredjen od strane autora ili davaoca licence i ako se prerada distribuira pod istom ili sličnom licencom. Ova licenca ne dozvoljava komercijalnu upotrebu dela i prerada. Osnovni opis Licence: http://creativecommons.org/licenses/by-nc-sa/3.0/rs/deed.sr_LATN Sadržaj ugovora u celini: http://creativecommons.org/licenses/by-nc-sa/3.0/rs/legalcode.sr-Latn
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 23.12.2020.
Other responsibilities
mentor
Nikolić, Boško, 1972-, 12843879
mentor
Cvetanović, Miloš, 1978-, 1877351
član komisije
Bojić, Dragan, 1967-, 12734311
član komisije
Ševarac, Zoran, 1977-, 64281865
član komisije
Drašković, Dražen, 1985-, 26099047
Academic Expertise
Tehničko-tehnološke nauke
University
Univerzitet u Beogradu
Faculty
Elektrotehnički fakultet
Title translated
A methodology for solving semantic tasks in the processing of
short texts written in natural languages with limited resources
Publisher
[V. Batanović]
Format
123 str.
description
Elektrotehnika i računarstvo - Softversko inženjerstvo / Electrical engineering and computer science - Software engineering
Abstract (sr)
Statistički pristupi obradi prirodnih jezika tipično zahtevaju značajne količine anotiranih
podataka, a često i različite pomoćne jezičke alate, što ograničava njihovu primenu u resursno
ograničenim situacijama. U ovoj disertaciji predstavljena je metodologija razvoja statističkih rešenja
u semantičkoj obradi prirodnih jezika sa ograničenim resursima. Ovakvi jezici se odlikuju ne samo
limitiranim brojem postojećih jezičkih resursa, već i ograničenim mogućnostima za razvoj novih
skupova podataka i namenskih alata i algoritama. Predložena metodologija je usredsređena na kratke
tekstove zbog njihove rasprostranjenosti u digitalnoj komunikaciji i zbog veće složenosti njihove
semantičke obrade.
Metodologija obuhvata sve faze izrade statističkih rešenja, od prikupljanja tekstualnog sadržaja,
preko anotacije podataka, do formulisanja, obučavanja i evaluacije modela mašinskog učenja. Njena
upotreba je detaljno ilustrovana na dva semantička problema – analizi sentimenta i određivanju
semantičke sličnosti. Kao primer jezika sa ograničenim resursima korišćen je srpski jezik, ali se
predložena metodologija može primeniti i na druge jezike iz ove kategorije.
Pored opšte metodologije, u doprinose ove disertacije spada razvoj novog, fleksibilnog sistema
označavanja sentimenta kratkih tekstova, nove metrike za utvrđivanje ekonomičnosti anotacije, kao
i nekoliko novih modela za određivanje semantičke sličnosti kratkih tekstova. Rezultati disertacije
uključuju i kreiranje prvih javno dostupnih anotiranih skupova podataka za probleme analize
sentimenta i određivanja semantičke sličnosti kratkih tekstova na srpskom jeziku, razvoj i evaluaciju
većeg broja modela na ovim problemima, i prvu komparativnu evaluaciju većeg broja alata za
morfološku normalizaciju na kratkim tekstovima na srpskom jeziku.
Abstract (en)
Statistical approaches to natural language processing typically require considerable
amounts of labeled data, and often various auxiliary language tools as well, limiting their applicability
in resource-limited settings. This thesis presents a methodology for developing statistical solutions in
the semantic processing of natural languages with limited resources. In these languages, not only are
existing language resources limited, but so are the capabilities for developing new datasets and
dedicated tools and algorithms. The proposed methodology focuses on short texts due to their
prevalence in digital communication, as well as the greater complexity regarding their semantic
processing.
The methodology encompasses all phases in the creation of statistical solutions, from the collection
of textual content, to data annotation, to the formulation, training, and evaluation of machine learning
models. Its use is illustrated in detail on two semantic tasks – sentiment analysis and semantic textual
similarity. The Serbian language is utilized as an example of a language with limited resources, but
the proposed methodology can also be applied to other languages in this category.
In addition to the general methodology, the contributions of this thesis consist of the development of
a new, flexible short-text sentiment annotation system, a new annotation cost-effectiveness metric, as
well as several new semantic textual similarity models. The thesis results also include the creation of
the first publicly available annotated datasets of short texts in Serbian for the tasks of sentiment
analysis and semantic textual similarity, the development and evaluation of numerous models on
these tasks, and the first comparative evaluation of multiple morphological normalization tools on
short texts in Serbian.
Authors Key words
obrada prirodnih jezika, računarska lingvistika, semantička sličnost tekstova, analiza
sentimenta, morfološka normalizacija, lingvistička anotacija, mašinsko učenje
Authors Key words
natural language processing, computational linguistics, semantic textual similarity,
sentiment analysis, morphological normalization, linguistic annotation, machine learning
Classification
81'322.2:004.8(043.3)
Type
Tekst
Abstract (sr)
Statistički pristupi obradi prirodnih jezika tipično zahtevaju značajne količine anotiranih
podataka, a često i različite pomoćne jezičke alate, što ograničava njihovu primenu u resursno
ograničenim situacijama. U ovoj disertaciji predstavljena je metodologija razvoja statističkih rešenja
u semantičkoj obradi prirodnih jezika sa ograničenim resursima. Ovakvi jezici se odlikuju ne samo
limitiranim brojem postojećih jezičkih resursa, već i ograničenim mogućnostima za razvoj novih
skupova podataka i namenskih alata i algoritama. Predložena metodologija je usredsređena na kratke
tekstove zbog njihove rasprostranjenosti u digitalnoj komunikaciji i zbog veće složenosti njihove
semantičke obrade.
Metodologija obuhvata sve faze izrade statističkih rešenja, od prikupljanja tekstualnog sadržaja,
preko anotacije podataka, do formulisanja, obučavanja i evaluacije modela mašinskog učenja. Njena
upotreba je detaljno ilustrovana na dva semantička problema – analizi sentimenta i određivanju
semantičke sličnosti. Kao primer jezika sa ograničenim resursima korišćen je srpski jezik, ali se
predložena metodologija može primeniti i na druge jezike iz ove kategorije.
Pored opšte metodologije, u doprinose ove disertacije spada razvoj novog, fleksibilnog sistema
označavanja sentimenta kratkih tekstova, nove metrike za utvrđivanje ekonomičnosti anotacije, kao
i nekoliko novih modela za određivanje semantičke sličnosti kratkih tekstova. Rezultati disertacije
uključuju i kreiranje prvih javno dostupnih anotiranih skupova podataka za probleme analize
sentimenta i određivanja semantičke sličnosti kratkih tekstova na srpskom jeziku, razvoj i evaluaciju
većeg broja modela na ovim problemima, i prvu komparativnu evaluaciju većeg broja alata za
morfološku normalizaciju na kratkim tekstovima na srpskom jeziku.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.