Title
Мрежа отворених података и језички ресурси у процесу изградње српско-немачког литерарног корпуса
Creator
Andonovski, Jelena, 1987-, 12933479
Copyright date
2019
Object Links
Select license
Autorstvo-Nekomercijalno 3.0 Srbija (CC BY-NC 3.0)
License description
Dozvoljavate umnožavanje, distribuciju i javno saopštavanje dela, i prerade, ako se navede ime autora na način odredjen od strane autora ili davaoca licence. Ova licenca ne dozvoljava komercijalnu upotrebu dela. Osnovni opis Licence: http://creativecommons.org/licenses/by-nc/3.0/rs/deed.sr_LATN Sadržaj ugovora u celini: http://creativecommons.org/licenses/by-nc/3.0/rs/legalcode.sr-Latn
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 24.01.2020.
Other responsibilities
mentor
Krstev, Cvetana, 1952-, 12149607
član komisije
Utvić, Miloš, 1976-, 17300071
član komisije
Kostić-Tomović, Jelena, 1973-, 4750439
član komisije
Pavlović-Lažetić, Gordana, 1955-, 12443239
član komisije
Stanković, Ranka, 1964-, 13635431
Academic Expertise
Društveno-humanističke nauke
University
Univerzitet u Beogradu
Faculty
Filološki fakultet
Alternative title
Linked Open Data and language resources in creating Serbian-German literary corpus
Открытая сеть передачиданныхи языковые ресурсы в процессе построения сербско- немецкого литературного корпуса
Publisher
[Ј. Андоновски]
Format
XII, 332 листа
description
Филолошке науке, библиотечка информатика - Рачунарска лингвистика, корпусна лингвистика, обрада природних
језика / Philological sciences, Library informatics - Computational linguistics, Corpus linguistics, Natural Language Processing
Abstract (sr)
Паралелни корпуси представљају врсту вишејезичних корпуса који су последњих
деценија постали изузетно значајни у области обраде природних језика (Natural Language
Processing - NLP) и један од важнијих ресурса за истраживаче у различитим областима
лингвистике и сродним језичким дисциплинама. Са израдом ове докторске дисертације
започет је рад на паралелном српско-немачком корпусу књижевних текстова, СрпНемКор.
У току рада на дисертацији обрађено је четрнаест романа написаних у другој половини 20.
и првој половини 21. века на српском и немачком језику. За садржај корпуса одабрано је
седам романа оригинално написаних на српском и њихови еквиваленти на немачком
језику и седам романа оригинално написаних на немачком (четири припадају аустријској
књижевности, три припадају немачкој књижевности) и њихови еквиваленти на српском
језику. У дисертацији је детаљно анализиран поступак прикупљања и одабира материјала
за корпус, затим обрада текстова применом расположивих језичких алата и ресурса за оба
језика, као и паралализација коришћењем одговарајућег софтвера.
Произведени паралелни корпус књижевних текстова, СрпНемКор, смештен је у
дигиталну библиотеку Библиша која омогућава двојезичну претрагу комплетног текста
паралелних колекција уз могућност морфолошког и семантичког проширење упита
позивањем различитих лексичких и терминолошких ресурса. У дисертацији је
анализирана могућност семантичког проширења упита заснована на синонимима
позивањем терминолошке базе Терми. Терми је терминолошка вишејезична база која
подржава развој терминолошких речника из различитих домена (математика,
рачунарство, рударство, библиотекарство, рачунарска лингвистика и многи други) а до
сада је омогућавала проширење упита само на српском и енглеском језику. На основу
екстракције лексичких јединица из паралелне колекције СрпНемКор, база Терми је
допуњена новим лексичким јединицама на српском, њиховим еквивалентима на
немачком језику као и синонимима. Добијена листа преводних парова је искоришћена и
VI
за генерисање двојезичног речника општег типа као скупа повезаних података при чему
су тестиране и неке од технологија семантичког веба.
У дисертацији је анализирана и анотација именованих ентитета (имена људи,
геополитичких имена, организација и сл.) у обе стране корпуса, на српском и немачком
језику, уз помоћ расположивих алата за та два језика, као и могућности даље употребе
добијених резултата.
Abstract (en)
Aligned multilingual corpora have become essential resources in multilingual Natural
Language Processing (NLP) in the last decades, as well as one of the major resources for
researchers in various areas of linguistics and related language disciplines. This doctoral
dissertation presents a new aligned Serbian-German literary corpus, SrpNemKor, for which
fourteen novels written in the second half of the 20th and the first part of the 21st century
were selected. From selected novels, seven are originally written in Serbian and have their
equivalents in the German language, and other seven are originally written in German (four
belong to Austrian literature, three belong to German literature) and have their equivalents in
the Serbian language. In the dissertation in detail is analyzed the process of the collection and
selection of novels for the corpus, then texts processing using available language tools and
resources for both languages, as well as parallelization using appropriate software.
The new aligned corpus, SrpNemKor, is stored in digital library Bibliša. Bibliša enables
bilingual full-text search of aligned collections with the possibility of morphological and
semantic query expansion by invoking appropriate lexical and terminological resources. In this
research, it was specifically analyzed the possibility of semantic extension of the search queries
based on synonyms by invoking the terminological database Termi. Termi is a multilingual
database launched as a support for the development of terminological dictionaries in various
domains (mathematics, computer science, mining, library science, computational linguistics,
etc.). Until now Termi supported only the processing and representation of terms in Serbian
and English. Based on the extraction of lexical units from the SrpNemKor, Termi is enriched with
new lexical units in Serbian and their German equivalents with their synonyms which enables
Bibliša to expand queries in German as well. The obtained list of German-Serbian translated
pairs was also used to generate a general bilingual dictionary as a set of linked open data.
In the dissertation, it was analyzed the annotation of named entities (person names,
organizations, locations, etc.) and are tasted the available tools for named entity recognition
VIII
both for Serbian and German in both parts of the corpus. The obtained results were analyzed
for further researches in the different linguistics and informatics fields.
Authors Key words
паралелни корпуси, анотација корпуса, обрада природних језика, дигиталне
библиотеке, Библиша, лексички ресурси, терминолошки ресурси, именовани ентитети,
семантички веб, отворени повезани подаци
Authors Key words
parallel corpora, corpus annotation, natural language processing, digital libraries,
Bibliša, lexical resources, terminological resources, named entities, semantic web, linked open
data
Classification
811.163.41'322.2:811.112.2'322.2]:004.822(043.3)
026/027:004.62(043.3)
Type
Tekst
Abstract (sr)
Паралелни корпуси представљају врсту вишејезичних корпуса који су последњих
деценија постали изузетно значајни у области обраде природних језика (Natural Language
Processing - NLP) и један од важнијих ресурса за истраживаче у различитим областима
лингвистике и сродним језичким дисциплинама. Са израдом ове докторске дисертације
започет је рад на паралелном српско-немачком корпусу књижевних текстова, СрпНемКор.
У току рада на дисертацији обрађено је четрнаест романа написаних у другој половини 20.
и првој половини 21. века на српском и немачком језику. За садржај корпуса одабрано је
седам романа оригинално написаних на српском и њихови еквиваленти на немачком
језику и седам романа оригинално написаних на немачком (четири припадају аустријској
књижевности, три припадају немачкој књижевности) и њихови еквиваленти на српском
језику. У дисертацији је детаљно анализиран поступак прикупљања и одабира материјала
за корпус, затим обрада текстова применом расположивих језичких алата и ресурса за оба
језика, као и паралализација коришћењем одговарајућег софтвера.
Произведени паралелни корпус књижевних текстова, СрпНемКор, смештен је у
дигиталну библиотеку Библиша која омогућава двојезичну претрагу комплетног текста
паралелних колекција уз могућност морфолошког и семантичког проширење упита
позивањем различитих лексичких и терминолошких ресурса. У дисертацији је
анализирана могућност семантичког проширења упита заснована на синонимима
позивањем терминолошке базе Терми. Терми је терминолошка вишејезична база која
подржава развој терминолошких речника из различитих домена (математика,
рачунарство, рударство, библиотекарство, рачунарска лингвистика и многи други) а до
сада је омогућавала проширење упита само на српском и енглеском језику. На основу
екстракције лексичких јединица из паралелне колекције СрпНемКор, база Терми је
допуњена новим лексичким јединицама на српском, њиховим еквивалентима на
немачком језику као и синонимима. Добијена листа преводних парова је искоришћена и
VI
за генерисање двојезичног речника општег типа као скупа повезаних података при чему
су тестиране и неке од технологија семантичког веба.
У дисертацији је анализирана и анотација именованих ентитета (имена људи,
геополитичких имена, организација и сл.) у обе стране корпуса, на српском и немачком
језику, уз помоћ расположивих алата за та два језика, као и могућности даље употребе
добијених резултата.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.