Title
Modeli konačnih stanja u ekstrakciji informacija
Creator
Pajić, Vesna, 1974-
Copyright date
2012
Object Links
Select license
Autorstvo 3.0 Srbija (CC BY 3.0)
License description
Dozvoljavate umnožavanje, distribuciju i javno saopštavanje dela, i prerade, ako se navede ime autora na način odredjen od strane autora ili davaoca licence, čak i u komercijalne svrhe. Ovo je najslobodnija od svih licenci. Osnovni opis Licence: http://creativecommons.org/licenses/by/3.0/rs/deed.sr_LATN Sadržaj ugovora u celini: http://creativecommons.org/licenses/by/3.0/rs/legalcode.sr-Latn
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 08.11.2012.
Other responsibilities
mentor
Pavlović-Lažetić, Gordana, 1955-
član komisije
Vitas, Duško, 1949-
član komisije
Obradović, Ivan.
Academic Expertise
Prirodno-matematičke nauke
Academic Title
-
University
Univerzitet u Beogradu
Faculty
Matematički fakultet
Alternative title
Finite state models in information extraction
Publisher
[V. Pajić]
Format
PDF/A (193 lista)
description
Računarstvo i informatika-Računarska obrada teksta / Computer Science and Informatics-Text processing
Abstract (sr)
Disertacija je posvećena istraživanju naučne oblasti nazvane ekstrakcija
informacija (engl. information extraction), koja predstavlja podoblast veštačke
inteligencije, a u sebi kombinuje i koristi tehnike i dostignuća više različitih oblasti
računarstva. Termin "ekstrakcija informacija" će biti korišćen u dva različita konteksta.
U jednom od njih misli se na ekstrakciju informacije kao naučnu oblast i tada će se
koristiti skraćenica IE, preuzeta iz anglosaksonske literature u značenju "Information
Extraction". U drugom slučaju, kada se bude mislilo na sam proces i postupak
izdvajanja informacija iz teksta, koristiće se oblik "ekstrakcija informacija".
Ova disertacija predstavlja, pored pregleda postojećih metoda iz ove oblasti, i
jedan originalni pristup i metod za ekstrakciju informacija baziran na konačnim
transduktorima. Tokom istraživanja i rada na disertaciji, a primenom pomenutog
metoda, kao rezultat formirana je baza podataka o mikroorganizmima koja sadrži
fenotipske i genotipske karakteristike za 2412 vrsta i 873 rodova, namenjena za
istraživanja iz oblasti bioinformatike i genetike. Baza i korišćeni metod su detaljno
prikazani u nekoliko radova, publikovanih u časopisima ili izlaganih na međunarodnim
konferencijama (Pajić, 2011; Pajić i sar. 2011a; Pajić i sar. 2011b)
U glavi 1 dat je uvod u oblast ekstrakcije informacije, unutar koga je opisan
istorijat i razvoj metoda ove oblasti. Dalje je opisana klasifikacija tekstualnih resursa
nad kojima se vrši ekstrakcija informacija, kao i klasifikacija samih informacija. Na
kraju glave 1 oblast ekstrakcije informacije je upoređena sa drugim srodnim
disciplinama računarstva.
Glava 2 je posvećena prikazu teorijskih osnova na kojima su zasnovana
istraživanja ove disertacije. Razmatrana je teorija formalnih jezika i modela konačnih
stanja, kao i njihova uzajamna veza i veza sa ekstrakcijom informacija. Akcenat je
stavljen na konačne modele i metode koji su zasnovani na modelima konačnih stanja.
Ovi metodi pokazuju veću preciznost od drugih metoda za ekstrakciju informacije, te su
nezamenljivi u situacijama kada je tačnost izdvojenih podataka iz teksta od presudnog
značaja. Pojedini pojmovi ekstrakcije informacija - jezik relevantnih informacija, jezik
izdvojenih informacija, pravila ekstrakcije, definisani su iz ugla teorije formalnih jezika.
Formulisano je i dokazano osnovno svojstvo relacije transdukcije za zadato pravilo
ekstrakcije. Definisan je i pojam jezika konteksta informacija i dokazano je njegovo
svojstvo regularnosti...
Abstract (en)
This dissertation is on research and studying in scientific field called
information extraction, which can be seen as a sub-area of artificial intelligence and
which combines and uses techniques and achievements of several computer science
areas. The term „information extraction“ will be used in two different contexts. In the
first one, the term will refer to the scientific area and the acronym IE will be used in that
case. In the second case, this term will refer to the very process of extracting
information.
Beside the IE state-of-the-art survey, an original approach and a method for
information extraction based on finite state transducers are presented. A database with
microbial phenotype and genotype characteristics, for 2412 species and 873 genera has
been created, as a result of the research and the work on the dissertation. The database is
intended for research, in bioinformatics and genetics. The method used for the creation
of the database and the database itself are described in details and published in several
journals and conference proceedings (Pajić, 2011; Pajić et al. 2011a; Pajić et al. 2011b).
In the Section 1, the introduction to IE is given, together with the history of
development of methods in this area. The classification of textual resources that are
used for information extraction and classification of the information itself are described.
At the end of the Section 1, IE is compared with other related disciplines of computer
science.
Section 2 contains some excerpts from formal language theory and abstract
automata, on which the dissertation is based. The mutual relationship between these two
areas and their connection with IE are described. The emphasis is put on the final state
models and methods based on them. These methods show higher precision than other
methods for extracting information, and are indispensable in situations where the
accuracy of data extracted from the text is of crucial importance. Some specific terms of
information extraction - the language of the relevant information, the language of
extracted information and extraction rules, are defined from the perspective of formal
language theory. The basic feature of the transduction relation for the given rule
extraction is formulated and proved. The language of information context is defined and
its regularilty is proven...
Authors Key words
ekstrakcija informacija, obrada prirodnih jezika, konačni automati, konačni transdukori,
rekurzivne mreže prelaza
Authors Key words
information extraction, natural language processing, finite state automata, finite state
transducers, recursive transition networks
Classification
004.8
Subject
Ekstrakcija informacija
Subject
Obrada prirodnih jezika
Type
Tekst
Abstract (sr)
Disertacija je posvećena istraživanju naučne oblasti nazvane ekstrakcija
informacija (engl. information extraction), koja predstavlja podoblast veštačke
inteligencije, a u sebi kombinuje i koristi tehnike i dostignuća više različitih oblasti
računarstva. Termin "ekstrakcija informacija" će biti korišćen u dva različita konteksta.
U jednom od njih misli se na ekstrakciju informacije kao naučnu oblast i tada će se
koristiti skraćenica IE, preuzeta iz anglosaksonske literature u značenju "Information
Extraction". U drugom slučaju, kada se bude mislilo na sam proces i postupak
izdvajanja informacija iz teksta, koristiće se oblik "ekstrakcija informacija".
Ova disertacija predstavlja, pored pregleda postojećih metoda iz ove oblasti, i
jedan originalni pristup i metod za ekstrakciju informacija baziran na konačnim
transduktorima. Tokom istraživanja i rada na disertaciji, a primenom pomenutog
metoda, kao rezultat formirana je baza podataka o mikroorganizmima koja sadrži
fenotipske i genotipske karakteristike za 2412 vrsta i 873 rodova, namenjena za
istraživanja iz oblasti bioinformatike i genetike. Baza i korišćeni metod su detaljno
prikazani u nekoliko radova, publikovanih u časopisima ili izlaganih na međunarodnim
konferencijama (Pajić, 2011; Pajić i sar. 2011a; Pajić i sar. 2011b)
U glavi 1 dat je uvod u oblast ekstrakcije informacije, unutar koga je opisan
istorijat i razvoj metoda ove oblasti. Dalje je opisana klasifikacija tekstualnih resursa
nad kojima se vrši ekstrakcija informacija, kao i klasifikacija samih informacija. Na
kraju glave 1 oblast ekstrakcije informacije je upoređena sa drugim srodnim
disciplinama računarstva.
Glava 2 je posvećena prikazu teorijskih osnova na kojima su zasnovana
istraživanja ove disertacije. Razmatrana je teorija formalnih jezika i modela konačnih
stanja, kao i njihova uzajamna veza i veza sa ekstrakcijom informacija. Akcenat je
stavljen na konačne modele i metode koji su zasnovani na modelima konačnih stanja.
Ovi metodi pokazuju veću preciznost od drugih metoda za ekstrakciju informacije, te su
nezamenljivi u situacijama kada je tačnost izdvojenih podataka iz teksta od presudnog
značaja. Pojedini pojmovi ekstrakcije informacija - jezik relevantnih informacija, jezik
izdvojenih informacija, pravila ekstrakcije, definisani su iz ugla teorije formalnih jezika.
Formulisano je i dokazano osnovno svojstvo relacije transdukcije za zadato pravilo
ekstrakcije. Definisan je i pojam jezika konteksta informacija i dokazano je njegovo
svojstvo regularnosti...
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.