Title
A framework for analysis and quality assessment of big and linked data
Creator
Lakshen, Guma Abdulkhader, 1963-
CONOR:
100135689
Copyright date
2021
Object Links
Select license
Bez licence - direktna primena zakona
License description
Ako ne izaberete neku od licenci, vaše zaštićeno delo može biti korišćeno samo u okviru opštih ograničenja autorskih prava. Na taj način ne dozvoljavate komercijalno ni nekomercijalno korišćenje, naročito reprodukciju, distribuciju, emitovanje, dostupnost i obradu dela. Izbor Creative Commons (CC) licence promoviše diseminaciju vašeg dela. Za više informacija: http://creativecommons.org.rs/licence
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 11.04.2022.
Other responsibilities
Academic Expertise
Tehničko-tehnološke nauke
University
Univerzitet u Beogradu
Faculty
Elektrotehnički fakultet
Alternative title
Окружење за анализу и оцену квалитета великих и повезаних података
Publisher
[G. A. Lakshen]
Format
X, 138 listova
description
Electrical engineering and computer science - Software engineering / Електротехника и рачунарство - Софтверско инжењерство
Abstract (en)
Linking and publishing data in the Linked Open Data format increases the interoperability
and discoverability of resources over the Web. To accomplish this, the process comprises
several design decisions, based on the Linked Data principles that, on one hand, recommend to
use standards for the representation and the access to data on the Web, and on the other hand
to set hyperlinks between data from different sources.
Despite the efforts of the World Wide Web Consortium (W3C), being the main international
standards organization for the World Wide Web, there is no one tailored formula for publishing
data as Linked Data. In addition, the quality of the published Linked Open Data (LOD) is a
fundamental issue, and it is yet to be thoroughly managed and considered.
In this doctoral thesis, the main objective is to design and implement a novel framework for
selecting, analyzing, converting, interlinking, and publishing data from diverse sources,
simultaneously paying great attention to quality assessment throughout all steps and modules
of the framework. The goal is to examine whether and to what extent are the Semantic Web
technologies applicable for merging data from different sources and enabling end-users to
obtain additional information that was not available in individual datasets, in addition to the
integration into the Semantic Web community space. Additionally, the Ph.D. thesis intends to
validate the applicability of the process in the specific and demanding use case, i.e. for creating
and publishing an Arabic Linked Drug Dataset, based on open drug datasets from selected
Arabic countries and to discuss the quality issues observed in the linked data life-cycle. To that
end, in this doctoral thesis, a Semantic Data Lake was established in the pharmaceutical domain
that allows further integration and developing different business services on top of the
integrated data sources. Through data representation in an open machine-readable format, the
approach offers an optimum solution for information and data dissemination for building
domain-specific applications, and to enrich and gain value from the original dataset. This thesis
showcases how the pharmaceutical domain benefits from the evolving research trends for
building competitive advantages. However, as it is elaborated in this thesis, a better
understanding of the specifics of the Arabic language is required to extend linked data
technologies utilization in targeted Arabic organizations.
Abstract (sr)
Повезивање и објављивање података у формату "Повезани отворени подаци" (енг.
Linked Open Data) повећава интероперабилност и могућности за претраживање ресурса
преко Web-а. Процес је заснован на Linked Data принципима (W3C, 2006) који са једне
стране елаборира стандарде за представљање и приступ подацима на Wебу (RDF, OWL,
SPARQL), а са друге стране, принципи сугеришу коришћење хипервеза између података
из различитих извора.
Упркос напорима W3C конзорцијума (W3C је главна међународна организација за
стандарде за Web-у), не постоји јединствена формула за имплементацију процеса
објављивање података у Linked Data формату. Узимајући у обзир да је квалитет
објављених повезаних отворених података одлучујући за будући развој Web-а, у овој
докторској дисертацији, главни циљ је (1) дизајн и имплементација иновативног оквира
за избор, анализу, конверзију, међусобно повезивање и објављивање података из
различитих извора и (2) анализа примена овог приступа у фармацeутском домену.
Предложена докторска дисертација детаљно истражује питање квалитета великих и
повезаних екосистема података (енг. Linked Data Ecosystems), узимајући у обзир
могућност поновног коришћења отворених података. Рад је мотивисан потребом да се
омогући истраживачима из арапских земаља да употребом семантичких веб технологија
повежу своје податке са отвореним подацима, као нпр. DBpedia-јом. Циљ је да се испита
да ли отворени подаци из Арапских земаља омогућавају крајњим корисницима да добију
додатне информације које нису доступне у појединачним скуповима података, поред
интеграције у семантички Wеб простор.
Докторска дисертација предлаже методологију за развој апликације за рад са
повезаним (Linked) подацима и имплементира софтверско решење које омогућује
претраживање консолидованог скупа података о лековима из изабраних арапских
земаља. Консолидовани скуп података је имплементиран у облику Семантичког језера
података (енг. Semantic Data Lake).
Ова теза показује како фармацеутска индустрија има користи од примене
иновативних технологија и истраживачких трендова из области семантичких
технологија. Међутим, како је елаборирано у овој тези, потребно је боље разумевање
специфичности арапског језика за имплементацију Linked Data алата и њухову примену
са подацима из Арапских земаља.
Authors Key words
Linked Data, Open data ecosystems, Drug management applications,
methodology, Quality assessment, Quality dimensions, Tools, Drugs Application, Application:
Arabic Datasets
Authors Key words
Повезани подаци, Отворени екосистеми, апликације за управљање
медикаментима, методологија, процена квалитета, димензије квалитета, Софтвер,
Апликација за медикаменте, Апликација: Арапски скуп података
Classification
004.6-022.59:004.774.25(043.3)
Type
Tekst
Abstract (en)
Linking and publishing data in the Linked Open Data format increases the interoperability
and discoverability of resources over the Web. To accomplish this, the process comprises
several design decisions, based on the Linked Data principles that, on one hand, recommend to
use standards for the representation and the access to data on the Web, and on the other hand
to set hyperlinks between data from different sources.
Despite the efforts of the World Wide Web Consortium (W3C), being the main international
standards organization for the World Wide Web, there is no one tailored formula for publishing
data as Linked Data. In addition, the quality of the published Linked Open Data (LOD) is a
fundamental issue, and it is yet to be thoroughly managed and considered.
In this doctoral thesis, the main objective is to design and implement a novel framework for
selecting, analyzing, converting, interlinking, and publishing data from diverse sources,
simultaneously paying great attention to quality assessment throughout all steps and modules
of the framework. The goal is to examine whether and to what extent are the Semantic Web
technologies applicable for merging data from different sources and enabling end-users to
obtain additional information that was not available in individual datasets, in addition to the
integration into the Semantic Web community space. Additionally, the Ph.D. thesis intends to
validate the applicability of the process in the specific and demanding use case, i.e. for creating
and publishing an Arabic Linked Drug Dataset, based on open drug datasets from selected
Arabic countries and to discuss the quality issues observed in the linked data life-cycle. To that
end, in this doctoral thesis, a Semantic Data Lake was established in the pharmaceutical domain
that allows further integration and developing different business services on top of the
integrated data sources. Through data representation in an open machine-readable format, the
approach offers an optimum solution for information and data dissemination for building
domain-specific applications, and to enrich and gain value from the original dataset. This thesis
showcases how the pharmaceutical domain benefits from the evolving research trends for
building competitive advantages. However, as it is elaborated in this thesis, a better
understanding of the specifics of the Arabic language is required to extend linked data
technologies utilization in targeted Arabic organizations.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.