Title
Анализа заступљености поновака са применом у предвиђању т-ћелијских епитопа
Creator
Jelović, Ana, 1973-
CONOR:
27917927
Copyright date
2022
Object Links
Select license
Bez licence - direktna primena zakona
License description
Ako ne izaberete neku od licenci, vaše zaštićeno delo može biti korišćeno samo u okviru opštih ograničenja autorskih prava. Na taj način ne dozvoljavate komercijalno ni nekomercijalno korišćenje, naročito reprodukciju, distribuciju, emitovanje, dostupnost i obradu dela. Izbor Creative Commons (CC) licence promoviše diseminaciju vašeg dela. Za više informacija: http://creativecommons.org.rs/licence
Language
Serbian
Cobiss-ID
Theses Type
Doktorska disertacija
description
Datum odbrane: 30.09.2022.
Other responsibilities
Academic Expertise
Prirodno-matematičke nauke
Academic Title
-
University
Univerzitet u Beogradu
Faculty
Matematički fakultet
Alternative title
Analysis of repeat representation with application in predicting T-cell epitopes
Publisher
[А. Јеловић]
Format
451 стр.
description
Рачунарство - Биоинформатика, Истраживање података / Computer Science - Bioinformatics, Data mining
Abstract (sr)
Први део овог рада се бави дефинисањем различитих типова
поновака, као и поновака коjи задовољаваjу маске мотива. Развиjен jе метод
за њихово прецизно проналажење у улазним секвенцама коjе могу бити
веома дугачке. Како броj нађених резултата може бити веома велики, метод
укључуjе и њихово филтрирање на основу очекиваног броjа поjављивања.
Метод jе прво примењен на протеинским секвенцама у коjима су
експериментално потврђени Т-ћелиjски епитопи регистровани у бази података
IEDB. Над нађеним поновцима примењена су правила придруживања у циљу
конструисања модела коjи би омогућио предвиђање позициjа Т-ћелиjских
епитопа у протеинским секвенцама. На оваj начин би се истраживачима
наговестио регион у протеинскоj секвенци где се са великом поузданошћу
може очекивати епитоп. У случаjу Т-ћелиjских епитопа нађен jе велики
броj правила са високом поузданошћу коjи се могу сматрати поузданим
индикаторима позициjе T-ћелиjских епитопа унутар протеинске секвенце.
На основу нађених резултата формирана су и правила придруживања
коjа детаљниjе карактеришу епитопе и са њима повезане поновке. Како
jе нађен велики броj резултата само њихов део jе представљен у раду. На
основу ниски коjима су одређени поновци са задовољаваjућом поузданошћу
тражене су и маске мотива коjе jе потребно да поновци задовољаваjу како би
процес њиховог тражења био што jедноставниjи. Цео поступак jе примењен
како код директних некомплементарних поновака тако и код индиректних
некомплементарних поновака. Са сличним резултатима jе цео поступак
урађен и код Б-ћелиjских епитопа над подацима из базе података IEDB.
Подаци о експериментално потврђеним кратким линеарним мотивима
су преузети из базе података ELM и у протеинским секвенцама где су
кратки линеарни мотиви регистровани тражени су поновци. Над њима су
примењена правила придруживања. Посебно су издвоjена правила са високом
поузданошћу. На основу нађених резултата тражене су маске мотива коjе
нађени поновци задовољаваjу.
Abstract (en)
In the first part of this dissertation different repeat types are defined
as well as repeats that satisfy motif masks. A method for precise repeat finding
in input sequences of arbitrary length has been described. As the input sequences
can be very long, the number of found repeats can also be large. For that reason
it is important that the method also includes filtering found repeats based on the
expected number of their occurrences.
The method was first applied to protein sequences in which experimentally
confirmed T-cell epitopes from the IEDB database were registered. Association
rules were applied to the found repeats in order to construct a model that would
enable the prediction of the positions of T-cell epitopes in protein sequences.
In this way, it would indicate to researchers a region in the protein sequence
where an epitope can be expected with high confidence. In the case of T-cell
epitopes, a large number of rules with high confidence was found. These rules can
be considered as reliable predictors of the position of T-cell epitopes within the
protein sequences. Based on the results found, association rules were formed that
characterize the epitopes and the repeats associated with them in more detail. As
a large number of results were found, only their part is presented in this dissertation. On the basis of the strings that determine the repeat, a motif mask that
the repeat needs to satisfy was searched for. The entire procedure was applied to
both direct non-complementary repeats and indirect non-complementary repeats.
With similar results, the entire procedure was applied to B-cell epitopes on data
from the IEDB database.
Data on experimentally confirmed short linear motifs were taken from the ELM
database. In protein sequences where short linear motifs were registered, repeats
were searched for and association rules were applied to them. The rules with high
confidence have been singled out in particular. On the basis of the results found,
motif masks that repeats with high confidence would satisfy were searched for.
Authors Key words
поновци, Т-ћелиjски епитопи, кратки линеарни мотиви,
правила придруживања
Authors Key words
repeats, T-cell epitopes, short linear motifs, association rules
Classification
004.9:577.112.5:519.21(043.3)
Type
Tekst
Abstract (sr)
Први део овог рада се бави дефинисањем различитих типова
поновака, као и поновака коjи задовољаваjу маске мотива. Развиjен jе метод
за њихово прецизно проналажење у улазним секвенцама коjе могу бити
веома дугачке. Како броj нађених резултата може бити веома велики, метод
укључуjе и њихово филтрирање на основу очекиваног броjа поjављивања.
Метод jе прво примењен на протеинским секвенцама у коjима су
експериментално потврђени Т-ћелиjски епитопи регистровани у бази података
IEDB. Над нађеним поновцима примењена су правила придруживања у циљу
конструисања модела коjи би омогућио предвиђање позициjа Т-ћелиjских
епитопа у протеинским секвенцама. На оваj начин би се истраживачима
наговестио регион у протеинскоj секвенци где се са великом поузданошћу
може очекивати епитоп. У случаjу Т-ћелиjских епитопа нађен jе велики
броj правила са високом поузданошћу коjи се могу сматрати поузданим
индикаторима позициjе T-ћелиjских епитопа унутар протеинске секвенце.
На основу нађених резултата формирана су и правила придруживања
коjа детаљниjе карактеришу епитопе и са њима повезане поновке. Како
jе нађен велики броj резултата само њихов део jе представљен у раду. На
основу ниски коjима су одређени поновци са задовољаваjућом поузданошћу
тражене су и маске мотива коjе jе потребно да поновци задовољаваjу како би
процес њиховог тражења био што jедноставниjи. Цео поступак jе примењен
како код директних некомплементарних поновака тако и код индиректних
некомплементарних поновака. Са сличним резултатима jе цео поступак
урађен и код Б-ћелиjских епитопа над подацима из базе података IEDB.
Подаци о експериментално потврђеним кратким линеарним мотивима
су преузети из базе података ELM и у протеинским секвенцама где су
кратки линеарни мотиви регистровани тражени су поновци. Над њима су
примењена правила придруживања. Посебно су издвоjена правила са високом
поузданошћу. На основу нађених резултата тражене су маске мотива коjе
нађени поновци задовољаваjу.
“Data exchange” service offers individual users metadata transfer in several different formats. Citation formats are offered for transfers in texts as for the transfer into internet pages. Citation formats include permanent links that guarantee access to cited sources. For use are commonly structured metadata schemes : Dublin Core xml and ETUB-MS xml, local adaptation of international ETD-MS scheme intended for use in academic documents.