Mostrar el registro sencillo del ítem
dc.contributor
Milone, Diego Humberto
dc.contributor
Stegmayer, Georgina
dc.contributor.author
Yones, Cristian Ariel
dc.date.available
2019-11-04T21:27:30Z
dc.date.issued
2018-11-22
dc.identifier.citation
Yones, Cristian Ariel; Milone, Diego Humberto; Stegmayer, Georgina; Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática; 22-11-2018
dc.identifier.uri
http://hdl.handle.net/11336/87979
dc.description.abstract
El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafios como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado una gran cantidad de métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. El primer paso en estos métodos generalmente consiste en extraer del genoma subcadenas de nucleótidos que cumplan con ciertos requerimientos estructurales. En segundo lugar se extraen características numéricas de estas subcadenas para finalmente usar apren-dizaje maquinal para predecir cuáles probablemente contengan miARN. Por otro lado, en paralelo con los métodos de predicción de miARN se han propuesto una gran cantidad de características para representar numéricamente las subcadenas de ARN. Finalmente, la mayoría de los métodos actuales usan aprendizaje supervisado para la etapa de predicción. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Existe el desafío de lidiar con un número escaso de ejemplos de pre-miARN positivos. Además, es muy difícil construir un buen conjunto de ejemplos negativos para representar el espectro completo de secuencias no miARN. Por otro lado, en cualquier genoma, existe un enorme desequilibrio de clase (1 : 10000) que es bien conocido por afectar particularmente a los clasificadores supervisados.Para permitir predicciones precisas y rápidas de nuevos miARNs en genomas completos, en esta tesis se realizaron aportas en las tres etapas del proceso de predicción de miARN. En primer lugar, se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con los requerimientos mínimos para ser potenciales pre-miARNs miARN. En segundo lugar, se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas para predicciones de miARN en el estado del arte. La tercer y principal contribución consiste en un algoritmo novedoso de aprendizaje semi-supervisado que permite realizar predicciones a partir de muy pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta de clase. Este tipo de aprendizaje aprovecha la información provista por las subcadenas desconocidas (sobre las que se desea generar predicciones) para mejorar las tasas de predicción. Esta información extra permite atenuar el efecto del número reducido de ejemplos etiquetados y la pobre representatividad de las clases. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.
dc.format
application/pdf
dc.language.iso
spa
dc.rights
info:eu-repo/semantics/openAccess
dc.rights.uri
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.subject
Aprendizaje semi-supervisado
dc.subject
MicroRNA
dc.subject
Desbalance de clases
dc.subject.classification
Ciencias de la Información y Bioinformática
dc.subject.classification
Ciencias de la Computación e Información
dc.subject.classification
CIENCIAS NATURALES Y EXACTAS
dc.title
Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.type
info:ar-repo/semantics/tesis doctoral
dc.date.updated
2019-10-28T19:55:15Z
dc.description.fil
Fil: Yones, Cristian Ariel. Universidad Nacional del Litoral; Argentina
dc.relation.alternativeid
info:eu-repo/semantics/altIdentifier/url/http://hdl.handle.net/11185/1159
dc.conicet.grado
Universitario de posgrado/doctorado
dc.conicet.titulo
Doctor en Ingeniería con mención en Inteligencia Computacional, Señales y Sistemas
dc.conicet.rol
Autor
dc.conicet.rol
Director
dc.conicet.rol
Codirector
dc.conicet.otorgante
Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas
Archivos asociados