Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

Yones, Cristian Ariel

Mostrar el registro sencillo del ítem

dc.contributor

Milone, Diego Humberto Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor

Stegmayer, Georgina Se ha confirmado la validez de este valor de autoridad por un usuario

dc.contributor.author

Yones, Cristian Ariel Se ha confirmado la validez de este valor de autoridad por un usuario

dc.date.available

2019-11-04T21:27:30Z

dc.date.issued

2018-11-22

dc.identifier.citation

Yones, Cristian Ariel; Milone, Diego Humberto; Stegmayer, Georgina; Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática; 22-11-2018

dc.identifier.uri

http://hdl.handle.net/11336/87979

dc.description.abstract

El aprendizaje maquinal ha tenido un gran desarrollo en los últimos años y ha permitido resolver una gran cantidad de problemas en las más diversas disciplinas. Sin embargo, aún quedan grandes desafíos por resolver, como lo es el aprendizaje en datos con alto grado de desbalance de clases o con muy pocos datos etiquetados. Un caso particular de aplicación donde se presentan desafios como estos es en la predicción computacional de secuencias de microARN (miARN). Los microARN (miARN) son un grupo de pequeñas secuencias de ácido ribonucleico (ARN) no codificante que desempeñan un papel muy importante en la regulación génica. En los últimos años, se han desarrollado una gran cantidad de métodos que intentan detectar nuevos miARNs utilizando sólo información de estructura y secuencia, es decir, sin medir niveles de expresión. El primer paso en estos métodos generalmente consiste en extraer del genoma subcadenas de nucleótidos que cumplan con ciertos requerimientos estructurales. En segundo lugar se extraen características numéricas de estas subcadenas para finalmente usar apren-dizaje maquinal para predecir cuáles probablemente contengan miARN. Por otro lado, en paralelo con los métodos de predicción de miARN se han propuesto una gran cantidad de características para representar numéricamente las subcadenas de ARN. Finalmente, la mayoría de los métodos actuales usan aprendizaje supervisado para la etapa de predicción. Este tipo de métodos tienen importantes limitaciones prácticas cuando deben aplicarse a tareas de predicción real. Existe el desafío de lidiar con un número escaso de ejemplos de pre-miARN positivos. Además, es muy difícil construir un buen conjunto de ejemplos negativos para representar el espectro completo de secuencias no miARN. Por otro lado, en cualquier genoma, existe un enorme desequilibrio de clase (1 : 10000) que es bien conocido por afectar particularmente a los clasificadores supervisados.Para permitir predicciones precisas y rápidas de nuevos miARNs en genomas completos, en esta tesis se realizaron aportas en las tres etapas del proceso de predicción de miARN. En primer lugar, se desarrolló una herramienta para extraer subcadenas de un genoma completo que cumplan con los requerimientos mínimos para ser potenciales pre-miARNs miARN. En segundo lugar, se desarrolló una herramienta que permite calcular la mayoría de las características utilizadas para predicciones de miARN en el estado del arte. La tercer y principal contribución consiste en un algoritmo novedoso de aprendizaje semi-supervisado que permite realizar predicciones a partir de muy pocos ejemplos de clase positiva y el resto de las cadenas sin etiqueta de clase. Este tipo de aprendizaje aprovecha la información provista por las subcadenas desconocidas (sobre las que se desea generar predicciones) para mejorar las tasas de predicción. Esta información extra permite atenuar el efecto del número reducido de ejemplos etiquetados y la pobre representatividad de las clases. Cada herramienta diseñada fue comparada contra el estado del arte, obteniendo mejores tasas de desempeño y menores tiempos de ejecución.

dc.format

application/pdf

dc.language.iso

spa

dc.rights

info:eu-repo/semantics/openAccess

dc.rights.uri

https://creativecommons.org/licenses/by-nc-sa/2.5/ar/

dc.subject

Aprendizaje semi-supervisado

dc.subject

MicroRNA

dc.subject

Desbalance de clases

dc.subject.classification

Ciencias de la Información y Bioinformática Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

Ciencias de la Computación e Información Se ha confirmado la validez de este valor de autoridad por un usuario

dc.subject.classification

CIENCIAS NATURALES Y EXACTAS Se ha confirmado la validez de este valor de autoridad por un usuario

dc.title

Nuevo enfoque de aprendizaje semi-supervisado para la identificación de secuencias en bioinformática

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.type

info:ar-repo/semantics/tesis doctoral

dc.date.updated

2019-10-28T19:55:15Z

dc.description.fil

Fil: Yones, Cristian Ariel. Universidad Nacional del Litoral; Argentina

dc.relation.alternativeid

info:eu-repo/semantics/altIdentifier/url/http://hdl.handle.net/11185/1159

dc.conicet.grado

Universitario de posgrado/doctorado Se ha confirmado la validez de este valor de autoridad por un usuario

dc.conicet.titulo

Doctor en Ingeniería con mención en Inteligencia Computacional, Señales y Sistemas

dc.conicet.rol

Autor

dc.conicet.rol

Director

dc.conicet.rol

Codirector Se ha confirmado la validez de este valor de autoridad por un usuario

dc.conicet.otorgante

Universidad Nacional del Litoral. Facultad de Ingeniería y Ciencias Hídricas Se ha confirmado la validez de este valor de autoridad por un usuario

Archivos asociados

Tamaño: 4.708Mb

Formato: PDF

Descargar