Artículo
En el contexto de abundante información genómica, como la producida a partir de marcadores moleculares basados en ADN, es de interés identifi car la estructura genética subyacente en un conjunto de individuos, previo al análisis de asociación entre expresión de marcadores y fenotipo. Cuando existen subgrupos de individuos que difi eren sistemáticamente en las frecuencias alélicas de sus marcadores, se origina una estructura genética que, de no ser considerada, incrementa el riesgo de detectar asociaciones espurias entre marcadores y fenotipo. Diversos métodos estadísticos son utilizados para determinar la agrupación de individuos desde datos de marcadores moleculares que producen información discreta multidimensional, entre ellos métodos basados en algoritmos de conglomerados jerárquicos (UPGMA), conglomerados no jerárquicos (K-means), redes neuronales como los mapas auto-organizativos (SOM) y métodos de conglomerados bayesianos. En este trabajo comparamos la capacidad de tales algoritmos para detectar subpoblaciones (conglomerados genéticos) bajo dos escenarios biológicos de estructura poblacional: modelo de islas y modelo de contacto. Los algoritmos de conglomerado fueron evaluados simultáneamente usando conjuntos de datos de marcadores moleculares de expresión binaria simulados bajo ambos modelos biológicos. El método de conglomeración bayesiano fue el que mejor identifi có, entre los evaluados, las subpoblaciones simuladas bajo el modelo de migración de islas. Para el modelo de contacto la identifi cación de subgrupos fue difícil con cualquiera de los cuatro algoritmos de conglomeración evaluados. Prior to association studies, and in the context of abundant genomic information provided by molecular markers, it is of interest to identify the underlying genetic structure of individuals. Genetic structure arises when markers´ allele frequencies diff er systematically between subgroups, and if it is not considered in association analysis, it increases the risk of detecting spurious associations between molecular markers and the phenotype of interest. A variety of statistical methods are used to determine groups of individuals from molecular markers that produce multidimensional discrete data, such as methods based on hierarchical (UPGMA) and non-hierarchical clustering algorithms (K-means), neural networks (SOM), and Bayesian clustering. In this study, we compared the capacity of these algorithms to detect genetic clusters under two diff erent biological scenarios: the island model and the contact model. Th e clustering algorithms were simultaneously evaluated using binary molecular marker data simulated under both biological scenarios. Bayesian clustering was the best model to identify subpopulations under the island migration model. However, in the contact model the identifi - cation of subgroups was diffi cult with all algorithms.
Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares
Título:
Cluster analysis for identifi cation of genetic structure from molecular marker data
Peña Malavera, Andrea Natalia
; Bruno, Cecilia Ines
; Teich, Ingrid
; Fernandez, Elmer Andres
; Balzarini, Monica Graciela
Fecha de publicación:
08/10/2010
Editorial:
Universidad de Tolima
Revista:
Tumbaga
ISSN:
1909-4841
e-ISSN:
1909-4841
Idioma:
Español
Tipo de recurso:
Artículo publicado
Clasificación temática:
Resumen
Archivos asociados
Licencia
Identificadores
Colecciones
Articulos(CCT - CORDOBA)
Articulos de CTRO.CIENTIFICO TECNOL.CONICET - CORDOBA
Articulos de CTRO.CIENTIFICO TECNOL.CONICET - CORDOBA
Citación
Peña Malavera, Andrea Natalia; Bruno, Cecilia Ines; Teich, Ingrid; Fernandez, Elmer Andres; Balzarini, Monica Graciela; Análisis de conglomerados en la identificación de estructura genética a partir de datos de marcadores moleculares; Universidad de Tolima; Tumbaga; 1; 5; 8-10-2010; 225-236
Compartir