Repositorio Institucional
Repositorio Institucional
CONICET Digital
  • Inicio
  • EXPLORAR
    • AUTORES
    • DISCIPLINAS
    • COMUNIDADES
  • Estadísticas
  • Novedades
    • Noticias
    • Boletines
  • Ayuda
    • General
    • Datos de investigación
  • Acerca de
    • CONICET Digital
    • Equipo
    • Red Federal
  • Contacto
JavaScript is disabled for your browser. Some features of this site may not work without it.
  • INFORMACIÓN GENERAL
  • RESUMEN
  • ESTADISTICAS
 
Tesis doctoral

Dimensión efectiva en escenarios de alta dimensionalidad

Gieco, María AntonellaIcon
Director: Forzani, Liliana MariaIcon
Codirector: Tolmasky, Carlos Fabián
Fecha de publicación: 17/12/2018
Idioma: Español
Clasificación temática:
Estadística y Probabilidad

Resumen

 
En aplicaciones que involucran datos en alta dimensión, frecuentemente unas pocas variables contienen la mayor parte de la información relevante. Resulta así de gran importancia identificar cuál es la dimensión adecuada para considerar en el análisis. Con el objetivo de comprender este tipo de situaciones, Johnstone (2001) introdujo los modelos de covarianza spiked, en el cual todos sus autovalores son iguales, excepto por una cantidad finita y relativamente chica de ellos, digamos d, que son más grandes. El problema de estimar cuántas componentes deben ser consideradas ha sido estudiado y resuelto en el caso tradicional de p (dimensión de los datos) fijo y n (tamaño de la muestra) creciendo a infinito. En escenarios de alta dimensión, sin embargo, los estadísticos usuales ya no pueden aplicarse y la teoría estadística tradicional no resulta adecuada ni tampoco fácil de adaptar. Una de las contribuciones de esta tesis es estudiar la distribución asintótica del logaritmo del cociente de verosimilitudes bajo la hipótesis nula, para el caso de p y n tendiendo a infinito de modo que la relación p/n converge a una cantidad fija y positiva. A partir de tal distribución, se obtienen tests secuenciales para determinar la dimensión del subespacio spiked. A partir del estudio de la potencia de los tests propuestos se introduce una penalización al estadístico considerado que permite determinar la dimensión del subespacio spiked incluso para valores de p/n cercanos a 1, situación en la que otros enfoques resultan deficientes.
 
In applications involving high-dimensional data, frequently a few variables contain most of the relevant information. Identifying how many dimensions should be kept in the analysis is of paramount importance in representing and modeling data efficiently. In order to understand this type of situation, Johnstone (2001) introduced spiked covariance models. In this model, all the population eigenvalues ​​are equal, except for a few fixed, larger of them, that carry the relevant information. The problem of estimating how many components should be considered has been studied and solved in the traditional case of p (dimension of the data) fixed and n (size of the sample) growing to infinity. In high-dimensional scenarios, however, the usual statistics can no longer be applied and traditional statistical theory is neither adequate nor easy to adapt. One of the contributions of this thesis is to study the asymptotic distribution of the logarithm of the likelihood ratio statistic under the null hypothesis, for the case of p and n growing to infinity, such that the ratio p/n converges to a fixed and positive quantity y. Using such distribution, secuancial tests are obtained to determine the dimension of the spiked subspace. From the study of the power of the proposed tests, a penalty is introduced to the considered statistic that allows to estimate the dimension of the spiked subspace even for values ​​of p/n close to 1, situation in which other approaches are deficient.
 
Palabras clave: Modelos de Covarianza Spiked , Dimension Efectiva , Cociente de Verosimilitudes , Alta Dimension
Ver el registro completo
 
Archivos asociados
Thumbnail
 
Tamaño: 1.823Mb
Formato: PDF
.
Descargar
Licencia
info:eu-repo/semantics/embargoedAccess Excepto donde se diga explícitamente, este item se publica bajo la siguiente descripción: Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Unported (CC BY-NC-SA 2.5)
Identificadores
URI: http://hdl.handle.net/11336/84910
URL: https://bibliotecavirtual.unl.edu.ar:8443/tesis/handle/11185/1158
Colecciones
Tesis(CCT - SANTA FE)
Tesis de CTRO.CIENTIFICO TECNOL.CONICET - SANTA FE
Citación
Gieco, María Antonella; Forzani, Liliana Maria; Tolmasky, Carlos Fabián; Dimensión efectiva en escenarios de alta dimensionalidad; 17-12-2018
Compartir

Enviar por e-mail
Separar cada destinatario (hasta 5) con punto y coma.
  • Facebook
  • X Conicet Digital
  • Instagram
  • YouTube
  • Sound Cloud
  • LinkedIn

Los contenidos del CONICET están licenciados bajo Creative Commons Reconocimiento 2.5 Argentina License

https://www.conicet.gov.ar/ - CONICET

Inicio

Explorar

  • Autores
  • Disciplinas
  • Comunidades

Estadísticas

Novedades

  • Noticias
  • Boletines

Ayuda

Acerca de

  • CONICET Digital
  • Equipo
  • Red Federal

Contacto

Godoy Cruz 2290 (C1425FQB) CABA – República Argentina – Tel: +5411 4899-5400 repositorio@conicet.gov.ar
TÉRMINOS Y CONDICIONES