Tesis doctoral
En aplicaciones que involucran datos en alta dimensión, frecuentemente unas pocas variables contienen la mayor parte de la información relevante. Resulta así de gran importancia identificar cuál es la dimensión adecuada para considerar en el análisis. Con el objetivo de comprender este tipo de situaciones, Johnstone (2001) introdujo los modelos de covarianza spiked, en el cual todos sus autovalores son iguales, excepto por una cantidad finita y relativamente chica de ellos, digamos d, que son más grandes. El problema de estimar cuántas componentes deben ser consideradas ha sido estudiado y resuelto en el caso tradicional de p (dimensión de los datos) fijo y n (tamaño de la muestra) creciendo a infinito. En escenarios de alta dimensión, sin embargo, los estadísticos usuales ya no pueden aplicarse y la teoría estadística tradicional no resulta adecuada ni tampoco fácil de adaptar. Una de las contribuciones de esta tesis es estudiar la distribución asintótica del logaritmo del cociente de verosimilitudes bajo la hipótesis nula, para el caso de p y n tendiendo a infinito de modo que la relación p/n converge a una cantidad fija y positiva. A partir de tal distribución, se obtienen tests secuenciales para determinar la dimensión del subespacio spiked. A partir del estudio de la potencia de los tests propuestos se introduce una penalización al estadístico considerado que permite determinar la dimensión del subespacio spiked incluso para valores de p/n cercanos a 1, situación en la que otros enfoques resultan deficientes. In applications involving high-dimensional data, frequently a few variables contain most of the relevant information. Identifying how many dimensions should be kept in the analysis is of paramount importance in representing and modeling data efficiently. In order to understand this type of situation, Johnstone (2001) introduced spiked covariance models. In this model, all the population eigenvalues are equal, except for a few fixed, larger of them, that carry the relevant information. The problem of estimating how many components should be considered has been studied and solved in the traditional case of p (dimension of the data) fixed and n (size of the sample) growing to infinity. In high-dimensional scenarios, however, the usual statistics can no longer be applied and traditional statistical theory is neither adequate nor easy to adapt. One of the contributions of this thesis is to study the asymptotic distribution of the logarithm of the likelihood ratio statistic under the null hypothesis, for the case of p and n growing to infinity, such that the ratio p/n converges to a fixed and positive quantity y. Using such distribution, secuancial tests are obtained to determine the dimension of the spiked subspace. From the study of the power of the proposed tests, a penalty is introduced to the considered statistic that allows to estimate the dimension of the spiked subspace even for values of p/n close to 1, situation in which other approaches are deficient.
Dimensión efectiva en escenarios de alta dimensionalidad
Gieco, María Antonella
Director:
Forzani, Liliana Maria
Codirector:
Tolmasky, Carlos Fabián
Fecha de publicación:
17/12/2018
Idioma:
Español
Clasificación temática:
Resumen
Archivos asociados
Licencia
Identificadores
Colecciones
Tesis(CCT - SANTA FE)
Tesis de CTRO.CIENTIFICO TECNOL.CONICET - SANTA FE
Tesis de CTRO.CIENTIFICO TECNOL.CONICET - SANTA FE
Citación
Gieco, María Antonella; Forzani, Liliana Maria; Tolmasky, Carlos Fabián; Dimensión efectiva en escenarios de alta dimensionalidad; 17-12-2018
Compartir