EFECTO DE LA DIMENSIÓN, LA DISTANCIA ENTRE LOS CENTROIDES Y EL SESGO EN UNA VARIABLE, EN DISCRIMINACIÓN LINEAL PARA DOS GRUPOS
Resumen
En este documento se discute el método de Análisis Lineal Discriminante (LDA) y la Distribución Normal Sesgada (SN) (Azzalini & Dalla Valle), dos técnicas estadísticas que combinadas sirven para diagnosticar comportamientos reales de poblaciones que se suponen tienen un comportamiento aproximadamente normal. Para ello se generan poblaciones normales multivariadas puras y poblaciones normales multivariadas que poseen una variable con sesgo positivo. En este trabajo se determinan las tasas de error de mala clasificación de las poblaciones normales multivariadas puras y se compara con la tasa de error de mala clasificación de las poblaciones normales que poseen la variable sesgada. Estas tasas de mala clasificación se determinan, haciendo variar la dimensión de estudio (p=2... 20), la distancia Mahalanobis entre los centroides de las dos poblaciones de estudio, y el grado del sesgo w; cuando se generan 1000 individuos o unidades experimentales de cada población. Además, se determinan estas situaciones desde el punto de vista muestral suponiendo que las poblaciones pseudogeneradas son muestras de tamaño 1000; esto con el fin de determinar diferencias entre lo poblacional y lo muestral. También se generarán múltiples gráficas de interés que sirven para visualizar tanto el comportamiento poblacional como el muestral de las tasas de error de mala clasificación. Es de señalar que en el escenario muestral, a medida que aumenta la dimensión de estudio, disminuye la tasa de error de mala clasificación, mientras que en el caso poblacional esta situación es mucho más débil de percibir.
Citas
[2]. AZZALINI, A. AND VALLE, D. (1996). “The Multivariate Skew-Normal Distribution”. Biometrika, 83, No 4; pp. 715-726.
[3]. PETER A. LACHENBRUCH. (1997). “Discriminant Diagnostics, Biometric”, 53, pp. 1284-1292.
[4]. MARDIA, K. V; KENT, J. T; BIBBY, J. M. (1992). “Multivariate Analysis. Academic Press, 9th edition.
[5]. WAHL, PATRICIA W. AND KRONMAL, RICHARD A. (1977). “Discriminant Functions when Covariances are Unequal and Sample Size are Moderate”. Biometrics 33 No. 3, pp. 479-484.
[6]. ANDERSON, T. W. (1958). “An Introduction to Multivariate Statistical Analysis. New York: John Wiley and Sons, pp 126-137.
[7]. MCFARLAND AND DONAL P RICHARDS. (2001). “Exact Misclassification Probabilities for plug-in Normal Quadratic Discriminant Functions. I The equal means case”. Journal of Multivariate Analysis, 77, pp. 21-53.
