Técnicas de minería de datos aplicada a bases de datos imputadas. Un caso de estudio

Oscar Vallejos; Maria Valesani; Enzo Rigonatto

Oscar Vallejos Universidad Nacional del Nordeste
Maria Valesani Universidad Nacional del Nordeste
Enzo Rigonatto Universidad Nacional del Nordeste

Resumen

El presente trabajo tiene por objeto presentar un caso de estudio sobre la comparación de bases reales y bases de datos imputadas aplicando técnicas de minerías de datos a los efectos de poder concluir si la obtención de información resultante en cada una de ellas son similares o presentan un grado de error aceptable, observando la variabilidad de los patrones de comportamiento en los valores de las variables e interpretando y evaluando los datos una vez aplicado el modelo de minería de datos. El trabajo se estructura de la siguiente manera: Introducción a la teoría de imputación de datos y minería de datos, un detalle no exhaustivo de los operadores de agregación, algoritmo de kmeans, clustering, para luego describir pormenorizadamente el experimento y finalmente presentar las conclusiones y líneas futuras. Al final se presenta una bibliografía abundante sobre el trabajo

Citas

FRAWLEY, W., PIATETSKY-SHAPIRO G. Y MATHEUS, C. (1992): "Knowledge Discovery in Databases: An Overview". Al Magazine, pp 213-228 .

BASSEVILLE, M., AND NIKIFOROV, l. V. (1993). "Detection of Abrupt Changes: Theory and Application ". Englewood Cliffs, N.J.: Prentice Hall.

YAGER R. ( 1993). "Families of OWA operators. Fuzzy Sets and Systems". 59:125- 148.

AGRAWAL, R., & PSAILA, G. {1995). "Active Data Mining. In Proceedings of the First lnternational Conference on Know/edge Discovery and Data Mining (KDD-95)", 3-8. Menlo Park, Calif.: American Association for Artificial Intelligence.

TRENA M. EZZATI-RJCE, MEENA KHARE DONALD B. RUBIN RODERICK J. A. LITTLE, JOSEPH L. SCHAFER. (1995) "A comparison of imputation techniques in the third national health and nutrition examination Surrey". National Center for Health Statistics, Harvard University, University of Michigan, Pennsylvania State University, 6525 Belcrest Road, Hyattsville, MD 20782 .

AGRAWAL, R.; MANNILA, H.; SRIKANT, R.; TOIVONEN, H.; AND VERKAMO, l. (1996). "Fast Discovery of Association Rules". In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro,
P. Smyth, and R. Uthurusamy , 307-328. Menlo Park, Calif.: AAAI Press.

APTE, C., AND HONG, S. J. (l996). "Predicting Equity Returns from Securities Data with Mínima/ Rule Generation". In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro,
P. Smyth, and R. Uthurusamy, 514-560. Menlo Park, Calif.: AAAI Press.

YAGER R. (1996). "Quantifier Guided Aggregation Using OWA Operators". Intemational Journal oflntelligent Systems. 11, 49-73 .

YAGER R. ( 1998b). "New Modes of OWA lnformation Fusion" . Intemational Joumal of Intelligence Systems. 13, 661-681.

GOEBEL, M. Y GRUENWALD, L. ( 1999) "Asurvey of data mining and knowledge discovery software Tools". SIGKDD Explorations, vol. 1, nº 1, pp. 20-33.

DR. JANN-HUEI JINN. (2000). "The Effect of Different Imputation Methods on Analytical Statistics of Simple Linear Regression ". Department of Mathematics and Statistics. Grand Valley State University Allendale, Michigan 49401.

YANG C. YUAN. (2000). "Multiple Imputation for Missing Data: Concepts and New Development. , SAS Institute lnc.", Rockville, MD. P267-25.

GARCÍA PÉREZ, A. (2001). "Métodos avanzados de estadística aplicada". Madrid. Universidad Nacional de Educación a Distancia .

LAST, M., KLEIN, A. Y KANDEL, A. (2001). "Knowledge Discovery in Time Series Databases". IEEE Transactions on Systems, Man and Cybemetics, vol. 31, Part B, nº 1, pp. 160-169.

LITTLE, R. & RUBIN, D. B. (2002). "Statistical Analysis with Missing Data, 2 edn, Jonh Wiley &Sons".

PELAEZ J.I., DOÑA J.M. (2003a). "Majority Additive-Ordered Weighting Averaging: A New Neat Ordered Weighting Averaging Operators Based on the Majority Process", Intemational Joumal of Intelligent Systems 18, 469-481.

GÓMEZ GARCÍA J., PALAREA ALBALADEJO J., (2006). "Métodos de inferencia estadística con datos faltan tes". Estudio de simulación sobre los efectos en las estimaciones. Departamento de Métodos Cuantitativos para la Economía. Universidad de Murcia, Departamento de Informática de Sistemas Universidad Católica. San Antonio, Departament de Informática y Matemática Aplicada. Universitat de Girona. ESTADÍSTICA ESPAÑOLA V l. 48, Núm. 162, págs. 241 a 270.

GRAJALESA L., LÓPEZ L. (2006). "Imputación de datos en diseños switchback usando un modelo mixto con errores correlacionados Data Imputation in Switchback Designs Using a Mixed Model with Correlated Errors". Universidad Nacional de Colombia, Departamento de Estadistica, Bogota Revista Colombiana de Estadistica Volumen 29 No 2. pp. 221 a 238. Diciembre.

DOÑA J.M., QUINTANA O.P., VALESANI M.E., VALLEJOS O.A. (2008). "Analysis of Agregation Methods in Incomplete Database Systems. Information Processing and Management of Uncertainty in Knowledge Based System (IPMU 2008)". ISBN: 9978-84-612-3061-7.

QUINTANA O.P., VALESANI M.E., VALLEJOS O.A. (2008). "Imputación de datos desaparecidos utilizando operadores de agregación MA-OWA". (WICC 2008 - X Workshop de investigadores de Ciencias de la Computación. General Pico, La Pampa, Argentina 5 y 6 de Mayo de).