Técnicas de minería de datos aplicada a bases de datos imputadas. Un caso de estudio

  • Oscar Vallejos Universidad Nacional del Nordeste
  • Maria Valesani Universidad Nacional del Nordeste
  • Enzo Rigonatto Universidad Nacional del Nordeste

Resumen

El  presente  trabajo  tiene  por  objeto  presentar  un  caso  de  estudio  sobre  la  comparación  de  bases  reales  y  bases  de  datos  imputadas aplicando técnicas de minerías de datos a los efectos de poder concluir si la obtención de información resultante en cada una de ellas son similares o presentan un grado de error aceptable, observando la variabilidad de los patrones de comportamiento en los valores de las variables e interpretando y evaluando los datos una vez aplicado el modelo de minería de datos. El trabajo se estructura de la siguiente manera:  Introducción  a  la  teoría  de  imputación  de  datos  y  minería  de  datos,  un  detalle  no  exhaustivo  de  los  operadores  de  agregación, algoritmo de kmeans, clustering, para luego describir pormenorizadamente el experimento y finalmente presentar las conclusiones y líneas futuras. Al final se presenta una bibliografía abundante sobre el trabajo

Citas

FRAWLEY, W., PIATETSKY-SHAPIRO G. Y MATHEUS, C. (1992): "Knowledge Discovery in Databases: An Overview". Al Magazine, pp 213-228 .

BASSEVILLE, M., AND NIKIFOROV, l. V. (1993). "Detection of Abrupt Changes: Theory and Application ". Englewood Cliffs, N.J.: Prentice Hall.

YAGER R. ( 1993). "Families of OWA operators. Fuzzy Sets and Systems". 59:125- 148.

AGRAWAL, R., & PSAILA, G. {1995). "Active Data Mining. In Proceedings of the First lnternational Conference on Know/edge Discovery and Data Mining (KDD-95)", 3-8. Menlo Park, Calif.: American Association for Artificial Intelligence.

TRENA M. EZZATI-RJCE, MEENA KHARE DONALD B. RUBIN RODERICK J. A. LITTLE, JOSEPH L. SCHAFER. (1995) "A comparison of imputation techniques in the third national health and nutrition examination Surrey". National Center for Health Statistics, Harvard University, University of Michigan, Pennsylvania State University, 6525 Belcrest Road, Hyattsville, MD 20782 .

AGRAWAL, R.; MANNILA, H.; SRIKANT, R.; TOIVONEN, H.; AND VERKAMO, l. (1996). "Fast Discovery of Association Rules". In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro,
P. Smyth, and R. Uthurusamy , 307-328. Menlo Park, Calif.: AAAI Press.

APTE, C., AND HONG, S. J. (l996). "Predicting Equity Returns from Securities Data with Mínima/ Rule Generation". In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro,
P. Smyth, and R. Uthurusamy, 514-560. Menlo Park, Calif.: AAAI Press.

YAGER R. (1996). "Quantifier Guided Aggregation Using OWA Operators". Intemational Journal oflntelligent Systems. 11, 49-73 .

YAGER R. ( 1998b). "New Modes of OWA lnformation Fusion" . Intemational Joumal of Intelligence Systems. 13, 661-681.

GOEBEL, M. Y GRUENWALD, L. ( 1999) "Asurvey of data mining and knowledge discovery software Tools". SIGKDD Explorations, vol. 1, nº 1, pp. 20-33.

DR. JANN-HUEI JINN. (2000). "The Effect of Different Imputation Methods on Analytical Statistics of Simple Linear Regression ". Department of Mathematics and Statistics. Grand Valley State University Allendale, Michigan 49401.

YANG C. YUAN. (2000). "Multiple Imputation for Missing Data: Concepts and New Development. , SAS Institute lnc.", Rockville, MD. P267-25.

GARCÍA PÉREZ, A. (2001). "Métodos avanzados de estadística aplicada". Madrid. Universidad Nacional de Educación a Distancia .

LAST, M., KLEIN, A. Y KANDEL, A. (2001). "Knowledge Discovery in Time Series Databases". IEEE Transactions on Systems, Man and Cybemetics, vol. 31, Part B, nº 1, pp. 160-169.

LITTLE, R. & RUBIN, D. B. (2002). "Statistical Analysis with Missing Data, 2 edn, Jonh Wiley &Sons".

PELAEZ J.I., DOÑA J.M. (2003a). "Majority Additive-Ordered Weighting Averaging: A New Neat Ordered Weighting Averaging Operators Based on the Majority Process", Intemational Joumal of Intelligent Systems 18, 469-481.

GÓMEZ GARCÍA J., PALAREA ALBALADEJO J., (2006). "Métodos de inferencia estadística con datos faltan tes". Estudio de simulación sobre los efectos en las estimaciones. Departamento de Métodos Cuantitativos para la Economía. Universidad de Murcia, Departamento de Informática de Sistemas Universidad Católica. San Antonio, Departament de Informática y Matemática Aplicada. Universitat de Girona. ESTADÍSTICA ESPAÑOLA V l. 48, Núm. 162, págs. 241 a 270.

GRAJALESA L., LÓPEZ L. (2006). "Imputación de datos en diseños switchback usando un modelo mixto con errores correlacionados Data Imputation in Switchback Designs Using a Mixed Model with Correlated Errors". Universidad Nacional de Colombia, Departamento de Estadistica, Bogota Revista Colombiana de Estadistica Volumen 29 No 2. pp. 221 a 238. Diciembre.

DOÑA J.M., QUINTANA O.P., VALESANI M.E., VALLEJOS O.A. (2008). "Analysis of Agregation Methods in Incomplete Database Systems. Information Processing and Management of Uncertainty in Knowledge­ Based System (IPMU 2008)". ISBN: 9978-84-612-3061-7.

QUINTANA O.P., VALESANI M.E., VALLEJOS O.A. (2008). "Imputación de datos desaparecidos utilizando operadores de agregación MA-OWA". (WICC 2008 - X Workshop de investigadores de Ciencias de la Computación. General Pico, La Pampa, Argentina 5 y 6 de Mayo de).
Publicado
2011-04-01
Sección
Articulos