Árboles de regresión para optimizar la imputación Hot Deck

Resumen

Ante la persistente necesidad de tener una base de datos completa y la búsqueda de mejorar las técnicas clásicas de estimación de los datos ausentes, la investigación presenta una propuesta de metodología para la imputación de las pérdidas o falta de los datos, mediante la combinación de un Análisis de segmentación, específicamente un Árbol de Regresión y la técnica clásica de imputación Hot Deck secuencial. Se calcula los estimadores para la media, totales y varianza, así como la validación empírica de la propuesta, en la que se obtuvieron estimadores insesgados. Se considera que la técnica mejora la robustez entre pérdidas del 5 y 30% de los datos, se mantiene la variabilidad de los datos y las relaciones entre las variables, mejora las estimaciones con respecto a la técnica Hot Deck sin el uso de la segmentación.

Citas

Andridge, R., y Little, R. (2010). A review of hot deck imputation for survey non-response. International Statistical Review, 1(78), 40-64. doi: 10.1111/j.1751-5823.2010.00103.x

Bhargava, N., Dayma, S., Kumar, A., y Singh, P. (2017). An approach for classification using simple cart algorithm in weka. En Proceedings of 2017 11th International Conference on Intelligent Systems and Control (ISCO)
(pp. 212–216). Coimbatore, India.

Escobar, M. (2007). El análisis de segmentación: técnicas y aplicaciones de los árboles de clasificación. Madrid: CIS.

Juster, F., y Smith, J. (1998). Enhancing the quality of data on income and wealth: recent developments in survey methodology. En Proceedings of 25th General Conference of the International Association for Research in Income and Wealth. Cambridge, England.

Lin, W. C., y Tsai, C. F. (2020). Missing value imputation: a review and analysis of the literature (2006–2017). Artificial Intelligence Review, 53(2), 1487–1509. doi: 10.1007/s10462-019-09709-4

Little, R. J. A. (2019). On algorithmic and modeling approaches to imputation in Little, R. J. A., y Rubin, D. B. (2019). Statistical analysis with missing data. John Wiley & Sons.

Loh, W.-Y., Eltinge, J. L., Cho, M. J., y Li, Y. (2018). Classification and regression trees and forests for incomplete data from sample surveys. Statistica Sinica, 29(2019), 431-453. doi: 10.5705/SS.202017.0225

Loh, W.-Y., Zhang, Q., Zhang, W., y Zhou, P. (2020). Missing data, imputation and regression trees.
Statistica Sinica, 30(2020), 1697-1722. doi: 10.5705/ ss.202019.0122

Luo, Y., Cai, X., Zhang, Y., Xu, J., y Xiaojie, Y. (2018). Multivariate time series imputation with generative adversarial networks. En S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa- Bianchi, y R. Garnett (Eds.), Advances in neural information processing systems (Vol. 31). Curran Associates, Inc. Descargado de https://proceedings.neurips.cc/paper/2018/file/96b9bff013acedfb1d140579e2fbeb63-Paper.pdf

Medina, F., y Galva´n, M. (2007). Imputacioón de datos: teoría y práctica. Cepal. Descargado de http://hdl.handle.net/11362/4755

Montaquila, J. M., y Ponikowski, C. H. (1993). Comparison of methods to impute missing answers in a survey of establishments. En Proceedings of the Survey Research Methods Section (p. 446-451).

Márquez, V., Useche, L., Chacón, A. I., y Mesa, D. (2017). Estrategia de imputación con la media bajo el uso de
árboles de regresión. Comunicaciones en Estadística, 10(1), 9-40.

Olfaz, M., Tirink, C., y Önder, H. (2019). Use of cart and chaid algorithms in karayaka sheep breeding. Kafkas Univ Vet Fak Derg, 25(1), 105-110. doi:10.9775/kvfd.2018.20388

Pedersen, A. B., Mikkelsen, E. M., Cronin-Fenton, D., Kristensen, N. R., Pham, T. M., Pedersen, L., y Petersen, I. (2017). Missing data and multiple imputation in clinical epidemiological research. Clinical Epidemiology, 2017(9),
157-166. doi: 10.2147/CLEP.S129785

Useche, L., y Mesa, D. (2006). Una introducción a la imputación de valores perdidos.Terra. Nueva Etapa, XXII(31), 127-151. Descargado de https://www.redalyc.org/articulo.oa?id=72103106

Useche, L., Parra, J. P., Mendoza, C. G., y Chacón, A. I. (2021). Design of an imputation methodology by random selection usign regression trees. Bull. Comput. Appl. Math, 9(2), 97-121.
Publicado
2022-07-31
Sección
Articulos