Application of the cross-entropy method to the dynamic assortment  optimization problem

Jose M. Vera Aray

Jose M. Vera Aray ESPOL Polytechnic University, Escuela Superior Politécnica del Litoral, ESPOL, Facultad de Ciencias Naturales y Matemáticas (FCNM), Campus Gustavo Galindo Km. 30.5 Vía Perimetral P.O. Box 09-01-5863, Guayaquil - Ecuador http://orcid.org/0000-0003-1840-1040

Resumen

Este trabajo considera un problema de optimización de surtido, bajo restricción de capacidad y demanda desconocida, donde un vendedor ofrece un surtido y observa la venta de un producto según un modelo de elección logit multinomial. En este problema, llamado como el problema de optimización dinámica de surtido (PODS), el vendedor debe ofrecer diferentes surtidos en cada per´ıodo para aprender las preferencias del consumidor. Por lo tanto, el trade-off entre la exploraci´on de nuevos surtidos y la explotación del mejor surtido conocido debe ser equilibrado. Se estableció similitudes entre el muestreo y la exploración con el fin de aplicar el método de entrop´ıa cruzada como política para la solución del PODS. El método de entropía cruzada encuentra una distribución de probabilidad que muestrea una solución óptima al minimizar la entropía cruzada entre una distribución de probabilidad objetivo y una distribución de probabilidad seleccionada arbitrariamente. Esto requiere que el PODS se formule como un problema de la mochila con una penalización por ofrecer surtidos que superan la capacidad. Los resultados se comparan con algoritmos de exploración adaptativa y, experimentalmente, el método de entropía cruzada muestra resultados competitivos. Estos resultados sugieren que el método de entropía cruzada se puede utilizar para resolver otros problemas de toma de decisiones secuenciales.

Citas

Agrawal, S. (2019). Recent advances in multiarmed bandits for sequential decision making. INFORMS TutORials in Operations Research, 167-188. doi: 10.1287/educ.2019.0204

Agrawal, S., Avadhanula, V., Goyal, V., & Zeevi, A. (2017). Thompson sampling for the mnl-bandit. Retrieved from http://arxiv.org/abs/1706.00977

Agrawal, S., Avadhanula, V., Goyal, V., & Zeevi, A. (2019). Mnl-bandit: A dynamic learning approach to assortment selection. Operations Research, 67(5), 1453–1485. doi: 10.1287/opre.2018.1832

Botev, Z. I., Kroese, D. P., Rubinstein, R. Y., & L’Ecuyer, P. (2013). The cross- entropy method for optimization from estimation to optimization. Handbook of statistics, 35–59. doi: 10.1016/j.memsci.2013.11.020

Caro, F., & Gallien, J. (2007). Dynamic assortment with demand learning for seasonal consumer goods. Management Science, 53(2), 276-292. doi: 10.1287/mnsc.1060.0613

Dua, D., & Graff, C. (2019). Uci machine learning repository. Retrieved from http://archive.ics.uci.edu/ml/datasets/car+evaluation.

Kök, A. G., & Marshall, L. F. (2007). Demand estimation and assortment optimiza- tion under substitution: Methodology and application. Operations Research, 55(6), 1001-1021. doi: 10.1287/opre.1070.0409

Lattimore, T., & Szepesva´ri, C. (2020). Bandit algorithms. Cambridge University Press.

Rubinstein, R. Y., & Kroese, D. P. (2004). The cross-entropy method: A unified approach to combinatorial optimization, monte-carlo simulation, and machine learning. Springer Science & Business Media. doi: 10.1007/
978-1-4757-4321-0

Rusmevichientong, P., Shen, Z. M., & Shmoys, D. B. (2010). Dynamic assortment optimization with a multinomial logit choice model and capacity constraint. Operations Research, 58(6), 1666-1680. doi: 10.1287/opre.1100.0866

Rusmevichientong, P., & Topaloglu, H. (2012). Robust assortment optimization in revenue management under the multinomial logit choice model. Operations Research, 60(4), 865-882. doi: 10.1287/opre.1120.1063

Sauré, D., & Zeevi, A. (2013). Optimal dynamic assortment planning with demand learning. Manufacturing & Service Operations Management, 15(3), 387-404. doi: 10.1287/msom.2013.0429

Slivkins, A. (2019). Introduction to multi-armed bandits. Foundations and Trends R in Machine Learning, 12(1-2), 1-286. doi: 10.1561/2200000068

Wang, Y., Chen, X., & Zhou, Y. (2018). Near-optimal policies for dynamic multinomial logit assortment selection models. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, & R. Garnett (Eds.), Advances in neural information processing systems 31 (p. 3101-3110). Curran Associates, Inc. Retrieved from http://papers.nips.cc/paper/7573-near-optimal-policies-for-dynamic-mu

Aplicación del método de entropía cruzada al problema de optimización dinámica de surtido

Resumen

Citas