Especialización en Big Data e Inteligencia de Negocios
Permanent URI for this collection
Browse
Recent Submissions
Item Modelo de Machine Learning para la prevención de fuga de clientes enfocado al sector de gases industriales(Universidad Católica Luis Amigó, 2022-05-20) Escobar Sánchez, Juan Camilo; Lopera Salazar, Luisa Fernanda; Pareja Fonnegra, Luisa Fernenda; Torres Pardo, Ingrid DurleyEl trabajo aborda el problema de retención de clientes en la empresa Air Products Colombia, utilizando herramientas de machine learning para identificar el comportamiento de compra de los clientes y segmentarlos en grupos con comportamientos similares (clusterización); se destaca la importancia de construir un modelo de machine learning que permita evitar la fuga de clientes, anticipar decisiones para retenerlos, mantener o incrementar ingresos, optimizar el costo de adquisición de nuevos clientes y ofrecer precios competitivos sin afectar la rentabilidad. Se realiza una descripción de la base de datos utilizada, que contiene más de 1.000 registros de ventas mensuales desde 2019 hasta la fecha y variables como tipo de cliente, productos comprados, fechas y valores de las compras, entre otros. Para la ejecución del modelo se trabajó con el lenguaje Python, utilizando diferentes técnicas de machine learning, como el método K-vecinos, método jerárquico y se evaluaron por medio del método del codo (KMeans) y el modelo silhouette; se realizó la comparación del mejor algoritmo, teniendo como ganador el de silhouette con valor de 0.69 para la asignación de 4 clústeres; teniendo en cuenta que el puntaje de silhouette se encuentra -1 y 1, siendo 1 el mejor valor, por lo tanto, entre más cercano sea el valor de la evaluación a 1, significa que los clusters están mejor segmentados. En conclusión, este trabajo proporciona un análisis detallado de la aplicación de machine learning para la retención de clientes, con el objetivo de ofrecer recomendaciones específicas que generen valor para la empresa Air Products Colombia.Item Reconocimiento facial en Azure para reforzar la seguridad y prevenir delitos(Universidad Católica Luis Amigó, 2022-05-20) Cetre Agualimpia, Jairo Junior; Torres Pardo, Ingrid DurleyEl proyecto se enfoca en el desarrollo de un sistema de reconocimiento facial automático utilizando aprendizaje profundo impulsado por inteligencia artificial, específicamente para Segurtronic, una empresa que ofrece servicios de vigilancia y comercializa cámaras de seguridad, monitoreo y control de pánico. Este trabajo describe el proceso de detección de personas en instalaciones monitorizadas por cámaras. En caso de que una persona detectada no sea reconocida, se enviará una alerta solicitándole que se registre o proporcione sus huellas digitales en un área designada por la empresa. El desarrollo del proyecto se divide en dos fases. La primera fase comprende la clasificación y análisis de imágenes mediante la plataforma Azure Vision, utilizada para el entrenamiento necesario. La segunda fase involucra el reconocimiento facial empleando una biblioteca de Python. Este sistema permite identificar a una persona incluso si lleva la cara cubierta y considera el rango de edad de la persona detectada. Estas características son esenciales para cumplir con el objetivo del proyecto: crear un sistema capaz de detectar y predecir delitos relacionados con la suplantación del reconocimiento facial en el futuro cercano. Es crucial resaltar que el reconocimiento facial debe realizarse en puntos específicos, en lugar de todas las áreas cubiertas por las cámaras, ya que estas son las zonas más sensibles para observar a personas con acceso restringido. Este desarrollo también permite almacenar un historial que registra cuándo se analizó un rostro y el tiempo transcurrido entre la primera detección (ingreso al edificio) y la última detección (salida del edificio) y/o de las instalaciones.Item Automatización del proceso de ETL para definir el acuerdo de nivel de servicio mediante SQL server integration services (SSIS)(Universidad Católica Luis Amigó, 2022-05-20) Sánchez Muñoz, Bayron David; Martínez Vargas, María Clara; Pardo, Ingrid DurleyLas empresas gestionan gran cantidad de datos de diversas fuentes para sus operaciones. Automatizar estas tareas es esencial para ahorrar tiempo y dinero, reducir errores y permitir a los empleados enfocarse en tareas prioritarias. Este proyecto se enfocó en implementar herramientas de Business Intelligence (BI) e Integration Services para automatizar procesos de integración de datos. Para la empresa de telecomunicaciones, se subcontrató el servicio de soporte y desarrollo de informes para el área de BI y Big Data. La facturación mensual se basa en horas trabajadas. TIGO asigna tareas a la empresa subcontratada a través de una plataforma de tiquetes, donde se registran los tiempos trabajados y novedades. Estos datos son cruciales para calcular el cumplimiento del Acuerdo de Nivel de Servicio (ANS), que actualmente requiere el trabajo constante de tres personas, con una carga promedio de 4.5 horas diarias cada una. Se implementó un proceso ETL en Microsoft SQL Server Integration Services (SSIS) para integrar datos de la plataforma de tiquetes y realizar cálculos mediante comandos SQL. Este proceso se automatizó mediante Jobs (tareas programadas) en la misma herramienta, garantizando la generación y envío del reporte final en intervalos determinados. Como resultado, se redujo el tiempo empleado en esta, de aproximadamente 4050 minutos a menos de 5 minutos por semana.Item Modelado predictivo aplicado al comportamiento de componentes de la infraestructura tecnológica en empresas de bienes y servicios(Universidad Católica Luis Amigó, 2022-05-20) López Restrepo, Liliana Maria; Acevedo Vanegas, Daniel; Torres Pardo, Ingrid Durley; Gil Vera, Victor DanielIntroducción La infraestructura tecnológica es esencial para las operaciones empresariales, pero enfrenta desafíos que impactan su eficiencia y rentabilidad. Este estudio subraya la importancia de mejorarla mediante la predicción y resolución proactiva de problemas, evitando pérdidas financieras y reducciones en la productividad. Motivación La eficiencia operativa de la infraestructura tecnológica es vital para predecir y anticipar su comportamiento, optimizando operaciones y reduciendo costos. Interrupciones no planificadas pueden tener impactos económicos y de rendimiento significativos, afectando la experiencia del cliente. Planteamiento del problema En el sector financiero, la falta de un sistema robusto para predecir fallas en unidades de disco puede causar interrupciones con consecuencias financieras y daños a la reputación. La competencia y la expectativa de acceso ininterrumpido a los servicios aumentan la urgencia de un sistema predictivo de fallas. Justificación La disponibilidad segura de la información del cliente es crucial. Implementar un sistema de predicción de fallas en unidades de disco es esencial para garantizar la seguridad de los datos y la continuidad de los servicios, optimizando procesos internos y reduciendo costos de mantenimiento. Objetivos Desarrollar un sistema de predicción de fallas en unidades de disco para optimizar la gestión de la infraestructura tecnológica y mejorar la disponibilidad y rendimiento de los servicios. Marco metodológico El desarrollo del sistema incluye fases como la recopilación y análisis de datos históricos, la implementación del modelo predictivo, la integración del modelo y el análisis de resultados. Se enfoca en garantizar una implementación fluida, con énfasis en la precisión y mejora continua. Resumen adicional: El rendimiento de la infraestructura tecnológica en empresas de bienes y servicios es crucial. Se han adoptado técnicas de Machine Learning (ML) y algoritmos de inteligencia artificial (IA) para mitigar fallas. El marco conceptual propuesto integra conceptos clave como Big Data, Machine Learning, Gemelos Digitales, e ITIL para abordar los desafíos de la era digital. Además, se propone un marco normativo integral para garantizar la calidad y seguridad de los datos. El proyecto se enfoca en caracterizar el proceso de modelado predictivo aplicado al comportamiento de componentes de la infraestructura tecnológica. Se destaca la importancia de la metodología CRISP-DM y la monitorización continua para mejorar la continuidad operativa y reducir costos asociados con las fallas.Item Modelo de machine learning enfocado en la retención de los clientes del sector retail de la moda(Universidad Catolica Luis Amigo, 2022) Chalarca Restrepo, Andrés F.; Gómez Martínez, Jonatan A.; Piedrahita Londoño, Lina M.; Giraldo Mejía, Juan C.Este trabajo de grado está enfocado en Proponer un modelo de machine learning enfocado a la retención de los clientes del sector retail de la moda y así generar las métricas necesarias para la toma de decisiones y el oportuno diseño de estrategias innovadoras, para la clasificación y retención de sus clientes. Para el desarrollo de este estudio se utilizaron 69768 registros de una empresa del sector retail. Para alcanzar los objetivos propuestos en este trabajo, se utilizará la metodología CRISP-DM (Cross-Industry Standard Process for Data Mining) La metodología CRISP-DM la cual es útil para el desarrollo de modelos analíticos a partir de datos, estos datos se originan dentro del negocio y con ellos pretende anticiparse a futuros riesgos de la compañía y así disponer de los recursos o medidas necesarias para solucionar las contingencias. De acuerdo con los resultados obtenidos mediante un análisis estadístico combinado con técnicas de machine learning se pudo comprender el comportamiento de los clientes de la marca Carrera en un periodo determinado, donde se entendió que el valor agregado de la marca radica fundamentalmente en los descuentos ofrecidos hacia los clientes.Item Implementación de Machine Learning (ML) para clasificación de PQRSF con minería de texto en el área de atención al usuario de la Universidad Católica Luis Amigó(Universidad Católica Luis Amigó, 2022) Gómez Sepúlveda, Daniela; Jiménez Villa, Lisbed; Rivera Delgado, Luis A.; Giraldo Mejía, Juan C.; Giraldo Mejía, Juan C.Este trabajo de grado está enfocado en agilizar la clasificación de las PQRSF de la Universidad Católica Luis Amigó donde se reciben alrededor de 5428 solicitudes por semestre de los cuales, se transfieren alrededor de 1300, se vencen 200, se cierran 4030, y se reabren al menos 30, de acuerdo con el nivel de servicio (SLA), la atención oportuna de estas solicitudes está definida en 24 horas para los casos de consultas de información y 48 horas para los que requieren escalar la consulta con las diferentes áreas, pero se tienen momentos picos que desbordan la capacidad y generan retrasos, para lo cual se plantea atender esta demanda implementando un sistema que permita la clasificación de las solicitudes para agilizar el servicio. Bajo este contexto de la investigación se orientó en la implementación en Machine Learning para la clasificación de PQRSF con minería de texto bajo el marco de referencia de la metodología CRISP-DM y se centra en la aplicación de varias técnicas de Machine Learning para seleccionar la técnica con mejores resultados, que permita analizar y clasificar las diferentes solicitudes a través de sus de texto en las categorías de las PQRSF. Además, la investigación en este campo también se enfoca en la implementación de un modelo Machine Learning donde se carga el aprendizaje al modelo para realizar la clasificación casos simulados de la PQRS desarrollados bajo un escenario de un usuario posible.Item Modelo de aprendizaje de máquinas para identificar variables con mayor incidencia en la deserción escolar y que predicen posibles desertores de instituciones educativas en educación regular(Universidad Católica Luis Amigó, 2023) Jaramillo Ciro, Gabriel; Calderón, Leidy; Giraldo Mejía, Juan C.; Giraldo Mejía, Juan C.Este trabajo de grado está enfocado en Construir un modelo de aprendizaje de máquinas para identificar las variables con mayor incidencia en la deserción escolar y que predicen posibles desertores de instituciones educativas en educación regular y así contar con una herramienta que permita tomar medidas preventivas que permitan reducir el abandono. Para el desarrollo de este estudio se utilizaron 259.411 registros de estudiantes matriculados para el 2020 en instituciones educativas oficiales de Medellín en edad regular con base en reportes de los sistemas SIMAT y SIMPADE Para alcanzar los objetivos propuestos en este trabajo, se utilizará la metodología CRISP- DM (Cross-Industry Standard Process for Data Mining) con sus 6 fases; esta metodología integra todas las actividades necesarias para el desarrollo de este estudio, desde la fase inicial de comprensión del negocio hasta el despliegue del modelo predictivo propuesto como solución a través del uso de técnicas de Machine Learning. De acuerdo con los resultados obtenidos con el modelo creado; como se mencionó anteriormente, se pudo identificar variables directamente relacionadas con la condición de desertar, es decir si esa variable aumenta o es positiva, la posibilidad de abandonar los estudios también aumenta, estas variables fueron: edad, pertenencia al grado primero o tercero, ser beneficiario de programas para madres cabeza de familia o no estudiar en la vigencia académica del año anterior.Item Machine Learning para predecir el costo anual de los servicios contratados por evento de los afiliados de la EPS Savia Salud(Universidad Católica Luis Amigó, 2023) Mazo Solano, Joan; Gallego Vélez, Laura; Sandoval Valencia, Sebastián; Giraldo Mejía, Juan C.; Giraldo Mejía, Juan C.La proyección de los costos anuales de las aseguradoras del sector salud es una tarea de alta complejidad; de este ejercicio se derivan los mecanismos de contratación con los prestadores de servicio de salud y su resultado impacta directamente los costos no operacionales. En este proyecto de investigación, se utilizó machine learning para predecir el costo anual de las atenciones por evento de la EPS Savia Salud, con el fin de contribuir a las estrategias asociadas a la disminución del déficit fiscal. Siguiendo la metodología CRISP-DM, se aplicaron técnicas de aprendizaje supervisado y no supervisado. Se realizó un proceso de ETL para integrar dos fuentes de datos en una, obteniendo un conjunto de 13.692 registros con los cuales se desarrolló un clustering para conocer los diferentes grupos de pacientes según sus costos; posteriormente, se elaboró un modelo de clasificación, en el que se incluyeron 4 rangos de costos. Los resultados del modelo predictivo permitieron concluir que es posible predecir el costo de las atenciones por evento con una índice ROC del 79%. Durante la socialización de los resultados, se incluyeron un conjunto de recomendaciones para continuar explorando el machine learning como herramienta en los ejercicios de planificación y fortalecer el modelo incluyendo una mayor cantidad de variables y registros. La investigación concluye es posible estimar los costos anuales utilizando machine learning, cuya utilidad real se comprobará después de ejecutar una prueba piloto en el año 2023 con una muestra controlada.Item Caracterización de clientes de la empresa New Stetic(Universidad Católica Luis Amigó, 2023) Quintero Patiño, David A.; Taborda Ospina, Viviana; Parra Sánchez, Juan S.; Parra Sánchez, Juan S.Esta investigación se plantea desde la necesidad de la empresa New Stetic por conocer la distribución de sus clientes para lograr la fidelización de sus marcas, lo cual representa un aumento en los ingresos que genera la venta de sus productos para el sector odontológico. Para darle solución a la necesidad de New Stetic, se ha tomado como muestra los datos de las transacciones de las ventas en los años comprendidos entre el 2017 y febrero de 2023, se contó con un total de 789 registros de clientes, donde se implementó la técnica de Clustering por medio del algoritmo de K-Means realizado en Python. Para el cumplimiento de los objetivos, se utilizó las fases de la metodología CRISP-DM encontrando como resultado tres segmentos de clientes para la implementación de la estrategia comercial con la metodología Design Thinking.Item Categorización de clientes en el sector automotriz en el área metropolitana del Valle de Aburrá utilizando aprendizaje no supervisado(Universidad Católica Luis Amigó, 2023) Moyano Montaño, Sebastián; Arias Vergara, Luis Gabriel; Parra Sánchez, Juan S.; Parra Sánchez, Juan S.En el mercado actual, las empresas de la industria automotriz buscan constantemente formas de atraer y retener clientes. Sin embargo, para lograr este objetivo, es necesario comprender profundamente a los clientes y sus preferencias. En este contexto, se plantea el problema de la falta de comprensión clara y precisa de los clientes que compran repuestos en la industria automotriz, específicamente en un concesionario que distribuye repuestos de la marca Chevrolet a nivel nacional. Para resolver este problema, se propone crear un modelo de ventas que permita categorizar a los clientes y comprender mejor sus hábitos y preferencias de compra en el área metropolitana del Valle de Aburrá. Esto ayudaría a implementar estrategias de ventas más efectivas e individualizadas para cada grupo de clientes, lo que resultaría en un aumento de las ventas y una mejor retención de los clientes. La creación de este modelo de ventas es un proceso complejo que requiere la participación de expertos automotrices, analistas de datos y otros profesionales involucrados en el proyecto. El primer paso es la recopilación de datos, lo que implica costos operativos significativos para el mantenimiento de los repuestos de Chevrolet en el concesionario. Sin embargo, los beneficios de comprender mejor a los clientes y poder implementar estrategias de ventas más efectivas superan estos costos. La justificación de este proyecto se basa en la necesidad de mejorar las estrategias de ventas, reducir los costos operacionales de almacenamiento, aumentar la competitividad en el mercado y mejorar la experiencia del cliente. Además, se destaca la utilización de tecnología avanzada, como el análisis de datos y el aprendizaje automático, para categorizar a los clientes y adaptar las estrategias de ventas a sus necesidades específicas en el área metropolitana del Valle de Aburrá.Item Predicción de riesgo de retiro de un corresponsal bancario en la Cooperativa Financiera(Universidad Catolica Luis Amigó, 2023) Arias Trujillo, Juan G.; Gutiérrez Monsalve, Claudia M.; Parra Sánchez, Juan S.; Parra Sánchez, Juan S.El desarrollo de un modelo para predecir el riesgo de retiro de un corresponsal bancario en una cooperativa financiera ha sido justificado por la necesidad de acercar los servicios financieros a los usuarios de manera eficiente. Los corresponsales bancarios desempeñan un papel fundamental al brindar servicios de recaudo y contribuir a la inclusión financiera en áreas con poca presencia de entidades financieras. Con el objetivo de mejorar el alcance y la presencia de la cooperativa en el territorio, así como tomar decisiones estratégicas de retención y soporte de servicios, se desarrolló un modelo utilizando algoritmos de machine learning. Para ello, se utilizó la base histórica de corresponsales bancarios de una cooperativa, en donde se observó que, desde 2013 hasta 2022, se cerraron un total de 84 puntos de corresponsalía. Actualmente, la cooperativa cuenta con 136 corresponsales bancarios vigentes, lo que representa el 61% de los puntos abiertos a lo largo de su trayectoria. El modelo se basó en información como la duración, ubicación, estado, fechas de instalación y cierre, tipo de negocio, comisiones recibidas y transacciones realizadas por los corresponsales. Se aplicaron técnicas como árboles de decisión y Random Forest, logrando demostrar un excelente desempeño en la clasificación con la técnica de árboles de decisión. Esto indica que el modelo ha capturado de manera precisa y completa las características distintivas de las clases suministradas. El desarrollo de este modelo predictivo de riesgo de retiro de corresponsales bancarios brinda a la cooperativa una herramienta para tomar decisiones informadas y oportunas.Item Caracterización de contribuyentes deudores del impuesto vehicular en el departamento de Antioquia.(Universidad Católica Luis Amigó, 2023) Patiño Montoya, Damián; Silva Rojas, Elizabeth; Herrera Rios, Jhonatan; Parra Sánchez, Juan S.Este trabajo de investigación se centra en el análisis y comprensión del perfil de los contribuyentes deudores del impuesto vehicular en el departamento de Antioquia utilizando técnicas de Aprendizaje Automático (Machine Learning). El objetivo principal es identificar patrones y tendencias de estos contribuyentes, considerando variables socioeconómicas, geográficas y tributarias. La evasión fiscal y la falta de cumplimiento son problemas comunes en muchos países, incluyendo Colombia, y tienen consecuencias económicas y sociales significativas. Por lo tanto, comprender los determinantes del incumplimiento tributario es fundamental para el desarrollo económico, social y financiero del país. El presente proyecto se desarrolla mediante un proceso de investigación que involucra la extracción y transformación de los datos relacionados con los contribuyentes del impuesto vehicular. Se utilizó una técnica no supervisada de clusterización para agrupar a los contribuyentes en categorías con características similares, lo cual ayuda a comprender mejor su comportamiento e identificar los factores que influyen en el incumplimiento del pago del impuesto.El trabajo se lleva a cabo utilizando herramientas de procesamiento de datos y equipos de cómputo adecuados, garantizando la confidencialidad y seguridad de la información proporcionada por la Secretaría de Hacienda de la Gobernación de Antioquia. La metodología utilizada es CRISP-DM, un proceso estándar para proyectos de minería de datos.En la preparación y procesamiento de los datos, se ejecutaron diversas tareas en diferentes etapas. En la primera fase, llamada Entendimiento y comprensión del negocio, se obtuvieron las bases de datos necesarias y se realizó un inventario de fuentes de información. En la segunda fase, titulada Estudio y comprensión de los datos, se creó un repositorio de código fuente para el análisis exploratorio de los datos. En la tercera fase, denominada Preparación de los datos, se llevó a cabo la limpieza de los datos, la integración de los datos relevantes y la unión de los conjuntos de datos después de su preprocesamiento, finalmente se llegó a la etapa de modelado, donde utilizando el algoritmo de K-Means, se pudieron obtener 5 grupos de deudores. A través del modelo realizado, se evalúan los resultados obtenidos con las características de los diversos clústeres.Item Construcción de un modelo predictivo para determinar el tiempo de intervenciones quirúrgicas en un Hospital Público de Medellín.(Universidad Católica Luis Amigó, 2023) Pulgarín Rojas, German D.; Barrero Londoño, Diego A.; Parra Sánchez, Juan S.La planificación del uso de quirófanos en los sistemas de atención médica ha dependido históricamente de métodos empíricos debido a la falta de conocimiento sobre el tiempo estimado de las cirugías. En este contexto, el presente trabajo tuvo como objetivo principal desarrollar un modelo predictivo para calcular el tiempo de duración de las cirugías en un Hospital Público de Medellín. Se implementó un modelo supervisado de Machine Learning en diferentes escenarios, incluyendo cirugías generales, especializadas en ortopedia y el conjunto global de las 29especialidades médicas existentes en el estudio. El propósito fue evaluar la capacidad predictiva del modelo en condiciones variables. Bajo la metodología CRISP-DM los resultados obtenidos demuestran que el modelo tuvo una capacidad predictiva superior al 88% de rendimiento, con un desfase máximo de 25 minutos. En este estudio los resultados generados respaldan la aplicación de enfoques predictivos basados en modelos supervisados, destacando el potencial y la relevancia del Machine Learning en el ámbito hospitalario, especialmente en la predicción de tiempos quirúrgicos.Item Identificación de patrones asociados a la rotación laboral en el Grupo Éxito mediante aprendizaje no supervisado(Universidad Católica Luis Amigó, 2023) Restrepo Zapata, Esteban; Vargas Ángel, Yeison A.; Parra Sánchez, Juan S.; Parra Sánchez, Juan S.El presente trabajo de grados se centra en la identificación de los patrones asociados a la rotación de personal en el Grupo Éxito, una de las compañías más grandes de retail en Colombia, a través del uso de técnicas de aprendizaje no supervisado. La rotación de personal representa un desafío significativo para las organizaciones, debido a sus costos económicos y su impacto en la estabilidad y productividad del equipo de trabajo. Con el objetivo de abordar esta problemática, se plantean varios objetivos específicos. En primer lugar, se busca integrar y preparar la información necesaria para el estudio de la rotación de personal en el Grupo Éxito. A continuación, se emplearán técnicas de aprendizaje no supervisado para detectar patrones o perfiles asociados con la rotación de personal en la organización. Por último, se evaluará y desplegará el modelo de aprendizaje no supervisado desarrollado, con el fin de determinar los factores que influyen en la rotación de personal. La aplicación de técnicas de aprendizaje no supervisado permite descubrir patrones y estructuras ocultas en los datos sin la necesidad de etiquetas previas. Esto proporciona una oportunidad única para explorar las características subyacentes que podrían estar influyendo en la rotación de personal en el Grupo Éxito. Los resultados obtenidos en este estudio ofrecerán información valiosa para comprender los factores que influyen en la rotación de personal y contribuirán a la implementación de estrategias efectivas de retención de talento en la organización.