Rol
Científico de Datos / Analista de Datos
Descripción
Este proyecto se enfoca en descubrir patrones de comportamiento de usuario que no son evidentes a simple vista, utilizando datos exportados de Google Analytics de un caso real (SEAG). La metodología principal consistió en aplicar técnicas de clustering jerárquico no supervisado para segmentar a los usuarios y el contenido en grupos (clústeres) con características homogéneas.
Se desarrollaron múltiples scripts en Python para analizar diversas dimensiones, entre ellas:
La relación entre la hora de conexión y las páginas vistas por sesión.
El comportamiento de los usuarios según su grupo de edad y sus horarios de actividad.
La correlación entre la página de destino y la tasa de rebote.
Segmentación de usuarios por la tecnología del navegador y sus patrones de uso.
El resultado es una serie de visualizaciones y clústeres definidos que permiten tomar decisiones estratégicas más informadas sobre optimización de contenido, mejora de la experiencia de usuario (UX) y personalización de campañas de marketing.
El script cuenta con dos modos de operación:
Modo Automatizado: Ejecuta el ciclo completo de descarga, parada, eliminación y levantamiento de todo el entorno de forma desatendida.
Modo Interactivo: Presenta un menú en la terminal que permite al usuario tener un control granular sobre cada acción (descargar un contenedor específico, listar imágenes, recuperar un único volumen, etc.). <br> El proyecto soluciona un problema real: simplificar los procesos de disaster recovery y facilitar la creación de entornos de staging idénticos a producción, reduciendo drásticamente el tiempo y los errores manuales.
Tecnologías Clave
-
Python
-
Machine Learning
(Clustering Jerárquico no supervisado) -
Scikit-learn
(para la implementación de los modelos de clustering -
Pandas
(para la ingesta y preprocesamiento de datos) -
Matplotlib / Seaborn
(para la visualización de datos y clústeres) -
Análisis de Datos
ySEO
-
Google Analytics
(como fuente de datos)