El tratamiento de valores faltantes en conjuntos de datos es uno de los principales retos en ciencia de datos y aprendizaje automático. La presencia de datos ausentes puede comprometer la calidad de la información, introducir sesgos en los análisis y reducir significativamente el rendimiento de los modelos predictivos.
Este proyecto desarrolla una librería flexible, modular y evaluable que unifica distintos métodos de imputación de valores faltantes, permitiendo:
- Recuperar la información perdida de forma fiable.
- Evitar distorsiones estadísticas o sobreajustes en los modelos.
- Comparar el rendimiento de diferentes enfoques de imputación.
- Mejorar la calidad de los datos empleados en modelos de machine learning.
El objetivo final es obtener conjuntos de datos imputados que reproduzcan con la mayor fidelidad posible las condiciones de un escenario sin datos perdidos.
Los objetivos principales de la librería son:
- Implementar una colección representativa de métodos de imputación, que incluya enfoques clásicos, estadísticos y basados en modelos.
- Diseñar una herramienta modular que facilite la integración y comparación de diferentes técnicas.
- Analizar el impacto de la imputación sobre el rendimiento de modelos de aprendizaje automático mediante métricas cuantitativas.
- Aplicación de diversos métodos de imputación (clásicos, estadísticos y basados en modelos).
- Evaluación sistemática de los métodos aplicados mediante métricas estándar.
- Comparación cuantitativa del impacto de la imputación en modelos predictivos.
- Visualización de resultados para facilitar el análisis y la interpretación.
- Arquitectura modular que permite añadir nuevos métodos fácilmente.