La Maldición de la Dimensión en Machine Learning

¿Sabías que a medida que aumenta el número de dimensiones, la distancias se vuelven menos discriminativas? A este efecto se le conoce con el nombre de la Maldición de la Dimensión (Curse of Dimensionality) y tiene un gran impacto en técnicas de aprendizaje automático basadas en distancias tales como K-Means y KNN (los k vecinos más cercanos). La Maldición de la Dimensión En Machine Learning, el número de dimensiones se puede equiparar al número de variables o características (features) que …

Continuar LeyendoLa Maldición de la Dimensión en Machine Learning

Feliz San Valentín menéame

Feliz San Valentín menéame

¡Feliz San Valentín! Vamos a celebrarlo haciendo un análisis de todas las noticias de portada de menéame desde el último San Valentín. Para el análisis, usaremos técnicas de Procesamiento del Lenguaje Natural y Visualización de datos. Quisiera agradecer a Alfonso Martínez Heras su colaboración en este proyecto. Alfonso se ha encargado de crear un web scrapper para obtener estos artículos automáticamente. Regalo de San Valentín para menéame Este es el regalo de San Valentín de IArtificial para menéame. Es un corazón hecho con las palabras de los artículos …

Continuar LeyendoFeliz San Valentín menéame

Google Dataset Search – descubre conjuntos de datos

Google DataSet Search

En toda la web, hay millones de conjuntos de datos sobre casi cualquier tema que le interese. Google DataSet Search nos pone fácil encontrar estos datos. Tiene ya acceso a casi 25 millones de conjuntos de datos y este número sigue creciendo. Los datos no los tiene Google, sino que DataSet Search ofrece un lugar para buscar y encontrar enlaces a los datos que buscamos. Las técnicas de Machine Learning necesitan datos para aprender. De hecho, cuantos más datos mejor. …

Continuar LeyendoGoogle Dataset Search – descubre conjuntos de datos

Clustering (Agrupamiento), K-Means con ejemplos en python

Algoritmos de Clustering

El clustering consiste en la agrupación automática de datos. Es un tipo de aprendizaje automático no-supervisado. En castellano se denomina agrupamiento. Vamos a ver en más detalle en qué consiste el clustering, el algoritmo de agrupamiento más popular: K-Means y algunos ejemplos en python. Clustering – Agrupamiento El clustering consiste en la agrupación automática de datos. Al ser un aprendizaje no-supervisado, no hay una respuesta correcta. Esto hace que la evaluación de los grupos identificados sea un poco subjetiva. Vamos …

Continuar LeyendoClustering (Agrupamiento), K-Means con ejemplos en python

Precision, Recall, F1, Accuracy en clasificación

Precision, Recall, F1, Accuracy, Confusion Matrix

Cuando necesitamos evaluar el rendimiento en clasificación, podemos usar las métricas de precision, recall, F1, accuracy y la matriz de confusión. Vamos a explicar cada uno de ellos y ver su utilidad práctica con un ejemplo. Términos es Español Estas métricas también tienen su correspondiente nombre en español, pero es importante que sepas su nombre en inglés porque muchas librerías (scikit-learn), las tienen ya implementadas. En esta tabla puedes encontrar la correspondencia. Inglés Español Precision Precisión Recall Exhaustividad F1-score Valor-F …

Continuar LeyendoPrecision, Recall, F1, Accuracy en clasificación

Basura Espacial: competición con machine learning

Kelvins Collision Avoidance Challenge

La Agencia Espacial Europea ha creado una competición de machine learning para predecir el riesgo de colisión entre basura espacial y satélites de observación de la Tierra. La competición empieza oficialmente el 16 de Octubre. A partir de ese momento será posible descargar los datos y enviar soluciones. La competición finaliza el 16 de Diciembre de 2019. Basura Espacial El espacio no está tan vacío como solía estar. Más de 34.000 elementos de desechos espaciales de más de 10 cm …

Continuar LeyendoBasura Espacial: competición con machine learning

Avances en la generación de caras con GANs

Caras generadas a partir de una imagen y una pose

Los modelos generativos, también llamados GANs (Generative Adversarial Networks), permiten la creación de datos (e.g. imágenes) que no existen. En un artículo anterior vimos como los modelos generativos se habían utilizado para generar fotos de habitaciones de hoteles, caras humanas e incluso música. El último avance en la generación de caras nos viene de la mano de ingenieros de Samsung (en Moscú) y del Instituto de Ciencia y Tecnología de Skolkovo. Su trabajo es muy novedoso porque permite generar diferentes …

Continuar LeyendoAvances en la generación de caras con GANs

Random Forest (Bosque Aleatorio): combinando árboles

random-forest-bosque-aleatorio

Un Random Forest (Bosque Aleatorio), es una técnica de aprendizaje automático muy popular. Los Random Forests tienen una capacidad de generalización muy alta para muchos problemas. Limitaciones de los Árboles de Decisión Los árboles de decisión tienen la tendencia de sobre-ajustar (overfit). Esto quiere decir que tienden a aprender muy bien los datos de entrenamiento pero su generalización no es tan buena. Una forma de mejorar la generalización de los árboles de decisión es usar regularización. Para mejorar mucho más la …

Continuar LeyendoRandom Forest (Bosque Aleatorio): combinando árboles

Ensembles: voting, bagging, boosting, stacking

Ejemplo en Ensemble por Votación

Un ensemble es un conjunto de modelos de machine learning. Cada modelo produce una predicción diferente. Las predicciones de los distintos modelos se combinan para obtener una única predicción. La ventaja que obtenemos al combinar modelos diferentes es que como cada modelo funciona de forma diferente, sus errores tienden a compensarse. Esto resulta en un mejor error de generalización. Hay varias formas de construir estos ensembles: votación por mayoría bagging boosting stacking Votación por mayoría Podemos entrenar varios modelos de …

Continuar LeyendoEnsembles: voting, bagging, boosting, stacking

Aguathon: mi solución al primer Hackathon del Agua

Río Ebro a su paso por Zaragoza

En este artículo explico mi solución al Aguathon: el primer Hackathon del Agua, organizado por ITAINNOVA. Introducción al Aguathon: el Hackathon del Agua de ITAINNOVA El Instituto Tecnológico de Aragón ha organizado el 1er Hackathon del Agua, “AGUATHON”. A continuación vamos a ver las partes más relevantes para entender en qué consiste este reto, por qué es tan importante, qué tipo de solución necesitan, qué datos proporcionan y cómo evalúan las soluciones propuestas. Objetivo El objetivo de este Hackathon es modelizar el …

Continuar LeyendoAguathon: mi solución al primer Hackathon del Agua