La Maldición de la Dimensión en Machine Learning

¿Sabías que a medida que aumenta el número de dimensiones, la distancias se vuelven menos discriminativas? A este efecto se le conoce con el nombre de la Maldición de la Dimensión (Curse of Dimensionality) y tiene un gran impacto en técnicas de aprendizaje automático basadas en distancias tales como K-Means y KNN (los k vecinos más cercanos). La Maldición de la Dimensión En Machine Learning, el número de dimensiones se puede equiparar al número de variables o características (features) que …

Continuar LeyendoLa Maldición de la Dimensión en Machine Learning

Clustering (Agrupamiento), K-Means con ejemplos en python

Algoritmos de Clustering

El clustering consiste en la agrupación automática de datos. Es un tipo de aprendizaje automático no-supervisado. En castellano se denomina agrupamiento. Vamos a ver en más detalle en qué consiste el clustering, el algoritmo de agrupamiento más popular: K-Means y algunos ejemplos en python. Clustering – Agrupamiento El clustering consiste en la agrupación automática de datos. Al ser un aprendizaje no-supervisado, no hay una respuesta correcta. Esto hace que la evaluación de los grupos identificados sea un poco subjetiva. Vamos …

Continuar LeyendoClustering (Agrupamiento), K-Means con ejemplos en python

Precision, Recall, F1, Accuracy en clasificación

Precision, Recall, F1, Accuracy, Confusion Matrix

Cuando necesitamos evaluar el rendimiento en clasificación, podemos usar las métricas de precision, recall, F1, accuracy y la matriz de confusión. Vamos a explicar cada uno de ellos y ver su utilidad práctica con un ejemplo. Términos es Español Estas métricas también tienen su correspondiente nombre en español, pero es importante que sepas su nombre en inglés porque muchas librerías (scikit-learn), las tienen ya implementadas. En esta tabla puedes encontrar la correspondencia. Inglés Español Precision Precisión Recall Exhaustividad F1-score Valor-F …

Continuar LeyendoPrecision, Recall, F1, Accuracy en clasificación

Basura Espacial: competición con machine learning

Kelvins Collision Avoidance Challenge

La Agencia Espacial Europea ha creado una competición de machine learning para predecir el riesgo de colisión entre basura espacial y satélites de observación de la Tierra. La competición empieza oficialmente el 16 de Octubre. A partir de ese momento será posible descargar los datos y enviar soluciones. La competición finaliza el 16 de Diciembre de 2019. Basura Espacial El espacio no está tan vacío como solía estar. Más de 34.000 elementos de desechos espaciales de más de 10 cm …

Continuar LeyendoBasura Espacial: competición con machine learning

Avances en la generación de caras con GANs

Caras generadas a partir de una imagen y una pose

Los modelos generativos, también llamados GANs (Generative Adversarial Networks), permiten la creación de datos (e.g. imágenes) que no existen. En un artículo anterior vimos como los modelos generativos se habían utilizado para generar fotos de habitaciones de hoteles, caras humanas e incluso música. El último avance en la generación de caras nos viene de la mano de ingenieros de Samsung (en Moscú) y del Instituto de Ciencia y Tecnología de Skolkovo. Su trabajo es muy novedoso porque permite generar diferentes …

Continuar LeyendoAvances en la generación de caras con GANs

Random Forest (Bosque Aleatorio): combinando árboles

random-forest-bosque-aleatorio

Un Random Forest (Bosque Aleatorio), es una técnica de aprendizaje automático muy popular. Los Random Forests tienen una capacidad de generalización muy alta para muchos problemas. Limitaciones de los Árboles de Decisión Los árboles de decisión tienen la tendencia de sobre-ajustar (overfit). Esto quiere decir que tienden a aprender muy bien los datos de entrenamiento pero su generalización no es tan buena. Una forma de mejorar la generalización de los árboles de decisión es usar regularización. Para mejorar mucho más la …

Continuar LeyendoRandom Forest (Bosque Aleatorio): combinando árboles

Ensembles: voting, bagging, boosting, stacking

Ejemplo en Ensemble por Votación

Un ensemble es un conjunto de modelos de machine learning. Cada modelo produce una predicción diferente. Las predicciones de los distintos modelos se combinan para obtener una única predicción. La ventaja que obtenemos al combinar modelos diferentes es que como cada modelo funciona de forma diferente, sus errores tienden a compensarse. Esto resulta en un mejor error de generalización. Hay varias formas de construir estos ensembles: votación por mayoría bagging boosting stacking Votación por mayoría Podemos entrenar varios modelos de …

Continuar LeyendoEnsembles: voting, bagging, boosting, stacking

Árboles de Decisión con ejemplos en Python

Árbol de Decisión para el problema de clasificación Iris

Los árboles de decisión son una técnica de aprendizaje automático supervisado muy utilizada en muchos negocios. Como su nombre indica, esta técnica de machine learning toma una serie de decisiones en forma de árbol. Los nodos intermedios (las ramas) representan soluciones. Los nodos finales (las hojas) nos dan la predicción que vamos buscando. Los árboles de decisión pueden usarse para resolver problemas tanto de clasificación como de regresión. Veamos cómo se usan en cada caso con ejemplos. Árboles de Decisión …

Continuar LeyendoÁrboles de Decisión con ejemplos en Python

¿Cómo usar Regresión Logística en Python?

Regresión Logística

La regresión logística es una técnica de aprendizaje supervisado para clasificación. Es muy usada en muchas industrias debido a su escalabilidad y explicabilidad. En este artículo vamos a ver cómo entrenar y usar un modelo de regresión logística. Si quieres repasar la teoría de esta técnica de machine learning, puedes consultar este artículo. Instrucciones rápidas Ejemplo de Regresión Logística en Python Datos Vamos a suponer que queremos predecir cuál es la probabilidad que tiene un estudiante de aprobar un examen …

Continuar Leyendo¿Cómo usar Regresión Logística en Python?

Regresión Logística para Clasificación

Regresión Logística

La Regresión Logística es una técnica de aprendizaje automático para clasificación. Es una red neuronal en miniatura. De hecho, la regresión logística, se trata de una red neuronal con exactamente una neurona. Matemáticas de la Regresión Logística Podemos representar lo que hace la regresión logística en la siguiente figura: Los valores de x corresponden los distintos atributos de nuestro problema. Por ejemplo, si queremos saber si un correo electrónico es deseado o no deseado (spam), los valores de x podrían corresponder con …

Continuar LeyendoRegresión Logística para Clasificación