3 algoritmos de machine learning predictivo que todo analista de datos debe conocer

Sin dudas, al momento de ingresar al mundo del análisis de datos uno se siente  muy ahogado y perdido al ver la enorme cantidad de algoritmos que se usan para diversas realidades, pero ante ese panorama, uno debe hacerse la siguiente pregunta: ¿Todos son utilizados en todo momento? Y bueno, la respuesta es obvia la cual es NO. Cuando logras asimilar ello, nace una segunda pregunta, muy válida, la cual es ¿qué algoritmos entonces son los más usados en las empresas normales (bancos, transporte, comercio)?

Bueno, a continuación se describen, de manera muy simple, los tres algoritmos del tipo predictivo más usados y que sin duda son un punto de partida muy interesante que después permite pasar a otros tipos de algoritmos más complejos.


Regresión logística:


Fuente: Internet

Es uno de los más antiguos pero también de los más usados.
Es un algoritmo lineal y aditivo, basado en la regresión múltiple, pero adaptado para predecir eventos de cero o uno.
Por ejemplo si un empleado va a dejar o no la empresa en los próximos 3 meses.
El motivo por el que te recomiendo aprenderlo es porque aún hoy en día es de los más usados en el ámbito empresarial.
Por ejemplo es masivamente usado en análisis de riesgos.
Por tanto si te gustaría trabajar en una empresa grande y "tradicional" (bancos, aseguradoras, etc.) debes dominar este algoritmo.


 
Árbol de decisión:

Fuente: Internet
 

Consiste en ir haciendo divisiones sucesivas del conjunto de datos basadas en la variable que mejor consiga separarlo en cuanto al objetivo que estamos modelizando.
Por ejemplo si queremos calcular la probabilidad de cada cliente de comprar un coche de alta gama es posible que la primera variable que mejor separe entre los que lo comprarán y los que no sea el salario.
Y así con todas las variables disponibles hasta que llega al máximo de predicción posible.
La salida final que nos devuelve es un conjunto de reglas si-entonces.
Por ejemplo: si el cliente gana más de 80000 dólares anuales y tiene más de 45 años entonces la probabilidad de comprar un Mercedes clase S es de 64%.
El motivo de su éxito es que como ves es muy explotable desde negocio y su salida es entendible por todos.
Por lo que es un algoritmo muy usado en contextos de marketing.


 
Random Forest:

Fuente: Internet
Fuente: Internet

Este algoritmo se basa en generar muchos árboles (pueden ser miles) pero cada uno de ellos muy pequeñito, y luego combinarlos para tener una salida única.
El motivo es que se ha demostrado que este sistema consigue mayor capacidad predictiva a la vez que genera modelos muy robustos en producción.
El "problema" es que a diferencia de los árboles con este algoritmo no podemos explicar el por qué de la probabilidad que nos ofrece como salida.
Por tanto se usa mucho cuando no nos importan tanto la explicación de la capacidad predictiva, por ejemplo en sistemas de scoring automáticos.

Comentarios

Entradas populares de este blog

300 cosas interesantes

Se acabó el espacio ilimitado de fotos y vídeos de Google Photos, ¿y qué hago ahora?