Le machine learning regroupe des méthodes de traitement et d’interprétation faisant appel au calcul intensif. Le machine learning permet l’automatisation d’une décision grâce à l’observation des données.
Le machine learning copie le principe d’apprentissage humain :
Si on pose sa main sur des plaques électriques rouge dans une cuisine, on se brûle.
Notre cerveau associe donc le rouge des plaques électriques à la brûlure. Le machine learning se propose de reproduire ce mécanisme.
Le principe est de prédire l’avenir en fonction des événements passés.
On souhaite alors prédire un phénomène en fonction de critères décrivant l’environnement de ce phénomène dans le passé.
Par exemple, on prédit le churn d’un client en fonction de l’évolution de son chiffre d’affaires, du nombre de contacts avec le SAV, du taux d’utilisation du produit, …
Il existe 2 types principaux de méthodes de machine learning :
- apprentissage non supervisée qui regroupe les méthodes permettant la classification/segmentation des individus (internautes, clients, annonces, …)
- apprentissage supervisée qui regroupe les méthodes permettant la prédiction d’un phénomène précis
Afin d’améliorer ces méthodes, il y a des techniques dites d’agrégation (boosting, bagging, forêt de classifieurs,…). Deux nouvelles techniques d’agrégation sont récemment apparues : le stacking et l’Xtreme Gradient Boosting.
Le principe général de ces techniques consiste à diviser l’échantillon/la population d’études en différents échantillons afin d’obtenir des modèles différents et ainsi de pouvoir mieux capter ce qu’on appelle les signaux faibles. On agrège ensuite les différents modèles obtenues. Il en résulte alors un algorithme plus performant que les modèles classiques.
La machine learning n’invente rien. Il choisit la meilleure solution entre des cas que nous lui soumettons.