A la demande générale, voici une explication plus poussée du magnifique schéma sur le principe de bandits manchots.
Pour commencer, on se fixe 2 paramètres :
- L’objectif de la solution : L’object testé doit avoir un taux de clics le meilleur possible (par exemple). On peut aussi chercher à atteindre des taux d’abonnement ou des taux de visualisation selon les cas.
- La part d’exploitation du test : c’est-à-dire la part de mes visiteurs (dans le cas d’un site web) qui seront soumis à la meilleure version actuelle de la page. On en déduit bien sur la phase d’exploration permettant de réajuster le calcul de l’objectif. Attention, la part d’exploitation doit prendre en compte le volume d’occurences (ex : affichage de la page) et le nombre de versions testées.
On a ici 3 versions à tester pour un site de vente de vêtements de sport présentant des articles saisonniers (maillot de bain, ski, rentrée sportive) :
1/ On va tester les 3 versions afin d’obtenir la valeur de l’objectif
2/ A partir de ces valeurs, nous sommes en capacité de déterminer la version qui va être utilisé en phase d’exploitation (les maillots de bain) et les 2 versions qui vont servir pour la phase d’exploration (ski et rentrée sportive). Les maillots de bain apparaîtront donc 8 fois sur 10, le ski 1 fois sur 10 et la rentrée sportive 1 fois sur 10.
3/ Les valeurs de l’objectif sont remis à jour en temps réel.
4/ Au bout d’un certain temps, la meilleure version est la version de la rentrée sportive. La rentrée sportive apparaîtra donc 8 fois sur 10, le ski 1 fois sur 10 et les maillots de bain 1 fois sur 10.
etc
J’espère que ces explications rendront ce shéma plus clair.