Salut à tous, c’est David pour le Blog Parieur Pro. Je suis très heureux de vous retrouver pour cette nouvelle vidéo. Aujourd’hui, un sujet que j’ai très peu traité depuis plusieurs années, il s’agit du Data mining. Grâce à des bases de données que ce soit en foot ou en d’autres sports et bien, on peut trouver des stratégies aux paris sportifs. C’est parti !
https://www.youtube.com/watch?v=4kB7ZtEA8F8Alors pour cette nouvelle vidéo, je me suis appuyé à nouveau sur un article publié sur Pinnacle qui date de 2018Il reste tout à fait d’actualité aujourd’hui. C’est un article qui a été écrit par Joseph Buchdahl qui est un spécialiste des paris sportifs. Il travaille beaucoup avec les mathématiques et ses articles sont toujours passionnants. Vous avez tous ses articles qui sont publiés sur Pinnacle. Vous pouvez aller dans « archives » et je vous mettrai de toute façon le lien de cet article dans la vidéo.
Le business modèle du bookmaker Pinnacle
Pinnacle, pour ceux qui ne le savent pas, c’est l’un des gros bookmakers au monde. C’est celui qui cote le plus justement possible les évènements sportifs. Ils ont vraiment des techniques qui sont assez poussées, très pointues qui leur permettent de faire assez peu d’erreurs de cotation. C’est aussi pour ça que c’est un bookmaker qui est réputé comme difficile à battre sur le long terme parce que si un bookmaker ne fait pas d’erreur de cotation et bien, le parieur ne peut pas gagner sur le long terme. D’une manière générale, les parieurs tentent de repérer les erreurs de cotation que font les bookmakers.
Néanmoins, Pinnacle a un business modèle où ils observent ce que font les bons parieurs. Puis, ils ajustent leurs cotes aussi grâce à ça. Ça fait partie de tout un système et c’est aussi pour ça et notamment pour ça qu’ils ne limitent pas les joueurs sur leurs gains. C’est donc un bookmaker qui est très intéressant à ce niveau-là. Mais encore fois, qui est assez dur à battre puisqu’il faut un gros travail sur l’ajustement de leur cote. Alors dans cette vidéo et dans cet article, on va parler de « Data mining ».
Le Data mining, c’est quoi ?
Le data mining, qu’est-ce que c’est ? C’est le fait de travailler sur une base de données. Par exemple, une base de données en foot. Qu’est-ce que c’est une base de données ? C’est une base où on va avoir un fichier, toutes les données de football, par exemple : la liste des matchs, par exemple, sur les 10 dernières années avec les résultats, les cotes qui étaient en vigueur à ce moment-là, les cotes des matchs, on peut avoir les statistiques des matchs… On peut avoir tout un tas de données qu’on va pouvoir exploiter pour essayer de trouver des stratégies intéressantes grâce à ça.
Dans cette vidéo, c’est un petit peu une initiation à ça et c’est aussi, tout de suite, poser certaines problématiques. Cela peut paraître simple, mais il y a des règles quand même à respecter pour réussir à détecter des stratégies et surtout ne pas tomber dans certains pièges.
Le data mining dans les paris sportifs
On peut voir aujourd’hui sur internet qu’il y a beaucoup de sites de pronostic ayant soi-disant trouvé une stratégie gagnante grâce au data mining. Ça veut dire qu’ils ont rentré un paramètre dans la base de données puis ils ont backtesté ce paramètre. Un paramètre très simple. Par exemple, c’est qu’on peut peut-être trouver une stratégie gagnante sur une équipe qui jouerait à domicile et qui aurait perdu son dernier match. Le match d’après, si on joue tout le temps sur cette équipe et bien peut-être qu’on aurait trouvé une stratégie gagnante. C’est ici un exemple extrêmement simple du backtesting.
On peut trouver des exemples beaucoup plus complexes. Donc, beaucoup de sites aujourd’hui et de services sortent, en disant : «moi, j’ai trouvé une stratégie qui a été backtestée sur des milliers de paris et qui donne un retour sur investissement de 3, 4, 5% voire plus parfois » et on va voir que parfois ça fonctionne parfois et puis parfois ça ne fonctionne pas. Comment faire la différence entre une stratégie qui va fonctionner et une stratégie qui ne va pas fonctionner ?
Les tests de backtesting
Triturage de données
Alors dans cet article, Joseph Buchdahl revient au début, justement, sur ce que je viens de vous dire. Il pose le principal problème du backtesting à savoir les liens, les corrélations sans causalité. Alors, qu’est-ce que ça veut dire ? En gros, quand on fait du data mining on va triturer les données. C’est un peu ce qu’ils disent ici. On va essayer de trouver une stratégie en triturant les données qui vont donner de bons résultats. Il faut savoir que quand on manie les données de cette manière-là sans avoir d’hypothèse à l’avance, on va tellement manier les données qu’à un moment donné on va forcément trouver une stratégie qui fonctionne.
Alors, on a un exemple dans l’article qui est très intéressant. L’article date de deux ans, mais l’auteur dit : « mon attention a été attirée par les profits exceptionnels qui auraient pu être dégagés en pariant à l’aveugle sur toutes les victoires à l’extérieur à la 4ème division du championnat d’Angleterre de football entre les saisons 2012-2013 et 2016-2017 incluses. » En gros, là ce que le data mining a permis de trouver à certains parieurs c’est que si on avait parié sans réfléchir sur toutes les victoires à l’extérieur de la 4ème division du championnat d’Angleterre et bien, on aurait eu des résultats entre 2012 et 2017 de 4,3% de ROI sur 3 000 paris.
Quelles liens de causalités ?
Là, quand on trouve ça, qu’est-ce qu’on peut se dire ? Il y a deux possibilités soit on se dit : « OK, j’ai trouvé la formule gagnante. C’est exceptionnel ! En fait, il suffit de miser sur toutes les victoires à l’extérieur de la 4ème division d’Angleterre. C’est génial, j’ai ma stratégie gagnante ». Effectivement, c’est souvent ce qui sort sur les sites de pronostic. C’est un petit peu ce genre de stratégie. Maintenant, si on y revient plus précisément, on peut se demander : « OK. Qu’est-ce qui ferait qu’effectivement, miser sur les victoires à l’extérieur de la 4ème division d’Angleterre, c’est gagnant en fait ? » C’est là, en fait, qu’on a une corrélation.
Aujourd’hui, on a une corrélation entre miser sur l’équipe à l’extérieur en 4ème division d’Angleterre et des résultats de 4,3% sur 3 000 paris. Là, il y a une corrélation très clairement, mais y a-t-il réellement un lien de causalité? Est-ce qu’on aurait des raisons de penser qu’il y a vraiment une cause à ça ? Ou est-ce que, finalement, ce n’est que de la chance ? Parce qu’il faut savoir que quand on triture les données, on va faire des milliers de tests sur des stratégies qui n’ont parfois aucun sens qu’à un moment donné, mathématiquement on va forcément trouver des stratégies qui fonctionnent et qui, pourtant, n’ont à priori aucun sens.
L’importance des mathématiques
Et ces stratégies, très généralement, elles être perdantes dans le futur parce qu’elles n’ont tout simplement aucun sens. Elles sont juste la résultante des maths, tout simplement, étant donné qu’il y a beaucoup de tests de fait. Mathématiquement parlant, les probabilités nous disent que de temps en temps il y aura un test qui fonctionnera. Et ce même si c’est du pur hasard. Là, c’est un peu le cas, très probablement que c’est le cas d’ailleurs que, finalement, ce soit du pur hasard. On a fait tellement de tests, les parieurs ont tellement backtesté des stratégies différentes qu’à un moment donné, oui, il y en a une qui marche qui n’a pas forcément de sens à priori, mais qui fonctionne.
Maintenant, qu’est-ce qui aurait pu faire, ici, que cette stratégie soit une bonne stratégie ? C’est tout simplement, imaginons un parieur qui détecte une raison qui fait qu’à l’extérieur les équipes de 4ème division d’Angleterre auraient un avantage. Je ne sais pas, on peut trouver une raison, par exemple, il s’est rendu compte qu’à domicile, dans la 4ème division d’Angleterre – bon, c’est vraiment tirer par les cheveux l’exemple que je donne-, mais il s’est rendu compte que les supporters supportaient toujours l’équipe à l’extérieur.
La problématique du data mining
Reconnaitre une bonne stratégie
Ça n’a aucun sens, mais imaginons que ce parieur se rende compte de ça et du coup, il se dit : « Bon, effectivement, là j’ai une hypothèse à tester et donc, c’est intéressant de la tester. » Et là, il fait son backtest et il trouve qu’effectivement les résultats prennent la tournure qu’il attendait puisqu’effectivement il avait une raison de penser ça à la base. Et là, cette stratégie aurait été hyper intéressante. Il testait grâce au backtesting une hypothèse de départ qu’il avait. Puis ce n’est pas le fruit d’une recherche totalement aléatoire qui va lui donner de temps en temps de bons résultats parce que ce sont les probabilités qui disent qu’à un moment donné, si on teste plein de choses aléatoirement, il y en a forcément une qui va finir par fonctionner alors même qu’elle n’a aucun sens.
C’est vraiment ce qui aurait fait la différence si le parieur avait une raison de penser qu’effectivement à l’extérieur on avait plus de chances de gagner dans cette division d’Angleterre. Voilà un petit peu ce qui fait la différence. Si on trouve une cause, un lien de causalité par exemple ici, le public qui aurait toujours supporté l’équipe à l’extérieur, encore une fois ça n’a pas de sens, mais ça aurait été un lien de causalité, on aurait compris pourquoi on obtenait de tels résultats sur les équipes à l’extérieur.
Facteurs et part de chance
Maintenant, l’absence de ce lien de causalité, nous ferait penser qu’effectivement cette stratégie gagnante ne serait lié qu’au mathématique. C’est ce que dit Joseph Buchdahl dans son article : « il n’y a aucune raison de penser que ces équipes à l’extérieur de 4ème division soient sous-estimées soit par le bookmaker soit par les parieurs ». Aujourd’hui, il n’y a aucune raison et donc à priori, il y a toutes les raisons de penser que c’est juste le résultat de la chance. Dans le futur, jouer les équipes à l’extérieur de la 4ème division d’Angleterre ne fera pas gagner de l’argent.
Pour illustrer ça aussi, on peut prendre l’exemple du loto. Imaginez au loto, une seule personne joue au loto sur la planète et gagne le gros lot. Bien là pour le coup, vous allez dire : « OK. Mais comment tu as fait ? Tu as été le seul à jouer. Tu as gagné le gros lot. Est-ce que tu as une raison ? » Pour le coup, la raison qu’il va invoquer pourrait avoir vraiment du sens. On se dit que les probabilités qu’il gagne tout seul au loto alors que c’est le seul a avoir joué sont extrêmement faibles. Alors que s’il y a des millions de personnes qui jouent au loto, il y a peut-être une personne qui va bel et bien gagner.
Mais là pour le coup, on est beaucoup moins enclin à penser qu’il y a une stratégie pour réussir au loto. En fait, il faut regarder le nombre de personnes qui ont joué donc le nombre de combinaisons qui ont été jouées de manière aléatoire. C’est un petit peu la même chose ici, on va faire tellement de tests qu’à un moment donné on va gagner alors que c’est juste de la chance et de la variance.
Le backtesting en dehors des paris sportifs
Le loto c’est pareil, s’il y a une seule personne qui joue on va dire : « OK, il y a un truc de particulier quand même » alors que s’il y a des millions de personnes qui jouent, on va se dire que « C’est juste. On a tellement fait de tests, d’essais que, finalement , c’est normal qu’à un moment donné, il y a quelqu’un qui gagne et qui trouve la bonne combinaison ». Et bien là, c’est la même chose, on a tellement fait de tests dans le triturage des données qu’à un moment, c’est normal de trouver une stratégie gagnante. Ce n’est justement pas une raison suffisante pour penser qu’elle sera gagnante dans le futur.
Alors, ce genre de backtesting, il a la même valeur en bourse. En bourse, si vous faites des backtestings, si vous triturer les données, vous faites du data mining, il y a de très grandes chances que vous trouviez pleines de stratégies hyper gagnantes par le passé. Là encore, la clef c’est de se dire : « OK, est-ce qu’il y avait un lien de causalité ? Quelle serait la raison pour laquelle ma stratégie ici était gagnante au-delà du fait que j’ai tellement mélangé les données qu’à un moment donné, le hasard m’a donné une stratégie gagnante ? »
Pour conclure sur le data mining, je dirai que si vous voulez réussir avec ce système qui pour moi est un très bon outil de travail, il faut vraiment avoir des hypothèses en amont. Cela veut dire que vous avez des hypothèses sur le fait que les bookmakers sous-estiment telle ou telle situation d’une équipe ou d’un joueur. Vous devez avoir des raisons à la base qui vous font penser que vous pouvez trouver un avantage sur le marché.
Conclusion
Le backtesting sert seulement à valider ou non vos hypothèses. Toutefois vous déconseille de triturer les données jusqu’à trouver des stratégies qui fonctionnent et qui pourtant ne donneraient aucun sens pour vous parce que, tout simplement, la plus grosse probabilité c’est que ce soit juste lié à la chance. Voilà pour cette vidéo. Si vous voulez faire des tests de backtesting alors il y a une personne qui m’a contacté il y a peu de temps et qui a créé un site, justement, qui permet de faire du backtesting je crois, sur le foot donc je vous ferai une petite vidéo de présentation de ce site. Je pense que ça peut être super intéressant pour aller plus loin que cette simple vidéo de présentation, justement, et ça vous permettra si vous le souhaitez de backtester des stratégies auxquelles vous avez pensé.
Là encore, si vous avez une hypothèse forte à la base, si vous avez des raisons de penser que votre stratégie est gagnante, c’est hyper intéressant de backtester cette stratégie. Dans une prochaine vidéo, dans les semaines qui arrivent et bien, je vous ferai une petite vidéo de présentation de ce logiciel. Cela vous permettra justement de backtester un petit peu les stratégies que vous avez en tête.
Voilà pour cette vidéo. De mon côté, je vous retrouve très prochainement pour une vidéo sur la chaîne YouTube ou sur le club privé. N’hésitez pas, postez vos commentaires sur le data mining. Est ce que vous l’avez déjà utilisé ? Comment ça s’est passé pour vous? Est-ce que vous avez des choses à dire ou des questions à poser ? N’hésitez pas. Je vous souhaite une excellente journée et je vous dis : « à très vite ! » Salut à tous. Tchao.