Comprendre le Corsi, le Fenwick et leurs valeurs mathématiques

Comprendre le Corsi, le Fenwick et leurs valeurs mathématiques

Il semble y avoir beaucoup de questions et d'incompréhension entourant des statistiques avancées au hockey (fancy stats) comme le Corsi et le Fenwick. Je crois que plutôt que d'expliquer en segment et en argumentant, il serait préférable de synthétiser le tout. Si, par après, vous sentez le besoin de critiquer l'approche, vous le ferez en bon informé. Après, bien entendu, avoir lu ma critique sur le sujet, une critique qui se veut la plus pertinente possible, je tiens à le préciser. Certes, j'ai une opinion sur le sujet, mais contrairement à certains, je préfère l'expliquer, la prouver, la relativiser. Je vous invite à faire de même, par la suite.

Qu'est-ce que le Corsi et le Fenwick?
Corsi : (tirs dirigés vers le filet* pour) moins (tirs dirigés vers le filet contre).
Fenwick : (tirs dirigés vers le filet excluant les tirs bloqués pour) moins (tirs dirigés vers le filet excluant les tirs bloqués contre)
*par tirs dirigés vers le filet, on entend tirs au but, tirs déviés, tirs qui rate le filet, tirs bloqués (sauf pour Fenwick), à égalité numérique.

C'est l'ancien entraîneur de gardiens des Sabres de Buffalo Jim Corsi qui a développé la statistique qui porte son nom. Il s'agit d'une statistique de possession de rondelle qui stipule qu'une équipe qui contrôle la rondelle plus souvent dirigera aléatoirement des tirs au filet et que nécessairement, plus une équipe a possession de la rondelle, plus elle dirige de tirs vers le filet. Le but de la statistique est de calculer l'efficacité des joueurs. Jim Corsi proposait que si un joueur se retrouve sur la glace et que plus de tirs son dirigés vers le filet adverse que vers son filet, il est un joueur efficace. On peut porter ces conclusions à une équipe. Plus une équipe dirige de tirs vers le filet adverse qu'elle en accorde, meilleur son match a été. C'est sous la présomption que les tirs dirigés vers le filet se font de manière aléatoire (random events) et que nécessairement, plus la durée de possession de rondelle d'une équipe est longue, plus elle généra d'évènements aléatoires conforment à celle-ci (ici, tirer au filet - on ne peut pas tirer au filet si on n'a pas la rondelle). On discutera des limites de ce lien tout à l'heure, mais pour l'instant, sachez qu'on a établi une corrélation entre le Corsi et le parcours d'une équipe en séries.

Le Fenwick se veut une version révisée du Corsi, faite par le blogueur Matt Fenwick (Battle Of Alberta) et qui a proposé de retirer les tirs bloqués du décompte parce que, selon lui, les tirs bloqués ne résultent pas d'un évènement aléatoire, mais bien d'une compétence de l'équipe. En d'autres mots, un tir bloqué n'est pas un évènement négatif pour une équipe ou pour un joueur. Imaginez un joueur comme Josh Gorges qui recevrait un Corsi de -1 pour avoir bloqué un tir. Eh bien, il avait raison, puisque la valeur prédictive (corrélation) du Fenwick est plus élevée que le Corsi.

Exemples appliqués du Fenwick
Sur le site suivant Behind The Net, on retrouve les statistiques Fenwick pour chacune des équipes. Naturellement, on calcule le Fenwick lorsque la marque est serrée (2 buts d'écart ou moins). On retrouve des équipes comme Chicago et Montréal au sommet, Buffalo et Edmonton dans la cave. Est-ce que cette statistique fait foi de tout? Non. Un club comme les Panthers se retrouve avec un Fenwick plus élevé qu'un club comme les Ducks. On se réfère donc aux autres statistiques Fenwick pour comprendre cette incongruité. Ah, Floride a un Fenwick atroce lorsqu'il est en avance (29e LNH - en avant par 2 buts). Cette équipe est incapable de maintenir une avance (son momentum diminue-t-il? - voir plus tard). On regarde Anaheim, ils sont parmi les meilleurs pour préserver leur avance. 5e dans la LNH lorsqu'ils ont une avance de 2 buts. On comprend maintenant mieux pourquoi Anaheim se retrouve plus haut au classement que la Floride. Je vous invite à regarder les différentes statistiques sur cette page et à faire vous même vos comparaisons.

Qu'est-ce qu'une corrélation?
Une corrélation permet d'établit un lien entre une variable A et une autre variable B. Ici, A représente le Corsi ou le Fenwick, tandis que B représente le nombre de points, le parcours en séries, le nombre de victoires (bref, le succès d'une équipe). En 2009, on observait une corrélation de 0.626 entre le Corsi d'une équipe et son nombre de points. Cela signifie qu'en connaissant le Corsi, on peut prédire 62,6% des points d'une équipe. Le 37,4% restant est dû à divers facteurs, dont je tenterai de faire une liste plus tard. En réalité, c'est moins que 62,6%. Les statistiques ne sont pas si faciles et la taille de l'échantillon influence beaucoup la puissance statistique de celle-ci (combien ai-je besoin de données pour observer cette corrélation?). On se doute aussi de la validité (est-ce qu'on mesure vraiment la bonne chose) et la fidélité (la mesure fluctue-t-elle beaucoup dans le temps) est plutôt faible, puisque la statistique repose sur une hypothèse aléatoire (ça joue beaucoup dans la valeur prédictive). Bref, en réalité, le Corsi et le Fenwick n'expliquent peut-être que réellement 10% des succès d'une équipe. Pour vous donner une bonne idée, les meilleurs tests psychométriques utilisés en sciences humaines (tests d'intelligence, inventaires de personnalités, etc.) ont une valeur prédictive d'environ 30%. Est-ce que ça veut dire que ces données sont inutiles et invalides? Vraiment pas, au contraire! Il faut comprendre que les variables s'influencent entre elles. Le Corsi et le Fenwick ne mesurent que les évènements aléatoires associés aux tirs au but, mais il reflète assurément d'autres éléments, comme le talent d'une équipe, la combativité des joueurs, le style de jeu d'un entraîneur, etc. Ces variables ne sont pas mesurées par le Corsi ou le Fenwick, mais on peut facilement supposer qu'elles sont des éléments importants dans le résultat de celui-ci. Le problème, c'est que ce sont des variables subjectives, incalculables presque. L'avantage du Corsi et du Fenwick, c'est que ce sont des choses que nous pouvons calculer. On ne peut pas mettre un chiffre sur la combativité, mais on peut mettre un chiffre sur le nombre de tirs dirigés vers le filet. Les variables s'influencent entre elles, il ne faut jamais l'oublier.

Le problème de cause à effet
Un petit problème impossible à négliger vient intervenir ici. Une loi de la statistique est très claire : corrélation n'égale pas causalité. Ce n'est pas parce qu'une corrélation est observée qu'elle veut nécessairement dire que nous avons une relation de cause à effet, ni quelle variable cause l'autre variable. L'exemple populaire utilisé est le suivant : il existe une relation entre le nombre d'églises dans une ville et le nombre de crimes, mais cette corrélation est due au fait qu'une ville possédant plusieurs églises est nécessairement populeuse et que plus la ville est populeuse, plus le nombre de crimes augmente. Le nombre d'églises n'a ici rien à voir avec la criminalité, mais les deux sont corrélés. On peut supposer ici que le nombre de tirs dirigés vers le filet n'a rien à voir avec le succès d'une équipe, qu'une troisième variable régule le tout, que les statistiques Corsi et Fenwick ne sont que des illusions. D'où votre esprit critique intervient. Est-ce que le nombre de tirs dirigés vers le filet cause vraiment le succès d'une équipe? Ma réponse : oui et non. Oui parce que les buts, ils sont inscrits en tirant au filet. Non parce que certaines équipes tirent souvent au filet, tandis que d'autres font preuve de plus de patience. Le nombre d'évènements aléatoire n'est pas si aléatoire que ça. Il y a aussi la direction de la causalité. Est-ce que un Corsi / Fewick élevé a pour effet d'augmenter le succès d'une équipe ou est-ce que le fait qu'une équipe a du succès a un effet sur le Corsi / Fenwick? Encore une fois, vous êtes le juge. Personnellement, je crois que l'un influence l'autre d'une certaine manière, qu'il y a une rétroaction quelque part. Le nombre de tirs dirigés vers le filet amène une équipe à avoir plus de succès et le succès renvoie en rétroaction une stimulation du nombre de lancers dirigés vers le filet. En gros, où je veux en venir, c'est au momentum, un élément-clé, selon moi, dans l'ajustement du Corsi / Fenwick.

Comment relativiser le Corsi / Fenwick?
Vous savez le fameux E = mc²... ce n'est pas vrai. La vraie formule est la suivante : E² = (mc²)² * (pc)², où pc = le momentum. Cette formule est un théorème de Pythagore, où peu importe la masse d'une substance, elle ne sera jamais égale à son énergie qu'à la puissance de son momentum. En effet, l'hypoténuse d'un triangle (E) est toujours plus grande que ses deux cathètes. Or, je peux postuler le même principe avec le Corsi / Fenwick par équipe. Le momentum d'une équipe a une grande influence sur le nombre de tirs qu'elle va diriger au filet. Je suppose que plus une équipe a de momentum, plus elle dirigera de tirs au filet, et que plus l'équipe adverse a de momentum, moins elle dirigera de tirs au filet. C'est simple comme bonjour, mais c'est probablement quelque chose d'incroyablement important dans le succès d'une équipe. Je vais faire une autre analogie pour illustrer le concept. En économie, le coût d'une marchandise s'évalue par les frais de production qu'elle engendre (au même titre qu'une équipe possède à la base un Corsi / Fenwick plus ou moins élevé qu'une autre équipe). L'offre et la demande (le momentum) influence la fluctuation du prix de la marchandise. Si offre > demande, alors le prix va diminuer sous les frais de production. Si offre < demande, alors le prix va augmenter sur les frais de production. Le prix fluctué de la marchandise va avoir un impact sur l'offre et la demande, qui a un impact sur le prix, et ainsi de suite. La comparaison est toutefois un peu boiteuse. Théoriquement, le momentum d'une équipe augmenterait sans cesse, jusqu'à ce que l'équipe adverse supplante le momentum avec un plus grand momentum. Or, on sait que ce n'est pas vrai. Je m'inspire alors de la physique mécanique. Une machine va se fatiguer et offrir un rendement (une force) inférieure à mesure de son utilisation. Je peux supposer la même chose du momentum. Le momentum va augmenter, mais se fatiguer à la fois. Il augmente de manière similaire à une fonction logarithmique, il diminue de manière similaire à une fonction exponentielle et la combinaison des deux donne droit à une fluctuation. On suppose la relation inverse à la baisse de momentum. Donc, résumons le tout. Chaque équipe possède un Corsi / Fenwick de base qui témoigne (en partie), de sa qualité et de ses prédispositions aux succès. Ce Corsi / Fenwick fluctue selon un momentum, qui lui fluctue selon trois variables : son propre momentum, sa fatigue (ou regain d'énergie) et le momentum de l'équipe adverse (lui aussi influencé par ces trois variables). Maintenant que j'ai développé une théorie sur comment le momentum influence le Corsi / Fenwick, il me reste à trouver un chiffre au momentum. Pis ça, je ne l'ai pas. ^^'

Le Corsi / Fenwick des joueurs
Si le Corsi / Fenwick permet de prédire en quelque sorte le succès d'une équipe, il est intéressant de savoir s'il peut prédire le succès d'un joueur. Bien évidemment, puisqu'on peut calculer la statistique pour les joueurs, on va la calculer. On fait la même chose avec le différentiel classique +/-. Est-ce efficace? Est-ce pertinent? Probablement qu'quelque part oui, mais en réalité, non. Le Corsi / Fenwick d'un joueur est influencé par 1) ses coéquipiers, 2) ses adversaires, 3) le momentum (encore). Un joueur qui joue avec de très bons joueurs aura un meilleur Corsi / Fenwick qu'un joueur qui joue avec de très mauvais joueurs. Est-ce que Chris Kunitz est aussi bon que son Corsi / Fenwick le dit, sachant qu'il joue avec Sidney Crosby? Bien sûr que non. On peut dire la même chose concernant l'adversaire. Est-ce que Peter Regin est un joueur aussi efficace que son Corsi / Fenwick le dit, sachant qu'il joue contre le 3e-4e trio adverse? Bien sûr que non. Est-ce que le Corsi / Fenwick de Francis Bouillon est aussi bon qu'il prétend l'être, sachant qu'il joue avec le Canadien, qui a beaucoup de momentum cette saison? Bien sûr que non. C'est pourquoi je ne crois pas en cette statistique pour les joueurs, pas plus que je crois en le différentiel +/-. Si le Corsi / Fenwick est intéressant et pertinent dans l'analyse des équipes, il l'est très peu dans l'analyse individuelle de chaque joueur.

J'espère vous avoir éclairer ne serait-ce qu'un peu sur le Corsi et le Fenwick et sur les valeurs mathématiques qu'on peut leur associer. Au bout du compte, le vrai hockey se joue sur la glace. Néanmoins, on peut mesurer avec des chiffres réels le succès d'une équipe et ses chances de l'emporter en se basant sur une idée toute simple, soit le contrôle du jeu. Et ça, c'est ce qui rend l'utilisation du Corsi / Fenwick si révolutionnaire dans le monde du hockey.

Marcalogy a écrit:: Qu'est-ce que le Corsi et le Fenwick?
Corsi : (tirs dirigés vers le filet* pour) moins (tirs dirigés vers le filet contre).
Fenwick : (tirs dirigés vers le filet excluant les tirs bloqués pour) moins (tirs dirigés vers le filet excluant les tirs bloqués contre)
*par tirs dirigés vers le filet, on entend tirs au but, tirs déviés, tirs qui rate le filet, tirs bloqués (sauf pour Fenwick), à égalité numérique.

C'était juste ça qui fallait que tu dises man Razz

Comme tu as dit, ton 0,626 n'explique pas vraiment 62,6% des points de l'équipe. Pour 2 raisons en partie.

1.Il faut différentier coefficient de corrélation (r) et coefficient de détermination (r²). Ici, je ne sais pas lequel est utiliser, mais celui qui détermine le pourcentage expliqué par la droite de régression est r², le coefficient de détermination. Alors si ton 0,626 est ton coefficient r, ça voudrait dire que ton coefficient de détermination serait d'environ 0,392, ce qui voudrait donc dire que le corsi explique environ 39,2% des points de l'équipe, en théorie, mais ceci est encore faux.

2.En effet, plus ton coefficient de détermination est élevé, plus il veux dire quelque chose. Quand il devient petit, sa valeur ne dit pas grand chose. Avec un coefficient de détermination de 0,985, il serait juste de dire qu'environ 98,5% des données sont expliqués par la droite, car r² est élevé. Cependant, quand ton coefficient en bas, ça ne veux plus dire grand chose, donc si tu obtient un coefficient de détermination de 0,392, tu ne peux donc pas dire qu'environ 39,2% des points sont expliqués par la droite, aprce qu'il devient trop petit.

Très bon blogue, mais le problème avec les stats, c'est souvent l'analyse qu'on en fait. Plusieurs personnes peuvent faire dire n'importe quoi aux stats, et le monde vont les croire, même si ils ne savent pas de quoi on parle. Les stats que l'on retrouve dans le journal, c'est souvent bon rien, rempli de biais, et totalement faux.

Wooo c'est beaucoup trop long ça

Pour le fun, combien t'as de mots là-dans?

2 198.

SIMONAC!

» Affaires mathématiques
» Anthony Richard a des valeurs divergentes avec les ceuses de Val D'Or...
» tous les champions de leurs ligue.

Comprendre le Corsi, le Fenwick et leurs valeurs mathématiques

Comprendre le Corsi, le Fenwick et leurs valeurs mathématiques :: Commentaires

Comprendre le Corsi, le Fenwick et leurs valeurs mathématiques

Sujets similaires

Sujets similaires