-
Notifications
You must be signed in to change notification settings - Fork 6
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
estimation des performances sur le passé #92
Comments
Salut et merci pour ta contribution :) En fait, si je comprends bien ta proposition, il y a en fait deux suggestions assez indépendantes :
D'abord le 2 Sur le 1 Ta proposition de limiter la distance out-of-sample aux 5 dernières années est intéressante, et limite les défauts manifestes du out-of-sample. A mon avis, si on voulait un vrai truc qui perd les biais du out of sample tout en valant le prix de la complexification, il faudrait un calcul pour lequel :
Le premier point est peut-être atteignable avec une solution intermédiaire, en se débrouillant pour faire une validation croisée leave one out, c'est à dire estimer le point en fonction de chaque modèle en n'enlevant que ce point (et pas les points qui viennent après).
Mais du coup, ça complique beaucoup l'affaire pour un gain qui n'est sans doute pas énorme. Leave one out ne doit pas être très loin d'un simple in-sample dès lors que la droite a convergé. Peut-être un peu débiaisé mais beaucoup plus boîte noire. A titre personnel, je préfère les choses simples et biaisées que débiaisées et non-maitrisables. Et un petit message de fin Mais tout cela n'est que mon avis, et le package vous appartient : faites-ce que vous voulez, vous avez les droits GitHub :D C'est vous qui êtes à la prod, donc plus susceptibles de savoir ce qui est pertinent. Si vous ajoutez une out-of-sample sans adaptation, je vous conseille par contre vraiment de rappeler en doc visible que l'out-of-sample a des gros défauts, pour ne pas retomber dans les mêmes travers que quand on les utilisait avec un peu trop de confiance. (*) : ou utiliser les outliers qui existent déjà ? |
Merci beaucoup pour ta réponse très complète ! Je suis assez convaincu par tes arguments. Je n'avais pas pensé au fait que l'on sur-pondère un peu les observations anciennes avec cette méthode, même si le fait que le score est basé sur les performances des modèles sur les années récentes compense peut-être en partie cela (il y a toujours un déséquilibre au sein de ces 5 dernières années, mais elles doivent toutes être surreprésentées dans la mesure par rapport aux autres années). Mais surtout c'est vrai que si l'on a suffisamment d'années, le out-of-sample doit être très proche d'une distance in-sample si on se restreint aux dernières années, mais plus coûteux et biaisé. Je penses malgré tout qu'avoir un indicateur des performances du modèle sur le passé proche serait utile, c'est ce que l'on essaye (ou en tout cas que j'essaye) de regarder à l'aide des graphiques quand deux modèles ont des performances proches, mais ce n'est pas toujours facile de trancher simplement avec des graphiques... Du coup regarder la distance in-sample obtenue sur les 5 dernières années pourrait être un indicateur intéressant à mon avis. Ou ajouter un tableau, ce serait plus complet mais moins immédiat à interpréter. On pourra en discuter entre nous je suppose ! |
De rien ! Bonnes discussions et bon code ! |
@FanchMorvan En y réflechissant, j'ai une idée de graphique issu d'out of sample qui pourrait être intéressant. Peut-être un graphique de convergence du coefficient inspiré des graphiques de descente de gradient ? On mettrait tracerait les coefficients normalisés (différents indicateurs, constante, rho) en ordonnées (plusieurs courbes), et l'année en abscisse. Du coup, ça donne une idée graphique de la convergence de chaque modèle, et permet d'apprécier un éventuel point où les coefficients sauteraient. On peut donc apprécier si in_sample est représentatif. Idées d'alternatives si on ne veut pas normaliser, pour voir l'évolution des vrais coefficients :
Comment ça pourrait s'articuler
Qu'en penses-tu ? |
Pour le choix du modèle d'étalonnage-calage, avoir des indicateurs statistiques est intéressant, mais je me dis qu'il est aussi intéressant d'avoir une estimation des performances des modèles sur le passé.
J'ai donc écris une fonction qui donne l'output suivant :
On regarde, pour les années précédentes N, la différence entre :
Il ne serait pas inintéressant d'intégrer un tel tableau dans reView à mon avis (un sous-onglet de plus dans l'onglet Presets de reView ?). Ou alors on peut juste ajouter une ligne de plus dans le sous-onglet summary-table avec le "résultat final" (la moyenne sur les 5 dernière années des carrés des erreurs de prévision), même si il y a nécessairement une perte d'information. C'est certainement assez proche de ce que donnerai une distance restreinte aux 5 dernières années, qui pourrait être une autre alternative encore plus simple mais aussi encore un peu moins informative.
Qu'est-ce que vous en pensez ? Suivant ce que l'on envisage de faire ce sera plus ou moins de travail. Je dois dire que je ne penses pas que j'aurai beaucoup de temps à consacrer à cela, mais je ne suis pas tout seul dans la division des comptes trimestriels ! Même si avec le changement de base on risque d'être nombreux à être bien occupé.
The text was updated successfully, but these errors were encountered: