library(ggplot2)
library(tidyr)
library(dplyr)
set.seed(123)
n <- 10000
p <- 5
theta_true <- c(-2,-1,0,1,2)
L’objectif de ce TP est d’étudier le comportement des estimateurs moyennés et de Newtonstochastique dans le cadre de la régression linéaire.
On considère le modèle
\[ Y_i = X_i^T \theta + \varepsilon_i, \]
avec :
On note \(n = 10000\).
Générer un échantillon \((X_i, Y_i)_{i=1,\dots,n}\).
Écrire une fonction R qui ressorte l’ensemble des estimateurs \(\theta_i\) et \(\overline{\theta}_{i}\), pour \(i = 0, \ldots, n-1\), définis par la descente de gradient stochastique moyennée: \[ \theta_{i+1} = \theta_{i} - \gamma_{i+1} \nabla_\theta \ell(Y_{i+1}, X_{i+1}, \theta_{i}). \] \[ \overline{\theta}_{i+1} = \frac{i+1}{i+2}\overline{\theta}_{i} + \frac{1}{i+2} \theta_{i+1} . \] ]
Tracer l’évolution de l’erreur quadratique \(\|\theta_i-\theta\|^2\) pour un échantillon.
Répéter l’expérience sur 50 échantillons indépendants et tracer l’erreur quadratique moyenne.
Refaire la question 4 mais en prenant cette fois-ci \(X \sim \mathcal{N}(0,\text{diag}(1,4,9,16,25))\) et \(c_{\gamma}=0.3,0.1,0.01\).
1.Écrire une fonction R qui ressorte l’ensemble des estimateurs \({\theta}_i\) obtenu avec l’algorithme de Newton stochastique : \[ {\theta}_{i+1} = {\theta}_{i} + \frac{i+1}{i+100}H_{i}^{-1}\left( Y_{i+1} - X_{i+1}^{T} {\theta}_{i} \right) X_{i+1} \] avec \[ H_{i+1}^{-1} = H_{i}^{-1} - \left( 1+ X_{i+1}^{T}H_{i}^{-1}X_{i+1} \right)^{-1}H_{i}^{-1}X_{i+1}X_{i+1}^{T}H_{i}^{-1} . \] A noter qu’ici on a pris \(i+100\) au lieu de \(i+1\) pour des questions de stabilités au début de l’algorithme.
Tracer l’évolution de l’erreur quadratique \(\|\theta_i-\theta\|^2\) pour un échantillon.
Reprendre la question 5 précédente en rajoutant l’algorithme de Newton stochastique.