library(ggplot2)
library(tidyr)
library(dplyr)
set.seed(123)
n <- 10000
p <- 5
theta_true <- c(-2,-1,0,1,2)

Objectifs du TP

L’objectif de ce TP est d’étudier le comportement des estimateurs moyennés et de Newtonstochastique dans le cadre de la régression linéaire.


1. Estimateur moyenné

On considère le modèle

\[ Y_i = X_i^T \theta + \varepsilon_i, \]

avec :

On note \(n = 10000\).

  1. Générer un échantillon \((X_i, Y_i)_{i=1,\dots,n}\).

  2. Écrire une fonction R qui ressorte l’ensemble des estimateurs \(\theta_i\) et \(\overline{\theta}_{i}\), pour \(i = 0, \ldots, n-1\), définis par la descente de gradient stochastique moyennée: \[ \theta_{i+1} = \theta_{i} - \gamma_{i+1} \nabla_\theta \ell(Y_{i+1}, X_{i+1}, \theta_{i}). \] \[ \overline{\theta}_{i+1} = \frac{i+1}{i+2}\overline{\theta}_{i} + \frac{1}{i+2} \theta_{i+1} . \] ]

  3. Tracer l’évolution de l’erreur quadratique \(\|\theta_i-\theta\|^2\) pour un échantillon.

  4. Répéter l’expérience sur 50 échantillons indépendants et tracer l’erreur quadratique moyenne.

  5. Refaire la question 4 mais en prenant cette fois-ci \(X \sim \mathcal{N}(0,\text{diag}(1,4,9,16,25))\) et \(c_{\gamma}=0.3,0.1,0.01\).

2. Algorithme de Newton

1.Écrire une fonction R qui ressorte l’ensemble des estimateurs \({\theta}_i\) obtenu avec l’algorithme de Newton stochastique : \[ {\theta}_{i+1} = {\theta}_{i} + \frac{i+1}{i+100}H_{i}^{-1}\left( Y_{i+1} - X_{i+1}^{T} {\theta}_{i} \right) X_{i+1} \] avec \[ H_{i+1}^{-1} = H_{i}^{-1} - \left( 1+ X_{i+1}^{T}H_{i}^{-1}X_{i+1} \right)^{-1}H_{i}^{-1}X_{i+1}X_{i+1}^{T}H_{i}^{-1} . \] A noter qu’ici on a pris \(i+100\) au lieu de \(i+1\) pour des questions de stabilités au début de l’algorithme.

  1. Tracer l’évolution de l’erreur quadratique \(\|\theta_i-\theta\|^2\) pour un échantillon.

  2. Reprendre la question 5 précédente en rajoutant l’algorithme de Newton stochastique.