Régression simple Gaussienne - II

Rappel

Soit X une variable aléatoire telle que XN(μ,σ2) de densité : f(x)=12πσ2exp((xμ)22σ2)

Alors (a,b)R2 on a : Y=aX+bN(aμ+b,a2σ2)

Maximum de vraisemblance

Fonction du maximum de vraisemblance

Soit X une va qui admet fθ pour densité qui dépend d’un paramètre θ. Alors la fonction du maximum de vraisemblance est la densité θL(θ|x)=fθ(x)

Notre modèle est yi=β0+β1xi+ϵi, avec ϵiiidN(0,σ2), c’est à dire que i{1,..,n}, les ϵi sont indépendants, suivent une loi gaussienne centrée donc E[ϵi]=0, et ils sont homoscédastiques, c’est à dire : V[ϵi]=σ2.

Donc yiiidN(β0+β1xi,σ2), i{1,..,n}

La fonction de vraisemblance de y=(y1,..,yn)T est donc : L(β0,β1,σ2|y1,,yn)=ni=1L(β0,β1,σ2|yi)=1(2πσ2)nexp(12σ2ni=1(yiβ0β1xi)2)

avec L(β0,β1,σ2|yi)=12πσ2exp((yiβ0β1xi)22σ2)

On a aussi la log-vraisemblance de y : logL(β0,β1,σ2|y1,,yn)=n2log(2πσ2)12σ2(ni=1(yiβ0β1xi)2)

Estimateur du maximum de vraisemblance

L’estimateur de vraisemblance (ML) de θ, noté ˆθ, est celui qui maximise la fonction de vraisemblance à une observation x donnée.

Il est donné par : ˆθ=argmaxθ L(θ|x)

On a vu que : logL(β0,β1,σ2|y)=n2log(2πσ2)12σ2ni=1(yiβ0β1xi)2Somme des carrésSS(β0,β1)

Donc σ2>0, on a (ˆβML0,ˆβML1)=argmax(β0,β1)R2logL(β0,β1,σ2|y)=argmin(β0,β1)R2SS(β0,β1)=(ˆβOLS0,ˆβOLS1).

Donc, l’estimateur du maximum de vraisemblance et l’estimateur des moindres carrés sont les mêmes.

On a aussi l’estimateur du maximum de vraisemblance pour σ2 :ˆσ2ML=1nni=1ˆϵ2i Cependant, celui ci est biaisé : E[ˆσ2ML]=n2nσ2σ2.

Distribution des coefficients et estimateur de la variance

Distribution des coefficients avec σ2 connu

Nous savons que l’espérance et la variance du vecteur (ˆβ0ˆβ1) sont :E[(ˆβ0ˆβ1)]=(β0β1)   et   V[(ˆβ0ˆβ1)]=σ2n(1+ˉx2s2xˉx2s2xˉx2s2x1s2x)=σ2Vn

Lorsque le paramètre σ2 est connu, le vecteur (ˆβ0ˆβ1) est gaussien. Donc avec l’espérance et la variance explicitées plus haut, on a (ˆβ0ˆβ1)N((β0β1);σ2Vn)  avec  ˆβ0N(β0,σ2n(1+ˉx2s2x))  et  ˆβ1N(β1,σ2n1s2x)

Estimateur sans biais de la variance

On rappelle les relations suivantes : ˆσ2=1n2ni=1ˆϵ2ietE[ˆσ2]=σ2

On a donc (n2)ˆσ2σ2χ2n2 c’est à dire que ˆσ2, une fois renormalisé, suit une loi du χ2 à n2 degrés de liberté.

Distribution des coefficients avec σ2 inconnu

En général, σ2 est inconnu, on va donc le remplacer par son estimateur sans biais, c’est à dire ˆσ2. Cela modifie la distribution des coefficients et on obtient :

  • Quand σ2 est connu : ˆβ0β0σ2(1+ˉx2s2x)nN(0,1)etˆβ1β1σ2(1s2x)nN(0,1)

  • Quand σ2 est inconnu : ˆβ0β0ˆσ2(1+ˉx2s2x)nTn2etˆβ1β1ˆσ2(1s2x)nTn2

Les lois normales sont remplacées par des lois de Student à n2 degrés de liberté.

Intervalle de confiance et erreur de prédiction

Intervalle de confiance

Nous avons donc

  • ˆβ0β0ˆσ20Tn2

  • ˆβ1β1ˆσ21Tn2

On obtient alors les intervalles de confiance suivants avec probabilité 1α et avec les quantiles tn2 de la loi de student et cn2 de la loi du χ2 :

  • β0[ˆβ0±tn2(1α2)ˆσ20]

  • β1[ˆβ1±tn2(1α2)ˆσ21]

  • σ2[(n2)ˆσ2cn2(1α2);(n2)ˆσ2cn2(α2)]

Erreur de prédiction

Rappelons que l’erreur de prédiction s’écrit : ˆϵn+1=yn+1ˆyn+1 avec : E[ˆϵn+1]=0etVar[ˆϵn+1]=σ2(1+1n+1ns2x(xn+1ˉx)2)

d’où la relation à variance connue : yn+1ˆyn+1N(0;(1+1n+1ns2x(xn+1ˉx)2))

et à variance inconnue : yn+1ˆyn+1ˆσ2(1+1n+1ns2x(xn+1ˉx)2)Tn2

Distribution jointe et région de confiance

Distribution jointe de (ˆβ0,ˆβ1) avec σ2 inconnu

Quand σ2 est inconnu: 12ˆσ2(ˆββ)TV1n(ˆββ)F2n2

  • avec F2n2 la loi de Fisher.

Région de confiance

La distribution jointe nous donne une ellipse de confiance pour ˆβ.

12ˆσ2(ˆββ)TV1n(ˆββ)f2n2(1α)

Etant donné que V1n est définie positive, c’est l’équation d’une région de confiance elliptique.

y=21+3x+ϵ

Le produit cartésien des intervalles de confiance des distributions marginales nous donne un rectangle de confiance.

La distribution jointe nous donne une ellipse de confiance pour ˆβ.

La région de confiance correspond donc à l’ellipse de confiance.

Différence entre:

  • Intervalles de confiance (vert) et la
  • Région de confiance (violet).