∙ Soit X une variable aléatoire telle que X∼N(μ,σ2) de
densité : f(x)=1√2πσ2exp(−(x−μ)22σ2)
Alors ∀(a,b)∈R2 on a : Y=aX+b∼N(aμ+b,a2σ2)
Soit X une va qui admet fθ pour densité qui dépend d’un
paramètre θ. Alors la fonction
du maximum de vraisemblance est la densité θ↦L(θ|x)=fθ(x)
Notre modèle est yi=β0+β1xi+ϵi, avec ϵi∼iidN(0,σ2), c’est à dire que ∀i∈{1,..,n}, les ϵi sont indépendants, suivent une loi gaussienne centrée donc E[ϵi]=0, et ils sont homoscédastiques, c’est à dire : V[ϵi]=σ2.
Donc yi∼iidN(β0+β1xi,σ2), ∀i∈{1,..,n}
La fonction de vraisemblance de y=(y1,..,yn)T est donc :
L(β0,β1,σ2|y1,…,yn)=n∏i=1L(β0,β1,σ2|yi)=1(√2πσ2)nexp(−12σ2n∑i=1(yi−β0−β1xi)2)
On a aussi la log-vraisemblance de y : logL(β0,β1,σ2|y1,…,yn)=−n2log(2πσ2)−12σ2(n∑i=1(yi−β0−β1xi)2)
L’estimateur de vraisemblance (ML) de θ, noté ˆθ, est celui qui maximise la fonction de vraisemblance à une observation x donnée.
Il est donné par : ˆθ=argmaxθ L(θ|x)
On a vu que : logL(β0,β1,σ2|y)=−n2log(2πσ2)−12σ2n∑i=1(yi−β0−β1xi)2⏟Somme des carrésSS(β0,β1)
Donc, l’estimateur du maximum de vraisemblance et l’estimateur des moindres carrés sont les mêmes.
On a aussi l’estimateur du maximum de vraisemblance pour σ2 :ˆσ2ML=1n∑ni=1ˆϵ2i Cependant, celui ci est biaisé : E[ˆσ2ML]=n−2nσ2≠σ2.
Nous savons que l’espérance et la variance du vecteur (ˆβ0ˆβ1) sont :E[(ˆβ0ˆβ1)]=(β0β1) et V[(ˆβ0ˆβ1)]=σ2n(1+ˉx2s2x−ˉx2s2x−ˉx2s2x1s2x)=σ2Vn
Lorsque le paramètre σ2
est connu, le vecteur (ˆβ0ˆβ1) est
gaussien. Donc avec l’espérance et la variance
explicitées plus haut, on a (ˆβ0ˆβ1)∼N((β0β1);σ2Vn) avec ˆβ0∼N(β0,σ2n(1+ˉx2s2x)) et ˆβ1∼N(β1,σ2n1s2x)
On rappelle les relations suivantes : ˆσ2=1n−2n∑i=1ˆϵ2ietE[ˆσ2]=σ2
On a donc (n−2)ˆσ2σ2∼χ2n−2 c’est à dire que ˆσ2, une fois renormalisé, suit une loi du χ2 à n−2 degrés de liberté.
En général, σ2 est inconnu, on va donc le remplacer par son estimateur sans biais, c’est à dire ˆσ2. Cela modifie la distribution des coefficients et on obtient :
Quand σ2 est connu :
ˆβ0−β0√σ2(1+ˉx2s2x)n∼N(0,1)etˆβ1−β1√σ2(1s2x)n∼N(0,1)
Quand σ2 est inconnu :
ˆβ0−β0√ˆσ2(1+ˉx2s2x)n∼Tn−2etˆβ1−β1√ˆσ2(1s2x)n∼Tn−2
Les lois normales sont remplacées par des lois de Student à n−2 degrés de liberté.
Nous avons donc
ˆβ0−β0√ˆσ20∼Tn−2
ˆβ1−β1√ˆσ21∼Tn−2
On obtient alors les intervalles de confiance suivants avec probabilité 1−α et avec les quantiles tn−2 de la loi de student et cn−2 de la loi du χ2 :
β0∈[ˆβ0±tn−2(1−α2)√ˆσ20]
β1∈[ˆβ1±tn−2(1−α2)√ˆσ21]
σ2∈[(n−2)ˆσ2cn−2(1−α2);(n−2)ˆσ2cn−2(α2)]
Rappelons que l’erreur de prédiction s’écrit : ˆϵn+1=yn+1−ˆyn+1 avec : E[ˆϵn+1]=0etVar[ˆϵn+1]=σ2(1+1n+1ns2x(xn+1−ˉx)2)
d’où la relation à variance connue : yn+1−ˆyn+1∼N(0;(1+1n+1ns2x(xn+1−ˉx)2))
et à variance inconnue : yn+1−ˆyn+1√ˆσ2(1+1n+1ns2x(xn+1−ˉx)2)∼Tn−2
Quand σ2 est
inconnu: 12ˆσ2(ˆβ−β)TV−1n(ˆβ−β)∼F2n−2
La distribution jointe nous donne une ellipse de confiance pour ˆβ.
12ˆσ2(ˆβ−β)TV−1n(ˆβ−β)≤f2n−2(1−α)
y=−2⋅1+3⋅x+ϵ
Le produit cartésien des intervalles de confiance des distributions marginales nous donne un rectangle de confiance.
La distribution jointe nous donne une ellipse de confiance pour ˆβ.
La région de confiance correspond donc à l’ellipse de confiance.
Différence entre: