Is EVP percentage verklaarde variantie?

Bij de PIRFICT-methode is de EVP (explained variance percentage) een belangrijke maat voor de modelbeoordeling. Maar is de EVP wel het percentage verklaarde variantie? Beschouw het volgende algemene tijdreeksmodel (zonder een ruismodel):

(1)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t)  \end{align}\end{equation*}

waarin Z(t) de grondwaterstand is op tijdstip t, detmodel(t|\theta) het deterministische modeldeel met modelparameters \theta, N(t) de ruis (residuals genoemd bij de PIRFICT-methode).

De EVP is bij de PIRFICT-methode als volgt gedefinieerd:

(2)   \begin{equation*}\begin{align} EVP = 1-var(N(t))/var(Z(t) \end{align}\end{equation*}

Nu geldt voor de variantie van de grondwaterstanden Z(t):

(3)   \begin{equation*}\begin{align} var(Z(t)) = var(detmodel(t|\theta)+N(t) ) \end{align}\end{equation*}

(4)   \begin{equation*}\begin{align} var(Z(t)) = var(detmodel(t|\theta))+var(N(t)) \\+2.covar(detmodel(t|\theta),N(t))\end{align}\end{equation*}

De verklaarde variantie door het deterministische model detmodel(t|\theta) is:

(5)   \begin{equation*}\begin{align} var(detmodel(t|\theta))/var(Z(t)) \end{align}\end{equation*}

(6)   \begin{equation*}\begin{align} = 1-var(N(t))/var(Z(t)) - 2.covar(detmodel(t|\theta),N(t))/var(Z(t))\end{align}\end{equation*}

(7)   \begin{equation*}\begin{align}\boxed {Verkl. Variantie = EVP -2.covar(detmodel(t|\theta),N(t))/var(Z(t))}\end{align}\end{equation*}

Een misvatting van de PIRFICT-tijdreeksmodellering is dat de EVP het percentage verklaarde variantie is van het model. De EVP is alleen gelijk aan het percentage verklaarde variantie als N(t) niet gecorreleerd is aan het deterministische modeldeel detmodel, maar dergelijke correlaties/covarianties treden vaak juist wél op bij een PIRFICT-tijdreeksmodellering! Zeker, als het gaat om hoogfrequente tijdreeksanalyse.

De R2 is een vergelijkbare maat als de EVP en ook daarvoor geldt dat het geen rekening houdt met de covariantie en is daarmee ook geen goede maat is voor een modelbeoordeling.

Minimalisatie van de variantie van de N(t) in (1) is dus niet hetzelfde als de maximalisatie van de EVP. De EVP neemt toe bij een positieve correlatie van N(t) met het deterministische modeldeel detmodel. Dit is ongewenst. Het principe van de tijdreeksmodellering is juist, met toepassing van het uitgebreide ruismodel, te bewerkstelligen dat de N(t) niet gecorreleerd is met het deterministische modeldeel, want een correlatie/covariantie geeft onzuivere schattingen van relaties met hun betrouwbaarheidsintervallen. De EVP is daarmee een slechte maat voor de modelbeoordeling.

De R2 of EVP>=0,7 is daarbij een belangrijk selectiecriterium voor het bepalen van betrouwbare PIRFICT-modellen. Toepassing van selectiecriteria bij PIRFICT betekent dat in de orde van 50% van een steekproef van meetreeksen van peilfilters wordt weggeselecteerd. Bij de Box-Jenkins-modellering is deze selectie niet aan de orde.

Dit bericht is geplaatst in Tijdreeksanalist met de tags . Bookmark de permalink.