Verschillen tussen de PIRFICT- en de Box-Jenkins-tijdreeksanalysemethode

In de STOWA handleiding tijdreeksanalyse is een scheiding aangebracht tussen twee methoden van tijdreeksanalyse, de PIRFICT (Predefined Impulse Response Function In Continuous Time) en de Box-Jenkins (BJTR) modellering. De uitkomsten van de tijdreeksanalyse van de beide methoden kunnen daarbij nogal met elkaar verschillen. De directe verschillen tussen de continue PIRFICT- en de discrete Box-Jenkins methode zijn:

  • Verificatie op basis van ‘goodness-of-fit’ en plausibiliteit (zie ook essay) met maten voor de pasvorm, zoals maximalisatie R2 en EVP (verklaarde variantie?), versus ‘goodness-of-use’ met bruikbaarheid door het voldoen aan statistische randvoorwaarden, zoals witte ruis en minimalisatie modelresiduen (a(t)).
  • Keuze uit een aantal voorgedefinieerde transferfuncties versus modelidentificatie met een grote set kandidaatmodellen.
  • AR(1)-ruismodel versus een uitgebreid ARMA(*,*)-ruismodel om ook bij hoogfrequente tijdreeksmodellering te voldoen aan de statistische modelvoorwaarden.
  • Hydrologische plausibiliteit versus kwantificatie van onzekerheid.
  • Modellering op dagbasis versus modellering op een tijdseenheid waarbij modellen (met een uitgebreid ruismodel) voldoen aan de statistische modelvoorwaarden.
  • Toepassen van selectiecriteria, zoals de R2 of EVP>=70%, op meetreeksen voor het bewerkstelligen van ‘betrouwbare’ modellen versus ontwikkeling bruikbare modellen die voldoen aan statistische modelvoorwaarden.
  • Een indirecte suboptimale schattingsroutine versus een directe optimale schattingsroutine, zie onderstaand schema in figuur 1.

Figuur 1: Stroomschema modelparameteroptimalisatie van de indirecte methode van PIRFICT (Menyanthes en PASTAS) en de directe methode van Box-Jenkins (Tijdreeksanalist)

Bij PIRFICT (Menyanthes en PASTAS) met toepassing van een ruismodel wordt bij een parameterset ϑ eerst de ‘residuals’ r(t|ϑ) bepaald en uit de r(t|ϑ) worden vervolgens de ‘noise’ e(t|ϑ) berekend. Het is een indirecte schattingsmethode. Bij Box-Jenkins (Tijdreeksanalist) is de ruis een latente variabele en herschreven als een som van de residuen a(t|ϑ). De ruis is daarmee, als de residuen niet gecorreleerd zijn, niet gecorreleerd met het deterministische deel (detmodel) van het model. De ‘noise’ e(t|ϑ) en de residuen a(t|ϑ) verschillen en daarmee de schatting van de parameterset ϑ. De verificatie van beide modelleringen zijn daarbij wezenlijk verschillend met ‘Goodness-of-use’ bij Box-Jenkins versus ‘Goodness-of-fit’ bij PIRFICT dan wel bruikbaarheid versus pasvorm.

Een veel genoemd verschil is fysisch versus statistisch. Dit is echter een synthetisch verschil. Het principe is altijd dat parameters van een tijdreeksmodel op basis van data geoptimaliseerd worden en het is altijd van belang om het tijdreeksmodel zo goed mogelijk te kiezen afhankelijk van het onderzoeksdoel. Bij het optimaliseren van een model moet er altijd voldaan worden aan wiskundige/statistische voorwaarden van een bruikbaar model. Een hydrologisch/fysisch model wordt dan ook stochastisch en daarbij past het kwantificeren van onzekerheid.

De EVP en R2 zijn belangrijke ‘Goodness-of fit’-maat voor de modelkeuze bij PIRFICT. De EVP wordt voorgesteld als het ‘percentage verklaarde variantie’ van het deterministische deel van het tijdreeksmodel. Is EVP percentage verklaarde variantie? De EVP en R2 gaan uit van geen correlatie tussen het deterministische deel en de ‘residual’ r(t|ϑ). Vooral bij hoogfrequente tijdreeksanalyse is er bij PIRFICT veelal sprake van een positieve autocorrelatie en overschat de EVP de werkelijke verklaarde variantie. Correlaties is een wezenlijk probleem in tijdreeksanalyse voor het schatten van parameters met hun onzekerheid en de EVP is daarmee geen goede maat voor het beoordelen van een tijdreeksmodel. Hetzelfde geldt voor R2, een grootheid die gebruikt wordt bij lineaire regressie, waarbij wordt uitgegaan van onderling onafhankelijk metingen.

De R2 of EVP>=70% is daarbij een belangrijk selectiecriterium voor het bepalen van ‘betrouwbare’ modellen. Toepassing van selectiecriteria bij PIRFICT betekent dat in de orde van 50% van een steekproef van meetreeksen van peilfilters wordt weggeselecteerd. In een groot droogteonderzoek was dit zelfs 85%. De onderliggende reden is dat de transferfuncties van PIRFICT ongeschikt zijn voor het beschrijven van zwakke relaties (met een evenwichtsrelatie rond nul). In veel onderzoeken is het juist de vraag of er sprake is van een effect/invloed van bijvoorbeeld een winning of droogte. De set van kandidaatmodellen bij Box-Jenkins is veel groter en veel bruikbaarder om allerlei werkelijkheden goed te kunnen beschrijven.

Een bekend fenomeen is dat bij PASTAS het ruismodel schadelijk is voor de EVP. Bij de Box-Jenkins-methode is dit niet het geval. De oorzaak is het verschil van de indirecte schattingsroutine van PIRFICT met de directe schattingsroutine van Box-Jenkins (zie bovenstaande figuur 1).

Is het vanwege de niet-equidistantie van meetreeksen dat de continue PIRFICT-methode moet worden toegepast? Is de discrete Box-Jenkins-methode met extra mogelijkheden als modelidentificatie met een grote set van transferfuncties/kandidaatmodellen, statistische analysemogelijkheden, het uitgebreide ARMA-ruismodel en kwantificatie van onzekerheid, niet veel bruikbaarder? Tijdreeksanalist bevat al deze mogelijkheden.

Zie ook valkuil hoogfrequente tijdreeksanalyse en de Python-notebook ‘Hoezo Plausibel?’. De notebook toont uitkomsten van de PASTAS-modellering zónder en mét toepassing van het ruismodel als de werkelijkheid anders is dan een voorgedefinieerde functie, zoals de Gamma- of exponentiële verdelingsfunctie. Aan de orde komt modelverificatie, zuiverheid, bezettingsgraad en andere zaken die van belang zijn bij het testen van de goede werking van een tijdreeksmodel. Duidelijk wordt waarom uitkomsten van PASTAS-modellering zónder en mét een ruismodel zo van elkaar kunnen verschillen.

Dit bericht is geplaatst in Tijdreeksanalist. Bookmark de permalink.