In de STOWA handleiding tijdreeksanalyse is een scheiding aangebracht tussen twee methoden van tijdreeksanalyse, de PIRFICT (Predefined Impulse Response Function In Continuous Time) – en de BJTR (Box-Jenkins) -modellering. De wezenlijke verschillen tussen de continue PIRFICT- en de discrete BJTR-modellering zijn:
- Verificatie op basis van ‘goodness-of-fit’ en plausibiliteit (zie ook essay) met maten voor de pasvorm, zoals maximalisatie R2 en EVP, versus ‘goodness-of-use’ met bruikbaarheid door het voldoen aan statistische randvoorwaarden, zoals witte ruis en minimalisatie modelresiduen (a(t)) .
- Keuze uit een aantal voorgedefinieerde functies versus modelidentificatie met een grote set kandidaatmodellen.
- AR(1)-ruismodel versus een uitgebreid ARMA(*,*)-ruismodel om ook bij hoogfrequente tijdreeksmodellering te voldoen aan de statistische modelvoorwaarden.
- Hydrologische plausibiliteit versus kwantificatie van onzekerheid.
- Modellering op dagbasis versus modellering op een tijdseenheid waarbij modellen (met een uitgebreid ruismodel) voldoen aan de statistische modelvoorwaarden.
- Toepassen van een selectiecondities voor het bewerkstelligen van plausibele modellen zoals de EVP>=0.7 versus bruikbare modellen die voldoen aan statistische modelvoorwaarden.
- Een indirecte suboptimale schattingsroutine versus een directe optimale schattingsroutine, zie onderstaand schema in figuur 1.
Figuur 1: Stroomschema modelparameteroptimalisatie van de indirecte methode van PIRFICT (Menyanthes en PASTAS) en de directe methode van Box-Jenkins (Tijdreeksanalist)
Bij de PIRFICT-modellering (Menyanthes en PASTAS) met toepassing van een ruismodel wordt bij een parameterset ϑ eerst de ‘residuals’ r(t|ϑ) bepaald en uit de r(t|ϑ) worden vervolgens de ‘noise’ e(t|ϑ) berekend. Het is een indirecte schattingsmethode. Bij BJTR-modellering (Tijdreeksanalist) is de ruis een latente variabele en herschreven als een som van de residuen a(t|ϑ). De ruis is daarmee, als de residuen niet gecorreleerd zijn, niet gecorreleerd met het deterministische deel (detmodel) van het model. De ‘noise’ e(t|ϑ) en de residuen a(t|ϑ) verschillen en daarmee de schatting van de parameterset ϑ. De verificatie van beide modelleringen zijn daarbij wezenlijk verschillend met ‘Goodness-of-use’ bij BJTR versus ‘Goodness-of-fit’ bij PIRFICT dan wel bruikbaarheid versus pasvorm.
Een veel genoemd verschil is fysisch versus statistisch. Dit is echter een synthetisch verschil. Het principe is altijd dat parameters van een tijdreeksmodel op basis van data geoptimaliseerd worden en het is altijd van belang om het tijdreeksmodel zo goed mogelijk te kiezen afhankelijk van het onderzoeksdoel. Bij het optimaliseren van een model moet er altijd voldaan worden aan wiskundige/statistische voorwaarden van een bruikbaar model. Een hydrologisch/fysisch model wordt dan ook stochastisch en daarbij past het kwantificeren van onzekerheid. Het toepassen van selectiecriteria voor het verkrijgen van plausibele modellen is daarbij ongepast.
De EVP is een belangrijke ‘Goodness-of fit’-maat voor de modelkeuze bij PIRFICT. De EVP wordt voorgesteld als het ‘percentage verklaarde variantie’ van het deterministische deel van het tijdreeksmodel. Is EVP percentage verklaarde variantie? Deze maat gaat uit van geen correlatie tussen het deterministische deel en de ‘residual’ r(t|ϑ). Vooral bij hoogfrequente tijdreeksanalyse is er bij PIRFICT veelal sprake van een positieve autocorrelatie en daarmee overschat de EVP de werkelijke verklaarde variantie. Autocorrelatie is een wezenlijk probleem in tijdreeksanalyse voor het schatten van parameters met hun onzekerheid en de EVP is daarmee geen goede maat voor het beoordelen van een tijdreeksmodel.
Een bekend fenomeen is dat bij PASTAS het ruismodel schadelijk is voor de EVP. Bij de Box-Jenkins-methode is dit niet het geval. De oorzaak is het verschil van de indirecte schattingsroutine van PIRFICT met de directe schattingsroutine van Box-Jenkins (zie bovenstaande figuur 1).
Is het vanwege de niet-equidistantie van meetreeksen dat de continue PIRFICT-methode moet worden toegepast? Is de discrete Box-Jenkins-methode met extra mogelijkheden als modelidentificatie met een grote set van kandidaatmodellen, statistische analysemogelijkheden, het uitgebreide ARMA-ruismodel en kwantificatie van onzekerheid, niet veel bruikbaarder?
Zie ook valkuil hoogfrequente tijdreeksanalyse en de Python-notebook ‘Hoezo Plausibel?’. De notebook toont uitkomsten van de PASTAS-modellering zónder en mét toepassing van het ruismodel als de werkelijkheid anders is dan een voorgedefinieerde functie, zoals de Gamma- of exponentiële verdelingsfunctie. Aan de orde komt modelverificatie, zuiverheid, bezettingsgraad en andere zaken die van belang zijn bij het testen van de goede werking van een tijdreeksmodel. Duidelijk wordt waarom uitkomsten van PASTAS-modellering zónder en mét een ruismodel zo van elkaar kunnen verschillen.