De wezenlijke verschillen tussen de PIRFICT- en de BJTR-tijdreeksanalysemethode

In de STOWA handleiding tijdreeksanalyse is een scheiding aangebracht tussen twee methoden van tijdreeksanalyse, de PIRFICT- en de BJTR-modellering. De wezenlijke verschillen tussen de continue PIRFICT- en de discrete BJTR-modellering zijn:

  • Niet-equidistante modellering versus equidistante modellering van meetreeksen. Bij niet-equidistante modellering is er geen verwerking van de meetreeksen nodig bij equidistante modellering kunnen daarentegen statistische analyses uitgevoerd worden.
  • Een indirecte suboptimale schattingsroutine versus een directe optimale schattingsroutine, zie onderstaand schema in figuur 1.
  • Verificatie op basis van ‘goodness-of-fit’ en plausibiliteit versus ‘goodness-of-use’, maten voor de pasvorm, zoals maximalisatie R2 en EVP, versus bruikbaarheid door het voldoen aan statistische randvoorwaarden, zoals witte ruis en minimalisatie modelresiduen (a(t)) .
  • Keuze uit een aantal voorgedefinieerde functies versus modelidentificatie met een grote set kandidaatmodellen.
  • AR(1)-ruismodel versus een uitgebreid ARMA(*,*)-ruismodel om ook bij hoogfrequente tijdreeksmodellering te voldoen aan de statistische modelvoorwaarden.
  • Modellering op dagbasis versus modellering op een tijdseenheid waarbij modellen voldoen aan de statistische modelvoorwaarden.
  • Hydrologische plausibiliteit versus kwantificatie van onzekerheid.
  • Toepassen van een selectiecondities voor het bewerkstelligen van plausibele modellen zoals de ‘goodness-of-fit’>=0.7 versus bruikbare modellen.

Figuur 1: Stroomschema modelparameteroptimalisatie indirecte methode van PIRFICT (Hydromonitor/Menyanthes en PASTAS) en de directe methode van BJTR (Tijdreeksanalist)

Bij de PIRFICT-modellering (Hydromonitor/Menyanthes en PASTAS) met toepassing van een ruismodel wordt bij een parameterset ϑ eerst de ‘residuals’ r(t|ϑ) bepaald en uit de r(t|ϑ) worden vervolgens de ‘noise’ e(t|ϑ) berekend. Het is een indirecte schattingsmethode waarbij de parameters niet tegelijkertijd gezamenlijk geschat worden. Bij BJTR-modellering (Tijdreeksanalist) is de ruis een latente variabele en herschreven als een som van de residuen a(t|ϑ). De ruis is daarmee, als de residuen niet gecorreleerd zijn, niet gecorreleerd met het deterministische deel (detmodel) van het model. De ‘noise’ e(t|ϑ) en de residuen a(t|ϑ) verschillen en daarmee de schatting van de parameterset ϑ. De directe schattingsroutine van de BJTR-modellering is optimaal, de indirecte schattingsroutine van de PIRFICT-modellering geeft daarentegen onzuivere schattingen met grote kans op foute conclusies.

Een veel genoemd verschil is fysisch versus statistisch. Dit is echter een synthetisch verschil. Het principe is altijd dat parameters van een tijdreeksmodel op basis van data geoptimaliseerd worden en het is altijd van belang om het tijdreeksmodel zo goed mogelijk te kiezen afhankelijk van het onderzoeksdoel. Bij het optimaliseren van een model moet er altijd voldaan worden aan wiskundige/statistische voorwaarden van een bruikbaar model. Een hydrologisch/fysisch model wordt dan ook stochastisch en daarbij past het kwantificeren van onzekerheid. Het toepassen van selectiecriteria voor het verkrijgen van plausibele modellen is daarom ongepast. Is het geen contradictie dat de fysische modellering statistische verdelingsfuncties betreft?

De EVP is een belangrijke ‘Goodness-of fit’-maat voor de modelkeuze bij PIRFICT. De EVP wordt voorgesteld als de ‘verklaarde variantie’ van het deterministische deel van het tijdreeksmodel. Is EVP de verklaarde variantie? Deze maat gaat uit van geen correlatie tussen het deterministische deel en de ‘residual’ r(t|ϑ). Vooral bij hoogfrequente tijdreeksanalyse is er bij PIRFICT veelal sprake van een positieve autocorrelatie en daarmee wordt de EVP overschat. Autocorrelatie is een wezenlijk probleem in tijdreeksanalyse en de EVP is daarmee geen goede maat voor het beoordelen van een tijdreeksmodel.

Een bekend fenomeen is dat bij PASTAS het ruismodel schadelijk is voor de EVP, dit wordt echter veroorzaakt door de indirecte schattingsroutine (zie bovenstaande figuur). Bij de BJTR-methode is dit niet het geval en is het uitgebreide ARMA-ruismodel daarentegen van wezenlijk belang om ook bij hoogfrequente tijdreeksanalyse te voldoen aan de statistische modelvoorwaarden voor het bepalen van zuivere schattingen.

Is het vanwege de niet-equidistantie van meetreeksen dat de continue PIRFICT-methode moet worden toegepast? Is de discrete BJTR-methode met extra mogelijkheden als modelidentificatie met een grote set van kandidaatmodellen, statistische analysemogelijkheden, het uitgebreide ARMA-ruismodel en kwantificatie van onzekerheid, niet veel bruikbaarder?

Zie ook valkuil hoogfrequente tijdreeksanalyse en de Python-notebook ‘Hoezo Plausibel?’. De notebook toont uitkomsten van de PASTAS-modellering zónder en mét toepassing van het ruismodel als de werkelijkheid anders is dan een voorgedefinieerde functie, zoals de Gamma- of exponentiële verdelingsfunctie. Aan de orde komt modelverificatie, zuiverheid, bezettingsgraad en andere zaken die van belang zijn bij het testen van de goede werking van een tijdreeksmodel. Duidelijk wordt waarom uitkomsten van PASTAS-modellering zónder en mét een ruismodel zo van elkaar kunnen verschillen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor De wezenlijke verschillen tussen de PIRFICT- en de BJTR-tijdreeksanalysemethode

Is EVP de verklaarde variantie?

Bij de PIRFICT-methode is de EVP (explained variance percentage) een belangrijke maat voor de modelbeoordeling. Maar is de EVP wel de verklaarde variantie? Beschouw het volgende algemene tijdreeksmodel (zonder een ruismodel):

(1)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t)  \end{align}\end{equation*}

waarin Z(t) de grondwaterstand is op tijdstip t, detmodel(t|\theta) het deterministische modeldeel met modelparameters \theta, N(t) de ruis (residuals genoemd bij de PIRFICT-methode).

De EVP is bij de PIRFICT-methode als volgt gedefinieerd:

(2)   \begin{equation*}\begin{align} EVP = 1-var(N(t))/var(Z(t) \end{align}\end{equation*}

Nu geldt voor de variantie van de grondwaterstanden Z(t):

(3)   \begin{equation*}\begin{align} var(Z(t)) = var(detmodel(t|\theta)+N(t) ) \end{align}\end{equation*}

(4)   \begin{equation*}\begin{align} var(Z(t)) = var(detmodel(t|\theta))+var(N(t)) \\+2.covar(detmodel(t|\theta),N(t))\end{align}\end{equation*}

De verklaarde variantie door het deterministische model detmodel(t|\theta) is:

(5)   \begin{equation*}\begin{align} var(detmodel(t|\theta))/var(Z(t)) \end{align}\end{equation*}

(6)   \begin{equation*}\begin{align} = 1-var(N(t))/var(Z(t)) - 2.covar(detmodel(t|\theta),N(t))\end{align}\end{equation*}

(7)   \begin{equation*}\begin{align}\boxed {VerklaardeVariantie = EVP -2.covar(detmodel(t|\theta),N(t))}\end{align}\end{equation*}

Een misvatting van de PIRFICT-tijdreeksmodellering is dat de EVP de verklaarde variantie is van het model. De EVP is alleen gelijk aan de verklaarde variantie als N(t)) niet gecorreleerd is aan het deterministische modeldeel detmodel, maar dergelijke correlaties/covarianties treden vaak juist wél op!

De R2 is een vergelijkbare maat als de EVP en ook daarvoor geldt dat het geen rekening houdt met de covariantie en is daarmee ook geen goede maat is voor een modelbeoordeling.

Minimalisatie van de variantie van de N(t)) in (1) is dus niet hetzelfde als de maximalisatie van de EVP. De EVP neemt toe bij een positieve correlatie van N(t)) met het deterministische modeldeel detmodel. Het principe van de BJTR-methode is juist, met toepassing van het uitgebreide ruismodel, te bewerkstelligen dat de N(t) niet gecorreleerd is met het deterministische modeldeel, want een correlatie geeft onzuivere schattingen van relaties met hun betrouwbaarheidsintervallen.

Geplaatst in Diensten | Getagged | Reacties uitgeschakeld voor Is EVP de verklaarde variantie?

Goodness-of-fit of Fitness-for-use?

Presentatie op 16 juni 2022

Op de discussiemiddag van de Werkgroep Tijdreeksanalyse van de NHV met het onderwerp ‘Goodness-of-fit’ of ‘Fitness-for-use’ brengen we naar voren hoe in hydrologisch Nederland verschillend wordt gedacht over wat de beste modelkeuze is. Aan de orde komt o.a. de EVP als ‘Goodness-of-fit’-maat en de ‘Fitness-for-use’ van een uitgebreid ruismodel en modelidentificatie. Bij de PIRFICT-methode wordt op basis van expert-judgement gekozen voor een hydrologische transferfunctie. Bij de BJTR-methode is de modelidentificatie op basis van een grote set van kandidaattransferfuncties een wezenlijk onderdeel.

NHV_16juni2022

Verontrustend is dat verschillende tijdreeksanalyseprogramma’s significant verschillende uitkomsten kunnen geven voor exact hetzelfde probleem. Wat zijn daar de oorzaken van? Wat gaat hier fout? Meer informatie vind je op De wezenlijke verschillen tussen de PIRFICT- en de BJTR-tijdreeksmodellering.

Geplaatst in Diensten | Reacties uitgeschakeld voor Goodness-of-fit of Fitness-for-use?

Identificatie tijdreeksmodel

De eerste stap bij het ontwikkelen van een tijdreeksmodel is het identificeren van zijn vorm. Het gaat dan om het deterministische modeldeel, de som van de transferfuncties van de afzonderlijke invoerreeksen. Bij de PIRFICT-methode wordt op basis van expert-judgement een voorgedefinieerde verdelingsfunctie, zoals de Gamma- of de Exponentiële verdelingsfuntie, gekozen. Bij de BJTR-methode wordt begonnen met de analyse van het gewitte kruiscorellogram van de uitvoerreeks (grondwaterstanden) bij elke invoerreeks. Het gewitte kruiscorellogram is in een bepaalde zin een empirische transferfunctie die zo goed mogelijk bij de data past.

Figuur 1: Kruiscorellegram grondwaterstanden B16D0001 en PNO op dagbasis

In de handleiding STOWA hoofdstuk 4 wordt uitgebreid besproken hoe op basis van de visuele beoordeling van het kruiscorellogram een ARMA-transfermodel gepostuleerd kan worden. Een goede keuze zou in dit geval zijn een ARMA(1,4)-model (1 delta, 4 omega’s). Een alternatieve mogelijkheid is om te kiezen voor een MA(s)-model (s aantal omega’s) en daarbij de empirische verdelingsfunctie te schatten. Is er één invoerreeks (PNO) dan is een eerste modelkeuze dus BJ(1,4); het ARMA(*,*)-ruismodel wordt in de verificatiefase ontwikkeld.

Ook bij de PIRFICT-methode zou op basis van het gewitte kruiscorellogram voor één van de voorgedefinieerde verdelingsfunctie kunnen worden gekozen. Duidelijk is dat de vorm van de gekozen verdelingsfunctie overeen moet komen met het gewitte kruiscorellogram om geen grote onzuiverheid te bewerkstelligen. De Gamma-verdelingsfunctie lijkt in bovenstaande geval een logische keuze.

De schatting van de evenwichtsrelatie (het oppervlakt onder de curve) met de Gamma-verdelingsfunctie is ruim 40% kleiner dan die bij de schatting van de empirische verdelingsfunctie BJ(0,100). Het optimum wordt goed beschreven, maar de exponentiële daling van de Gamma-verdelingsfunctie is in mindere mate aanwezig in de empirische verdelingsfunctie. Het verschil tussen de geschatte evenwichtsrelaties van de twee BJ-modellen is minder dan 5%.

Figuur 2: Kruiscorellogram met de transferfuncties van Gamma en twee Box-Jenkins modellen

De identificatiestap in het proces van de zoektocht naar het beste model blijkt niet onbelangrijk te zijn. Voor de PIRFICT-methode zou de bepaling van het gewitte kruiscorrellogram een belangrijke aanvulling kunnen zijn voor de beste keuze van een voorgedefinieerde functie. Duidelijk wordt – dat door alleen de modelidentificatiestap al – uitkomsten van schattingen van de evenwichtsrelatie van de PIRFICT- en de BJTR-methode sterk met elkaar kunnen verschillen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Identificatie tijdreeksmodel

Nieuwe versie Tijdreeksanalist

De nieuwste versie is van 22 december 2022 versie 6.0.17.

De gebruiksvriendelijkheid is verbeterd in verband met de ontwikkeling van de  handleiding tijdreeksanalyse (STOWA). Nieuw is dat nu gemakkelijk bij de tijdreeksanalyses de bijbehorende neerslag- en verdampingsmeetreeksen direct van KNMI-website met de weerstations en de neerslagstations gedownload  kunnen worden.

Met onderstaande dowloadmogelijkheid stellen we de probeer- of oefenversie van Tijdreeksanalist beschikbaar. Deze versie heeft de volledige functionaliteit. Voorbeeldbestanden met instructies zijn meegeleverd. Verschillende modelleringen van de STOWA-handleiding kunnen nagespeeld worden zowel van de BJTR- als de Pirfict-modelleringen.

Download probeer- of oefenversie Tijdreeksanalist (voor de toegang leveren we een wachtwoord).

De export van modelresultaten is uitgebreid met de mogelijk een rapport van de tijdreeksanalyse van een tijdreeksanalysesessie te genereren. Voorbeeld van een rapportage van een modellering met grafieken van de residuen- en ruisanalyse, simulaties en voorspellingen:

rapport_B16D_14dag_PNO

Versie 6 is ontwikkeld met de Matlab Compiler van augustus 2022.

In versie 5 is de modelresiduenanalyse uitgebreid met toetsen voor geen heteroscedasticiteit, met de Engle-toets en de Breusch-Pagan-toets. De Engle-toets toetst of de variantie van de modelresiduen constant is in de tijd. De Breusch-Pagan-toets toetst of de variantie van de modelresiduen onafhankelijk is van modelwaarden. Beide toetsen zijn extra belangrijke analysemogelijkheden voor het ontwikkelen van een betrouwbaar tijdreeksmodel.

Een nieuwe functionaliteit van Tijdreeksanalist is ook het ruimtelijk presenteren van tijdreeksanalyseresultaten. Per meetpunt kan informatie over de modellering opgevraagd worden. Niet onbelangrijk is daarbij de ‘gain’ of evenwichtsrelatie (de verandering van de uitvoervariabele bij een verhoging met een eenheid van de invoervariabele) met de bijbehorende standaardfout die aangeeft of een bijdrage van een invoervariabele significant is. Bij een betrouwbaar tijdreeksmodel, waarbij de modelresiduen normaal verdeeld zijn en geen autocorrelatie bevatten, is ook de evenwichtsrelatie normaal verdeeld. In het onderstaande voorbeeld mogen we met 95% betrouwbaarheid aannemen dat de bijdrage van zowel het neerslagoverschot als de winning significant is.

Als er sprake is van autocorrelatie van modelresiduen dan wordt de standaardfout van de evenwichtsrelatie onderschat. Wij stellen dat zonder een goed ruismodel afgeleide betrouwbaarheden onbruikbaar zijn. Zie ook voor de ontwikkeling van een betrouwbaar tijdreeksmodel Interactieve tijdreeksmodelontwikkeling.

Tijdreeksanalist (TRG) is een programma in ontwikkeling sinds 2005.

Geplaatst in Alle categorieen, Download, Tijdreeksanalist | Getagged , | Reacties uitgeschakeld voor Nieuwe versie Tijdreeksanalist

Wiskundige modellering, machinaal leren en datamining

Naast statistische tijdreeksanalyse (zie Tijdreeksanalist)  en afhankelijk van de probleemstelling passen we ook wiskundige datamodellering toe. De wiskundige modellen zijn gerelateerd aan statistiek, maar richten zich meer op complexe processen en grote datasets. Tot voor kort was het toepassen van een neuraal netwerk populair voor het modelleren van niet-lineaire complexe processen. Inmiddels zijn er vele (vaak betere) mogelijkheden om met Machinaal Leren (Machine Learning) of datamining (complexe) processen te beschrijven, statistische verbanden en patronen te zoeken en te classificeren. Let wel het is een kunst, meer dan het toepassen van technieken en methoden.

Random Forest (Breiman, 2001) is zo’n goede methode uit het werkveld Machinaal Leren. Random Forest is vooral een geschikte methode als er in de dataset sprake is van multicollineariteit, interacties tussen predictoren en niet-lineaire verbanden. Random Forest kan ook overweg met niet-numerieke (ordinale en nominale) predictoren en ongebalanceerde data, waarbij gebeurtenissen onevenredig verdeeld zijn, zoals bij storingen en calamiteiten. Een mooie toepassingsmogelijkheid is het modelleren van storingen in waterleidingen/ het schatten van faalkansen. Random Forest heeft bijzonder goede eigenschappen voor:

  • Het voorspellen of het schatten van kansen op gebeurtenissen
  • Het imputeren van ontbrekende waarden in een dataset
  • Het detecteren van de belangrijkste invloedsfactoren (predictoren) voor gebeurtenissen in een dataset; bij waterleidingen is dat de leeftijd, het materiaal en de omgeving
  • Het detecteren van verdachte gebeurtenissen of veranderingen in een dataset
  • Het detecteren van patronen of de classificatie van verbanden of kenmerken in een dataset.

Met veel succes hebben wij Random Forest (op basis van beslissingsbomen (decision trees)) toegepast op het imputeren/voorspellen van waarden in meetreeksen voor waterschap De Dommel en in de RIWA-base (zie Imputeren van ontbrekende waarden in RIWA-base, pagina 13, met een uitgebreide uitleg van de methodiek en de meest geschikte instellingen). Zie ook Het principe van de werking van Random Forest.

Een elegante methodiek om met Random Forest de beste predictors te kiezen is met VI (Variable Importance). De onderstaande figuur is een VI-plot met boxplots van de VI van 25 predictoren in het Random Forest model voor het imputeren/voorspellen van de watertemperatuur (120) bij Andijk. De predictors zijn langs de horizontale as gesorteerd op basis van de absolute waarde van de  Spearman-rangcorrelatiecoëfficiënt met de watertemperatuur bij Andijk. Negatieve VI’s impliceren onnauwkeurige imputaties/voorspellingen.

VI

Heeft u een grote dataset en onderzoeksvragen? Wenst u een datavalidatie van uw databasegegevens van uw proces? We kunnen er voor zorgen dat uw gegevens (‘ruwe data’) betrouwbaar en bruikbaar worden. Heeft u vragen over de kans op bepaalde gebeurtenissen, storingen of calamiteiten? We helpen we u graag aan de gewenste informatie.

Heeft u marketing datasets? Heeft u vragen over het koopgedrag van uw klanten? Revenue management of yield management? Ook dan kunnen we er voor zorgen dat uw bedrijf in staat is om weloverwogen en onderbouwde beslissingen te nemen.

Geplaatst in Diensten, Onderzoeksprojecten, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Wiskundige modellering, machinaal leren en datamining

Nieuwe versie Trendanalist

Versie 7.0.01, 28 december 2022

Trendanalist is ontwikkeld in de programmeeromgeving van Matlab en een standalone versie 6.0 is beschikbaar voor de 64-bits versie van Windows 7, 8, 10 en 11.

Download Trendanalist (voor de toegang leveren we een wachtwoord)

De afgelopen jaren hebben we verschillende (statistische) trendanalyses uitgevoerd op waterkwaliteitsmetingen en biologische gegevens. We hebben daarbij veel ervaring opgedaan met meetreeksen met veel missende waarden (gaten) of gecensureerde waarden met verschillende rapportagegrenzen. Op basis van onze ervaringen, theoretisch en empirisch onderzoek hebben we Trendanalist robuuster, efficiënter en gebruiksvriendelijker gemaakt. Zie ook Waarom trendanalyses met Trendanalist? en Vernieuwingen in Trendanalist.

Enkele specificaties Trendanalist

  •  Het kan trendanalyses van grote aantallen meetreeksen – zoals van een milieumeetnet – uitvoeren en daarbij optimaal rekening houden met de karakteristieken van elke afzonderlijke meetreeks, zoals een niet-normale kansverdeling, seizoenseffecten, autocorrelatie, ontbrekende en gecensureerde waarden.
  • Het interne expertsysteem van het programma maakt daartoe per meetreeks een keuze uit verschillende lineaire modellen (LR*) met seizoen- en ruismodelleringen en verschillende vormen van de Mann-Kendall-toets (MK*). De toetsvormen verschillen voor wat betreft het verdisconteren van seizoenseffecten en/of autocorrelatie.
  • De keuze is zodanig dat de toets op trend niet alleen statistisch verantwoord is voor de betreffende reeks, maar ook het hoogste onderscheidend vermogen heeft van alle trendtoetsen die statistisch verantwoord zijn voor de reeks.
  • Het kan volledig automatisch honderden meetreeksen sequentieel analyseren.
  • Dankzij het interne expertsysteem is statistische kennis geen vereiste meer bij de trendanalyse.

Stroomschema (compacte versie)

Hoofdlijnen van de procedure om de meest geschikte trendtoets voor een meetreeks te selecteren.

Geplaatst in Alle categorieen, Download, Trendanalist | Getagged , , | Reacties uitgeschakeld voor Nieuwe versie Trendanalist

Valkuil hoogfrequente tijdreeksmodellering

Modellering van relatief hoog frequente metingen met een eenvoudig ruismodel

Door de introductie van automatische loggers kunnen op uurbasis al grondwaterstanden gemeten worden. We zien veelal dat tijdreeksanalyse wordt uitgevoerd op grondwaterstanden, neerslag- en verdampinggegevens op dagbasis. We beschouwen de tijdreeksmodellering van grondwaterstanden op een relatief kleine tijdsbasis in vergelijking met het grondwaterproces. Bij relatief hoogfrequente grondwaterstandmetingen in vergelijking met de processnelheid is er sprake van een hoge autocorrelatie van bijna één. In het onderstaande bespreken we het fenomeen ‘unit-root’, de valkuil bij hoogfrequente tijdreeksmodellering met een eenvoudig ruismodel.

Voor het uitvoeren van de continue tijdreeksanalyse volgens de PIRFICT-methode wordt het volgende algemene model toegepast:

(1)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t) \\N(t) = \phi(\Delta t).N(t-\Delta t)+ a(t) \end{align}\end{equation*}

voor de ruisparameter geldt \phi als functie van \Delta t en \alpha:

(2)   \begin{equation*} \phi(\Delta t) = exp(-\frac 1\alpha.\Delta t )\end{equation*}

waarin Z(t) de grondwaterstand is op tijdstip t, detmodel(t|\theta) het hydrologische deterministische model met modelparameters \theta, N(t) het ruismodel, a(t) het residu en \Delta t het meetinterval tussen opeenvolgende metingen op tijdstip t-1 en t. Het deterministische model is een superpositie van transferfuncties van variabelen, zoals de neerslag, verdamping en onttrekking.    

 ‘Unit root’-probleem

Bij een modellering van grondwaterstanden op een kleine tijdsbasis, met een autocorrelatie van bijna één is bij de PIRFICT-modellering de (afgeleide) modelparameter \phi(\Delta t) ook bijna één. Als we stellen dat \phi(dt) gelijk is aan één dan geldt voor bovenstaande vergelijking [1]:

(3)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t)  \\N(t) = N(t-\Delta t)+ a(t) \end{align}\end{equation*}

Door N(t), N(t-1), … uit te schrijven (\Delta t=1) geldt voor (3):

(4)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+\sum _{i=1}^{t}  {a(i)}\end{align}\end{equation*}

We mogen veronderstellen dat het residu a(t) voor verschillende waarden voor t niet negatief gecorreleerd zijn en dan geldt: 

(5)   \begin{equation*}\begin{align} var(\sum_{i=1}^{t}{a(i)}) >= \sum _{i=1}^{t} {var(a(i))} = t.var(a)\end{align}\end{equation*}

Dit soort modellen hebben een oneindig grote variantie voor t naar oneindig en genereren dus niet-stationaire voorspellingen. Het is een bekend fenomeen in de tijdreeksanalyse en wordt het ‘unit root’-probleem genoemd en men spreekt daarbij over random-walk modellen. Vanwege de autocorrelatie van de innovaties – het ‘>=’-teken in vergelijking [5] – speelt ook bij een ruisfactor van bijna één het ‘unit-root’-probleem.   

Figuur 1: Voorbeeld van een random-walk proces met 10 simulaties met een tijdreeksmodel voor GWS met neerslag en verdamping, beide op dagbasis en met een ruisfactor van bijna één.

De ruis is gecorreleerd met de grondwaterstanden

Bij grote autocorrelatie van de grondwaterstanden en een ruisfactor \phi(\Delta t) van bijna 1 is de ruis N(t) gecorreleerd met de grondwaterstanden Z(t). De ruis beschrijft een groot deel van het grondwaterproces. De modelfit, de pasvorm van het model, wordt dus deels bepaald door het ruismodel. De deterministische modelkeuze met een voorgedefinieerde transferfunctie is daarentegen bepalend voor de uitkomsten van de tijdreeksmodellering. De modelfit is prima, de uitkomsten lijken plausibel, maar wat is nog de bijdrage van deterministische model? De onderstaande figuur toont de goede modelfit, maar de modelruis heeft hetzelfde patroon als de gemeten grondwaterstanden en daarmee kan er weinig waarde toegekend worden aan het deterministische model en de bijbehorende decompositie.

Figuur 2: Voorbeeld van hetzelfde tijdreeksmodel als in figuur 1. De tijdreeks van de ruis lijkt op die van de grondwaterstanden met een correlatie van 0.8. Het ogenschijnlijk plausibele deterministische model kan sterk verbeterd worden.
Figuur 3: Bijbehorende decompositie van de effecten van de neerslag en de verdamping van het model.

Samenvattend

Bij hoogfrequente tijdreeksmodellering met een eenvoudig ruismodel met een ruisfactor van bijna één speelt het ‘unit root’-probleem en is de ruis gecorreleerd met de uitvoervariabele. De modelresultaten lijken plausibel, maar dit is ongeacht de keuze van het deterministische modeldeel. Een voorbeeld van een PASTAS-modellering waar een unit-root probleem speelt, is issue152. Tevens wordt aangetoond dat bij een modellering op dagbasis met een noise_alpha>=10 er al sprake is van onzuivere schattingen van modelparameters en hun varianties. Zie ook de De wezenlijke verschillen tussen de PIRFICT- en de BJTR-methode

Vanwege de grootte van de correlatie van de ruis met de grondwaterstanden voldoen de modelresiduen of innovaties niet aan de voorwaarden van witte ruis en daarmee kunnen met deze hoogfrequente tijdreeksmodellen geen betrouwbaarheden van de parameters en relaties en onzekerheden van voorspellingen goed geschat worden.

Ons advies is kies een uitgebreid ruismodel of een tijdsbasis in de tijdreeksmodellen die past bij de processnelheid en voer modelverificatie uit op innovaties en ruis (met toetsen op normaliteit en autocorrelatie), zie de voorgestelde werkprocedure voor het verbeteren van de zeggingskracht van de hydrologische tijdreeksanalyse. Tijdreeksanalist bevat een uitgebreide ruismodellering en de parameterschattingsroutine genereert zuivere schattingen voor de modelparameters en hun covariantiematrix.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Valkuil hoogfrequente tijdreeksmodellering

Presentatie BJTR-tijdreeksmodellering

Presentatie op 7 oktober 2021

In de STOWA handleiding tijdreeksanalyse is de BJTR-tijdreeksmodellering (Tijdreeksanalyse volgens de Box-Jenkins methode) beschreven door Paul Baggelaar. Het onderstaande was zijn powerpoint-presentatie.

In de STOWA handleiding is een onderscheid gemaakt tussen de Pirfict- en de BJTR-tijdreeksmodellering. Was deze scheiding noodzakelijk? Zie De wezenlijke verschillen tussen de Pirfict- en de BJTR-tijdreeksmodellering.

Presentatie_BJ-tra

Geplaatst in Diensten | Reacties uitgeschakeld voor Presentatie BJTR-tijdreeksmodellering

Tijdreeksanalyse – tijdreeksmodellen, wat is van belang?

Tijdreeksanalist (TRG) heeft een uitgebreide toolbox om een scala van mogelijke tijdreeksmodellen te analyseren om het beste model te kunnen selecteren uit de klasse van Box-Jenkins en ‘hydrologische’ modellen. Belangrijke vragen die bij een goed tijdreeksmodel gesteld moeten worden zijn:

  • Hoe beschrijft het tijdreeksmodel de meetwaarden
  • Zijn de modelparameters en hun onzekerheden optimaal geschat
  • Zijn alle invloedsfactoren in de modellering meegenomen
  • Is de te onderzoeken invloedsfactor voldoende veranderd
  • Zijn de invloedsfactoren voldoende niet onderling gecorreleerd
  • Wat is de bijdrage van de afzonderlijke invloedsfactoren in de modellering
  • Is de bijdrage van het ruismodel niet te groot
  • Is gekozen voor een passende tijdsbasis van de modellering
  • Is er geen correlatie van de ruis met het deterministische deel van het model
  • Is er geen correlatie van de ruis met de invloedsfactoren
  • Zijn de residuen\innovaties normaal verdeeld
  • Is er geen autocorrelatie tussen de residuen
  • Is er geen correlatie tussen de residuen en het deterministische modeldeel
  • Is er geen correlatie tussen de ruis en het deterministische modeldeel
  • Is er geen correlatie tussen de residuen en de invloedsfactoren
  • Is er geen heteroscedasticiteit
  • Wat zijn de onzekerheden van de modelparameters
  • Zijn de modelparameters significant
  • Hoe goed zijn de modelsimulaties en wat is de onzekerheid
  • Wat zijn de verschillen tussen de verschillende mogelijke tijdreeksmodellen in het beschrijven van de meetwaarden
  • Hoe goed zijn de modelvoorspellingen en wat is de onzekerheid
  • Zijn de statistische relaties en zijn de modelparameters ook causaal te interpreteren

Wij vinden dat een uitgebreide toolbox nodig is en behulpzaam moet zijn om bovenstaande vragen te beantwoorden en om de onderzoeker te behoeden voor de vele valkuilen van de tijdreeksanalyse.

Een residuenanalyse, met toetsen op normaliteit en geen autocorrelatie, is onontbeerlijk om objectief statistische uitspraken te doen over de significantie van de statistische relaties. Als modelparameters niet optimaal zijn en er wordt niet voldaan aan alle randvoorwaarden dan kunnen op basis van het afgeleide tijdreeksmodel er geen goede schattingen gegeven worden van betrouwbaarheidsintervallen van modelparameters, relaties en voorspellingen. Tegenwoordig wordt er veelal op dagbasis gemodelleerd en dan is het alleen mogelijk met een uitgebreid ruismodel te voldoen aan de randvoorwaarden, zie ook hoogfrequente tijdsreeksmodellering.

Wij stellen:

  1. De reden om tijdreeksanalyse toe te passen is om de data te laten spreken
  2. Houd van de data en wantrouw je modellen!

Zie verder Tijdreeksanalist (TRG)

Geplaatst in Alle categorieen, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Tijdreeksanalyse – tijdreeksmodellen, wat is van belang?