Goodness-of-fit of Fitness-for-use?

Presentatie op 16 juni 2022

Op de discussiemiddag van de Werkgroep Tijdreeksanalyse van de NHV met het onderwerp ‘Goodness-of-fit’ of ‘Fitness-for-use’ brengen we naar voren hoe in hydrologisch Nederland verschillend wordt gedacht over wat de beste modelkeuze is. Aan de orde komt o.a. de meerwaarde van een uitgebreid ruismodel, de EVP als ‘Goodness-of-fit’-maat en de modelidentificatie. De modelidentificatie is een wezenlijk onderdeel van de Box-Jenkins methode. Bij de PIRFICT-methode wordt gekozen voor een hydrologische transferfunctie.

NHV_16juni2022

Verontrustend is dat verschillende tijdreeksanalyseprogramma’s significant verschillende uitkomsten kunnen geven. Wat zijn daar de oorzaken van? Meer informatie vind je op De wezenlijke verschillen tussen de PIRFICT- en de BJTR-tijdreeksmodellering.

Geplaatst in Diensten | Reacties uitgeschakeld voor Goodness-of-fit of Fitness-for-use?

De wezenlijke verschillen tussen de PIRFICT- en de BJTR-methode

In de STOWA handleiding tijdreeksanalyse is een scheiding aangebracht tussen twee methoden van tijdreeksanalyse de PIRFICT- en de BJTR-modellering. Was die scheiding noodzakelijk?

De wezenlijke verschillen tussen de PIRFICT- en de BJTR-modellering zijn:

  • Niet-equidistante modellering versus equidistante modellering van meetreeksen. Bij niet-equidistante modellering is er geen verwerking van de meetreeksen nodig bij equidistante modellering kunnen daarentegen statistische analyses uitgevoerd worden.
  • Een indirecte schattingsroutine versus een directe schattingsroutine, zie onderstaand schema in figuur 1.
  • Verificatie op basis van ‘goodness-of-fit’ en plausibiliteit versus ‘goodness-of-use’, maten voor de pasvorm, zoals maximalisatie EVP, versus bruikbaarheid door het voldoen aan statistische randvoorwaarden, zoals witte ruis en minimalisatie a(t) .
  • Geen identificatie maar een klasse  van voorgedefinieerde functies versus modelidentificatie van een klasse passende modellen, zoals Box-Jenkins of voorgedefinieerde functies.
  • AR(1)-ruismodel versus een uitgebreid ARMA(*,*)-ruismodel om ook bij hoogfrequente tijdreeksmodellering te voldoen aan de statistische modelvoorwaarden.
  • Modellering op dagbasis versus modellering op een tijdseenheid waarbij modellen voldoen aan de statistische modelvoorwaarden.

Figuur 1: Stroomschema modelparameteroptimalisatie indirecte methode van PIRFICT (Hydromonitor/Menyanthes en PASTAS) en de directe methode van BJTR (Tijdreeksanalist)

Stroomschema modelparameteroptimalisatie

Bij de PIRFICT-modellering (Hydromonitor/Menyanthes en PASTAS) met toepassing van een ruismodel wordt bij een parameterset ϑ eerst de ‘residuals’ N(t|ϑ) bepaald en uit de N(t|ϑ) worden vervolgens de ‘noise’ e(t|ϑ) berekend. Bij BJTR-modellering (Tijdreeksanalist) is de ruis N(t|ϑ) een latente variabele en herschreven als een som van de residuen a(t|ϑ). De ruis is daarmee, als de residuen niet gecorreleerd zijn, niet gecorreleerd met het deterministische deel (detmodel) van het model. De ‘noise’ e(t|ϑ) en de residuen a(t|ϑ) verschillen en daarmee de schatting van de parameterset ϑ. De directe schattingsroutine van de BJTR-modellering is optimaal, de indirecte schattingsroutine van de PIRFICT-modellering geeft onzuivere schattingen.

Een veel genoemd verschil is fysisch versus statistisch. Dit is echter een synthetisch verschil. Het principe is altijd dat parameters van een tijdreeksmodel op basis van data geoptimaliseerd worden en het is altijd van belang om het tijdreeksmodel zo goed mogelijk te kiezen afhankelijk van het onderzoeksdoel. Bij het optimaliseren van een model moet er altijd voldaan worden aan wiskundige/statistische voorwaarden van een bruikbaar model. Een fysisch model wordt dan ook stochastisch.

De EVP is een belangrijke ‘Goodness-of fit’-maat voor de modelkeuze bij PIRFICT. De EVP wordt voorgesteld als de ‘verklaarde variantie’ van het deterministische deel van het tijdreeksmodel. Deze maat gaat uit van geen correlatie tussen het deterministische deel en de ruis N(t|ϑ). Vooral bij hoogfrequente tijdreeksanalyse is er bij PIRFICT veelal sprake van een positieve correlatie en daarmee wordt de EVP overschat. Een bekend fenomeen is dat het ruismodel schadelijk is voor de EVP, maar dit wordt veroorzaakt door de indirecte schattingsroutine (zie bovenstaande figuur). Bij de BJTR-methode is dit niet het geval en is het ruismodel daarentegen van wezenlijk belang om ook bij hoogfrequente tijdreeksanalyse te voldoen aan de statistische modelvoorwaarden.

Zie ook valkuil hoogfrequente tijdreeksanalyse en de Notebook ‘Hoezo Plausibel?’ (om de notebook in een browser te bekijken). De notebook toont uitkomsten van de PASTAS-PIRFICT-modellering zonder en met toepassing van het ruismodel als de werkelijkheid anders is dan een voorgedefinieerde functie, zoals de Gamma- of exponentiële verdelingsfunctie. Aan de orde komt modelverificatie, zuiverheid, bezettingsgraad en andere zaken die van belang zijn bij het testen van de PIRFICT-modellering. 

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor De wezenlijke verschillen tussen de PIRFICT- en de BJTR-methode

Modelidentificatie

De eerste stap bij het ontwikkelen van een tijdreeksmodel is het identificeren van zijn vorm. Het gaat dan om het deterministische modeldeel, de som van de transferfuncties van de afzonderlijke invoerreeksen. Bij de PIRFICT-methode wordt veelal op basis van expert judgement een voorgedefinieerde verdelingsfunctie, zoals de Gamma- of de Exponentiële verdelingsfuntie, gekozen. Bij de BJTR-methode wordt begonnen met de analyse van het gewitte kruiscorellogram van de uitvoerreeks (grondwaterstanden) bij elke invoerreeks.

Figuur 1: Kruiscorellegram grondwaterstanden B16D0001 en PNO op dagbasis

In de handleiding STOWA hoofdstuk 4 wordt uitgebreid besproken hoe op basis van de visuele beoordeling van het kruiscorellogram een ARMA-transfermodel gepostuleerd kan worden. Een goede keuze zou in dit geval zijn een ARMA(1,4)-model (1 delta, 4 omega’s). Een alternatieve mogelijkheid is om te kiezen voor een MA(s)-model (s aantal omega’s) en daarbij de empirische verdelingsfunctie te schatten. Is er één invoerreeks (PNO) dan is een eerste modelkeuze dus BJ(1,4); het ARMA(*,*)-ruismodel wordt in de verificatiefase ontwikkeld.

Ook bij de PIRFICT-methode zou op basis van de empirische verdelingsfunctie voor één van de voorgedefinieerde verdelingsfunctie kunnen worden gekozen. Duidelijk is dat de vorm van de gekozen verdelingsfunctie overeen moet komen met de empirische verdelingsfunctie om geen grote onzuiverheid te bewerkstelligen. De Gamma-verdelingsfunctie lijkt een logische keuze.

De schatting van de evenwichtsrelatie (het oppervlakt onder de curve) met de Gamma-verdelingsfunctie is ruim 40% kleiner dan die bij de schatting van de empirische verdelingsfunctie BJ(0,100). Het optimum wordt goed beschreven, maar de exponentiële daling van de Gamma-verdelingsfunctie is in mindere mate aanwezig in de empirische verdelingsfunctie. De schatting van de evenwichtsrelatie verschilt tussen de twee BJ-modellen minder dan 5%.

Figuur 2: Kruiscorellogram met de transferfuncties van Gamma en 2 Box-Jenkins modellen

De identificatiestap in het proces van de zoektocht naar het beste model blijkt niet onbelangrijk te zijn. Voor de PIRFICT-methode zou de bepaling van de empirische verdelingsfunctie een belangrijke aanvulling kunnen zijn voor de beste keuze van een voorgedefinieerde functie. Duidelijk wordt hiermee ook waarom uitkomsten van schattingen van de evenwichtsrelatie van de PIRFICT- en de BJTR-methode sterk met elkaar kunnen verschillen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Modelidentificatie

Nieuwe versie Tijdreeksanalist

De nieuwste versie is van 30 maart 2022 versie 6.0.15.

De gebruiksvriendelijkheid is verbeterd in verband met de ontwikkeling van de  handleiding tijdreeksanalyse (STOWA). Nieuw is dat nu gemakkelijk bij de tijdreeksanalyses de bijbehorende neerslag- en verdampingsmeetreeksen direct van KNMI-website met de weerstations en de neerslagstations gedownload  kunnen worden.

Met onderstaande dowloadmogelijkheid stellen we de probeer- of oefenversie van Tijdreeksanalist beschikbaar. Deze versie heeft de volledige functionaliteit. Voorbeeldbestanden met instructies zijn meegeleverd. Verschillende modelleringen van de STOWA-handleiding kunnen nagespeeld worden zowel van de BJTR- als de Pirfict-modelleringen.

Download probeer- of oefenversie Tijdreeksanalist (voor de toegang leveren we een wachtwoord).

De export van modelresultaten is uitgebreid met de mogelijk een rapport van de tijdreeksanalyse van een tijdreeksanalysesessie te genereren. Voorbeeld van een rapportage van een modellering met grafieken van de residuen- en ruisanalyse, simulaties en voorspellingen:

rapport_B16D_14dag_PNO

Versie 6 is ontwikkeld met de Matlab Compiler van augustus 2017.

In versie 5 is de modelresiduenanalyse uitgebreid met toetsen voor geen heteroscedasticiteit, met de Engle-toets en de Breusch-Pagan-toets. De Engle-toets toetst of de variantie van de modelresiduen constant is in de tijd. De Breusch-Pagan-toets toetst of de variantie van de modelresiduen onafhankelijk is van modelwaarden. Beide toetsen zijn extra belangrijke analysemogelijkheden voor het ontwikkelen van een betrouwbaar tijdreeksmodel.

Een nieuwe functionaliteit van Tijdreeksanalist is ook het ruimtelijk presenteren van tijdreeksanalyseresultaten. Per meetpunt kan informatie over de modellering opgevraagd worden. Niet onbelangrijk is daarbij de ‘gain’ of evenwichtsrelatie (de verandering van de uitvoervariabele bij een verhoging met een eenheid van de invoervariabele) met de bijbehorende standaardfout die aangeeft of een bijdrage van een invoervariabele significant is. Bij een betrouwbaar tijdreeksmodel, waarbij de modelresiduen normaal verdeeld zijn en geen autocorrelatie bevatten, is ook de evenwichtsrelatie normaal verdeeld. In het onderstaande voorbeeld mogen we met 95% betrouwbaarheid aannemen dat de bijdrage van zowel het neerslagoverschot als de winning significant is.

Als er sprake is van autocorrelatie van modelresiduen dan wordt de standaardfout van de evenwichtsrelatie onderschat. Wij stellen dat zonder een goed ruismodel afgeleide betrouwbaarheden onbruikbaar zijn. Zie ook voor de ontwikkeling van een betrouwbaar tijdreeksmodel Interactieve tijdreeksmodelontwikkeling.

Tijdreeksanalist (TRG) is een programma in ontwikkeling sinds 2005.

Geplaatst in Alle categorieen, Download, Tijdreeksanalist | Getagged , | Reacties uitgeschakeld voor Nieuwe versie Tijdreeksanalist

Wiskundige modellering, machinaal leren en datamining

Naast statistische tijdreeksanalyse (zie Tijdreeksanalist)  en afhankelijk van de probleemstelling passen we ook wiskundige datamodellering toe. De wiskundige modellen zijn gerelateerd aan statistiek, maar richten zich meer op complexe processen en grote datasets. Tot voor kort was het toepassen van een neuraal netwerk populair voor het modelleren van niet-lineaire complexe processen. Inmiddels zijn er vele (vaak betere) mogelijkheden om met Machinaal Leren (Machine Learning) of datamining (complexe) processen te beschrijven, statistische verbanden en patronen te zoeken en te classificeren. Let wel het is een kunst, meer dan het toepassen van technieken en methoden.

Random Forest (Breiman, 2001) is zo’n goede methode uit het werkveld Machinaal Leren. Random Forest is vooral een geschikte methode als er in de dataset sprake is van multicollineariteit, interacties tussen predictoren en niet-lineaire verbanden. Random Forest kan ook overweg met niet-numerieke (ordinale en nominale) predictoren en ongebalanceerde data, waarbij gebeurtenissen onevenredig verdeeld zijn, zoals bij storingen en calamiteiten. Een mooie toepassingsmogelijkheid is het modelleren van storingen in waterleidingen/ het schatten van faalkansen. Random Forest heeft bijzonder goede eigenschappen voor:

  • Het voorspellen of het schatten van kansen op gebeurtenissen
  • Het imputeren van ontbrekende waarden in een dataset
  • Het detecteren van de belangrijkste invloedsfactoren (predictoren) voor gebeurtenissen in een dataset; bij waterleidingen is dat de leeftijd, het materiaal en de omgeving
  • Het detecteren van verdachte gebeurtenissen of veranderingen in een dataset
  • Het detecteren van patronen of de classificatie van verbanden of kenmerken in een dataset.

Met veel succes hebben wij Random Forest (op basis van beslissingsbomen (decision trees)) toegepast op het imputeren/voorspellen van waarden in meetreeksen voor waterschap De Dommel en in de RIWA-base (zie Imputeren van ontbrekende waarden in RIWA-base, pagina 13, met een uitgebreide uitleg van de methodiek en de meest geschikte instellingen). Zie ook Het principe van de werking van Random Forest.

Een elegante methodiek om met Random Forest de beste predictors te kiezen is met VI (Variable Importance). De onderstaande figuur is een VI-plot met boxplots van de VI van 25 predictoren in het Random Forest model voor het imputeren/voorspellen van de watertemperatuur (120) bij Andijk. De predictors zijn langs de horizontale as gesorteerd op basis van de absolute waarde van de  Spearman-rangcorrelatiecoëfficiënt met de watertemperatuur bij Andijk. Negatieve VI’s impliceren onnauwkeurige imputaties/voorspellingen.

VI

Heeft u een grote dataset en onderzoeksvragen? Wenst u een datavalidatie van uw databasegegevens van uw proces? We kunnen er voor zorgen dat uw gegevens (‘ruwe data’) betrouwbaar en bruikbaar worden. Heeft u vragen over de kans op bepaalde gebeurtenissen, storingen of calamiteiten? We helpen we u graag aan de gewenste informatie.

Heeft u marketing datasets? Heeft u vragen over het koopgedrag van uw klanten? Revenue management of yield management? Ook dan kunnen we er voor zorgen dat uw bedrijf in staat is om weloverwogen en onderbouwde beslissingen te nemen.

Geplaatst in Diensten, Onderzoeksprojecten, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Wiskundige modellering, machinaal leren en datamining

Nieuwe versie Trendanalist

Versie 6.0.14, 5 januari 2022

Trendanalist is ontwikkeld in de programmeeromgeving van Matlab en een standalone versie 6.0 is beschikbaar voor de 64-bits versie van Windows 7, 8, 10 en 11.

Download Trendanalist (voor de toegang leveren we een wachtwoord)

De afgelopen jaren hebben we verschillende (statistische) trendanalyses uitgevoerd op waterkwaliteitsmetingen en biologische gegevens. We hebben daarbij veel ervaring opgedaan met meetreeksen met veel missende waarden (gaten) of gecensureerde waarden met verschillende rapportagegrenzen. Op basis van onze ervaringen, theoretisch en empirisch onderzoek hebben we Trendanalist robuuster, efficiënter en gebruiksvriendelijker gemaakt. Zie ook Waarom trendanalyses met Trendanalist? en Vernieuwingen in Trendanalist.

Enkele specificaties Trendanalist

  •  Het kan trendanalyses van grote aantallen meetreeksen – zoals van een milieumeetnet – uitvoeren en daarbij optimaal rekening houden met de karakteristieken van elke afzonderlijke meetreeks, zoals een niet-normale kansverdeling, seizoenseffecten, autocorrelatie, ontbrekende en gecensureerde waarden.
  • Het interne expertsysteem van het programma maakt daartoe per meetreeks een keuze uit verschillende lineaire modellen (LR*) met seizoen- en ruismodelleringen en verschillende vormen van de Mann-Kendall-toets (MK*). De toetsvormen verschillen voor wat betreft het verdisconteren van seizoenseffecten en/of autocorrelatie.
  • De keuze is zodanig dat de toets op trend niet alleen statistisch verantwoord is voor de betreffende reeks, maar ook het hoogste onderscheidend vermogen heeft van alle trendtoetsen die statistisch verantwoord zijn voor de reeks.
  • Het kan volledig automatisch honderden meetreeksen sequentieel analyseren.
  • Dankzij het interne expertsysteem is statistische kennis geen vereiste meer bij de trendanalyse.

Stroomschema (compacte versie)

Hoofdlijnen van de procedure om de meest geschikte trendtoets voor een meetreeks te selecteren.

Geplaatst in Alle categorieen, Download, Trendanalist | Getagged , , | Reacties uitgeschakeld voor Nieuwe versie Trendanalist

Presentatie BJTR-tijdreeksmodellering

Presentatie op 7 oktober 2021

In de STOWA handleiding tijdreeksanalyse is de BJTR-tijdreeksmodellering (Tijdreeksanalyse volgens de Box-Jenkins methode) beschreven door Paul Baggelaar. Het onderstaande was zijn powerpoint-presentatie.

In de STOWA handleiding is een onderscheid gemaakt tussen de Pirfict- en de BJTR-tijdreeksmodellering. Was deze scheiding noodzakelijk? Zie De wezenlijke verschillen tussen de Pirfict- en de BJTR-tijdreeksmodellering.

Presentatie_BJ-tra

Geplaatst in Diensten | Reacties uitgeschakeld voor Presentatie BJTR-tijdreeksmodellering

Valkuil hoogfrequente tijdreeksmodellering

Modellering van relatief hoog frequente metingen met een eenvoudig ruismodel

Door de introductie van automatische loggers kunnen op uurbasis al grondwaterstanden gemeten worden. We zien veelal dat tijdreeksanalyse wordt uitgevoerd op grondwaterstanden, neerslag- en verdampinggegevens op dagbasis. We beschouwen de tijdreeksmodellering van grondwaterstanden op een relatief kleine tijdsbasis in vergelijking met het grondwaterproces. Bij relatief hoog frequente  grondwaterstandmetingen in vergelijking met de processnelheid is er sprake van een hoge autocorrelatie van bijna één. In het onderstaande bespreken we het fenomeen ‘unit-root’, de valkuil bij hoogfrequente tijdreeksmodellering met een eenvoudig ruismodel.

Voor het uitvoeren van de continue tijdreeksanalyse volgens de methode PIRFICT wordt het volgende algemene model toegepast:

(1)   \begin{equation*}\begin{align} Z(t) = detmodel(t;p)+N(t) \\N(t) = \phi(\Delta t).N(t-\Delta t)+ a(t) \end{align}\end{equation*}

voor de ruisparameter geldt \phi als functie van \Delta t en \alpha:

(2)   \begin{equation*} \phi(\Delta t) = exp(-\frac 1\alpha.\Delta t )\end{equation*}

waarin Z(t) de grondwaterstand is op tijdstip t , model(t;p) het hydrologische deterministische model, N(t) het ruismodel, a(t) het residu en \Delta t het meetinterval tussen opeenvolgende metingen op tijdstip t-1 en t. Het deterministische model is een superpositie van transferfuncties van variabelen, zoals de neerslag, verdamping en onttrekking.    

 ‘Unit root’-probleem

Bij een modellering van grondwaterstanden op een kleine tijdsbasis, met een autocorrelatie van bijna één is bij de PIRFICT-modellering de (afgeleide) modelparameter \phi(\Delta t) ook bijna één. Als we stellen dat \phi(dt) gelijk is aan één dan geldt voor bovenstaande vergelijking [1]:

(3)   \begin{equation*}\begin{align} Z(t) = detmodel(t;p)+N(t)  \\N(t) = N(t-\Delta t)+ a(t) \end{align}\end{equation*}

Door N(t), N(t-1), … uit te schrijven (\Delta t=1) geldt voor (3):

(4)   \begin{equation*}\begin{align} Z(t) = detmodel(t;p)+\sum _{i=1}^{t}  {a(i)}\end{align}\end{equation*}

We mogen veronderstellen dat het residu a(t) voor verschillende waarden voor t niet negatief gecorreleerd zijn en dan geldt: 

(5)   \begin{equation*}\begin{align} var(\sum_{i=1}^{t}{a(i)}) >= \sum _{i=1}^{t} {var(a(i))} = t.var(a)\end{align}\end{equation*}

Dit soort modellen hebben een oneindig grote variantie voor t naar oneindig en genereren dus niet-stationaire voorspellingen. Het is een bekend fenomeen in de tijdreeksanalyse en wordt het ‘unit root’-probleem genoemd en men spreekt daarbij over random-walk modellen. Vanwege de autocorrelatie van de innovaties (het ‘>=’-teken in vergelijking [5]) speelt ook bij een ruisfactor van bijna één het ‘unit-root’-probleem.   

Figuur 1: Voorbeeld van een random-walk proces met 10 simulaties met een tijdreeksmodel voor GWS met neerslag en verdamping, beide op dagbasis en met een ruisfactor van bijna één.

De ruis is gecorreleerd met de grondwaterstanden

Bij grote autocorrelatie van de grondwaterstanden en een ruisfactor \phi(\Delta t) van bijna 1 is de ruis N(t) gecorreleerd met de grondwaterstanden Z(t). De ruis beschrijft voornamelijk het hoogfrequente grondwaterproces en het deterministische model beschrijft een onderliggend grondwaterproces. De modelfit wordt voornamelijk bepaald door het ruismodel. De deterministische modelkeuze is daarentegen bepalend voor de uitkomsten van de tijdreeksmodellering. Uitkomsten lijken plausibel, maar relaties tussen de grondwaterstanden en de invoervariabelen worden bepaald door de modelvorm met daarin voorgedefinieerde transferfuncties. De onderstaande figuur toont een goede modelfit, maar de modelruis heeft hetzelfde patroon als de gemeten grondwaterstanden en daarmee kan er weinig waarde toegekend worden aan het model, de bijbehorende decompositie, hoe plausibel die ook zijn.

Figuur 2: Voorbeeld van hetzelfde tijdreeksmodel als in figuur 1. De tijdreeks van de ruis lijkt op die van de grondwaterstanden met een correlatie van 0.8. Het ogenschijnlijk plausibele deterministische model kan sterk verbeterd worden.
Figuur 3: Bijbehorende decompositie van de effecten van de neerslag en de verdamping van het model.

Samenvattend

Bij hoogfrequente tijdreeksmodellering met een eenvoudig ruismodel met een ruisfactor van bijna één speelt het ‘unit root’-probleem en is de ruis gecorreleerd met de uitvoervariabele. De modelresultaten lijken plausibel, maar ze geven een beschrijving van de werkelijkheid die bepaald wordt door de deterministische modelkeuze. Een voorbeeld van een PASTAS-modellering waar een unit-root probleem speelt, is issue152. Tevens wordt aangetoond dat bij een modellering op dagbasis met een noise_alpha>=10 er al sprake is van onzuivere schattingen van modelparameters en hun varianties. Zie ook de De wezenlijke verschillen tussen de PIRFICT- en de BJTR-methode

Vanwege de grootte van de correlatie van de ruis met de grondwaterstanden voldoen de modelresiduen of innovaties niet aan de voorwaarden van witte ruis en daarmee kunnen met deze hoogfrequente tijdreeksmodellen geen betrouwbaarheden van de parameters en relaties en onzekerheden van voorspellingen goed geschat worden.

Ons advies is kies een uitgebreid ruismodel of een tijdsbasis in de tijdreeksmodellen die past bij de processnelheid en voer modelverificatie uit op innovaties en ruis (met toetsen op normaliteit en autocorrelatie), zie de voorgestelde werkprocedure voor het verbeteren van de zeggingskracht van de hydrologische tijdreeksanalyse. Tijdreeksanalist bevat een uitgebreide ruismodellering en de parameterschattingsroutine genereert zuivere schattingen voor de modelparameters en hun covariantiematrix.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Valkuil hoogfrequente tijdreeksmodellering

Tijdreeksanalyse – tijdreeksmodellen, wat is van belang?

Tijdreeksanalist (TRG) heeft een uitgebreide toolbox om een scala van mogelijke tijdreeksmodellen te analyseren om het beste model te kunnen selecteren uit de klasse van Box-Jenkins en ‘hydrologische’ modellen. Belangrijke vragen die bij een goed tijdreeksmodel gesteld moeten worden zijn:

  • Hoe beschrijft het tijdreeksmodel de meetwaarden
  • Zijn de modelparameters en hun onzekerheden optimaal geschat
  • Zijn alle invloedsfactoren in de modellering meegenomen
  • Is de te onderzoeken invloedsfactor voldoende veranderd
  • Zijn de invloedsfactoren voldoende niet onderling gecorreleerd
  • Wat is de bijdrage van de afzonderlijke invloedsfactoren in de modellering
  • Is de bijdrage van het ruismodel niet te groot
  • Is gekozen voor een passende tijdsbasis van de modellering
  • Is er geen correlatie van de ruis met het deterministische deel van het model
  • Is er geen correlatie van de ruis met de invloedsfactoren
  • Zijn de residuen\innovaties normaal verdeeld
  • Is er geen autocorrelatie tussen de residuen
  • Is er geen correlatie tussen de residuen en het deterministische modeldeel
  • Is er geen correlatie tussen de ruis en het deterministische modeldeel
  • Is er geen correlatie tussen de residuen en de invloedsfactoren
  • Is er geen heteroscedasticiteit
  • Wat zijn de onzekerheden van de modelparameters
  • Zijn de modelparameters significant
  • Hoe goed zijn de modelsimulaties en wat is de onzekerheid
  • Wat zijn de verschillen tussen de verschillende mogelijke tijdreeksmodellen in het beschrijven van de meetwaarden
  • Hoe goed zijn de modelvoorspellingen en wat is de onzekerheid
  • Zijn de statistische relaties en zijn de modelparameters ook causaal te interpreteren

Wij vinden dat een uitgebreide toolbox nodig is en behulpzaam moet zijn om bovenstaande vragen te beantwoorden en om de onderzoeker te behoeden voor de vele valkuilen van de tijdreeksanalyse.

Een residuenanalyse, met toetsen op normaliteit en geen autocorrelatie, is onontbeerlijk om objectief statistische uitspraken te doen over de significantie van de statistische relaties. Als modelparameters niet optimaal zijn en er wordt niet voldaan aan alle randvoorwaarden dan kunnen op basis van het afgeleide tijdreeksmodel er geen goede schattingen gegeven worden van betrouwbaarheidsintervallen van modelparameters, relaties en voorspellingen. Tegenwoordig wordt er veelal op dagbasis gemodelleerd en dan is het alleen mogelijk met een uitgebreid ruismodel te voldoen aan de randvoorwaarden, zie ook hoogfrequente tijdsreeksmodellering.

Wij stellen:

  1. De reden om tijdreeksanalyse toe te passen is om de data te laten spreken
  2. Houd van de data en wantrouw je modellen!

Zie verder Tijdreeksanalist (TRG)

Geplaatst in Alle categorieen, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Tijdreeksanalyse – tijdreeksmodellen, wat is van belang?

Naar betere tijdreeksmodellering met Pastas

Bij de toepassing van ‘de Pirfict-tijdreeksanalyse worden in toenemende mate resultaten gegeven met gekwantificeerde betrouwbaarheden van modelparameters, statistische significanties van de relaties tussen de grondwaterstand en invloedsfactoren en toekomstige grondwaterstanden. Dergelijke statistische toepassingen zijn in principe pas te verantwoorden als er ook aan een aantal randvoorwaarden wordt voldaan, zoals de innovaties zijn op te vatten als onafhankelijke trekkingen uit dezelfde normale kansverdeling (aangeduid als witte ruis). Aangezien er doorgaans wordt gemodelleerd met hoogfrequente meetreeksen van grondwaterstanden is er veelal sprake van een dusdanige autocorrelatie dat er niet aan deze voorwaarden wordt voldaan.

De onderstaande voorgestelde werkprocedure geeft de stappen om te verzorgen dat Pirfict-tijdreeksanalyse ook daadwerkelijk statistisch verantwoorde tijdreeksanalyse wordt.


Stroomschema voorgestelde werkprocedure om met Pastas te modelleren

Het verifiëren van een tijdreeksmodel is een belangrijk onderdeel van de werkprocedure. Voor de Pirfict-tijdreeksanalyse met Pastas hebben we een verificatie-module ontwikkeld om ook voor Pastas-gebruikers de gewenste statistische toetsen (zoals een normaliteitstoets en de Portmanteau-toets), die ook toepasbaar zijn op niet-equidistante tijdreeksen, beschikbaar te stellen om de voorgestelde werkprocedure uit te kunnen voeren:

Test of innovationsTest (confidence)ResultDetail
D’Agostino-K2    normality    (99%)Yes p=0.29
Portmanteau      no autocorr. (95%)Yes 15.35<23.68
Engle            homosced.    (95%)Yes p=0.61

Uit ons onderzoek, zie ons rapport Naar betere tijdreeksmodellering met Pastas, blijkt tevens dat de onzuiverheid van geschatte grootheden, zoals de evenwichtsrelatie, flink kan oplopen zodra een gesimuleerde werkelijkheid iets verschilt met een verdelingsfunctie (gamma, exponentieel, ..), waar Pastas van uit gaat. Die onzuiverheid neemt toe bij toepassingen van het ruismodel én naarmate de ruisfactor/noise_alpha groter wordt, zie bijvoorbeeld issue 235 (met schattingsfouten van de werkelijke evenwichtsrelatie van meer dan 50%!). In een recent vervolgonderzoek is naar voren gekomen dat die onzuiverheid wordt veroorzaakt door verkeerde keuzes in de parameterschattingsmethode van Pastas.

Als een vervolg op ons onderzoek hebben we een notebook in Python ontwikkeld. In de notebook worden PASTAS-tijdreeksmodellen zonder en met een ruismodel met elkaar vergeleken in het schatten van een gesimuleerde werkelijkheid. De modellen worden getest op zuiverheid en de dekkingsgraad wordt bepaald. De notebook bevat de verificatiemodule voor het toetsen of de modellen voldoen aan de randvoorwaarden, zoals geen autocorrelatie, van een goed onderbouwd model. Zie ook De wezenlijke verschillen tussen de Pirfict en BJTR-tijdreeksmodellering en Hoezo plausibel?.

Zie ook Tijdreeksanalist, onze applicatie met Box-Jenkins en modelleringen op basis van verdelingsfuncties, met ARMA-ruismodellering en met uitgebreide identificatie-, verificatie- en modelanalysemogelijkheden. In Tijdreeksanalist is een optimale parameterschattingsmethode geïmplementeerd voor optimale tijdreeksmodellen voor het beschrijven en voorspellen ven processen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Naar betere tijdreeksmodellering met Pastas