Nieuwe versie Tijdreeksanalist, Box-Jenkins methode

De nieuwste versie is van 7 juni 2024 versie 6.0.23.

Tijdreeksanalist bevat een grote set van kandidaatmodellen om een tijdreeksanalyse uit te kunnen voeren. Met de discrete Box-Jenkins methode kunnen zowel ARMA- als hydrologische functies gemodelleerd worden. De rapportage van tijdreeksanalyses is verder verbeterd en uitgebreid.

De gebruiksvriendelijkheid is verbeterd in verband met de ontwikkeling van de  handleiding tijdreeksanalyse (STOWA). Nieuw is dat nu gemakkelijk bij de tijdreeksanalyses de bijbehorende neerslag- en verdampingsmeetreeksen direct van KNMI-website met de weerstations en de neerslagstations gedownload  kunnen worden.

Met onderstaande dowloadmogelijkheid stellen we de probeer- of oefenversie van Tijdreeksanalist beschikbaar. Deze versie heeft de volledige functionaliteit. Voorbeeldbestanden met instructies zijn meegeleverd. Verschillende modelleringen van de STOWA-handleiding kunnen nagespeeld worden zowel van de BJTR- als de Pirfict-modelleringen.

Download probeer- of oefenversie Tijdreeksanalist (voor de toegang leveren we een wachtwoord).

De export van modelresultaten is uitgebreid met de mogelijk een rapport van de tijdreeksanalyse van een tijdreeksanalysesessie te genereren. Voorbeeld van een rapportage van een modellering met grafieken van de residuen- en ruisanalyse, simulaties en voorspellingen:

rapport_B16D_14dag_PNO

Versie 6 is ontwikkeld met de Matlab Compiler van augustus 2022.

In versie 5 is de modelresiduenanalyse uitgebreid met toetsen voor geen heteroscedasticiteit, met de Engle-toets en de Breusch-Pagan-toets. De Engle-toets toetst of de variantie van de modelresiduen constant is in de tijd. De Breusch-Pagan-toets toetst of de variantie van de modelresiduen onafhankelijk is van modelwaarden. Beide toetsen zijn extra belangrijke analysemogelijkheden voor het ontwikkelen van een betrouwbaar tijdreeksmodel.

Een nieuwe functionaliteit van Tijdreeksanalist is ook het ruimtelijk presenteren van tijdreeksanalyseresultaten. Per meetpunt kan informatie over de modellering opgevraagd worden. Niet onbelangrijk is daarbij de ‘gain’ of evenwichtsrelatie (de verandering van de uitvoervariabele bij een verhoging met een eenheid van de invoervariabele) met de bijbehorende standaardfout die aangeeft of een bijdrage van een invoervariabele significant is. Bij een betrouwbaar tijdreeksmodel, waarbij de modelresiduen normaal verdeeld zijn en geen autocorrelatie bevatten, is ook de evenwichtsrelatie normaal verdeeld. In het onderstaande voorbeeld mogen we met 95% betrouwbaarheid aannemen dat de bijdrage van zowel het neerslagoverschot als de winning significant is.

Als er sprake is van autocorrelatie van modelresiduen dan wordt de standaardfout van de evenwichtsrelatie onderschat. Wij stellen dat zonder een goed ruismodel afgeleide betrouwbaarheden onbruikbaar zijn. Zie ook voor de ontwikkeling van een betrouwbaar tijdreeksmodel Interactieve tijdreeksmodelontwikkeling.

Tijdreeksanalist (TRG) is een programma in ontwikkeling sinds 2005.

Geplaatst in Alle categorieen, Download, Tijdreeksanalist | Getagged , | Reacties uitgeschakeld voor Nieuwe versie Tijdreeksanalist, Box-Jenkins methode

Nieuwe versie Trendanalist

Versie 7.0.04, 5 juni 2024

Trendanalist is ontwikkeld in de programmeeromgeving van Matlab en een standalone versie 7.0 is beschikbaar voor de 64-bits versie van Windows 7, 8, 10 en 11.

Download Trendanalist (voor de toegang leveren we een wachtwoord)

De afgelopen jaren hebben we verschillende (statistische) trendanalyses uitgevoerd op waterkwaliteitsmetingen en biologische gegevens. We hebben daarbij veel ervaring opgedaan met meetreeksen met veel missende waarden (gaten) of gecensureerde waarden met verschillende rapportagegrenzen. Op basis van onze ervaringen, theoretisch en empirisch onderzoek hebben we Trendanalist robuuster, efficiënter en gebruiksvriendelijker gemaakt. Zie ook Waarom trendanalyses met Trendanalist? en Vernieuwingen in Trendanalist.

Enkele specificaties Trendanalist

  •  Het kan trendanalyses van grote aantallen meetreeksen – zoals van een milieumeetnet – uitvoeren en daarbij optimaal rekening houden met de karakteristieken van elke afzonderlijke meetreeks, zoals een niet-normale kansverdeling, seizoenseffecten, autocorrelatie, ontbrekende en gecensureerde waarden.
  • Het interne expertsysteem van het programma maakt daartoe per meetreeks een keuze uit verschillende lineaire modellen (LR*) met seizoen- en ruismodelleringen en verschillende vormen van de Mann-Kendall-toets (MK*). De toetsvormen verschillen voor wat betreft het verdisconteren van seizoenseffecten en/of autocorrelatie.
  • De keuze is zodanig dat de toets op trend niet alleen statistisch verantwoord is voor de betreffende reeks, maar ook het hoogste onderscheidend vermogen heeft van alle trendtoetsen die statistisch verantwoord zijn voor de reeks.
  • Het kan volledig automatisch honderden meetreeksen sequentieel analyseren.
  • Dankzij het interne expertsysteem is statistische kennis geen vereiste meer bij de trendanalyse.

Stroomschema (compacte versie)

Hoofdlijnen van de procedure om de meest geschikte trendtoets voor een meetreeks te selecteren.

Geplaatst in Alle categorieen, Download, Trendanalist | Getagged , , | Reacties uitgeschakeld voor Nieuwe versie Trendanalist

Verschillen tussen de PIRFICT- en de Box-Jenkins-tijdreeksanalysemethode

In de STOWA handleiding tijdreeksanalyse is een scheiding aangebracht tussen twee methoden van tijdreeksanalyse, de PIRFICT (Predefined Impulse Response Function In Continuous Time) en de Box-Jenkins (BJTR) modellering. De uitkomsten van de tijdreeksanalyse van de beide methoden kunnen daarbij nogal met elkaar verschillen. De directe verschillen tussen de continue PIRFICT- en de discrete Box-Jenkins methode zijn:

  • Verificatie op basis van ‘goodness-of-fit’ en plausibiliteit (zie ook essay) met maten voor de pasvorm, zoals maximalisatie R2 en EVP (verklaarde variantie?), versus ‘goodness-of-use’ met bruikbaarheid door het voldoen aan statistische randvoorwaarden, zoals witte ruis en minimalisatie modelresiduen (a(t)).
  • Keuze uit een aantal voorgedefinieerde transferfuncties versus modelidentificatie met een grote set kandidaatmodellen.
  • AR(1)-ruismodel versus een uitgebreid ARMA(*,*)-ruismodel om ook bij hoogfrequente tijdreeksmodellering te voldoen aan de statistische modelvoorwaarden.
  • Hydrologische plausibiliteit versus kwantificatie van onzekerheid.
  • Modellering op dagbasis versus modellering op een tijdseenheid waarbij modellen (met een uitgebreid ruismodel) voldoen aan de statistische modelvoorwaarden.
  • Toepassen van selectiecriteria, zoals de R2 of EVP>=70%, op meetreeksen voor het bewerkstelligen van ‘betrouwbare’ modellen versus ontwikkeling bruikbare modellen die voldoen aan statistische modelvoorwaarden.
  • Een indirecte suboptimale schattingsroutine versus een directe optimale schattingsroutine, zie onderstaand schema in figuur 1.

Figuur 1: Stroomschema modelparameteroptimalisatie van de indirecte methode van PIRFICT (Menyanthes en PASTAS) en de directe methode van Box-Jenkins (Tijdreeksanalist)

Bij PIRFICT (Menyanthes en PASTAS) met toepassing van een ruismodel wordt bij een parameterset ϑ eerst de ‘residuals’ r(t|ϑ) bepaald en uit de r(t|ϑ) worden vervolgens de ‘noise’ e(t|ϑ) berekend. Het is een indirecte schattingsmethode. Bij Box-Jenkins (Tijdreeksanalist) is de ruis een latente variabele en herschreven als een som van de residuen a(t|ϑ). De ruis is daarmee, als de residuen niet gecorreleerd zijn, niet gecorreleerd met het deterministische deel (detmodel) van het model. De ‘noise’ e(t|ϑ) en de residuen a(t|ϑ) verschillen en daarmee de schatting van de parameterset ϑ. De verificatie van beide modelleringen zijn daarbij wezenlijk verschillend met ‘Goodness-of-use’ bij Box-Jenkins versus ‘Goodness-of-fit’ bij PIRFICT dan wel bruikbaarheid versus pasvorm.

Een veel genoemd verschil is fysisch versus statistisch. Dit is echter een synthetisch verschil. Het principe is altijd dat parameters van een tijdreeksmodel op basis van data geoptimaliseerd worden en het is altijd van belang om het tijdreeksmodel zo goed mogelijk te kiezen afhankelijk van het onderzoeksdoel. Bij het optimaliseren van een model moet er altijd voldaan worden aan wiskundige/statistische voorwaarden van een bruikbaar model. Een hydrologisch/fysisch model wordt dan ook stochastisch en daarbij past het kwantificeren van onzekerheid.

De EVP en R2 zijn belangrijke ‘Goodness-of fit’-maat voor de modelkeuze bij PIRFICT. De EVP wordt voorgesteld als het ‘percentage verklaarde variantie’ van het deterministische deel van het tijdreeksmodel. Is EVP percentage verklaarde variantie? De EVP en R2 gaan uit van geen correlatie tussen het deterministische deel en de ‘residual’ r(t|ϑ). Vooral bij hoogfrequente tijdreeksanalyse is er bij PIRFICT veelal sprake van een positieve autocorrelatie en overschat de EVP de werkelijke verklaarde variantie. Correlaties is een wezenlijk probleem in tijdreeksanalyse voor het schatten van parameters met hun onzekerheid en de EVP is daarmee geen goede maat voor het beoordelen van een tijdreeksmodel. Hetzelfde geldt voor R2, een grootheid die gebruikt wordt bij lineaire regressie, waarbij wordt uitgegaan van onderling onafhankelijk metingen.

De R2 of EVP>=70% is daarbij een belangrijk selectiecriterium voor het bepalen van ‘betrouwbare’ modellen. Toepassing van selectiecriteria bij PIRFICT betekent dat in de orde van 50% van een steekproef van meetreeksen van peilfilters wordt weggeselecteerd. In een groot droogteonderzoek was dit zelfs 85%. De onderliggende reden is dat de transferfuncties van PIRFICT ongeschikt zijn voor het beschrijven van zwakke relaties (met een evenwichtsrelatie rond nul). In veel onderzoeken is het juist de vraag of er sprake is van een effect/invloed van bijvoorbeeld een winning of droogte. De set van kandidaatmodellen bij Box-Jenkins is veel groter en veel bruikbaarder om allerlei werkelijkheden goed te kunnen beschrijven.

Een bekend fenomeen is dat bij PASTAS het ruismodel schadelijk is voor de EVP. Bij de Box-Jenkins-methode is dit niet het geval. De oorzaak is het verschil van de indirecte schattingsroutine van PIRFICT met de directe schattingsroutine van Box-Jenkins (zie bovenstaande figuur 1).

Is het vanwege de niet-equidistantie van meetreeksen dat de continue PIRFICT-methode moet worden toegepast? Is de discrete Box-Jenkins-methode met extra mogelijkheden als modelidentificatie met een grote set van transferfuncties/kandidaatmodellen, statistische analysemogelijkheden, het uitgebreide ARMA-ruismodel en kwantificatie van onzekerheid, niet veel bruikbaarder? Tijdreeksanalist bevat al deze mogelijkheden.

Zie ook valkuil hoogfrequente tijdreeksanalyse en de Python-notebook ‘Hoezo Plausibel?’. De notebook toont uitkomsten van de PASTAS-modellering zónder en mét toepassing van het ruismodel als de werkelijkheid anders is dan een voorgedefinieerde functie, zoals de Gamma- of exponentiële verdelingsfunctie. Aan de orde komt modelverificatie, zuiverheid, bezettingsgraad en andere zaken die van belang zijn bij het testen van de goede werking van een tijdreeksmodel. Duidelijk wordt waarom uitkomsten van PASTAS-modellering zónder en mét een ruismodel zo van elkaar kunnen verschillen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Verschillen tussen de PIRFICT- en de Box-Jenkins-tijdreeksanalysemethode

Is EVP percentage verklaarde variantie?

Bij de PIRFICT-methode is de EVP (explained variance percentage) een belangrijke maat voor de modelbeoordeling. Maar is de EVP wel het percentage verklaarde variantie? Beschouw het volgende algemene tijdreeksmodel (zonder een ruismodel):

(1)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t)  \end{align}\end{equation*}

waarin Z(t) de grondwaterstand is op tijdstip t, detmodel(t|\theta) het deterministische modeldeel met modelparameters \theta, N(t) de ruis (residuals genoemd bij de PIRFICT-methode).

De EVP is bij de PIRFICT-methode als volgt gedefinieerd:

(2)   \begin{equation*}\begin{align} EVP = 1-var(N(t))/var(Z(t) \end{align}\end{equation*}

Nu geldt voor de variantie van de grondwaterstanden Z(t):

(3)   \begin{equation*}\begin{align} var(Z(t)) = var(detmodel(t|\theta)+N(t) ) \end{align}\end{equation*}

(4)   \begin{equation*}\begin{align} var(Z(t)) = var(detmodel(t|\theta))+var(N(t)) \\+2.covar(detmodel(t|\theta),N(t))\end{align}\end{equation*}

De verklaarde variantie door het deterministische model detmodel(t|\theta) is:

(5)   \begin{equation*}\begin{align} var(detmodel(t|\theta))/var(Z(t)) \end{align}\end{equation*}

(6)   \begin{equation*}\begin{align} = 1-var(N(t))/var(Z(t)) - 2.covar(detmodel(t|\theta),N(t))/var(Z(t))\end{align}\end{equation*}

(7)   \begin{equation*}\begin{align}\boxed {Verkl. Variantie = EVP -2.covar(detmodel(t|\theta),N(t))/var(Z(t))}\end{align}\end{equation*}

Een misvatting van de PIRFICT-tijdreeksmodellering is dat de EVP het percentage verklaarde variantie is van het model. De EVP is alleen gelijk aan het percentage verklaarde variantie als N(t) niet gecorreleerd is aan het deterministische modeldeel detmodel, maar dergelijke correlaties/covarianties treden vaak juist wél op bij een PIRFICT-tijdreeksmodellering! Zeker, als het gaat om hoogfrequente tijdreeksanalyse.

De R2 is een vergelijkbare maat als de EVP en ook daarvoor geldt dat het geen rekening houdt met de covariantie en is daarmee ook geen goede maat is voor een modelbeoordeling.

Minimalisatie van de variantie van de N(t) in (1) is dus niet hetzelfde als de maximalisatie van de EVP of R2. Beide maten nemen toe bij een positieve correlatie van N(t) met het deterministische modeldeel detmodel. Dit is ongewenst. Het principe van een juiste tijdreeksmodellering moet juist zijn, met toepassing van het uitgebreide ruismodel, te bewerkstelligen dat de N(t) niet gecorreleerd is met het deterministische modeldeel, want een correlatie/covariantie geeft onzuivere schattingen van relaties met hun betrouwbaarheidsintervallen. De EVP en R2 passen bij lineaire regressie met onderling onafhankelijk meetwaarden, maar zijn geen bruikbare maten voor de modelbeoordeling van tijdreeksmodellen.

De R2 of EVP>=0,7 is daarbij een belangrijk selectiecriterium voor het bepalen van betrouwbare PIRFICT-modellen. Toepassing van dit selectiecriterium bij PIRFICT betekent dat in de orde van 50% van een steekproef van meetreeksen van peilfilters wordt weggeselecteerd. Bij de Box-Jenkins-methode is deze selectie niet aan de orde én bij de modelbeoordeling wordt geverifieerd of er aan de vereiste modelveronderstellingen wordt voldaan.

Geplaatst in Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Is EVP percentage verklaarde variantie?

Goodness-of-fit of Fitness-for-use?

Presentatie op 16 juni 2022

Op de discussiemiddag van de Werkgroep Tijdreeksanalyse van de NHV met het onderwerp ‘Goodness-of-fit’ of ‘Fitness-for-use’ brengen we naar voren hoe in hydrologisch Nederland verschillend wordt gedacht over wat de beste modelkeuze is. Aan de orde komt o.a. de EVP als ‘Goodness-of-fit’-maat en de ‘Fitness-for-use’ van een uitgebreid ruismodel en modelidentificatie. Bij de PIRFICT-methode wordt op basis van expert-judgement gekozen voor een hydrologische transferfunctie. Bij de Box-Jenkins methode is de modelidentificatie op basis van een grote set van kandidaatmodellen een wezenlijk onderdeel.

NHV_16juni2022

Verontrustend is dat verschillende tijdreeksanalyseprogramma’s significant verschillende uitkomsten kunnen geven voor exact hetzelfde probleem. Wat zijn daar de oorzaken van? Wat gaat hier fout? Meer informatie vind je op De wezenlijke verschillen tussen de PIRFICT- en de BJTR-tijdreeksmodellering.

Geplaatst in Diensten | Reacties uitgeschakeld voor Goodness-of-fit of Fitness-for-use?

Identificatie tijdreeksmodel

De eerste stap bij het ontwikkelen van een tijdreeksmodel is het identificeren van zijn vorm. Het gaat dan om het deterministische modeldeel, de som van de transferfuncties van de afzonderlijke invoerreeksen. Bij de PIRFICT-methode wordt op basis van expert-judgement een voorgedefinieerde verdelingsfunctie, zoals de Gamma- of de Exponentiële verdelingsfuntie, gekozen. Bij de BJTR-methode wordt begonnen met de analyse van het gewitte kruiscorellogram van de uitvoerreeks (grondwaterstanden) bij elke invoerreeks. Het gewitte kruiscorellogram is in een bepaalde zin een empirische transferfunctie die zo goed mogelijk bij de data past.

Figuur 1: Kruiscorellegram grondwaterstanden B16D0001 en PNO op dagbasis

In de handleiding STOWA hoofdstuk 4 wordt uitgebreid besproken hoe op basis van de visuele beoordeling van het kruiscorellogram een ARMA-transfermodel gepostuleerd kan worden. Een goede keuze zou in dit geval zijn een ARMA(1,4)-model (1 delta, 4 omega’s). Een alternatieve mogelijkheid is om te kiezen voor een MA(s)-model (s aantal omega’s) en daarbij de empirische verdelingsfunctie te schatten. Is er één invoerreeks (PNO) dan is een eerste modelkeuze dus BJ(1,4); het ARMA(*,*)-ruismodel wordt in de verificatiefase ontwikkeld.

Ook bij de PIRFICT-methode zou op basis van het gewitte kruiscorellogram voor één van de voorgedefinieerde verdelingsfunctie kunnen worden gekozen. Duidelijk is dat de vorm van de gekozen verdelingsfunctie overeen moet komen met het gewitte kruiscorellogram om geen grote onzuiverheid te bewerkstelligen. De Gamma-verdelingsfunctie lijkt in bovenstaande geval een logische keuze.

De schatting van de evenwichtsrelatie (het oppervlakt onder de curve) met de Gamma-verdelingsfunctie is ruim 40% kleiner dan die bij de schatting van de empirische verdelingsfunctie BJ(0,100). Het optimum wordt goed beschreven, maar de exponentiële daling van de Gamma-verdelingsfunctie is in mindere mate aanwezig in de empirische verdelingsfunctie. Het verschil tussen de geschatte evenwichtsrelaties van de twee BJ-modellen is minder dan 5%.

Figuur 2: Kruiscorellogram met de transferfuncties van Gamma en twee Box-Jenkins modellen

De identificatiestap in het proces van de zoektocht naar het beste model blijkt niet onbelangrijk te zijn. Voor de PIRFICT-methode zou de bepaling van het gewitte kruiscorrellogram een belangrijke aanvulling kunnen zijn voor de beste keuze van een voorgedefinieerde functie. Duidelijk wordt – dat door alleen de modelidentificatiestap al – uitkomsten van schattingen van de evenwichtsrelatie van de PIRFICT- en de BJTR-methode sterk met elkaar kunnen verschillen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Identificatie tijdreeksmodel

Identificatie van de modelvorm

De eerste stap bij het ontwikkelen van een tijdreeksmodel is het identificeren van zijn vorm. Het gaat dan om het deterministische modeldeel, de som van de transferfuncties van de afzonderlijke invoerreeksen. Bij de PIRFICT-methode wordt veelal op basis van expert judgement een voorgedefinieerde verdelingsfunctie, zoals de Gamma- of de Exponentiële verdelingsfuntie, gekozen. Bij de BJTR-methode wordt begonnen met de analyse van het gewitte kruiscorellogram van de uitvoerreeks (grondwaterstanden) bij elke invoerreeks.

Figuur 1: Kruiscorellegram grondwaterstanden B16D0001 en PNO op dagbasis

In de handleiding STOWA hoofdstuk 4 wordt uitgebreid besproken hoe op basis van de visuele beoordeling van het kruiscorellogram een ARMA-transfermodel gepostuleerd kan worden. Een goede keuze zou in dit geval zijn een ARMA(1,4)-model (1 delta, 4 omega’s).

Een alternatieve mogelijkheid is om te kiezen voor een MA(s)-model (s aantal omega’s) en daarbij de empirische verdelingsfunctie te schatten. Als zo’n omegafunctie lijkt op een voorgedefinieerde functie dan komt die verdelingsfunctie in aanmerking. Een voorgedefinieerde functie is in wezen een gladde omegafunctie.

Figuur 2: Empirische verdelingsfunctie van het transfermodel van PNO

Ook bij de PIRFICT-methode zou ook op basis van de empirische verdelingsfunctie voor één van de voorgedefinieerde verdelingsfunctie kunnen worden gekozen. Duidelijk is dat de vorm van de gekozen verdelingsfunctie overeen moet komen met de empirische verdelingsfunctie om geen grote onzuiverheid te bewerkstelligen. In figuur 3 is gekozen voor de Gamma-verdelingsfunctie. Dit lijkt een logische keuze.

Figuur 3: Gamma-verdelingsfunctie van het transfermodel PNO

De schatting van de evenwichtsrelatie (het oppervlakt onder de curve) in figuur 3 met de Gamma-verdelingsfunctie is ruim 40% kleiner dan die bij de empirische verdelingsfunctie in figuur 2. Het optimum wordt goed beschreven, maar de exponentiële daling van de Gamma-verdelingsfunctie in figuur 3 is in mindere mate aanwezig in de empirische verdelingsfunctie van figuur 2.

Figuur 4: Figuren 1, 2 en 3 met elkaar vergeleken

Duidelijk is dat de Gamma verdelingsfunctie een onderschatting geeft van de invloed van PNO na 10 tijdstappen (10 dagen). Ook de exponentiële verdelingsfunctie zou op basis van de vorm van de empirische verdeling in aanmerking kunnen komen.

Figuur 4: Exponentiële verdelingsfunctie van het transfermodel PNO

De exponentiële verdelingsfunctie geeft echter een overschatting van PNO op de lange termijn van meer dan 30 tijdstappen (30 dagen). De schatting van de evenwichtsrelatie bij de exponentiële verdelingsfunctie in figuur 4 is nu ruim 45% kleiner dan die van de empirische verdelingsfunctie in figuur 2. Vanwege de onzuiverheid van de schatting van de evenwichtsrelatie is het al niet mogelijk goede modellen te ontwikkelen met de Gamma en de exponentiële verdelingsfunctie.

De identificatiestap in het proces van de zoektocht naar het beste model blijkt niet onbelangrijk te zijn. Voor de PIRFICT-methode zou de bepaling van de empirische verdelingsfunctie een belangrijke aanvulling kunnen zijn voor de beste keuze van een voorgedefinieerde functie. Duidelijk wordt hiermee ook waarom uitkomsten van schattingen van de evenwichtsrelatie van de PIRFICT- en de BJTR-methode sterk met elkaar kunnen verschillen.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Identificatie van de modelvorm

Wiskundige modellering, machinaal leren en datamining

Naast statistische tijdreeksanalyse (zie Tijdreeksanalist)  en afhankelijk van de probleemstelling passen we ook wiskundige datamodellering toe. De wiskundige modellen zijn gerelateerd aan statistiek, maar richten zich meer op complexe processen en grote datasets. Tot voor kort was het toepassen van een neuraal netwerk populair voor het modelleren van niet-lineaire complexe processen. Inmiddels zijn er vele (vaak betere) mogelijkheden om met Machinaal Leren (Machine Learning) of datamining (complexe) processen te beschrijven, statistische verbanden en patronen te zoeken en te classificeren. Let wel het is een kunst, meer dan het toepassen van technieken en methoden.

Random Forest (Breiman, 2001) is zo’n goede methode uit het werkveld Machinaal Leren. Random Forest is vooral een geschikte methode als er in de dataset sprake is van multicollineariteit, interacties tussen predictoren en niet-lineaire verbanden. Random Forest kan ook overweg met niet-numerieke (ordinale en nominale) predictoren en ongebalanceerde data, waarbij gebeurtenissen onevenredig verdeeld zijn, zoals bij storingen en calamiteiten. Een mooie toepassingsmogelijkheid is het modelleren van storingen in waterleidingen/ het schatten van faalkansen. Random Forest heeft bijzonder goede eigenschappen voor:

  • Het voorspellen of het schatten van kansen op gebeurtenissen
  • Het imputeren van ontbrekende waarden in een dataset
  • Het detecteren van de belangrijkste invloedsfactoren (predictoren) voor gebeurtenissen in een dataset; bij waterleidingen is dat de leeftijd, het materiaal en de omgeving
  • Het detecteren van verdachte gebeurtenissen of veranderingen in een dataset
  • Het detecteren van patronen of de classificatie van verbanden of kenmerken in een dataset.

Met veel succes hebben wij Random Forest (op basis van beslissingsbomen (decision trees)) toegepast op het imputeren/voorspellen van waarden in meetreeksen voor waterschap De Dommel en in de RIWA-base (zie Imputeren van ontbrekende waarden in RIWA-base, pagina 13, met een uitgebreide uitleg van de methodiek en de meest geschikte instellingen). Zie ook Het principe van de werking van Random Forest.

Een elegante methodiek om met Random Forest de beste predictors te kiezen is met VI (Variable Importance). De onderstaande figuur is een VI-plot met boxplots van de VI van 25 predictoren in het Random Forest model voor het imputeren/voorspellen van de watertemperatuur (120) bij Andijk. De predictors zijn langs de horizontale as gesorteerd op basis van de absolute waarde van de  Spearman-rangcorrelatiecoëfficiënt met de watertemperatuur bij Andijk. Negatieve VI’s impliceren onnauwkeurige imputaties/voorspellingen.

VI

Heeft u een grote dataset en onderzoeksvragen? Wenst u een datavalidatie van uw databasegegevens van uw proces? We kunnen er voor zorgen dat uw gegevens (‘ruwe data’) betrouwbaar en bruikbaar worden. Heeft u vragen over de kans op bepaalde gebeurtenissen, storingen of calamiteiten? We helpen we u graag aan de gewenste informatie.

Heeft u marketing datasets? Heeft u vragen over het koopgedrag van uw klanten? Revenue management of yield management? Ook dan kunnen we er voor zorgen dat uw bedrijf in staat is om weloverwogen en onderbouwde beslissingen te nemen.

Geplaatst in Diensten, Onderzoeksprojecten, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Wiskundige modellering, machinaal leren en datamining

Valkuil hoogfrequente tijdreeksmodellering

Modellering van relatief hoog frequente metingen met een eenvoudig ruismodel

Door de introductie van automatische loggers kunnen op uurbasis al grondwaterstanden gemeten worden. We zien veelal dat tijdreeksanalyse wordt uitgevoerd op grondwaterstanden, neerslag- en verdampinggegevens op dagbasis. We beschouwen de tijdreeksmodellering van grondwaterstanden op een relatief kleine tijdsbasis in vergelijking met het grondwaterproces. Bij relatief hoogfrequente grondwaterstandmetingen in vergelijking met de processnelheid is er sprake van een hoge autocorrelatie van bijna één. In het onderstaande bespreken we het fenomeen ‘unit-root’, de valkuil bij hoogfrequente tijdreeksmodellering met een eenvoudig ruismodel.

Voor het uitvoeren van de continue tijdreeksanalyse volgens de PIRFICT-methode wordt het volgende algemene model toegepast:

(1)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t) \\N(t) = \phi(\Delta t).N(t-\Delta t)+ a(t) \end{align}\end{equation*}

voor de ruisparameter geldt \phi als functie van \Delta t en \alpha:

(2)   \begin{equation*} \phi(\Delta t) = exp(-\frac 1\alpha.\Delta t )\end{equation*}

waarin Z(t) de grondwaterstand is op tijdstip t, detmodel(t|\theta) het hydrologische deterministische model met modelparameters \theta, N(t) het ruismodel, a(t) het residu en \Delta t het meetinterval tussen opeenvolgende metingen op tijdstip t-1 en t. Het deterministische model is een superpositie van transferfuncties van variabelen, zoals de neerslag, verdamping en onttrekking.    

 ‘Unit root’-probleem

Bij een modellering van grondwaterstanden op een kleine tijdsbasis, met een autocorrelatie van bijna één is bij de PIRFICT-modellering de (afgeleide) modelparameter \phi(\Delta t) ook bijna één. Als we stellen dat \phi(dt) gelijk is aan één dan geldt voor bovenstaande vergelijking [1]:

(3)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+N(t)  \\N(t) = N(t-\Delta t)+ a(t) \end{align}\end{equation*}

Door N(t), N(t-1), … uit te schrijven (\Delta t=1) geldt voor (3):

(4)   \begin{equation*}\begin{align} Z(t) = detmodel(t|\theta)+\sum _{i=1}^{t}  {a(i)}\end{align}\end{equation*}

We mogen veronderstellen dat het residu a(t) voor verschillende waarden voor t niet negatief gecorreleerd zijn en dan geldt: 

(5)   \begin{equation*}\begin{align} var(\sum_{i=1}^{t}{a(i)}) >= \sum _{i=1}^{t} {var(a(i))} = t.var(a)\end{align}\end{equation*}

Dit soort modellen hebben een oneindig grote variantie voor t naar oneindig en genereren dus niet-stationaire voorspellingen. Het is een bekend fenomeen in de tijdreeksanalyse en wordt het ‘unit root’-probleem genoemd en men spreekt daarbij over random-walk modellen. Vanwege de autocorrelatie van de innovaties – het ‘>=’-teken in vergelijking [5] – speelt ook bij een ruisfactor van bijna één het ‘unit-root’-probleem.   

Figuur 1: Voorbeeld van een random-walk proces met 10 simulaties met een tijdreeksmodel voor GWS met neerslag en verdamping, beide op dagbasis en met een ruisfactor van bijna één.

De ruis is gecorreleerd met de grondwaterstanden

Bij grote autocorrelatie van de grondwaterstanden en een ruisfactor \phi(\Delta t) van bijna 1 is de ruis N(t) gecorreleerd met de grondwaterstanden Z(t). De ruis beschrijft een groot deel van het grondwaterproces. De modelfit, de pasvorm van het model, wordt dus deels bepaald door het ruismodel. De deterministische modelkeuze met een voorgedefinieerde transferfunctie is daarentegen bepalend voor de uitkomsten van de tijdreeksmodellering. De modelfit is prima, de uitkomsten lijken plausibel, maar wat is nog de bijdrage van deterministische model? De onderstaande figuur toont de goede modelfit, maar de modelruis heeft hetzelfde patroon als de gemeten grondwaterstanden en daarmee kan er weinig waarde toegekend worden aan het deterministische model en de bijbehorende decompositie.

Figuur 2: Voorbeeld van hetzelfde tijdreeksmodel als in figuur 1. De tijdreeks van de ruis lijkt op die van de grondwaterstanden met een correlatie van 0.8. Het ogenschijnlijk plausibele deterministische model kan sterk verbeterd worden.
Figuur 3: Bijbehorende decompositie van de effecten van de neerslag en de verdamping van het model.

Samenvattend

Bij hoogfrequente tijdreeksmodellering met een eenvoudig ruismodel met een ruisfactor van bijna één speelt het ‘unit root’-probleem en is de ruis gecorreleerd met de uitvoervariabele. De modelresultaten lijken plausibel, maar dit is ongeacht de keuze van het deterministische modeldeel. Een voorbeeld van een tijdreeksmodellering waar een unit-root probleem speelt, is issue152. Tevens wordt aangetoond dat bij een modellering op dagbasis met een noise_alpha>=10 er al sprake is van onzuivere schattingen van modelparameters en hun varianties. Zie ook de De wezenlijke verschillen tussen de PIRFICT- en de BJTR-methode

Vanwege de grootte van de correlatie van de ruis met de grondwaterstanden voldoen de modelresiduen of innovaties niet aan de voorwaarden van witte ruis en daarmee kunnen met deze hoogfrequente tijdreeksmodellen geen betrouwbaarheden van de parameters en relaties en onzekerheden van voorspellingen goed geschat worden.

Ons advies is kies een uitgebreid ruismodel of een tijdsbasis in de tijdreeksmodellen die past bij de processnelheid en voer modelverificatie uit op innovaties en ruis (met toetsen op normaliteit en autocorrelatie), zie de voorgestelde werkprocedure voor het verbeteren van de zeggingskracht van de hydrologische tijdreeksanalyse. Tijdreeksanalist bevat een uitgebreide ruismodellering en de parameterschattingsroutine genereert zuivere schattingen voor de modelparameters en hun covariantiematrix.

Geplaatst in Tijdreeksanalist | Reacties uitgeschakeld voor Valkuil hoogfrequente tijdreeksmodellering

Presentatie BJTR-tijdreeksmodellering

Presentatie op 7 oktober 2021

In de STOWA handleiding tijdreeksanalyse is de BJTR-tijdreeksmodellering (Tijdreeksanalyse volgens de Box-Jenkins methode) beschreven door Paul Baggelaar. Het onderstaande was zijn powerpoint-presentatie.

In de STOWA handleiding is een onderscheid gemaakt tussen de Pirfict- en de BJTR-tijdreeksmodellering. Was deze scheiding noodzakelijk? Zie De wezenlijke verschillen tussen de Pirfict- en de BJTR-tijdreeksmodellering.

Presentatie_BJ-tra

Geplaatst in Diensten | Reacties uitgeschakeld voor Presentatie BJTR-tijdreeksmodellering