Nieuwe versie Trendanalist

Versie 6.0.01, 23 maart 2018.

Trendanalist is ontwikkeld in de programmeeromgeving van Matlab en een standalone versie 6.0 is beschikbaar voor de 32-bits en 64-bits versies van Windows 7, 8 en 10.

De afgelopen jaren hebben we verschillende (statistische) trendanalyses uitgevoerd op waterkwaliteitsmetingen en biologische gegevens. We hebben daarbij veel ervaring opgedaan met meetreeksen met veel missende waarden (gaten) of gecensureerde waarden met verschillende rapportagegrenzen. Op basis van onze ervaringen, theoretisch en empirisch onderzoek hebben we Trendanalist robuuster, efficiënter en gebruiksvriendelijker gemaakt. Zie ook Waarom trendanalyses met Trendanalist? en Vernieuwingen in Trendanalist.

Enkele specificaties Trendanalist

  •  Het kan trendanalyses van grote aantallen meetreeksen – zoals van een milieumeetnet – uitvoeren en daarbij optimaal rekening houden met de karakteristieken van elke afzonderlijke meetreeks, zoals een niet-normale kansverdeling, seizoenseffecten, autocorrelatie, ontbrekende en gecensureerde waarden.
  • Het interne expertsysteem van het programma maakt daartoe per meetreeks een keuze uit verschillende lineaire modellen (LR*) met seizoen- en ruismodelleringen en verschillende vormen van de Mann-Kendall-toets (MK*). De toetsvormen verschillen voor wat betreft het verdisconteren van seizoenseffecten en/of autocorrelatie.
  • De keuze is zodanig dat de toets op trend niet alleen statistisch verantwoord is voor de betreffende reeks, maar ook het hoogste onderscheidend vermogen heeft van alle trendtoetsen die statistisch verantwoord zijn voor de reeks.
  • Het kan volledig automatisch honderden meetreeksen sequentieel analyseren.
  • Dankzij het interne expertsysteem is statistische kennis geen vereiste meer bij de trendanalyse.

Stroomschema

Hoofdlijnen van de procedure om de meest geschikte trendtoets voor een meetreeks te selecteren.

Geplaatst in Alle categorieen, Download, Trendanalist | Getagged , , | Reacties uitgeschakeld voor Nieuwe versie Trendanalist

Wiskundige modellering en datamining (machinaal leren)

Naast statistische tijdreeksanalyse en afhankelijk van de probleemstelling passen we ook wiskundige datamodellering toe. De wiskundige modellen zijn gerelateerd aan statistiek, maar richten zich meer op complexe processen en grote datasets. Tot voor kort was het toepassen van een neuraal netwerk populair voor het modelleren van niet-lineaire complexe processen. Inmiddels zijn er vele (vaak betere) mogelijkheden om met Machinaal Leren (Machine Learning) of datamining (complexe) processen te beschrijven, statistische verbanden en patronen te zoeken en te classificeren.

Random Forest (Breiman, 2001) is zo’n goede methode uit het werkveld Machinaal Leren. Random Forest is vooral een geschikte methode als er in de dataset sprake is van multicollineariteit, interacties tussen predictoren en niet-lineaire verbanden. Random Forest kan ook overweg met niet-numerieke (ordinale en nominale) predictoren en ongebalanceerde data, waarbij gebeurtenissen onevenredig verdeeld zijn, zoals bij storingen en calamiteiten. Een mooie toepassingsmogelijkheid is het modelleren van storingen in waterleidingen/ het schatten van faalkansen. Random Forest heeft bijzonder goede eigenschappen voor:

  • Het voorspellen of het schatten van kansen op gebeurtenissen
  • Het imputeren van ontbrekende waarden in een dataset
  • Het detecteren van de belangrijkste invloedsfactoren (predictoren) voor gebeurtenissen in een dataset; bij waterleidingen is dat de leeftijd, het materiaal en de omgeving
  • Het detecteren van verdachte gebeurtenissen of veranderingen in een dataset
  • Het detecteren van patronen of de classificatie van verbanden of kenmerken in een dataset.

Met veel succes hebben wij Random Forest (op basis van beslissingsbomen) toegepast op het imputeren/voorspellen van waarden in meetreeksen in de RIWA-base (zie Imputeren van ontbrekende waarden in RIWA-base, pagina 13, met een uitgebreide uitleg van de methodiek en de meest geschikte instellingen).

Een elegante methodiek om met Random Forest de beste predictors te kiezen is met VI (Variable Importance). De onderstaande figuur is een VI-plot met boxplots van de VI van 25 predictoren in het Random Forest model voor het imputeren/voorspellen van de watertemperatuur (120) bij Andijk. De predictors zijn langs de horizontale as gesorteerd op basis van de absolute waarde van de  Spearman-rangcorrelatiecoëfficiënt met de watertemperatuur bij Andijk. Negatieve VI’s impliceren onnauwkeurige imputaties/voorspellingen.

VI

Heeft u een grote dataset en onderzoeksvragen? Wenst u een datavalidatie van uw databasegegevens van uw proces? We kunnen er voor zorgen dat uw gegevens (‘ruwe data’) betrouwbaar en bruikbaar worden. Heeft u vragen over de kans op bepaalde gebeurtenissen, storingen of calamiteiten? We helpen we u graag aan de gewenste informatie.

Heeft u marketing datasets? Heeft u vragen over het koopgedrag van uw klanten? Revenue management of yield management? Ook dan kunnen we er voor zorgen dat uw bedrijf in staat is om weloverwogen en onderbouwde beslissingen te nemen.

Geplaatst in Diensten, Onderzoeksprojecten, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Wiskundige modellering en datamining (machinaal leren)

Toepassing enkele trendtoets is dat verstandig?

Is er een trend in een tijdreeks dan is het altijd de vraag of een trendtoets die trend ook als (significante) trend detecteert. Aansluitend, is er één enkele trendtoets die onder alle omstandigheden kan worden toegepast?

Simulaties zijn uitgevoerd voor het bepalen van de trenddetectie van zeven trendtoetsen onder verschillende omstandigheden. De trenddetectie is daarbij het percentage gedetecteerde significante trends (met 95% betrouwbaarheid) als functie van een trend. De trenddetectie is daarbij een schatting van het onderscheidend vermogen (‘power’) van een trendtoets. De zeven trendtoetsen zijn:

  1. LR: lineaire regressietoets
  2. LRs: lineaire regressietoets met verdiscontering seizoenseffecten
  3. LRa: lineaire regressietoets met verdiscontering autocorrelatie
  4. LRsa: lineaire regressietoets met verdiscontering seizoenseffecten en autocorrelatie
  5. MK: Mann-Kendalltoets
  6. MKs: Mann-Kendalltoets met verdiscontering seizoenseffecten
  7. MKsa: Mann-Kendalltoets met verdiscontering seizoenseffecten en autocorrelatie

In de onderstaande grafiek is de trenddetectie bepaald van zeven trendtoetsen bij modelsimulaties van een log-normaal proces met autocorrelatie (0.5) en seizoenseffecten, waarop lineaire trends van oplopende grootte zijn gesuperponeerd. In theorie zou bij deze omstandigheid de MKsa-trendtoets de best passende trendtoets moeten zijn.

Aangezien er geen sprake is van een normaal verdeeld proces presteren de lineaire regressietoetsen (LR*)  duidelijk minder dan de verdelingsvrije Mann-Kendall toetsen. Let op dat bij geen trend (trend=0) het percentage trenddetectie niet groter dient te zijn dan 5%; we toetsen immers met 95% betrouwbaarheid. De MKs-trendtoets verdisconteerd niet de autocorrelatie en geeft bij geen trend een trenddetectie van 20%!

Conclusie

Een belangrijke conclusie is dat het onverstandig is om trendanalyses uit te voeren met één en dezelfde trendtoets. Is er geen sprake van een normaal verdeeld proces pas dan geen lineaire regressie toe, want één van de verdelingsvrije trendtoetsen is krachtiger. Is er sprake van autocorrelatie (zoals bij relatief hoog frequente metingen van een traag proces) pas dan niet de MKs-trendtoets toe, want dan is de kans groot dat ten onrechte een trend gedetecteerd wordt. Het uitvoeren van trendanalyses verdient maatwerk, onderzoek het onderliggende proces en kies de passende trendtoets.

Wat is onder welke omstandigheid de beste trendtoets en hoe verhoudt die trendtoets zich tot de overige trendtoetsen? Of welke rol speelt de autocorrelatie in een tijdreeks betreffende de trenddetectie als er geen sprake is van een trend? Zie ook  ‘Trenddetectie van trendtoetsen onder verschillende omstandigheden’.

Geplaatst in Trendanalist | Getagged , | Reacties uitgeschakeld voor Toepassing enkele trendtoets is dat verstandig?

Tijdreeksanalyse

Heeft u vragen over statistische relaties tussen procesvariabelen? Heeft u de beschikking over meet- of tijdreeksen? Een (statistische) tijdreeksanalyse kan mogelijk een oplossing bieden voor het beantwoorden van uw vragen.

Statistisch onderbouwde tijdreeksanalyses voeren we uit op grondwaterstanden, waterkwaliteit- en verkeersgegevens. Bij een statistische tijdreeksanalyse is een residuenanalyse – met toetsen op normaliteit en geen autocorrelatie – onontbeerlijk. Bij statistische tijdreeksanalyses is het mogelijk statistische uitspraken te doen over procesvariabelen en resultaten. Wij voeren tijdreeksanalyses uit met de applicatie Tijdreeksanalist.

Een elegante toepassing van tijdreeksanalyse is de interventie-analyse om te onderzoeken of een maatregel (significant) effect heeft gehad.

Na de trendanalyse wordt vaak de vraag gesteld: wat zijn de onderliggende oorzaken van de trends? Voor het beantwoorden van die vraag passen wij tijdreeksanalyse toe met interventie-analyse.

Indien gewenst kunnen we:

  • Op locatie een tijdreeksanalysecursus verzorgen.
  • Een licentie van Tijdreeksanalist aanbieden.
  • Tijdreeksanalyses uitvoeren.

Zie ook wiskundige modellering,  Trendanalist of recente projecten

Geplaatst in Diensten, Tijdreeksanalist, Trendanalist | Getagged , , | Reacties uitgeschakeld voor Tijdreeksanalyse

Trendkaarten waterkwaliteit

Een trendkaart is een informatieve vorm om trendanalyses te presenteren. Voorbeelden van trendkaarten (van waterkwaliteit) op Internet zijn:

Trendanalist bevat de onderstaande functionaliteit om trends te presenteren. Ook het trendpalet is een informatieve vorm voor het presenteren van trendanalyseresultaten.

Google Earth

Trendanalyses op meetpunt 00599 van waterschap Zuiderzeeland

Geplaatst in Trendanalist | Getagged , | Reacties uitgeschakeld voor Trendkaarten waterkwaliteit

Nieuwe versie Tijdreeksanalist

Laatste versie is van 13 januari 2016, 5.1.12.

De modelresiduenanalyse is uitgebreid met toetsen voor geen heteroscedasticiteit, met de Engle-toets en de Breusch-Pagan-toets. De Engle-toets toetst of de variantie van de modelresiduen constant is in de tijd. De Breusch-Pagan-toets toetst of de variantie van de modelresiduen onafhankelijk is van modelwaarden. Beide toetsen zijn belangrijke analysemogelijkheden voor het ontwikkelen van een betrouwbaar tijdreeksmodel. Bij een betrouwbaar tijdreeksmodel moeten de modelresiduen immers voldoen aan de voorwaarden:

  • normaal verdeeld
  • gemiddelde nul
  • geen autocorrelatie
  • en ook dezelfde normale kansverdeling

Een nieuwe functionaliteit van Tijdreeksanalist is ook het ruimtelijk presenteren van tijdreeksanalyseresultaten. Per meetpunt kan informatie over de modellering opgevraagd worden. Niet onbelangrijk is daarbij de ‘gain’ of evenwichtsrelatie (de verandering van de uitvoervariabele bij een verhoging met een eenheid van de invoervariabele) met de bijbehorende standaardfout die aangeeft of een bijdrage van een invoervariabele significant is. Bij een betrouwbaar tijdreeksmodel, waarbij de modelresiduen normaal verdeeld zijn en geen autocorrelatie bevatten, is ook de evenwichtsrelatie normaal verdeeld. In het onderstaande voorbeeld mogen we met 95% betrouwbaarheid aannemen dat de bijdrage van zowel het neerslagoverschot als de winning significant is.

 

Als er sprake is van autocorrelatie van modelresiduen dan wordt de standaardfout van de evenwichtsrelatie onderschat. Wij stellen dat zonder een goed ruismodel afgeleide betrouwbaarheden onbruikbaar zijn. Zie ook Interactieve tijdreeksmodelontwikkeling.

Geplaatst in Alle categorieen, Download, Tijdreeksanalist | Getagged , | Reacties uitgeschakeld voor Nieuwe versie Tijdreeksanalist

Interactieve tijdreeksmodelontwikkeling

Presentatie op NHV-tijdreeksanalysedag 28 januari 2016

In de presentatie tonen we aan hoe belangrijk het ruismodel is voor het verdisconteren van autocorrelatie in de modelresiduen voor het schatten van de bijdrage van de componenten aan de grondwaterstanden (modeluitvoer), zoals de onttrekkingen, neerslag en overdamping. Zonder een goed ruismodel wordt de standaardfout van de bijdrage van een component onderschat. De standaardfout (precisie) wordt immers niet bepaald door het aantal modelresiduen, maar het aantal onderling onafhankelijk modelresiduen. Zonder een goed ruismodel zijn afgeleide betrouwbaarheden onbruikbaar. Hoe ontwikkel je een betrouwbaar tijdreeksmodel?…

Interactievetijdreeksmodelontwikkeling28jan2016

 

We maken gebruik van de applicatie Tijdreeksanalist (TRG).

De presentatie is ook te vinden op Themadag Tijdreeksmodellen – 28 januari 2016
Een brug tussen theorie en praktijk

Zie ook de presentatie  van 1 oktober 2015 ‘Het belang van het ruismodel’

Zie ook de presentatie  van 8 juni 2004 ‘Schatgraven in een tijdreeks’

Geplaatst in Presentaties, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Interactieve tijdreeksmodelontwikkeling

Het belang van het ruismodel

Presentatie op NHV-tijdreeksanalysedag 1 oktober 2015

Presentatie PKB Belang ruismodel 1okt2015

Geplaatst in Presentaties, Tijdreeksanalist | Reacties uitgeschakeld voor Het belang van het ruismodel

Dataverwerking en datavalidatie

Heeft u vragen over het ontsluiten van uw datasets of database? Heeft u grote datasets? Onze dataverwerking kan mogelijk een oplossing bieden voor het beantwoorden van uw vragen. Zie ook wiskundige modellering en datamining, statistisch onderzoek, tijdreeksanalyse en trendanalyse.

Een essentieel onderdeel van onze data-georiënteerde analyses, zoals tijdreeks-, trend-, correlatie- en statistische analyses is de uitgebreide controle op mogelijke fouten in de data. De kwaliteit van de analyses is immers direct gerelateerd aan de kwaliteit van de data. Voor deze dataverwerking en datavalidatie hebben inmiddels vele tools ontwikkeld, zo controleren wij o.a. op:

  • Afwijkende meetwaarden
  • Dubbele meetwaarden, zelfde tijdstip verschillende waarden of zelfde tijdstip verschillende waarden
  • Uitschieters, waarbij een uitschieter een mogelijke maar niet noodzakelijk een fout is
  • Zelfde parameternaam, verschillende eenheid of compartiment of .. of een andere entiteit
  • Onmogelijke waarden, zoals gecensureerde (waarden onder de rapportagegrens) nulwaarden.

Na het toepassen van bovenstaande gaan we altijd na, op basis van visuele inspectie van grafische presentaties, of de data voldoet aan onze kwaliteitseisen om de analyses goed te kunnen uitvoeren.

Heeft u vragen over het ontsluiten van uw datasets of database, ook dan helpen we u graag.

Geplaatst in Diensten, Tijdreeksanalist, Trendanalist | Getagged , , , | Reacties uitgeschakeld voor Dataverwerking en datavalidatie

Tijdreeksanalyse – tijdreeksmodellen

Tijdreeksanalist (TRG 5.1) heeft een uitgebreide toolbox om een scala van mogelijke tijdreeksmodellen te analyseren om het beste model te kunnen selecteren. Belangrijke vragen die bij een goed tijdreeksmodel gesteld moeten worden zijn:

  • Hoe beschrijft het tijdreeksmodel de meetwaarden
  • Zijn alle invloedsfactoren in de modellering meegenomen
  • Is de te onderzoeken invloedsfactor voldoende veranderd
  • Zijn de invloedsfactoren voldoende niet onderling gecorreleerd
  • Wat is de bijdrage van de afzonderlijke invloedsfactoren in de modellering
  • Zijn de modelresiduen normaal verdeeld
  • Is er geen autocorrelatie tussen de modelresiduen
  • Is er geen heteroscedasticiteit
  • Wat zijn de betrouwbaarheidsintervallen van de modelparameters
  • Zijn de modelparameters significant
  • Hoe goed zijn de modelsimulaties
  • Wat zijn de verschillen tussen de verschillende mogelijke tijdreeksmodellen in het beschrijven van de meetwaarden
  • Hoe goed zijn de modelvoorspellingen
  • Zijn de statistische relaties en zijn de modelparameters ook causaal te interpreteren

Wij vinden dat een uitgebreide toolbox nodig is en behulpzaam moet zijn om bovenstaande vragen te beantwoorden en om de onderzoeker te behoeden voor de vele valkuilen van de tijdreeksanalyse.

Een goede residuenanalyse is onontbeerlijk om objectief statistische uitspraken te doen over de significantie van de statistische relaties.

Wij stellen:

  1. De reden om tijdreeksanalyse toe te passen is om de data te laten spreken
  2. Houd van de data en wantrouw je modellen!

Zie verder Tijdreeksanalist (TRG)

Geplaatst in Alle categorieen, Tijdreeksanalist | Getagged | Reacties uitgeschakeld voor Tijdreeksanalyse – tijdreeksmodellen