Artikel gepubliceerd in Stromingen 6 maart 2012
2012_2 Trendanalyse waterkwaliteitPowerpoint presentatie op NHV-dag
NHVArtikel gepubliceerd in Stromingen 6 maart 2012
2012_2 Trendanalyse waterkwaliteitPowerpoint presentatie op NHV-dag
NHVVersie 6.0.07, 21 juli 2019
Trendanalist is ontwikkeld in de programmeeromgeving van Matlab en een standalone versie 6.0 is beschikbaar voor de 64-bits versie van Windows 7, 8 en 10.
Download Trendanalist (voor de toegang leveren we een wachtwoord)
De afgelopen jaren hebben we verschillende (statistische) trendanalyses uitgevoerd op waterkwaliteitsmetingen en biologische gegevens. We hebben daarbij veel ervaring opgedaan met meetreeksen met veel missende waarden (gaten) of gecensureerde waarden met verschillende rapportagegrenzen. Op basis van onze ervaringen, theoretisch en empirisch onderzoek hebben we Trendanalist robuuster, efficiënter en gebruiksvriendelijker gemaakt. Zie ook Waarom trendanalyses met Trendanalist? en Vernieuwingen in Trendanalist.
Hoofdlijnen van de procedure om de meest geschikte trendtoets voor een meetreeks te selecteren.
Naast statistische tijdreeksanalyse en afhankelijk van de probleemstelling passen we ook wiskundige datamodellering toe. De wiskundige modellen zijn gerelateerd aan statistiek, maar richten zich meer op complexe processen en grote datasets. Tot voor kort was het toepassen van een neuraal netwerk populair voor het modelleren van niet-lineaire complexe processen. Inmiddels zijn er vele (vaak betere) mogelijkheden om met Machinaal Leren (Machine Learning) of datamining (complexe) processen te beschrijven, statistische verbanden en patronen te zoeken en te classificeren.
Random Forest (Breiman, 2001) is zo’n goede methode uit het werkveld Machinaal Leren. Random Forest is vooral een geschikte methode als er in de dataset sprake is van multicollineariteit, interacties tussen predictoren en niet-lineaire verbanden. Random Forest kan ook overweg met niet-numerieke (ordinale en nominale) predictoren en ongebalanceerde data, waarbij gebeurtenissen onevenredig verdeeld zijn, zoals bij storingen en calamiteiten. Een mooie toepassingsmogelijkheid is het modelleren van storingen in waterleidingen/ het schatten van faalkansen. Random Forest heeft bijzonder goede eigenschappen voor:
Met veel succes hebben wij Random Forest (op basis van beslissingsbomen (decision trees)) toegepast op het imputeren/voorspellen van waarden in meetreeksen voor waterschap De Dommel en in de RIWA-base (zie Imputeren van ontbrekende waarden in RIWA-base, pagina 13, met een uitgebreide uitleg van de methodiek en de meest geschikte instellingen). Zie ook Het principe van de werking van Random Forest.
Een elegante methodiek om met Random Forest de beste predictors te kiezen is met VI (Variable Importance). De onderstaande figuur is een VI-plot met boxplots van de VI van 25 predictoren in het Random Forest model voor het imputeren/voorspellen van de watertemperatuur (120) bij Andijk. De predictors zijn langs de horizontale as gesorteerd op basis van de absolute waarde van de Spearman-rangcorrelatiecoëfficiënt met de watertemperatuur bij Andijk. Negatieve VI’s impliceren onnauwkeurige imputaties/voorspellingen.
Heeft u een grote dataset en onderzoeksvragen? Wenst u een datavalidatie van uw databasegegevens van uw proces? We kunnen er voor zorgen dat uw gegevens (‘ruwe data’) betrouwbaar en bruikbaar worden. Heeft u vragen over de kans op bepaalde gebeurtenissen, storingen of calamiteiten? We helpen we u graag aan de gewenste informatie.
Heeft u marketing datasets? Heeft u vragen over het koopgedrag van uw klanten? Revenue management of yield management? Ook dan kunnen we er voor zorgen dat uw bedrijf in staat is om weloverwogen en onderbouwde beslissingen te nemen.
Trendanalist huidige versie is 6.0.07 van 21 juli 2019.
In versie 6.0.07 is de nieuwe versie van het Aquokit csv-formaat geïmplementeerd.
In versie 6.0.01 is gekozen voor de meest recente Matlab Compiler van 2017b voor de 64-bits versie van Windows en voor de Matlab Compiler van 2015b voor de 32-bits versie van Windows. De Trendanalist-software is aangepast voor de nieuwe versies van Matlab en Microsoft Office (Excel en Word).
In versie 5.0.19 zijn de opties uitgebreid met de mogelijkheid om grafieken aan te passen.
In versie 5.0.18 zijn aansluitend na versie 5.0.17 een groot aantal kleine verbeteringen doorgevoerd.
In versie 5.0.17 van 30 mei is de grafische functionaliteit van Trendanalist verbeterd. Tevens Trendanalist afgesteld op de nieuwste versie van Matlab, r2015a.
In versie 5.0.16 is de inleesroutine van Trendanalist verder uitgebreid en verbeterd. Een optie is toegevoegd dat Trendanalist de meetgegevens voorbewerkt (sorteert en dubbele meetwaarden verwijderd).
In versie 5.0.15 kan Trendanalist ook meetreeksen die ongeschikt zijn voor trendanalyses verkennen (met tijdreeksplot, boxplot, ..).
In versie 5.0.14 is de inleesroutine uitgebreid met de mogelijkheid om aquokit csv-bestanden in te lezen. Verder is de optie ingebouwd dat meetreeksen bij het inlezen worden voorbewerkt en opgeschoond.
In versie 5.0.13 kunnen jaarboxplots van meetreeksen worden bekeken.
In de versie 5.0.10 zijn de installatiebestanden van Trendanalist verbeterd voor de installatie en werking van Trendanalist onder Windows 7. Bij onze klant in België is met succes Trendanalist geïnstalleerd op een Cirix-machine draaiende onder Windows 7, de 64-bit versie.
In de versie 5.0.07 van 29 mei 2012 is er een (belangrijke) verbetering uitgevoerd in het algoritme voor het verwerken van gecensureerde meetwaarden met verschillende rapportagegrenzen. Dit is een vervolg van de onderstaande vernieuwingen in versie 5.0 in 2).
Omgaan met gecensureerde waarden met verschillende rapportagegrenzen
Voor het omzetten van een meetreeks naar een tijdreeks worden alle gecensureerde waarden van een meetreeks standaard op de helft van de hoogste rapportagegrens van die reeks gezet. Ook niet-gecensureerde meetwaarden die lager zijn dan de hoogste rapportagegrens worden standaard op de helft van die grens gezet (tenzij de gebruiker die standaardoptie heeft uitgezet, zie ook verder) en zijn dan op te vatten als gecensureerde waarden. Deze aanpak kan informatieverlies en daarmee ook verlies aan onderscheidend vermogen geven, maar is nodig om het detecteren van kunstmatige trends te vermijden die louter zijn veroorzaakt door veranderingen van de rapportagegrens (zie bijvoorbeeld [Helsel and Hirsch, 1991]). Door deze voorbewerking kan het overigens voorkomen dat een tijdreeks meer gecensureerde waarden bevat dan de oorspronkelijke meetreeks.
Als voldaan wordt aan beide volgende criteria, wordt een aangepaste aanpak gevolgd:
Alleen als wordt voldaan aan beide criteria dan wordt de ene waarde die is gecensureerd ten opzichte van de hoogste rapportagegrens verwijderd en worden vervolgens alle waarden (zowel de gecensureerde als de niet-gecensureerde) die onder de één na hoogste rapportagegrens liggen standaard op de helft van die één na hoogste rapportagegrens gezet, tenzij de meetreeks maar één rapportagegrens omvat, in welk geval er na de verwijdering van de ene gecensureerde waarde ten opzichte van die grens geen verdere censuur plaatsvindt. Dit voorkomt onnodig informatieverlies door een eenmalige, relatief hoge rapportagegrens.
Heeft u vragen over statistische relaties tussen procesvariabelen? Heeft u de beschikking over meet- of tijdreeksen? Een (statistische) tijdreeksanalyse kan mogelijk een oplossing bieden voor het beantwoorden van uw vragen.
Statistisch onderbouwde tijdreeksanalyses voeren we uit op grondwaterstanden, waterkwaliteit- en verkeersgegevens. Bij een statistische tijdreeksanalyse is een residuenanalyse – met toetsen op normaliteit en geen autocorrelatie – onontbeerlijk. Bij statistische tijdreeksanalyses is het mogelijk statistische uitspraken te doen over procesvariabelen en resultaten. Wij voeren tijdreeksanalyses uit met de applicatie Tijdreeksanalist.
Een elegante toepassing van tijdreeksanalyse is de interventie-analyse om te onderzoeken of een maatregel (significant) effect heeft gehad.
Na de trendanalyse wordt vaak de vraag gesteld: wat zijn de onderliggende oorzaken van de trends? Voor het beantwoorden van die vraag passen wij tijdreeksanalyse toe met interventie-analyse.
Indien gewenst kunnen we:
Zie ook wiskundige modellering, Trendanalist of recente projecten
Presentatie op NHV-tijdreeksanalysedag 28 januari 2016
In de presentatie tonen we aan hoe belangrijk het ruismodel is voor het verdisconteren van autocorrelatie in de modelresiduen voor het schatten van de bijdrage van de componenten aan de grondwaterstanden (modeluitvoer), zoals de onttrekkingen, neerslag en overdamping. Zonder een goed ruismodel wordt de standaardfout van de bijdrage van een component onderschat. De standaardfout (precisie) wordt immers niet bepaald door het aantal modelresiduen, maar het aantal onderling onafhankelijk modelresiduen. Zonder een goed ruismodel zijn afgeleide betrouwbaarheden onbruikbaar. Hoe ontwikkel je een betrouwbaar tijdreeksmodel?…
Interactievetijdreeksmodelontwikkeling28jan2016
We maken gebruik van de applicatie Tijdreeksanalist (TRG).
De presentatie is ook te vinden op Themadag Tijdreeksmodellen – 28 januari 2016
Een brug tussen theorie en praktijk
Zie ook de presentatie van 1 oktober 2015 ‘Het belang van het ruismodel’
Zie ook de presentatie van 8 juni 2004 ‘Schatgraven in een tijdreeks’
Presentatie op NHV-tijdreeksanalysedag 1 oktober 2015
Heeft u vragen over het ontsluiten van uw datasets of database? Heeft u grote datasets? Onze dataverwerking kan mogelijk een oplossing bieden voor het beantwoorden van uw vragen. Zie ook wiskundige modellering en datamining, statistisch onderzoek, tijdreeksanalyse en trendanalyse.
Een essentieel onderdeel van onze data-georiënteerde analyses, zoals tijdreeks-, trend-, correlatie- en statistische analyses is de uitgebreide controle op mogelijke fouten in de data. De kwaliteit van de analyses is immers direct gerelateerd aan de kwaliteit van de data. Voor deze dataverwerking en datavalidatie hebben inmiddels vele tools ontwikkeld, zo controleren wij o.a. op:
Na het toepassen van bovenstaande gaan we altijd na, op basis van visuele inspectie van grafische presentaties, of de data voldoet aan onze kwaliteitseisen om de analyses goed te kunnen uitvoeren.
Heeft u vragen over het ontsluiten van uw datasets of database, ook dan helpen we u graag.
Wij voeren statistisch onderzoek uit. Dit kan zijn door het toepassen van statistische methodieken en toetsen, door het toepassen van trend- of tijdreeksanalyses of door analyses op basis van stochastische (wiskundige of fysische) modelleringen. Onze analyses en softwareontwikkeling voeren we uit in de programmeeromgeving van Matlab of met SPSS. Tot onze klanten behoren o.a. Rijkswaterstaat, waterleidingbedrijven en waterschappen.