Analyse storingsgegevens

Voor waterleidingbedrijven is het van belang om de verwerking en de analyses van storingsgegevens van hun leidingnet zo goed mogelijk uit te voeren vanwege het maatschappelijke belang en de kosten van het beheer en onderhoud. Het doel van de analyse van storingen kan zijn:

  1. Modellering om verbanden te vinden met mogelijke invloedsfactoren zoals de leeftijd van een leiding, het materiaal, bodemtype, liggingsdiepte, .. verkeersbelastingen of
  2. om op basis van de storingen tot bruikbare voorspellingen van storingsfrequenties te komen.  

Het zijn twee mogelijkheden om storingsdata te bekijken en te analyseren. Het is afhankelijk van de onderzoeksvraag welke mogelijkheid er wordt gekozen. Beide mogelijkheden hebben hun eigen specifieke oplossingsmethodiek. In onderstaande geven we een uitleg van beide mogelijkheden.

Modellering oorzaken storingen

Voor het modelleren van storingen met invloedsfactoren zoals grondsoort, bodemtype, zetting, landgebruik, grondwatersamenstelling, drinkwatersamenstelling, liggingsdiepte onder maaiveld en verkeersbelasting stellen we voor methodieken te gebruiken die zijn gebaseerd op beslisbomen. Deze methodieken zijn ontleend uit het veld Machinaal Leren en worden veel gebruikt voor het detecteren van patronen in grote datasets (‘big data’). Standaard-modelleertechnieken, zoals meervoudige regressieanalyse, zijn minder geschikt, vanwege de niet-lineaire verbanden en de onderlinge interacties tussen de invloedsfactoren.

Random Forest (Breiman, 2001) en zo’n passende methode van modellering op basis van beslisbomen uit het werkveld Machinaal Leren. Random Forest is vooral geschikt als er in de dataset sprake is van multicollineariteit, interacties tussen de invloedsfactoren en niet-lineaire verbanden. Random Forest kan daarbij ook overweg met niet-numerieke (ordinale en nominale) invloedsfactoren en ongebalanceerde data, waarbij gebeurtenissen onevenredig verdeeld zijn, zoals bij storingen en calamiteiten. Zie Het principe van de werking van Random Forest.

Prognosemethodiek

De kern van ons voorgestelde prognosemethodiek is dat we de storingsfrequentie per leidingklasse (gedefinieerd door de combinatie van materiaal en diameter) voorspellen, op basis van een statistisch voorspellingsmodel.

Het statistische model wordt afgeleid uit de geregistreerde storingen en de samenstelling van het leidingnet. Een belangrijk onderdeel van de methodiek is dat ook de betrouwbaarheid van elke voorspelling van de storingsfrequentie wordt bepaald. In onderstaande figuur geven we de resultaten van de statistische beschrijving van de storingsfrequenties. Bij elke leeftijd wordt de storingsfrequentie geschat met daarbij een 95%-betrouwbaarheidsinterval.

Figuur: Voorbeeld van de relatie tussen storingsfrequentie (blauwe cirkel) en leeftijd van een bepaalde leidingklasse, zoals afgeleid met storingsgegevens over vier jaar. Van elke storingsfrequentie is tevens het 95%-betrouwbaarheidsinterval weergegeven. De rode lijn geeft per leeftijdsklasse de totale leidinglengte aan waarover de storingsfrequentie is bepaald.

Uit bovenstaande figuur blijkt dat de storingsfrequentie van deze leidingklasse tot een leeftijd van 35 à 40 jaar beperkt blijft tot circa 0,04/(jaar ∙ km), om daarna geleidelijk toe te nemen tot circa 0,20/(jaar ∙ km) bij een leeftijd tussen 60 en 70 jaar. De blauwe verticale lijnen geven de betrouwbaarheidsintervallen weer. Het is duidelijk dat de betrouwbaarheid toeneemt bij de lengte van het betreffende leidingnet (de rode grafiek).  

Op basis van de statistisch beschrijving, aangevuld  met expertise van kwaliteitsontwikkeling van een leidingnet ontwikkelen we een statistisch voorspellingsmodel. Op basis van een voorspellingsmodel kunnen er onderbouwde beslissingen gemaakt worden voor het beheer en onderhoud van het leidingnet.