Abstract:
Este estudo apresenta uma proposta de metodologias de clustering para reconhecimento
de padrões de consumo usando um conjunto de dados de caudal coletados em redes de
distribuição de água em Portugal. A maioria dos estudos existentes sobre clustering em
séries temporais de caudal baseia-se em algoritmos de clustering hierárquicos ou de k-Means
com medidas de distâncias inelásticas. Este estudo explora alternativas de algoritmos de
clustering, medidas de distância, janelas temporais de comparação, medidas de índice interno
e protótipos de clustering.
O desempenho das metodologias de clustering foi avaliado em termos de medidas de índice
interno e também através da caracterização dos centroides dos clusters. As metodologias
com melhor desempenho foram o Algoritmo de Partição com distância DTW, protótipo
PAM e janela de temporal de 15 minutos e o Algoritmo de Partição com distância GAK,
protótipo PAM e janela de temporal de 15 minutos, pois permitiram a formação três
clusters. O primeiro método identifica um padrão de consumo noturno, um padrão típico de
fim-de-semana e um padrão típico de dia útil, enquanto o segundo método destaca-se por
apresentar um padrão com pequena variabilidade entre o consumo noturno e diurno.
Para melhorar a extração de conhecimento, operações adicionais de clustering foram
realizadas ao conjunto de dados que pertence ao cluster com pequena variabilidade entre
consumo noturno e diurno. Novos clusters foram identificados e caracterizados, mostrando
que os padrões associados à irrigação são independentes do período do dia e da época do
ano, o que indica um uso ineficiente da água.