Die Preise für Energie variieren stark zu verschiedenen Tageszeiten und hängen signifikant von der Produktion der erneuerbaren Energien ab. Zusätzlich ermöglicht die Speicherung überflüssiger Energie die Nutzung zu Zeiten an denen Energie zugekauft werden muss. Sobald es möglich ist im Voraus abzuschätzen, wie viel Energie die erneuerbaren Energien am nächsten Tag erwirtschaften, ermöglicht das eine Optimierung der Energiekosten bzw. der Erträge. Die Netzbetreiber können durch diese Vorhersagen die Auslastung ihres Netzes besser planen und sich auf Engpässe oder Spitzen vorbereiten. Der Betreiber der Anlage kann dies Nutzen, um die Menge für den Direktvertrieb besser abzuschätzen oder um die Nutzung von Anlagen sowie die Speicherung zu optimieren und so die Energiekosten zu senken.

 

Bei HUBSTER.S entwickeln wir Lösungen für das Energie Management und sind gerade dabei mehr in das Thema Data Science einzutauchen. Deshalb sind wir das Thema Vorhersage von Photovoltaik Erträgen in einem Workshop angegangen. Ziel war es für uns ein erstes Modell zur Vorhersage der Energieerträge zu entwickeln, zusammen weitere Erfahrung im Bereich Data Science sammeln und unseren Blueprint für eine Data Science Plattform in Azure auf die Probe stellen.

Begonnen haben wir den Tag mit einem Brainstorming. In diesem haben wir zuerst einmal erarbeitet welche verschiedenen Tasks interessant sein könnten und welche Daten dafür benötigt werden. Basierend auf den verfügbaren Daten und der Schwierigkeit der Tasks haben wir uns dann zu einer Vorhersage der stündlichen Energieproduktion in kWh entschieden. Diese wollten wir dann zu täglichen Vorhersagen aggregieren. Vorteil der Stündlichen Vorhersagen ist, dass diese besser genutzt werden können um die Energieauslastung zu optimieren.
Im ersten Schritt möchten wir folgende Fragen beantworten:


• Wie groß ist der Zusammenhang zwischen Wettervorhersage und Energie?
• Wie weit sind die Vorhersagen von der Realität entfernt?

 

Für weitere Untersuchungen könnte es noch wichtig sein, die Qualität der Wettervorhersagen zu bewerten bzw. Vergleichswerte mit dem tatsächlichen Wetter zu verwenden. Vorhersagen mit historischen Wetterdaten könnten weiter auch als ein oberer Grenzwert gelten, der mit dem Modell erreicht werden kann. Evaluieren möchten wir die Distanz durch eine Vorhersage der nächsten 24 Stunden, zu insgesamt 20 verschiedenen Zeiträumen.
Im nächsten Schritt haben wir uns Überlegt, welche Schritte in einem späteren System notwendig sind und welche Schritte wir im Rahmen des POCs erledigen wollen. Für den ersten POC haben wir uns dazu entschieden, lediglich die Feature Extraktion und das Machine Learning Modell zu implementieren. Sowohl Daten Infrastruktur als auch eine Ingestion neuer Daten, sowie ein Power BI Report werden im ersten POC nicht erstellt. Die Skizze für das Zielbild sieht wie folgt aus:

Im Pre-processing mussten wir folgende Probleme lösen:

1. Datenschema: Jeder Provider von Datenlogging nutzt eigne Datenquellen bzw. Schemas. Einer der Anbieter speichert die Daten in .js Dateien auf täglicher Basis, ein anderer speichert diese in 5 Minuten Schritten in einer sqllite data base. Zuerst wurden die Daten in ein einheitliches Format gebracht und das Datenset wurde als csv gespeichert.


2. Fehlende Werte der Sensoren: Es konnte festgestellt werden, dass die Sensoren nur Werte schreiben, wenn auch Strom produziert wurde. Weiterhin gibt es fehlende Werte an manchen Tagen, diese sind durch Übertragungsfehler zu erklären. Fehlende Werte zu Beginn und Ende des Tages wurden mit 0 aufgefüllt, fehlende Werte unterhalb des Tages anhand der Zähler interpoliert. Anschließend wurden die Zähler Werte in eine Differenz verwandelt. 176 Tage mussten aus den Daten entfernt werden, da an diesen Tagen keine Sensorwerte übertragen wurden.


3. Zusammenbringen von Photovoltaik und Wetter Daten. Für den POC haben wir einen Batch der Wetterdaten von 2017 – 2022 extrahiert und diese mit den Daten der Photovoltaikanlage zusammengebracht. Für die spätere Anwendung sollte die Extraktion durch eine API geschehen. Ein Hindernis dabei waren unterschiedliche Zeitstempel bzw. deren Zeitzonen zwischen Photovoltaik und Wetterdaten.

 

In der folgenden Abbildung können wir anhand eines Wechselrichters sehen, dass die Kurve der Durchschnittswerte durch das Füllen geglättet ist und zu jeder Tageszeit die gleiche Anzahl an Werten verfügbar ist.
Nachdem die Daten aufbereitet wurden, haben wir einige Transformationen erledigt, z.B. haben wir den Tag im Jahr und die Uhrzeit durch einen Sinus modelliert, da diese Repräsentation den Verlauf besser widerspiegelt. Weiterhin wurden verschiedene Merkmale extrahiert, wie die durchschnittliche Produktion zu dieser Uhrzeit in dem Monat.
Unser Modell hat für den Juli 2022 auf täglicher Basis eine Abweichung von 1,9 kWh pro Wechselrichter. Im Durchschnitt liegt die Produktion im Juli bei 41,3 kWh pro Tag. Damit liegt die Abweichung bei 4.6%. Für ein umfassenderes Bild müssten hier weitere Monate untersucht werden. Es zeigt sich außerdem, dass für die stündlichen Werte teilweiße größere Abweichungen vorhanden sind, die sich über den Tag hinweg allerdings ausgleichen. Eine Vorhersage basierend auf dem Durchschnitt würde einen Fehler von 2.3 kWh in dem gleichen Zeitpunkt erzielen. Um die Anwendung verwenden zu können, muss die Genauigkeit noch weiter verbessert werden, vor allem auf einem stündlichen Level sind die Vorhersagen noch nicht genau genug. Ein Ziel für das weitere Projekt ist also neben einer genaueren Evaluation des Modells, das Sammeln und Aufbereiten weiterer Daten um ein Modell zu bauen, welches über Anlagen hinweg generalisieren kann.
Als Nebenziel hatten wir uns vorgenommen die Azure Dienste für Data Science zu testen und unseren Entwurf für einen Blueprint auf die Probe zu stellen. Dafür haben wir die Infrastruktur mithilfe eines vorbereiteten Terraform Skripts und einer Azure Deployment Pipeline erstellt. Die Experimente wurden mit Cloud Ressourcen durchgeführt und im Azure Machine Learning Studio getrackt. Für das Deployment wurde ein Kubernetes Cluster verwendet. Durch das Nutzen von Azure Diensten konnte die nötige Infrastruktur schnell aufgebaut werden und Ressourcen konnten nach Bedarf hinzugefügt werden.
Solltet ihr technische Fragen genereller Art haben, oder spezifische Anwendungsfälle bei euch im Unternehmen diskutieren wollen, dann könnt ihr euch gerne bei mir melden.
Linus Trips HUBSTER.S

Tobias Dietz

Tobias Dietz ist Data Scientist bei HUBSTER.S.