Πρόβλημα
Η Ελλάδα είναι μία χώρα ιδιαίτερα ευάλωτη στις δασικές πυρκαγιές φαινόμενο το οποίο γίνεται πιο απειλητικό υπό την γρήγορη αλλαγή των συνθηκών λόγω της κλιματικής αλλαγής. Σύμφωνα με το European Forest Fire Information System (EFFIS ), η Ισπανία, η Γαλλία η Πορτογαλία, η Ιταλία και η Ελλάδα αντιπροσωπεύουν το 78% της συνολικής καμένης έκτασης και το 84% του συνολικού αριθμού πυρκαγιών που καταγράφηκαν στην Ευρώπη την περίοδο 2000–2021. Η ανάπτυξη μεθόδων και εργαλείων για την πρόβλεψη των πυρκαγιών αποτελεί μία κατεύθυνση εφαρμοσμένης έρευνας ουσιώδους σημασίας, μιας και τέτοια φαινόμενα μπορεί να έχουν δυνητικά τεράστιες επιπτώσεις όσον αφορά στο περιβάλλον, στην ανθρώπινη ζωή και υγεία, αλλά και γενικότερα σε κοινωνικο-οικονομικό επίπεδο.
Στην ερευνητική βιβλιογραφία υπάρχουν αρκετές εργασίες οι οποίες καταπιάνονται, ως επί το πλείστον, με το πρόβλημα της εκτίμησης της επιδεκτικότητας μίας περιοχής όσον αφορά στην έναυση πυρκαγιάς. Αυτό συνίσταται στην εκτίμηση του αν θα προκύψει σε ένα μεγάλο μελλοντικό διάστημα (στον επόμενο μήνα, σεζόν, χρόνο) πυρκαγιά σε μία περιοχή. Η παραπάνω μοντελοποίηση του προβλήματος είναι αρκετά χρήσιμη για τη μεσοπρόθεσμη οργάνωση των διαδικασιών και των πόρων των οργανισμών όπως η πυροσβεστική υπηρεσία, αλλά δεν επαρκεί για τη βραχυπρόθεσμη οργάνωση και ετοιμότητά τους, σε καθημερινό επίπεδο. Για αυτό το λόγο, μεγαλύτερη πρόκληση αποτελεί η μοντελοποίηση του προβλήματος ως πρόβλεψη κινδύνου πυρκαγιάς για μία περιοχή, σε επίπεδο επόμενης ημέρας.
Προκλήσεις
Το πρόβλημα πρόβλεψης κινδύνου πυρκαγιάς σε επίπεδο επόμενης ημέρας μοντελοποιείται ως εξής. Τα δεδομένα μας παίρνουν τη μορφή ενός κανάβου (grid) υψηλής χωρικής ευκρίνειας (500×500 μέτρα) ο οποίος καλύπτει μία ολόκληρη περιοχή ενδιαφέροντος. Κάθε στιγμιότυπο (instance) αντιστοιχεί στην ημερήσια εικόνα κάθε ξεχωριστού κελιού (i) και αναπαρίσταται από ένα σύνολο χαρακτηριστικών (εναλλακτικά, παράγοντες πρόκλησης πυρκαγιάς) που εξάγονται – υπολογίζονται για τη συγκεκριμένη περιοχή του κελιού, για συγκεκριμένη ημέρα (k). Δεδομένου ενός ιστορικού συνόλου δεδομένων, το οποίο περιέχει στιγμιότυπα (ημερήσια κελιά) xik επισημειωμένα με την ύπαρξη ή απουσία πυρκαγιάς, κάθε στιγμιότυπο συνοδεύεται από μία δυαδική ετικέτα (binary label) lik, για την ημέρα k, δηλώνοντας την ύπαρξη (ετικέτα: φωτιά) ή την απουσία φωτιάς (ετικέτα: μη-φωτιά). Είναι σημαντικό να σημειώσουμε ότι όλα τα χαρακτηριστικά του στιγμιότυπου xik είναι διαθέσιμα από την προηγούμενη ημέρα k-1, είτε γιατί είναι σταθερά στο χρόνο (π.χ. τοπογραφικά χαρακτηριστικά), είτε γιατί αλλάζουν με πολύ μικρό ρυθμό (π.χ. κάλυψη γης), είτε γιατί μπορούν να αναπαρασταθούν με ικανοποιητική ακρίβεια μέσω προβλέψεων επόμενης ημέρας (π.χ. μετεωρολογικά). Συνοπτικά, το πρόβλημα μας συνιστά ένα πρόβλημα δυαδικής κατάταξης (binary classification): στόχος είναι η εκμάθηση, μέσω ιστορικών δεδομένων εκπαίδευσης, μιας συνάρτησης απόφασης fH (xik : θ), η οποία θα ορίζει ένα σύνολο υπερπαραμέτρων των οποίων οι τιμές θα πρέπει να επιλεγούν κατάλληλα και ένα σύνολο παραμέτρων οι οποίες θα πρέπει να εκπαιδευτούν κατάλληλα, και η οποία, για κάθε νέο στιγμιότυπο xik, θα προβλέπει με ακρίβεια την ετικέτα του lik
Το πρόβλημα στο οποίο εστιάζουμε παρουσιάζει ορισμένα χαρακτηριστικά που το καθιστούν ιδιαίτερα απαιτητικό:
(α) Ακραία ανισορροπία δεδομένων. Λόγω του ότι κάθε στιγμιότυπο του συνόλου δεδομένων αντιστοιχεί σε μια ημερήσια απεικόνιση μιας περιοχής (κελί του κανάβου), είναι εμφανές ότι καταλήγουμε σε ακραία ανισορροπία υπέρ της κλάσης απουσίας φωτιάς. Ενδεικτικά, για το σύνολο της ελληνικής επικράτειας, η οποία είναι από τις πιο ευάλωτες χώρες αναφορικά με τις πυρκαγιές, για την 11-ετή περίοδο 2010-2020, ο λόγος των περιοχών (κελιών) με ύπαρξη φωτιάς προς απουσία φωτιάς είναι της τάξης του 1:100,000.
(β) Μεγάλη κλίμακα δεδομένων. Για να μπορεί να αξιοποιηθεί από την πυροσβεστική υπηρεσία ένα σύστημα πρόβλεψης πυρκαγιάς σε επίπεδο επόμενης μέρας, θα πρέπει να παράγει ξεχωριστές ημερήσιες προβλέψεις για περιοχές που είναι επαρκώς λεπτομερείς. Για να ικανοποιηθεί η παραπάνω απαίτηση, στο έργο μας εξετάζουμε κελιά 500×500 μέτρων, καταλήγοντας σε ένα σύνολο 360 χιλιάδων κελιών (ξεχωριστές περιοχές 500×500 μέτρων) για να καλύψουμε το σύνολο της ελληνικής επικράτειας. Λαμβάνοντας υπόψη ότι κάθε ένα από αυτά τα κελιά δημιουργεί στιγμιότυπα για την κάθε μέρα, για μια περίοδο 7 μηνών και ένα διάστημα 11 ετών, αυτό αντιστοιχεί σε ένα σύνολο δεδομένων με περισσότερα από 830 εκατομμύρια στιγμιότυπα.
(γ) Ανομοιογένεια και αλλαγές έννοιας (μετατόπιση κατανομής συνόλου δεδομένων). Παρατηρείται από την ανάλυση μας ότι διαφορετικοί μήνες κάθε έτους μπορούν να επιφέρουν σημαντικές διαφορές ως προς την καταλληλότητα και την αποτελεσματικότητα διαφορετικών μοντέλων μηχανικής μάθησης για το πρόβλημα, ενώ διαφορετικά μοντέλα μηχανικής μάθησης είναι σε θέση να παράγουν αρκετά διαφορετικές κατανομές προβλέψεων σε σχέση με την ισορροπία ευαισθησίας/ειδικότητας.
(δ) Απουσία φωτιάς. Τέλος, είναι εμπειρικά γνωστό ότι μια πυρκαγιά μπορεί να προκληθεί από πιθανώς μη προβλέψιμους παράγοντες (π.χ., η απόφαση ενός ατόμου να ανάψει φωτιά, ένα τσιγάρο που πετάει ένας οδηγός, ένας κεραυνός), οι οποίοι είναι αδύνατο να καταγραφούν και να χρησιμοποιηθούν ως χαρακτηριστικά εκπαίδευσης στους αλγόριθμους πρόβλεψης. Ως αποτέλεσμα, οποιοσδήποτε αλγόριθμος καλείται να διακρίνει μεταξύ στιγμιότυπων (περιοχών) φωτιάς και μη-φωτιάς, είναι περιορισμένος να «αποφασίσει» αγνοώντας τέτοιες πιθανώς κρίσιμες πληροφορίες και συνεπώς αναμένεται αναπόφευκτα να ταξινομήσει τα στιγμιότυπα βάσει της προδιάθεσης τους για εμφάνιση πυρκαγιάς.
Μεθοδολογία μηχανικής μάθησης για πρόβλεψη κινδύνου πυρκαγιάς
Αντιμετωπίζουμε το παραπάνω πρόβλημα και τις προκλήσεις του υλοποιώντας μία πλήρη ροή εργασιών μηχανικής μάθησης η οποία δύναται να μάθει κλιμακώσιμα και ακριβή μοντέλα για πρόβλεψη πυρκαγιάς σε επίπεδο επόμενης ημέρας. Το πρώτο βήμα της μεθόδου είναι η εξαγωγή χαρακτηριστικών (feature extraction), δηλαδή η παραγωγή κατάλληλων διανυσματικών αναπαραστάσεων των στιγμιοτύπων, όπου κάθε θέση του διανύσματος – χαρακτηριστικό, περιγράφει ένα διαφορετικό χαρακτηριστικό του αντίστοιχου κελιού, που μπορεί να αφορά στη μετεωρολογία, την τοπογραφία, τη βλάστηση, μετρήσεις παρατήρησης γης, καθώς και ιστορικά χαρακτηριστικά ή χαρακτηριστικά περιβάλλοντος.
Το επόμενο βήμα συνίσταται στην εκτέλεση μιας διαδικασίας διασταυρούμενης επικύρωσης στο σύνολο δεδομένων εκπαίδευσης, με στόχο τη σύγκριση μιας σειράς από αλγόριθμους μηχανικής μάθησης για κατάταξη, όσον αφορά στην αποτελεσματικότητα και τη γενικευσιμότητά τους. Εξετάζουμε διάφορους αλγόριθμους αιχμής συνδυαστικών δέντρων (Random Forest, Extra Trees, XGBoost), καθώς και διάφορες αρχιτεκτονικές ρηχών νευρωνικών δικτύων. Οι παραπάνω αλγόριθμοι μηχανικής μάθησης για κατάταξη, ανάλογα με την επιλογή των υπερπαραμέτρων τους, μπορούν να γίνουν αρκετά εκφραστικοί, εξασφαλίζοντας χαμηλή μεροληψία (bias) στα τελικά εκπαιδευμένα μοντέλα. Μέσω του σχήματος διασταυρούμενης επιτήρησης, εκτελείται μία εκτενής αναζήτηση στον χώρο των υπερπαραμέτρων κάθε αλγορίθμου, με στόχο την αναγνώριση των πιο αποτελεσματικών μοντέλων, σε σχέση με διαφορετικές μετρικές αξιολόγησης. Συγκεκριμένα, χρησιμοποιούμε τις μετρικές ROC-AUC, f-score, καθώς και υβριδικές μετρικές που συνίστανται σε σταθμισμένους συνδυασμούς της ευαισθησίας και της ειδικότητας.
Ως τελικό βήμα, τα επιλεγμένα μοντέλα από την παραπάνω διαδικασία μπορούν να εκτελεστούν και να αξιολογηθούν σε νέα δεδομένα, σε ένα παραγωγικό σενάριο πραγματικού κόσμου. Τα αποτελέσματά μας καταγράφουν αποτελεσματικότητα αιχμής, μετρούμενη συνδυαστικά με τα μεγέθη της ευαισθησίας και της ειδικότητας πρόβλεψης.
Παράλληλα, εξετάζουμε το πρόβλημα προσαρμόζοντας και επεκτείνοντας τεχνικές βαθιάς μάθησης με στόχο την περαιτέρω βελτίωση των αποτελεσμάτων μας, είτε εφαρμόζοντας τις ως έχουν, είτε σε συνδυασμό με τους προαναφερθέντες αλγόριθμους μηχανικής μάθησης.