Τι είναι η ενισχυτική μάθηση (reinforcement learning);
- Συγγραφέας: Αναστασία Ψαρού
- 14-10-2024
- Δυσκολία: Μέτριο
- Κατηγορίες: Τεχνολογίες
Η ενισχυτική μάθηση αποτελεί κλάδο της μηχανικής μάθησης που εκπαιδεύει λογισμικό να λαμβάνει αποφάσεις για να πετύχει τα πιο βέλτιστα αποτελέσματα. Για παράδειγμα, μια τέτοια απόφαση μπορεί να αφορά την επιλογή του βέλτιστου μονοπατιού για τη γρηγορότερη άφιξη σε έναν προορισμό.
Η ενισχυτική μάθηση βασίζεται στην απόκτηση γνώσης μέσω της αλληλεπίδρασης με ένα περιβάλλον (environment). Ο φορέας λήψης αποφάσεων ονομάζεται πράκτορας (agent) και το περιβάλλον περιλαμβάνει τα πάντα εκτός του πράκτορα. Ο πράκτορας αλληλεπιδρά συνεχώς με το περιβάλλον επιλέγοντας ενέργειες (actions), και το περιβάλλον αντιδρά παρουσιάζοντας νέες καταστάσεις (states) στον πράκτορα. Η κατάσταση αναπαριστά το περιβάλλον σε μια συγκεκριμένη χρονική στιγμή. Επιπλέον, το περιβάλλον παρέχει αμοιβές, δηλαδή αριθμητικές τιμές που ο πράκτορας προσπαθεί να μεγιστοποιήσει με την πάροδο του χρόνου. Μέσω αυτής της διαδικασίας, ο πράκτορας καταφέρνει να μάθει και να επιτυγχάνει τους στόχους του, επιδιώκοντας τη μεγιστοποίηση των αμοιβών του.
Οι ενέργειες (actions) που εκτελεί ένας πράκτορας (agent) καθώς και οι καταστάσεις (states) που παρουσιάζει το περιβάλλον μπορεί να παίρνουν διάφορες μορφές. Για παράδειγμα, σε ένα παιχνίδι σκακιού όπου ο πράκτορας είναι ένας από τους παίκτες η ενέργεια μπορεί να αντιστοιχεί στην κίνηση ενός πιονιού που εκτελείται κατά τη διάρκεια ενός γύρου, ενώ η κατάσταση του περιβάλλοντος μπορεί να αναφέρεται στη θέση όλων των πιονιών στη σκακιέρα εκείνο το γύρο. Σε ένα περιβάλλον εργοστασίου όπου ο πράκτορας είναι ένας ρομποτικός βραχίονας η ενέργεια μπορεί να είναι η τάση που εφαρμόζεται στο μοτέρ του ρομποτικού βραχίονα και η κατάσταση να αποτελεί τις άμεσες ενδείξεις κάποιων αισθητήρων.
Ένα επιπλέον παράδειγμα αλληλεπίδρασης πράκτορα-περιβάλλοντος εμφανίζεται στο περιβάλλον “Car Racing” της βιβλιοθήκης “Gym”. Το περιβάλλον περιλαμβάνει τον δισδιάστατο χώρο όπου μπορεί να μετακινηθεί το αυτοκίνητο (πράκτορας). Οι δυνατές ενέργειες που μπορεί να πάρει το αυτοκίνητο (αν θεωρήσουμε ότι είναι διακριτές) είναι:
- Να μην κάνει τίποτα.
- Να στρίψει αριστερά.
- Να στρίψει δεξιά.
- Να πατήσει γκάζι.
- Να πατήσει φρένο.
Η ανταμοιβή που λαμβάνει ο πράκτορας στο συγκεκριμένο περιβάλλον σχετίζεται με το πόσο γρήγορα έφτασε από την αφετηρία στο σημείο του τερματισμού. Ο πράκτορας επαναλαμβάνει πολλαπλές φορές αυτή τη διαδρομή και με τη χρήση αλγορίθμων ενισχυτικής μάθησης καταφέρνει να μεγιστοποιεί την ανταμοιβή του και να φτάσει πιο γρήγορα στο σημείο τερματισμού.
Ενδιαφέρον παρουσιάζει και ο τομέας ενισχυτικής μάθησης σε πολυπρακτορικά συστήματα, όπου πολλοί πράκτορες αλληλεπιδρούν στο ίδιο περιβάλλον. Σε αυτά τα συστήματα είναι δυνατό κάθε πράκτορας να μπορεί να επιλέξει μεταξύ διαφορετικών ενεργειών από τους υπόλοιπους και να λαμβάνει διαφορετικές ανταμοιβές και καταστάσεις από το περιβάλλον. Ένα παράδειγμα τέτοιου περιβάλλοντος αποτελεί το περιβάλλον “Ice Hockey” της βιβλιοθήκης “PettingZoo”. Σε αυτό, δύο παίκτες-πράκτορες ανταγωνίζονται για να κερδίσουν το παιχνίδι. Οι διαθέσιμες ενέργειες για τους πράκτορες είναι 18 διαφορετικές και περιλαμβάνουν επιλογές όπως: “μη κάνεις τίποτα”, “ρίξε δεξιά”, “ρίξε αριστερά” κ.α. Αν κάποιος πράκτορας σκοράρει, λαμβάνει ανταμοιβή +1, ενώ ο αντίπαλος του δέχεται ποινή -1.