Τεχνητή νοημοσύνη έμαθε να παίζει βιντεοπαιχνίδι λαμβάνοντας οδηγίες σε απλή γλώσσα

Τεχνητή νοημοσύνη έμαθε να παίζει ένα από τα πιο δύσκολα βιντεοπαιχνίδια της Atari λαμβάνοντας οδηγίες σε απλά αγγλικά.Το συγκεκριμένο σύστημα αναπτύχθηκε από ομάδα επιστημόνων στο Stanford University στην Καλιφόρνια, και το παιχνίδι είναι το Montezuma's Revenge, όπου οι παίκτες ψάχνουν θησαυρούς σε έναν ναό των Αζτέκων. Όπως σημειώνει το New Scientist, πρόκειται για ένα παιχνίδι που θεωρείται δύσκολο για μια τεχνητή νοημοσύνη να μάθει, λόγω των σπάνιων ανταμοιβών: Ο παίκτης πρέπει να κάνει πολλές κινήσεις πριν κερδίσει πόντους.Οι περισσότερες τεχνητές νοημοσύνες που παίζουν παιχνίδια χρησιμοποιούν το reinforcement learning για να αναπτύξουν μια στρατηγική και στη συνέχεια βασίζονται σε «ανταμοιβές», όπως πόντοι στο παιχνίδι, για να καταλαβαίνουν εάν παίζουν σωστά. Για να κάνουν την τεχνητή τους νοημοσύνη να «πιάσει» τις τακτικές του παιχνιδιού πιο γρήγορα, οι επιστήμονες του Stanford έδωσαν στο σύστημά τους βοήθεια μέσω οδηγιών σε φυσική, απλή γλώσσα (πχ «ανέβα στη σκάλα», «πάρε το κλειδί» κ.α.).«Σκεφτείτε να διδάσκετε σε ένα παιδί πώς να παίζει τένις, δίνοντάς του μια ρακέτα και αφήνοντάς του μπροστά σε μια μηχανή που εκτοξεύει μπαλάκια για 10 χρόνια. Βασικά αυτός είναι ο τρόπος που εκπαιδεύουμε την τεχνητή νοημοσύνη σήμερα» λέει ο Ράσελ Κάπλαν, μέλος της ομάδας. «Αποδεικνύεται πως τα παιδιά μας μαθαίνουν πολύ πιο γρήγορα με έναν προπονητή».MARC G. BELLEMAREΗ εκπαίδευση μιας τεχνητής νοημοσύνης με αυτόν τον τρόπο θα είχε σημαντικές επιπτώσεις, καθώς η χρήση φυσικής γλώσσας σημαίνει πως ο καθένας μπορεί να εκπαιδεύει- συμβουλεύει την τεχνητή νοημοσύνη, όχι μόνο οι προγραμματιστές.Οι επιστήμονες εκπαίδευσαν πρώτα την τεχνητή νοημοσύνη να συσχετίζει τις οδηγίες με εικόνες της ίδιας ενέργειας, ενώ πραγματοποιείται στο παιχνίδι. Μετά την άφησαν να εξασκηθεί, παίζοντας το παιχνίδι με μια λίστα οδηγιών για κάθε δωμάτιο από το οποίο περνά ο χαρακτήρας, λαμβάνοντας ανταμοιβές για την εκτέλεση εντολών και για την πρόοδο στο παιχνίδι. Για να δείξουν πως το σύστημα αναπτύσσει κατανόηση εντολών όπως «σκαρφάλωσε τη σκάλα», οι ερευνητές έκαναν άλλο ένα πείραμα, όπου αφαίρεσαν τα εκπαιδευτικής αξίας δεδομένα από το δεύτερο δωμάτιο. Το σύστημα ήταν και πάλι σε θέση να ακολουθήσει τις οδηγίες για το δωμάτιο εκείνο, ακόμα και αν δεν το είχε ξαναδεί.Το σύστημα σημείωσε σκορ 3.500 πόντων στο παιχνίδι, ξεπερνώντας το κορυφαίο σκορ (2.500) στο OpenAI Gym, μια online πλατφόρμα που δοκιμάζει τεχνητές νοημοσύνες σε εικονικά περιβάλλοντα. Μια τεχνητή νοημοσύνη της DeepMind (Google) έχει πιάσει σκορ 6.600 πόντων, αλλά έχει εκπαιδευτεί για διπλάσιο χρονικό διάστημα, συνδυάζοντας το reinforcement learning με μια άλλη προσέγγιση (intrinsic motivation), που ανταμείβει την ΑΙ όταν παρουσιάζει περιέργεια και εξερευνά το περιβάλλον της.