Μετά τη νίκη του AlphaGo της DeepMind (υπάγεται στη Google) επί του πρωταθλητή Λι Σεντόλ, πιθανός επόμενος στόχος της εταιρείας που ειδικεύεται στον χώρο της τεχνητής νοημοσύνης ενδέχεται να είναι το πόκερ, όπως αναφέρεται σε δημοσίευμα του Guardian.
Σε paper δύο ερευνητών του UCL γίνεται σχετική πρόταση: Πρόκειται για τους Ντέιβιντ Σίλβερ, λέκτορα του UCL που εργάζεται για τη DeepMind, και τον Γιόχαν Χάινριχ, ερευνητή φοιτητή του πανεπιστημίου. Ο Σίλβερ, βασικός προγραμματιστής του AlphaGo, έχει χαρακτηριστεί «ο αφανής ήρωας της Google DeepMind).
Ο τίτλος του paper είναι «Deep Reinforcement Learning from Self-Play in Imperfect-Information Games», και σε αυτό οι ερευνητές παρουσιάζουν τις προσπάθειές τους να εκπαιδεύσουν έναν υπολογιστή να παίζει δύο είδη πόκερ: Το Leduc και το πιο δημοφιλές όλων, Texas Hold'em.
To σύστημα των δύο ερευνητών χρησιμοποίησε μεθόδους παρόμοιες με του AlphaGο για να εκπαιδευτεί πάνω στο Texas Hold'em. Όσον αφορά στο Leduc, έμαθε μια στρατηγική που ήταν κοντά στον καλύτερο δυνατό τρόπο παιξίματος του παιχνιδιού.
Η τεχνική που χρησιμοποιήθηκε ήταν το Deep Reinforcement Learning, που συνδυάζει δύο ξεχωριστές μεθόδους machine learning, τα νευρικά δίκτυα και το reinforcement learning. Στο δεύτερο, ο υπολογιστής κάνει τη δουλειά που του έχει ανατεθεί και μαθαίνει από τα λάθη του, βελτιώνοντας συνέχεια την ίδια την εκπαίδευσή του- και μάλιστα μαθαίνει να παίζει ενάντια στον ίδιο τον εαυτό του.
Όσον αφορά στο πόσο προκλητικό παιχνίδι είναι το πόκερ για την τεχνητή νοημοσύνη, από κάποιες απόψεις είναι ακόμα δυσκολότερο από το «Γκο», λόγω της έλλειψης γνώσης σχετικά με το τι συμβαίνει στο τραπέζι και στα χέρια των χρηστών.
Αν και οι υπολογιστές μπορούν να παίξουν το παιχνίδι βάσει πιθανοτήτων, έχουν πρόβλημα όσον αφορά στη συμπεριφορά των αντιπάλων και ειδικότερα το «διάβασμά» της. Αν και στην περίπτωση του εν λόγω συστήματος πάλι δεν μπορεί να ληφθεί υπόψιν η ψυχολογία του αντιπάλου, οι ερευνητές τονίζουν ότι αποτελεί σαφές πλεονέκτημα το ότι ο αλγόριθμος μπορεί να βρίσκει την καλύτερη δυνατή στρατηγική πονταρίσματος χωρίς να χρειάζεται προγραμματισμός.