Creazione di intelligenza artificiale: AlphaZero di DeepMind

11 maggio 1997, un giorno speciale per l'intelligenza artificiale. Fu in quel giorno che per la prima volta un programma per computer chiamato Deep Blue fu in grado di sconfiggere un campione mondiale di scacchi in carica in condizioni di torneo.

Da allora molto è cambiato per l'IA, in senso positivo. Negli ultimi anni hanno fatto passi da gigante e scoperte importanti nella ricerca sull'IA. Le macchine stanno diventando più intelligenti e, cosa più importante, attraverso tutta questa ricerca stiamo iniziando a ottenere una comprensione più chiara di cosa sia realmente l'intelligenza umana. Solo con una comprensione concreta dell'intelligenza possiamo effettivamente costruire macchine intelligenti.

DeepMind è stato in prima linea nella rivoluzione dell'IA.

DeepMind

DeepMind Technologies è una società britannica di intelligenza artificiale. Nel 2014 sono stati acquistati da Google per la loro competenza leader nel mondo dell'IA. Sin da quando hanno iniziato, hanno preso le crepe più ambiziose del mondo nel risolvere l'IA.

La loro ultima creazione è anche la più impressionante: AlphaZero

AlphaZero è un sistema di intelligenza artificiale che ha imparato da solo, come padroneggiare i giochi di scacchi, shogi (scacchi giapponesi) e Go. Per dimostrare l'eccellenza di AlphaZero, è stato abbinato a un campione del mondo in ogni partita. AlphaZero è emerso vittorioso.

Giochi e intelligenza

Nel tentativo di costruire macchine intelligenti, i ricercatori sono stati sfidati a rispondere innanzitutto a ciò che l'intelligenza è realmente. Non è una domanda così semplice a cui rispondere!

Cosa pensi quando qualcuno ti chiede di definire l'intelligenza? Si potrebbe immaginare qualcuno che pensano sia intelligente. Sanno cose che gli altri non sanno. Ma anche di più, sono in grado di utilizzare quella conoscenza sotto forma di un qualche tipo di abilità per raggiungere un obiettivo.

L'obiettivo è di solito qualcosa che è in qualche modo difficile da raggiungere. Dovrebbe richiedere qualche conoscenza, abilità o comprensione più profonda: l'intelligenza.

La capacità di giocare e vincere una partita è una forma di intelligenza. I giochi hanno regole e obiettivi. Tutti i giocatori giocano con le stesse regole e stanno cercando di ottenere la stessa cosa: vincere la partita. Per vincere è necessaria la conoscenza di come giocare e come utilizzare tale conoscenza in modo da sconfiggere il tuo avversario.

Questo requisito di conoscenza altamente specializzata e avanzata per vincere è esattamente il motivo per cui i giochi da tavolo sono stati a lungo utilizzati come banco di prova per i sistemi di intelligenza artificiale. Se vogliamo che il nostro sistema sia in grado di vincere una partita a scacchi non solo contro un dilettante, ma anche contro il migliore del mondo, un grande maestro, allora quel sistema saprà molto meglio sugli scacchi! Deve guardare avanti molte mosse, comprendere le posizioni del tabellone, i vantaggi di ciascun giocatore e avere una comprensione e un'intuizione più profonde del gioco stesso rispetto al suo avversario. Deve essere intelligente.

Kasparov vs Deep Blue (a sinistra) e Sedol vs AlphaGo (a destra)Chess and Go

Gli scacchi sono stati il ​​principale gioco di studio dell'IA fino a poco dopo che Deep Blue aveva sconfitto Gary Kasparov. I motori di scacchi, i programmi per computer progettati per essere veramente bravi negli scacchi, sono diventati popolari diversi anni dopo e ora possono essere trovati su quasi tutti i giochi di scacchi per computer e telefoni che puoi trovare! E così, mentre i sistemi di intelligenza artificiale sono ancora confrontati sul gioco degli scacchi per motivi di completezza, i ricercatori sono passati alla creazione di sistemi che possono vincere in giochi più impegnativi: Go.

Go è un altro gioco di strategia in cui l'obiettivo è circondare più territorio dell'avversario. Sembra semplice, ma la profondità del pensiero è probabilmente molto più di quella degli scacchi. Solo per un semplice confronto per vedere la differenza di complessità, gli scacchi sono giocati su una tavola 8x8 = 64 quadrati mentre Go è giocato su una griglia 19x19 con 361 incroci (punti in cui puoi giocare)! Il numero di mosse possibili in Go è molto più alto di quello degli scacchi.

Questa enorme complessità è il motivo per cui i ricercatori scelgono di andare dopo il gioco di Andare avanti. Se un sistema di intelligenza artificiale può essere costruito per sconfiggere un campione del mondo in un gioco complesso come Go, allora deve avere una qualche forma di intelligenza. Per lo meno può darci indizi nello scoprire da dove potrebbero provenire il ragionamento e l'intuizione richiesti dall'intelligenza.

AlphaZero: una macchina intelligente

In passato, i sistemi di intelligenza artificiale erano progettati per un gioco specifico, quindi non è possibile utilizzare lo stesso sistema di intelligenza artificiale creato per gli scacchi per il gioco di Go. Ma AlphaZero non è un pony! AlphaZero è un generico sistema di intelligenza artificiale che, in teoria, può imparare a giocare e vincere a livello professionale in più giochi. Finora si è dimostrato valido nei giochi di scacchi, Shogi e Go, usando tutti lo stesso algoritmo.

Rappresentazione di AlphaZero AI, per gentile concessione di DeepMind

La svolta più emozionante che AlphaZero ha fatto è il suo incredibile apprendimento con l'auto-gioco. Vedi, per praticare le partite di scacchi, shogi e Go, AlphaZero non ha giocato contro nessun avversario umano reale. Ha imparato tutte le sue abilità giocando contro se stesso, senza alcuna conoscenza data ma le regole di base del gioco.

Per AlphaZero imparare ogni gioco, una rete neurale giocherà milioni di partite contro se stessa. Dal momento che inizia senza sapere quale sia il buon gioco e la strategia, inizierà una fase di tentativi ed errori, giocando in modo abbastanza casuale. Ma, man mano che il gioco procede, il processo di apprendimento di rinforzo spinge il sistema a giocare più mosse "positive" ed evitare quelle "negative".

L'apprendimento di rinforzo dell'IA si basa su un sistema di ricompensa. L'intelligenza artificiale riceverà una sorta di punteggio di ricompensa positivo per aver vinto la partita e uno negativo per aver perso. Nel tempo, il sistema imparerà a massimizzare il suo punteggio.

Osservando i giochi che Alpha Zero ha giocato una volta completamente allenato, i campioni del mondo di tutti i giochi hanno scoperto che AlphaZero ha appreso con successo le strategie convenzionali dei giochi comunemente giocati dai grandmaster. Ad esempio, AlphaZero ha spesso giocato le più comuni strategie di apertura degli scacchi e ha dimostrato abilità stagionate nel difendere il suo re come un professionista.

Ma la cosa veramente speciale di Alpha Zero non era che imparasse ciò che altri campioni sapevano, era che imparava ciò che non sapevano. Attraverso la sua auto-riproduzione, Alpha Zero non si limitava a giocare solo contro ciò che un umano poteva pensare. Aveva la flessibilità di giocare ogni singola mossa possibile, aprendo il suo apprendimento a giochi e strategie non convenzionali mai visti prima.

“Alcune delle sue mosse, come spostare il Re al centro del tabellone, vanno contro la teoria dello shogi e - da una prospettiva umana - sembrano mettere AlphaZero in una posizione pericolosa. Ma incredibilmente rimane in controllo del consiglio di amministrazione. Il suo stile di gioco unico ci mostra che ci sono nuove possibilità per il gioco. “
- Yoshiharu Habu, professionista di 9 dan, unico giocatore nella storia a detenere tutti e sette i principali titoli di Shogi

Tale abilità è vista dagli esperti come creativa, qualcosa che richiederebbe un livello superumano di conoscenza e abilità: l'intelligenza. Per creare sistemi intelligenti in grado di risolvere una vasta gamma di problemi del mondo reale, devono essere progettati in modo tale da avere una buona comprensione delle regole, ma sono anche abbastanza flessibili da svolgere la propria esplorazione. Devono anche essere in grado di diventare esperti in molte cose diverse e non essere bloccati in un singolo gioco.

AlphaZero mostra alcuni primi segni di ciò. Dimostra che un singolo algoritmo può imparare a comprendere le conoscenze attuali e quindi andare oltre. È un passo nella giusta direzione per creare intelligenza.

Se vuoi saperne di più su AlphaZero, puoi leggere il post sul blog di DeepMind o il loro documento di ricerca pubblicato sul Science Journal.

Ti piace imparare?

Seguitemi su Twitter, dove posterò tutte le più recenti e importanti AI, tecnologia e scienza!