Limitazioni dell'apprendimento profondo nella ricerca sull'IA

L'intelligenza artificiale ha raggiunto risultati incredibili grazie all'apprendimento profondo, tuttavia non è ancora all'altezza delle capacità umane.

12 febbraio 2019, di Roberto Iriondo - ultimo aggiornamento: 7 aprile 2019

Fonte immagine: Memorie di apprendimento automatico | [11]

L'apprendimento profondo, un sottoinsieme dell'apprendimento automatico, ha fornito un'accuratezza superumana in una varietà di usi pratici nell'ultimo decennio. Dalla rivoluzionaria esperienza del cliente, dalla traduzione automatica, dal riconoscimento linguistico, dai veicoli autonomi, dalla visione computerizzata, dalla generazione di testi, dalla comprensione del parlato e da una moltitudine di altre applicazioni AI [2].

Contrariamente all'apprendimento automatico in cui un agente di intelligenza artificiale apprende dai dati basati su algoritmi di apprendimento automatico, l'apprendimento profondo si basa su un'architettura di rete neurale che agisce in modo simile al cervello umano e consente all'agente di intelligenza artificiale di analizzare i dati immessi - in una struttura simile come fanno gli umani. I modelli di apprendimento profondo non richiedono algoritmi per specificare cosa fare con i dati, il che è reso possibile grazie alla straordinaria quantità di dati che noi umani raccogliamo e consumiamo, che a loro volta sono alimentati da modelli di apprendimento profondo [3].

I tipi "tradizionali" di apprendimento profondo incorporano un diverso mix di moduli feed-forward (reti neurali spesso convoluzionali) e reti neurali ricorrenti (ora e poi con unità di memoria, come LSTM [4] o MemNN [5]). Questi modelli di apprendimento profondo sono limitati nella loro capacità di "ragionare", ad esempio per fare lunghe catene di deduzioni o semplificare un metodo per ottenere una risposta. La quantità di passaggi in un calcolo è limitata dalla quantità di strati nelle reti feed-forward e, nel tempo, una rete neurale ricorrente ricorderà le cose.

A quel punto c'è il problema dell'oscurità. Quando è stato formato un modello di apprendimento profondo, non è sempre chiaro come si debba prendere una decisione [6]. In numerose impostazioni questo è semplicemente inaccettabile, indipendentemente dal fatto che trovi la soluzione corretta; ad esempio, supponiamo che una banca utilizzi l'intelligenza artificiale per valutare il valore del tuo credito e successivamente ti neghi un prestito, in numerosi stati ci sono leggi che stabiliscono che la banca deve chiarire il perché - se la banca sta usando un modello di apprendimento profondo per le sue decisioni di prestito , il loro dipartimento prestiti (probabilmente) non sarà in grado di fornire una spiegazione chiara del motivo per cui il prestito è stato negato.

Figura 1 | Sottotitoli generati da una rete neurale ricorrente (RNN), in questo caso l'RNN è addestrato per identificare presentazioni di immagini di alto livello in didascalie. [1]

Soprattutto c'è l'assenza di buon senso. I modelli di apprendimento profondo potrebbero essere i migliori a percepire i modelli. Eppure non riescono a capire cosa significano gli schemi, e considerevolmente meno ragione su di essi. Per abilitare i modelli di deep learning alla ragione, dobbiamo cambiare la loro struttura in modo che non creino un singolo output (cioè l'interpretazione di un'immagine, la traduzione di un paragrafo, ecc.), Ma che forniscano un intero arrangiamento di risultati alternativi (ovvero modi diversi di tradurre una frase). Questo è ciò che i modelli di base energetica sono destinati a fare: dare un punteggio per ogni possibile configurazione delle variabili da interpretare.

Progressivamente, tali debolezze stanno sollevando preoccupazioni sull'intelligenza artificiale tra la vasta popolazione pubblica, in particolare come veicoli autonomi, che utilizzano strategie comparabili di apprendimento profondo per navigare sulle strade [7], associate a battute d'arresto e morti [8]. Il pubblico ha iniziato a dire, forse c'è un problema con l'IA - in un mondo in cui ci si aspetta la perfezione; e anche se l'apprendimento approfondito sulle auto a guida autonoma ha dimostrato che causerebbe incredibilmente meno vittime rispetto ai conducenti umani, l'umanità stessa non avrà completamente fiducia in veicoli autonomi, fino a quando non saranno coinvolte vittime.

Inoltre, l'apprendimento profondo è assolutamente limitato nella sua forma attuale, poiché praticamente tutti gli usi proficui di esso [19] [20] [21] [22] [23] [24] [25] [26] [27 ] [28] [29] [30] [31] [32], utilizza l'apprendimento automatico supervisionato con annotazioni di commenti umani che sono state notate come una debolezza significativa - questa dipendenza impedisce che le reti neurali profonde vengano applicate a problemi in cui i dati di input sono scarse. È indispensabile scoprire approcci per preparare estese reti neurali da dati "grezzi" non commentati al fine di catturare le regolarità del mondo reale. In cui la combinazione di apprendimento profondo, con tecniche di apprendimento automatico contraddittorio [17] [18] può porre la risposta che stiamo cercando.

In termini di popolazione generale - purtroppo il pubblico, non ha una buona comprensione dell'apprendimento profondo. Se il lavoro nel deep learning fosse limitato ai soli laboratori di ricerca sull'intelligenza artificiale sarebbe una cosa. Tuttavia, al giorno d'oggi vengono utilizzate tecniche di apprendimento profondo in ogni possibile applicazione. Il livello di fiducia che i dirigenti tecnologici e gli esperti di marketing ripongono nelle tecniche di apprendimento profondo è preoccupante. Mentre il deep learning è un'impresa incredibile, è importante non solo esplorare i suoi punti di forza, ma anche focalizzare ed essere consapevoli dei suoi punti deboli, al fine di avere un piano d'azione.

La ricerca di Mrinmaya Sachan su Towards Literate Artificial Intelligence [33] costituisce un caso interessante nell'esplorazione di come, anche se abbiamo visto notevoli sviluppi nel campo dell'intelligenza artificiale grazie all'apprendimento approfondito, i sistemi di intelligenza artificiale di oggi mancano ancora della natura intrinseca dell'intelligenza umana. Quindi si immerge e riflette, prima che l'umanità inizi a costruire sistemi di intelligenza artificiale che possiedano capacità umane (ragionamento, comprensione, buon senso), come possiamo valutare i sistemi di intelligenza artificiale su tali compiti? - al fine di comprendere a fondo e sviluppare veri sistemi intelligenti. La sua ricerca propone l'uso di test standardizzati sui sistemi di intelligenza artificiale (analogamente ai test che gli studenti affrontano per progredire nel sistema di istruzione formale) utilizzando due framework per sviluppare ulteriormente i sistemi di intelligenza artificiale, con notevoli vantaggi che possono essere applicati sotto forma di social bene ed educazione.

Per l'apprendimento profondo e il processo decisionale, abbiamo una vera comprensione teorica di una rete neurale?

Le reti neurali artificiali, che cercano di imitare l'architettura del cervello possiedono una moltitudine di connessioni di neuroni artificiali (nodi), la rete stessa non è un algoritmo ma un framework su cui una varietà di algoritmi di machine learning può funzionare su per raggiungere i compiti desiderati . Le basi dell'ingegneria delle reti neurali sono quasi completamente basate sull'euristica, con una piccola enfasi sulle scelte dell'architettura di rete, sfortunatamente non esiste una teoria definita che ci dica come decidere il giusto numero di neuroni per un certo modello. Esistono tuttavia lavori teorici sul numero di neuroni e sulla capacità complessiva di un modello [12] [13] [14], tuttavia, quelli sono raramente pratici da applicare.

Il professore di Stanford, Sanjeev Arora, adotta un vivido approccio alla teoria della generalizzazione delle reti neurali profonde [15], in cui menziona il mistero della generalizzazione dell'apprendimento profondo in merito a: Perché le reti neurali profonde addestrate funzionano bene su dati mai visti prima? cioè diciamo che si allena un modello di apprendimento profondo con ImageNet e lo si allena su immagini con etichette casuali, il risultato sarà un'alta precisione. Tuttavia, l'uso di normali strategie di regolarizzazione che deducono una generalizzazione più elevata non aiuta tanto [16]. Indipendentemente da ciò, la rete neurale addestrata non è ancora in grado di prevedere l'etichettatura casuale di immagini invisibili, il che a sua volta significa che la rete neurale non si generalizza.

Figura 2 | Attacchi a un pixel che hanno ingannato con successo tre tipi di reti neurali profonde addestrate sul set di dati CIFAR-10. [9] [10] | Le etichette originali sono in nero, mentre le etichette di output dell'attacco sono in blu con il corrispondente intervallo di confidenza [9].

Recentemente i ricercatori sono stati in grado di esporre le vulnerabilità di una profonda architettura di rete neurale aggiungendo piccole sfumature su un set di dati di immagini di grandi dimensioni in modo da alterare (con alta probabilità) gli output del modello [9] della rete neurale. Lo studio segue diversi altri ricercatori che mostrano livelli simili di fragilità sfidando i risultati, in base a piccole sfumature sull'input. Questo tipo di risultati non ispira fiducia, vale a dire in veicoli autonomi, l'ambiente è incline ad avere sfumature di tutti i tipi (pioggia, neve, nebbia, ombre, falsi positivi, ecc.) - Ora immagina un sistema visivo gettato via da un piccolo cambiamento sul suo input visivo. Sono sicuro che Tesla, Uber e molti altri hanno identificato questi problemi e stanno lavorando a un piano per affrontarli, tuttavia è importante che anche il pubblico ne sia consapevole.

Figura 3 | Un pixel riesce ad attaccare con successo reti neurali profonde (DNN). Prima l'etichetta originale, seguita dall'output dell'attacco tra parentesi [9]

Oggi siamo circondati dalla tecnologia. Dai gadget intelligenti a casa nostra, smartphone nelle tasche versatili, computer nelle nostre scrivanie ai router che ci collegano a Internet, ecc. In ognuna di queste tecnologie, le architetture di base funzionano correttamente grazie ai solidi principi ingegneristici che sono state costruite su, matematica profonda, fisica, ingegneria elettrica, informatica e software, ecc. e soprattutto questi campi - anni, se non decenni, di test statistici e garanzia di qualità.

È importante ricordare che i modelli di deep learning hanno bisogno di una grande quantità di dati per formare un modello iniziale (al fine di avere risultati di alta precisione e non produrre overfitting, tenere presente che le attività sub-sequenziali possono imparare dall'apprendimento a trasferimento) e che alla fine senza una profonda comprensione di ciò che sta realmente accadendo all'interno di una "profonda architettura neurale", non è praticamente né teoricamente saggio costruire soluzioni tecnologiche sostenibili a lungo termine.

Ringraziamenti:

L'autore desidera ringraziare Matt Gormley, Assistant Professor presso la Carnegie Mellon University, e Arthur Chan, Principal Speech Architect, Curatore di AIDL.io e Deep Learning Specialist, per le critiche costruttive in preparazione di questo articolo.

DICHIARAZIONE DI NON RESPONSABILITÀ: le opinioni espresse in questo articolo sono quelle degli autori e non rappresentano le opinioni della Carnegie Mellon University, né di altre società (direttamente o indirettamente) associate agli autori. Questi scritti non intendono essere prodotti finali, ma piuttosto un riflesso del pensiero attuale, oltre ad essere un catalizzatore di discussione e miglioramento.

Puoi trovarmi sul mio sito Web, Medium, Instagram, Twitter, Facebook, LinkedIn o tramite la mia società di web design.

Storie consigliate:

Riferimenti:

[1] Recensione di apprendimento profondo | Yann LeCun, Yoshua Bengio, Geoffrey Hinton | http://pages.cs.wisc.edu/~dyer/cs540/handouts/deep-learning-nature2015.pdf

[2] 30 fantastiche applicazioni del deep learning | Yaron Hadad | http://www.yaronhadad.com/deep-learning-most-amazing-applications/

[3] Introduzione all'apprendimento profondo | Bhiksha Raj | Carnegie Mellon University | http://deeplearning.cs.cmu.edu/

[4] Comprensione delle reti LSTM | Christopher Olah | http://colah.github.io/posts/2015-08-Understanding-LSTMs/

[5] Reti neurali aumentate di memoria | Ricerca AI di Facebook | https://github.com/facebook/MemNN

[6] Il segreto oscuro nel cuore dell'intelligenza artificiale | Revisione della tecnologia del MIT | https://www.technologyreview.com/s/604087/the-dark-secret-at-the-heart-of-ai/

[7] MIT 6.S094: Deep Learning per auto a guida autonoma | Massachusetts Institute of Technology | https://selfdrivingcars.mit.edu/

[8] Elenco delle vittime della guida autonoma | Wikipedia | https://en.wikipedia.org/wiki/List_of_self-driving_car_fatalities

[9] One Pixel Attack for Fooling Deep Neural Networks Jiawei Su, Danilo Vasconcellos Vargas, Kouichi Sakurai | https://arxiv.org/pdf/1710.08864.pdf

[10] Insieme di dati del Canadian Institute for Advanced Research | Set di dati CIFAR-10 | https://www.cs.toronto.edu/~kriz/cifar.html

[11] Immagini, per gentile concessione di Machine Learning Memoirs | https://mlmemoirs.xyz

[12] Capacità della rete neurale profonda | Aosen Wang, Hua Zhou, Wenyao Xu, Xin Chen | Arxiv | https://arxiv.org/abs/1708.05029

[13] Caratterizzazione della capacità delle reti neurali mediante topologia algebrica | William H. Guss, Ruslan Salakhutdinov | Dipartimento di Machine Learning, School of Computer Science, Carnegie Mellon University | https://arxiv.org/pdf/1802.04443.pdf

[14] Teoria dell'informazione, complessità e reti neurali | Yaser S. Abu-Mostafa | California Institute of Technology | http://work.caltech.edu/pub/Abu-Mostafa1989nnet.pdf

[15] Teoria della generalizzazione e reti profonde, un'introduzione | Sanjeev Arora | Università di Stanford | http://www.offconvex.org/2017/12/08/generalization1/

[16] La comprensione del deep learning richiede una generalizzazione del ripensamento | Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, Oriol Vinyals | https://arxiv.org/pdf/1611.03530.pdf

[17] I limiti del deep learning in contesti avversari | Nicolas Papernot, Patrick McDaniel, Somesh Jha, Matt Fredrikson, Z. Berkay Celik, Ananthram Swami | Atti del 1 ° Simposio europeo IEEE sulla sicurezza e la privacy, IEEE 2016. Saarbrucken, Germania | http://patrickmcdaniel.org/pubs/esp16.pdf

[18] Apprendimento automatico in contesti avversari | Patrick McDaniel, Nicolas Papernot e Z. Berkay Celik | Pennsylvania State University | http://patrickmcdaniel.org/pubs/ieeespmag16.pdf

[19] Alex Krizhevsky, Ilya Sutskever e Geoffrey E. Hinton. Classificazione di Imagenet con reti neurali profonde convoluzionali. In Advanced in Neural Information Processing Systems, 2012.

[20] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato e Lior Wolf. Deepface: colmare il divario con le prestazioni di livello umano nella verifica del viso. In Atti della conferenza IEEE sulla visione artificiale e il riconoscimento di schemi, pagine 1701–1708, 2014.

[21] Karen Simonyan e Andrew Zisserman. Reti convoluzionali molto profonde per il riconoscimento di immagini su larga scala. Progressi nei sistemi di elaborazione delle informazioni neurali, 2015.

[22] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, et al. Andare più in profondità con le convoluzioni. In Atti della Conferenza IEEE su Computer Vision e Pattern Recognition (CVPR), 2015.

[23] Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun. Approfondire i raddrizzatori: superare le prestazioni a livello umano sulla classificazione di imagenet. In Atti della conferenza internazionale IEEE sulla visione artificiale, pagine 1026-1034, 2015.

[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun. Apprendimento residuo profondo per il riconoscimento delle immagini. In Atti della Conferenza IEEE su Computer Vision e Pattern Recognition (CVPR), pagine 770–778, 2016.

[25] Geoffrey Hinton, Li Deng, Dong Yu, George E Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara N Sainath, et al. Reti neurali profonde per la modellazione acustica nel riconoscimento vocale: le opinioni condivise di quattro gruppi di ricerca. Rivista IEEE Signal Processing, 29 (6): 82–97, 2012.

[26] Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, et al. Discorso profondo: potenziamento del riconoscimento vocale end-to-end. arXiv prestampa arXiv: 1412.5567, 2014.

[27] Wayne Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Mike Seltzer, Andreas Stolcke, Dong Yu e Geoffrey Zweig. Raggiungimento della parità umana nel riconoscimento vocale della conversazione. arXiv prestampa arXiv: 1610.05256, 2016.

[28] Chung-Cheng Chiu, Tara N Sainath, Yonghui Wu, Rohit Prabhavalkar, Patrick Nguyen, Zhifeng Chen, Anjuli Kannan, Ron J Weiss, Kanishka Rao, Katya Gonina, et al. Riconoscimento vocale all'avanguardia con modelli da sequenza a sequenza. arXiv prestampa arXiv: 1712.01769, 2017.

[29] Dzmitry Bahdanau, Kyunghyun Cho e Yoshua Bengio. Traduzione automatica neurale imparando congiuntamente ad allineare e tradurre. In International Conference on Learning Representations, 2015.

[30] Ilya Sutskever, Oriol Vinyals e Quoc V Le. Apprendimento da sequenza a sequenza con reti neurali. In Progressi nei sistemi di elaborazione delle informazioni neurali, pagine 3104–3112, 2014.

[31] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Sistema di traduzione automatica neurale di Google: colmare il divario tra traduzione umana e traduzione automatica. arXiv prestampa arXiv: 1609.08144, 2016.

[32] Hany Hassan, Anthony Aue, Chang Chen, Vishal Chowdhary, Jonathan Clark, Christian Federmann, Xuedong Huang, Marcin Junczys-Dowmunt, William Lewis, Mu Li, et al. Raggiungere la parità umana sulla traduzione automatica di notizie dal cinese all'inglese. arXiv prestampa arXiv: 1803.05567, 2018.

[33] Mrinmaya Sachan, Verso l'intelligenza artificiale letteraria, dipartimento di machine learning presso la Carnegie Mellon University, https://pdfs.semanticscholar.org/25c5/6f52c528112da99d0ae7e559500ef7532d3a.pdf