Difference between revisions of "BOOK:Intelligence Artificielle"

From SAS
Jump to: navigation, search
(Created page with "L'auteur et l'éditeur vous ont fourni ce livre électronique pour votre usage personnel uniquement. Vous ne pouvez en aucun cas rendre ce livre électronique accessible au pu...")
 
(No difference)

Latest revision as of 09:36, 25 June 2020

L'auteur et l'éditeur vous ont fourni ce livre électronique pour votre usage personnel uniquement. Vous ne pouvez en aucun cas rendre ce livre électronique accessible au public. La violation du droit d'auteur est contraire à la loi. Si vous pensez que la copie de ce livre électronique que vous lisez viole le droit d'auteur de l'auteur, veuillez en informer l'éditeur à l'adresse: us.macmillanusa.com/piracy.

À mes parents, qui m'ont appris à être un humain pensant, et bien plus encore

Prologue: Terrifié

Les ordinateurs semblent devenir plus intelligents à un rythme alarmant, mais une chose qu'ils ne peuvent toujours pas faire est d'apprécier l'ironie. C'est ce que j'avais en tête il y a quelques années, lorsque, en route vers une discussion sur l'intelligence artificielle (IA), je me suis perdu dans la capitale de la recherche et de la recherche: le Googleplex, le siège mondial de Google à Mountain View, en Californie. De plus, j'étais perdu à l'intérieur du bâtiment Google Maps. Ironie au carré.

Le bâtiment Maps lui-même avait été facile à trouver. Une voiture Google Street View était garée près de la porte d'entrée, un énorme appendice couronné par un ballon de football rouge et noir d'une caméra dépassant de son toit. Cependant, une fois à l'intérieur, avec mon insigne «Visiteur» éminent attribué par la sécurité, j'ai erré, gêné, parmi des wagons de cabines occupées par des packs de travailleurs Google, des écouteurs sur les oreilles, tapant intensément sur les ordinateurs de bureau Apple. Après une recherche aléatoire (sans carte), j'ai finalement trouvé la salle de conférence assignée à la réunion d'une journée et j'ai rejoint le groupe réuni là-bas.

La réunion, en mai 2014, avait été organisée par Blaise Agüera y Arcas, un jeune informaticien qui avait récemment quitté un poste de haut niveau chez Microsoft pour aider à diriger l'effort d'intelligence artificielle de Google. Google a commencé en 1998 avec un «produit»: un site Web qui utilisait une nouvelle méthode extrêmement efficace pour effectuer des recherches sur le Web. Au fil des ans, Google est devenu la société technologique la plus importante au monde et propose désormais une vaste gamme de produits et services, notamment Gmail, Google Docs, Google Translate, YouTube, Android, bien d'autres que vous pourriez utiliser tous les jours, et certains qui dont vous n'avez probablement jamais entendu parler.

Les fondateurs de Google, Larry Page et Sergey Brin, sont depuis longtemps motivés par l'idée de créer de l'intelligence artificielle dans les ordinateurs, et cette quête est devenue un objectif majeur de Google. Au cours de la dernière décennie, la société a embauché une profusion d'experts en IA, notamment Ray Kurzweil, un inventeur bien connu et un futuriste controversé qui promeut l'idée d'une singularité de l'IA, un moment dans un proche avenir où les ordinateurs deviendront plus intelligents que humains. Google a engagé Kurzweil pour aider à réaliser cette vision. En 2011, Google a créé un groupe de recherche interne sur l'IA appelé Google Brain; depuis lors, la société a également acquis un éventail impressionnant de start-ups d'IA aux noms tout aussi optimistes: Applied Semantics, DeepMind et Vision Factory, entre autres.

En bref, Google n'est plus seulement un portail de recherche sur le Web, pas à long terme. Elle devient rapidement une entreprise d'IA appliquée. L'IA est la colle qui unifie les divers produits, services et efforts de recherche sur le ciel bleu proposés par Google et sa société mère, Alphabet. L'aspiration ultime de l'entreprise se reflète dans l'énoncé de mission original de son groupe DeepMind: «Résolvez l'intelligence et utilisez-la pour résoudre tout le reste.» 1

AI et GEB

J'étais très excité d'assister à une réunion sur l'IA chez Google. Je travaillais sur divers aspects de l'IA depuis les études supérieures dans les années 1980 et j'avais été extrêmement impressionné par ce que Google avait accompli. J'ai aussi pensé que j'avais de bonnes idées à apporter. Mais je dois admettre que je n'étais là qu'en tant que tagalong. La réunion avait lieu afin qu'un groupe de chercheurs sélectionnés de Google AI puisse entendre et converser avec Douglas Hofstadter, une légende de l'IA et auteur d'un célèbre livre intitulé Gödel, Escher, Bach: an Eternal Golden Braid, ou plus succinctement, GEB (prononcé «gee-ee-bee»). Si vous êtes un informaticien ou un passionné d'informatique, il est probable que vous en ayez entendu parler, que vous l'ayez lu ou que vous ayez essayé de le lire.

Écrit dans les années 1970, GEB était une effusion des nombreuses passions intellectuelles de Hofstadter - mathématiques, art, musique, langage, humour et jeu de mots, toutes réunies pour répondre aux questions profondes de la façon dont l'intelligence, la conscience et le sentiment de conscience de soi qui chaque expérience humaine peut donc fondamentalement émerger du substrat non intelligent et non conscient des cellules biologiques. Il s'agit également de savoir comment l'intelligence et la conscience de soi pourraient éventuellement être atteintes par les ordinateurs. C'est un livre unique; Je ne connais aucun autre livre comme celui-ci à distance. Ce n'est pas une lecture facile, et pourtant il est devenu un best-seller et a remporté à la fois le prix Pulitzer et le National Book Award. Sans aucun doute, GEB a inspiré plus de jeunes à poursuivre l'IA que tout autre livre. J'étais un de ces jeunes.

Au début des années 1980, après avoir obtenu mon diplôme universitaire en mathématiques, je vivais à New York, enseignant

mathématiques dans une école préparatoire, malheureuse, et chercher ce que je voulais vraiment faire dans la vie. J'ai découvert GEB après avoir lu une critique élogieuse dans Scientific American. Je suis sorti et j'ai acheté le livre immédiatement. Au cours des semaines suivantes, je l'ai dévoré, devenant de plus en plus convaincu que non seulement je voulais devenir chercheur en IA, mais que je voulais spécifiquement travailler avec Douglas Hofstadter. Je n'avais jamais ressenti auparavant autant de passion pour un livre ou un choix de carrière.

À l'époque, Hofstadter était professeur d'informatique à l'Université d'Indiana, et mon plan quizotique était de postuler au programme de doctorat en informatique là-bas, d'arriver, puis de persuader Hofstadter de m'accepter comme étudiant. Un problème mineur était que je n'avais jamais suivi un seul cours d'informatique. J'avais grandi avec des ordinateurs; mon père était ingénieur matériel dans une start-up technologique des années 1960 et, comme passe-temps, il a construit un ordinateur central dans la tanière de notre famille. La machine Sigma 2 de la taille d'un réfrigérateur portait un bouton magnétique proclamant «Je prie à FORTRAN» et, enfant, j'étais à moitié convaincu que c'était le cas, tranquillement la nuit, pendant que le reste de la famille dormait. Ayant grandi dans les années 60 et 70, j'ai appris un peu de chacun des langages populaires de l'époque: FORTRAN, puis BASIC, puis Pascal, mais je ne savais pratiquement rien sur les techniques de programmation appropriées,sans parler de tout ce qu'un étudiant diplômé en informatique doit savoir.

Pour accélérer mon plan, j'ai quitté mon poste d'enseignant à la fin de l'année scolaire, j'ai déménagé à Boston et j'ai commencé à suivre des cours d'informatique pour préparer ma nouvelle carrière. Quelques mois après le début de ma nouvelle vie, j'étais sur le campus du Massachusetts Institute of Technology, en attendant le début d'un cours, et j'ai aperçu une affiche annonçant une conférence de Douglas Hofstadter, qui devait se dérouler dans deux jours Campus. J'ai fait une double prise; Je ne pouvais pas croire ma bonne fortune. Je suis allé à la conférence, et après une longue attente de mon tour dans une foule d'admirateurs, j'ai réussi à parler à Hofstadter. Il s'est avéré qu'il était au milieu d'une année sabbatique au MIT, après quoi il a déménagé de l'Indiana à l'Université du Michigan à Ann Arbor.

Pour faire court, après une poursuite persistante de ma part, j'ai persuadé Hofstadter de m'engager comme assistant de recherche, d'abord pour un été, puis pour les six prochaines années en tant qu'étudiant diplômé, après quoi j'ai obtenu mon diplôme doctorat en informatique du Michigan. Hofstadter et moi sommes restés en contact étroit au fil des ans et avons eu de nombreuses discussions sur l'IA. Il connaissait mon intérêt pour la recherche sur l'IA de Google et a eu la gentillesse de m'inviter à l'accompagner à la réunion Google.

Les échecs et la première graine du doute

Le groupe dans la salle de conférence difficile à localiser était composé d'une vingtaine d'ingénieurs Google (plus Douglas Hofstadter et moi-même), tous membres de diverses équipes Google AI. La réunion a commencé par le tour habituel de la salle et la présentation des gens. Plusieurs ont noté que leur propre carrière en IA avait été stimulée par la lecture de GEB à un jeune âge. Ils étaient tous excités et curieux d'entendre ce que le légendaire Hofstadter dirait de l'IA. Hofstadter s'est alors levé pour parler. «J'ai quelques remarques sur la recherche sur l'IA en général, et ici sur Google en particulier.» Sa voix est devenue passionnée. "Je suis terrifié. Terrifié. "

Hofstadter a poursuivi.2 Il a décrit comment, quand il a commencé à travailler sur l'IA dans les années 1970, c'était une perspective excitante mais semblait loin d'être réalisé qu'il n'y avait aucun «danger à l'horizon, aucun sentiment qu'il se produise réellement». La création de machines dotées d'une intelligence humaine était une aventure intellectuelle profonde, un projet de recherche à long terme dont le fruit, avait-on dit, prévoyait «au moins une centaine de prix Nobel» 3. Hofstadter pensait que l'IA était en principe possible: «L'ennemi étaient des gens comme John Searle, Hubert Dreyfus et d'autres sceptiques, qui

disaient que c'était impossible. Ils n'ont pas compris qu'un cerveau est un morceau de matière qui obéit à la loi physique et que l'ordinateur peut simuler n'importe quoi… le niveau des neurones, des neurotransmetteurs, et cetera. En théorie, cela peut être fait. " En effet, les idées de Hofstadter sur la simulation de l'intelligence à différents niveaux - des neurones à la conscience - ont été longuement discutées au GEB et ont été au centre de ses propres recherches pendant des décennies. Mais dans la pratique, jusqu'à récemment, il semblait à Hofstadter que l'IA générale «au niveau humain» n'avait aucune chance de se produire au cours de sa vie (ou même celle de ses enfants), donc il ne s'en inquiétait pas beaucoup.

Vers la fin du GEB, Hofstadter avait répertorié «Dix questions et spéculations» sur l'intelligence artificielle. Voici l'un d'eux: "Y aura-t-il des programmes d'échecs qui peuvent battre n'importe qui?" La spéculation de Hofstadter était «non». «Il peut y avoir des programmes qui peuvent battre n'importe qui aux échecs, mais ils ne seront pas exclusivement des joueurs d'échecs. Ce seront des programmes d'intelligence générale. »4

Lors de la réunion de Google en 2014, Hofstadter a admis qu'il avait eu «complètement tort». L'amélioration rapide

dans les programmes d'échecs dans les années 80 et 90 avait semé la première graine du doute dans son évaluation des perspectives à court terme d'Amnesty International. Bien que le pionnier de l'IA Herbert Simon avait prédit en 1957 qu'un programme d'échecs serait mondial

champion «d'ici 10 ans», au milieu des années 1970, lorsque Hofstadter écrivait GEB, les meilleurs programmes d'échecs informatiques jouaient uniquement au niveau d'un bon (mais pas grand) amateur. Hofstadter s'était lié d'amitié avec Eliot Hearst, un champion d'échecs et professeur de psychologie qui avait beaucoup écrit sur la façon dont les experts en échecs humains diffèrent des programmes d'échecs informatiques. Les expériences ont montré que les joueurs humains experts s'appuient sur la reconnaissance rapide des modèles sur l'échiquier pour décider d'un mouvement plutôt que sur la recherche prospective en force brute que tous les programmes d'échecs utilisent. Pendant un jeu, les meilleurs joueurs humains peuvent percevoir une configuration de pièces comme un «type de position» particulier qui nécessite un certain «type de stratégie». Autrement dit, ces acteurs peuvent rapidement reconnaître des configurations et des stratégies particulières comme des instances de concepts de niveau supérieur.Hearst a fait valoir que sans une telle capacité générale à percevoir les modèles et à reconnaître les concepts abstraits, les programmes d'échecs n'atteindraient jamais le niveau des meilleurs humains. Hofstadter a été convaincu par les arguments de Hearst.

Cependant, dans les années 80 et 90, les échecs informatiques ont connu une forte amélioration, principalement en raison de la forte augmentation de la vitesse de l'ordinateur. Les meilleurs programmes jouaient encore de manière très inhumaine: effectuer une longue réflexion pour décider du prochain coup. Au milieu des années 1990, la machine Deep Blue d'IBM, dotée de matériel spécialisé pour jouer aux échecs, avait atteint le niveau Grandmaster et, en 1997, le programme a vaincu le champion du monde d'échecs en titre, Garry Kasparov, dans un match de six matchs. La maîtrise des échecs, autrefois considérée comme un sommet de l'intelligence humaine, avait succombé à une approche de force brute.

Musique: Le Bastion de l'humanité

Bien que la victoire de Deep Blue ait généré beaucoup de tergiversations dans la presse à propos de la montée des machines intelligentes, la «vraie» IA semblait encore assez éloignée. Deep Blue pouvait jouer aux échecs, mais il ne pouvait rien faire d'autre. Hofstadter avait eu tort au sujet des échecs, mais il restait fidèle aux autres spéculations de GEB, en particulier celle qu'il avait énumérée en premier:

QUESTION: Un ordinateur pourra-t-il jamais écrire de la belle musique?

SPÉCULATION: Oui mais pas bientôt.

Hofstadter a poursuivi,

La musique est un langage d'émotions, et tant que les programmes n'ont pas des émotions aussi complexes que les nôtres, il n'y a aucun moyen qu'un programme écrive quelque chose de beau. Il peut y avoir des «contrefaçons» - des imitations peu profondes de la syntaxe de la musique antérieure - mais malgré ce que l'on pourrait penser au début, l'expression musicale est bien plus que ce qui peut être capturé dans des règles syntaxiques.… Penser… que nous pourrions bientôt être en mesure commander une «boîte à musique» de modèle de bureau de vingt dollars par correspondance, préprogrammée et produite en masse pour faire sortir de ses circuits

Chopin ou Bach auraient pu écrire s'ils avaient vécu plus longtemps est une fausse estimation grotesque et honteuse de la profondeur de l'esprit humain5.

Hofstadter a décrit cette spéculation comme «l'une des parties les plus importantes de GEB - j'aurais misé ma vie dessus».

Au milieu des années 1990, la confiance de Hofstadter dans son évaluation de l'IA a de nouveau été ébranlée, cette fois assez profondément, lorsqu'il a rencontré un programme écrit par un musicien, David Cope. Le programme s'appelait Experiments in Musical Intelligence, ou EMI (prononcé "Emmy"). Cope, un compositeur et professeur de musique, avait initialement développé EMI pour l'aider dans son propre processus de composition en créant automatiquement des pièces dans le style spécifique de Cope. Cependant, EMI est devenu célèbre pour la création de pièces dans le style de compositeurs classiques tels que Bach et Chopin. EMI compose en suivant un large ensemble de règles, développées par Cope, qui sont destinées à capturer une syntaxe générale de composition. Ces règles sont appliquées à de nombreux exemples tirés de l'opus d'un compositeur particulier afin de produire une nouvelle pièce «dans le style» de ce compositeur.

De retour à notre réunion Google, Hofstadter a parlé avec une émotion extraordinaire de ses rencontres avec EMI:

Je me suis assis à mon piano et j'ai joué l'un des mazurkas d'EMI «dans le style de Chopin». Ça ne sonnait pas exactement comme Chopin, mais ça sonnait assez comme Chopin, et comme une musique cohérente, pour que je me sente profondément troublé.

Depuis que je suis enfant, la musique m'a passionné et m'a ému au cœur même. Et chaque morceau que j'aime donne l'impression que c'est un message direct du cœur émotionnel de l'être humain qui l'a composé. J'ai l'impression que cela me donne accès à leur âme la plus profonde. Et on a l'impression qu'il n'y a rien de plus humain au monde que cette expression de la musique. Rien. L'idée que la manipulation des motifs de la manière la plus superficielle peut produire des choses qui sonnent comme si elles venaient du cœur d'un être humain est très, très troublante. J'ai été complètement renversé par cela.

Hofstadter a ensuite raconté une conférence qu'il a donnée à la prestigieuse Eastman School of Music, à Rochester, New York. Après avoir décrit EMI, Hofstadter avait demandé au public d'Eastman - y compris plusieurs théorie de la musique et

faculté de composition - pour deviner laquelle des deux pièces un pianiste a joué pour eux était une mazurka (peu connue) de Chopin et qui avait été composée par EMI. Comme un membre du public l'a décrit plus tard: «Le premier mazurka avait de la grâce et du charme, mais pas de véritables degrés d'invention et de fluidité à grande échelle… Le second était clairement le véritable Chopin, avec une mélodie lyrique; des modulations chromatiques à grande échelle et gracieuses; et une forme naturelle et équilibrée. »6

Beaucoup de professeurs ont accepté et, au grand choc de Hofstadter, ont voté EMI pour le premier morceau et «real-Chopin» pour le

deuxième morceau. Les bonnes réponses étaient l'inverse.

Dans la salle de conférence Google, Hofstadter fit une pause, scrutant nos visages. Personne n'a dit un mot. Il continua enfin. «J'étais terrifiée par EMI. Terrifié. Je le détestais et en étais extrêmement menacé. Il menaçait de détruire ce que je chérissais le plus de l'humanité. Je pense que l'EMI est l'exemple le plus représentatif des craintes que j'ai concernant l'intelligence artificielle. »

Google et la singularité

Hofstadter a ensuite parlé de sa profonde ambivalence à propos de ce que Google lui-même essayait d'accomplir dans l'IA: les voitures autonomes, la reconnaissance vocale, la compréhension du langage naturel, la traduction entre les langues, l'art généré par ordinateur, la composition musicale, etc. Les inquiétudes de Hofstadter ont été soulignées par l'étreinte de Google envers Ray Kurzweil et sa vision de la singularité, dans laquelle l'IA, renforcée par sa capacité à s'améliorer et à apprendre par elle-même, atteindra rapidement, puis dépassera, l'intelligence au niveau humain. Il semblait que Google faisait tout son possible pour accélérer cette vision. Alors que Hofstadter doutait fortement de la prémisse de la singularité, il a admis que les prédictions de Kurzweil le perturbaient toujours. «J'étais terrifié par les scénarios. Très sceptique, mais en même temps, je pensais, peut-être que leur calendrier est décalé, mais peut-être qu'ils ont raison.Nous serons complètement pris au dépourvu. Nous penserons que rien ne se passe et tout d'un coup, avant de le savoir, les ordinateurs seront plus intelligents que nous. »

Si cela se produit réellement, «nous serons remplacés. Nous serons des reliques. Nous serons laissés dans la poussière.

«Peut-être que cela va se produire, mais je ne veux pas que cela se produise bientôt. Je ne veux pas que mes enfants restent dans le

poussière."

Hofstadter a terminé son discours par une référence directe aux ingénieurs de Google dans cette pièce, tous à l'écoute

intensément: "Je trouve cela très effrayant, très troublant, très triste, et je trouve terrible, horrible, bizarre, déconcertant, déconcertant, que les gens se précipitent aveuglément et délirant en créant ces choses."

Pourquoi Hofstadter est-il terrifié?

J'ai regardé autour de la pièce. Le public paraissait mystifié, même embarrassé. Pour ces chercheurs de Google AI, rien de tout cela n'était terrifiant. En fait, c'était de vieilles nouvelles. Lorsque Deep Blue a battu Kasparov, quand EMI a commencé à composer des mazurkas de type Chopin, et quand Kurzweil a écrit son premier livre sur la singularité, beaucoup de ces ingénieurs étaient au lycée, lisant probablement GEB et l'aimant, même si ses pronostics d'IA étaient un peu à jour. La raison pour laquelle ils travaillaient chez Google était précisément de faire en sorte que l'IA se réalise - pas dans cent ans, mais maintenant, dès que possible. Ils ne comprenaient pas pourquoi Hofstadter était si stressé.

Les gens qui travaillent dans l'IA sont habitués à rencontrer les peurs des gens en dehors du terrain, qui ont probablement été influencés par les nombreux films de science-fiction représentant des machines superintelligentes qui tournent mal. Les chercheurs en IA connaissent également les inquiétudes qu'une IA de plus en plus sophistiquée remplacera les humains dans certains emplois, que l'IA appliquée aux ensembles de données volumineuses pourrait saper la vie privée et permettre une discrimination subtile, et que des systèmes d'IA mal compris permettant de prendre des décisions autonomes ont le potentiel de causer des ravages.

La terreur de Hofstadter était en réponse à quelque chose de complètement différent. Il ne s'agissait pas que l'IA devienne trop intelligente, trop invasive, trop malveillante ou même trop utile. Au lieu de cela, il était terrifié que l'intelligence, la créativité, les émotions et peut-être même la conscience elle-même seraient trop faciles à produire - que ce qu'il appréciait le plus dans l'humanité finirait par n'être qu'un «sac de trucs», qu'un ensemble superficiel de des algorithmes de force brute pourraient expliquer l'esprit humain.

Comme GEB l'a clairement expliqué, Hofstadter croit fermement que l'esprit et toutes ses caractéristiques émergent entièrement du substrat physique du cerveau et du reste du corps, ainsi que de l'interaction du corps avec le monde physique. Il n'y a rien d'important ou d'incorporel qui se cache là. Le problème qui le préoccupe est vraiment celui de la complexité. Il craint que l'IA ne nous montre que les qualités humaines que nous apprécions le plus sont d'une simplicité décevante à mécaniser. Comme Hofstadter m'a expliqué après la réunion, se référant ici à Chopin, Bach et à d'autres parangons de l'humanité, «si de tels esprits d'une subtilité et d'une complexité infinies et d'une profondeur émotionnelle pouvaient être banalisés par un petit

puce, il détruirait mon sens de ce qu'est l'humanité. "

Je suis confus

À la suite des remarques de Hofstadter, il y a eu une courte discussion, dans laquelle le public déconcerté a poussé Hofstadter à expliquer davantage ses craintes à propos de l'IA et de Google en particulier. Mais une barrière de communication est restée. La réunion s'est poursuivie, avec des présentations de projets, des discussions de groupe, des pauses-café, comme d'habitude - rien de tout cela ne touchant vraiment aux commentaires de Hofstadter. Vers la fin de la réunion, Hofstadter a demandé aux participants leurs réflexions sur l'avenir à court terme de l'IA. Plusieurs chercheurs de Google ont prédit que l'IA générale au niveau humain émergerait probablement au cours des trente prochaines années, en grande partie grâce aux avancées de Google sur la méthode inspirée par le cerveau de «l'apprentissage en profondeur».

J'ai quitté la réunion en me grattant la tête avec confusion. Je savais que Hofstadter avait été troublé par certains des écrits de Kurzweil Singularity, mais je n'avais jamais auparavant apprécié le degré de son émotion et de son anxiété. Je savais également que Google faisait de gros efforts dans la recherche sur l'IA, mais j'ai été surpris par l'optimisme exprimé par plusieurs personnes quant à la rapidité avec laquelle l'IA atteindrait un niveau «humain» général. Mon opinion personnelle était que l'IA avait beaucoup progressé dans certaines zones étroites mais n'était toujours pas proche d'avoir l'intelligence large et générale des humains, et qu'elle n'y arriverait pas dans un siècle, encore moins trente ans. Et j'avais pensé que les gens qui croyaient le contraire sous-estimaient largement la complexité de l'intelligence humaine. J'avais lu les livres de Kurzweil et les avais trouvés largement ridicules. Cependant, en écoutant tous les commentaires de la réunion,de personnes que je respectais et admirais, m'ont forcé à examiner de manière critique mes propres opinions. Tout en supposant que ces chercheurs en IA sous-estimaient les humains, avais-je à mon tour sous-estimé le pouvoir et la promesse de l'IA actuelle?

Au cours des mois qui ont suivi, j'ai commencé à accorder plus d'attention à la discussion entourant ces questions. J'ai commencé à remarquer la multitude d'articles, de billets de blog et de livres entiers rédigés par des personnalités éminentes nous disant soudain que nous devrions commencer à nous inquiéter, dès maintenant, des dangers de l'IA «surhumaine». En 2014, le physicien Stephen Hawking a proclamé: «Le développement de l'intelligence artificielle complète pourrait entraîner la fin de la race humaine.» 7 La même année, l'entrepreneur Elon Musk, fondateur des sociétés Tesla et SpaceX, a déclaré que l'intelligence artificielle est probablement "notre plus grande menace existentielle" et que "avec l'intelligence artificielle, nous invoquons le démon." 8 Le cofondateur de Microsoft, Bill Gates, a souscrit: "Je suis d'accord avec Elon Musk et quelques autres à ce sujet et je ne comprends pas pourquoi certaines personnes ne sont pas concernées.»9 Le livre du philosophe Nick Bostrom Superintelligence, sur les dangers potentiels que les machines deviennent plus intelligentes que les humains, est devenu un best-seller surprise, malgré son style sec et pesant.

D'autres penseurs éminents repoussaient. Oui, ont-ils dit, nous devons nous assurer que les programmes d'IA sont sûrs et ne risquent pas de nuire aux humains, mais tout rapport d'IA surhumaine à court terme est grandement exagéré. L'entrepreneur et activiste Mitchell Kapor a déclaré: «L'intelligence humaine est un phénomène merveilleux, subtil et mal compris. Il n'y a aucun danger de le dupliquer de si tôt. »10 Le robotiste (et ancien directeur du laboratoire d'IA du MIT), Rodney Brooks, a accepté, déclarant que nous« surestimons grossièrement les capacités des machines - celles d'aujourd'hui et celles des prochaines décennies. »11 Le psychologue et chercheur en IA Gary Marcus est même allé jusqu'à affirmer que dans la quête pour créer une «IA forte» - c'est-à-dire une IA générale au niveau humain - «il n'y a eu pratiquement aucun progrès 12».

Je pourrais continuer indéfiniment avec des citations en duel. En bref, ce que j'ai trouvé, c'est que le domaine de l'IA est en ébullition. Soit

d'énormes progrès ont été réalisés, ou presque pas du tout. Soit nous sommes à une distance crachée de la «vraie» IA, soit à des siècles. L'IA résoudra tous nos problèmes, nous mettra tous au chômage, détruira la race humaine ou dépréciera notre humanité. C'est soit une noble quête, soit «invoquer le démon».

De quoi parle ce livre

Ce livre est né de ma tentative de comprendre la véritable situation de l'intelligence artificielle - ce que les ordinateurs peuvent faire maintenant et ce que nous pouvons en attendre au cours des prochaines décennies. Les commentaires provocateurs de Hofstadter lors de la réunion de Google ont été pour moi un signal d'alarme, tout comme les réponses confiantes des chercheurs de Google sur l'avenir à court terme de l'IA. Dans les chapitres qui suivent, j'essaie de déterminer dans quelle mesure l'intelligence artificielle a progressé, ainsi que d'élucider ses objectifs disparates - et parfois contradictoires. Ce faisant, je considère comment certains des systèmes d'IA les plus importants fonctionnent réellement et j'étudie leur succès et leurs limites. Je regarde dans quelle mesure les ordinateurs peuvent maintenant faire des choses qui, selon nous, nécessitent des niveaux élevés d'intelligence - battre les humains dans les jeux les plus exigeants intellectuellement,traduire entre langues, répondre à des questions complexes,

naviguer sur des véhicules en terrain difficile. Et j'examine comment ils s'en sortent dans les choses que nous tenons pour acquises, les tâches quotidiennes que nous, les humains, effectuons sans pensée consciente: reconnaître les visages et les objets dans les images, comprendre le langage parlé et le texte écrit, et utiliser le bon sens le plus élémentaire.

J'essaie également de donner un sens aux questions plus larges qui ont alimenté les débats sur l'IA depuis sa création: qu'entendons-nous réellement par intelligence «générale humaine» ou même «surhumaine»? L'IA actuelle est-elle proche de ce niveau, ou même sur une trajectoire pour y arriver? Quels sont les dangers? Quels aspects de notre intelligence chérissons-nous le plus, et dans quelle mesure l'IA au niveau humain remettrait-elle en question notre façon de penser notre propre humanité? Pour reprendre les termes de Hofstadter, à quel point devrions-nous être terrifiés?

Ce livre n'est pas une étude générale ou une histoire de l'intelligence artificielle. Il s'agit plutôt d'une exploration approfondie de certaines des méthodes de l'IA qui affectent probablement votre vie, ou le seront bientôt, ainsi que des efforts de l'IA qui vont peut-être le plus loin pour remettre en question notre sentiment d'unicité humaine. Mon objectif est que vous partagiez ma propre exploration et, comme moi, que vous repartiez avec une idée plus claire de ce que le domaine a accompli et du chemin qu'il reste à parcourir avant que nos machines puissent plaider pour leur propre humanité.

Partie I Contexte

1

Les racines de l'intelligence artificielle

Deux mois et dix hommes à Dartmouth

Le rêve de créer une machine intelligente - aussi intelligente ou plus intelligente que l'homme - est vieux de plusieurs siècles, mais il est devenu partie intégrante de la science moderne avec l'essor des ordinateurs numériques. En fait, les idées qui ont conduit aux premiers ordinateurs programmables sont nées des tentatives des mathématiciens de comprendre la pensée humaine - en particulier la logique - comme un processus mécanique de «manipulation des symboles». Les ordinateurs numériques sont essentiellement des manipulateurs de symboles, poussant autour des combinaisons des symboles 0 et 1. Pour les pionniers de l'informatique comme Alan Turing et John von Neumann, il y avait de fortes analogies entre les ordinateurs et le cerveau humain, et il leur semblait évident que l'intelligence humaine pouvait être reproduit dans des programmes informatiques.

La plupart des gens dans l'intelligence artificielle retracent la fondation officielle du domaine à un petit atelier en 1956 au Dartmouth College organisé par un jeune mathématicien nommé John McCarthy.

En 1955, McCarthy, âgé de vingt-huit ans, rejoint la faculté de mathématiques de Dartmouth. En tant qu'étudiant de premier cycle, il avait appris un peu sur la psychologie et le domaine naissant de la «théorie des automates» (qui deviendra plus tard l'informatique) et était devenu intrigué par l'idée de créer une machine à penser. À l'école d'études supérieures du département de mathématiques de Princeton, McCarthy avait rencontré un autre étudiant, Marvin Minsky, qui partageait sa fascination pour le potentiel des ordinateurs intelligents. Après ses études, McCarthy a eu des séjours de courte durée chez Bell Labs et IBM, où il a collaboré, respectivement, avec Claude Shannon, l'inventeur de la théorie de l'information, et Nathaniel Rochester, un ingénieur électricien pionnier. Une fois à Dartmouth, McCarthy a persuadé Minsky, Shannon et Rochester de l'aider à organiser «un mois,Étude de 10 hommes sur l'intelligence artificielle à réaliser pendant la

été 1956. »1 Le terme intelligence artificielle est l'invention de McCarthy; il voulait distinguer ce domaine d'un effort connexe appelé cybernétique.2 McCarthy a admis plus tard que personne n'aimait vraiment le nom - après tout, le but était authentique, pas «artificiel», intelligence - mais «j'ai dû l'appeler quelque chose, donc Je l'ai appelé «Intelligence artificielle». »3

Les quatre organisateurs ont soumis une proposition à la Fondation Rockefeller demandant un financement pour l'été

atelier. L'étude proposée était, écrivaient-ils, basée sur «la conjecture selon laquelle chaque aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut être en principe décrit de manière si précise qu'une machine peut être conçue pour la simuler». 4 La proposition énumérait un ensemble de sujets à discuter - traitement du langage naturel, réseaux de neurones, apprentissage automatique, concepts abstraits et raisonnement, créativité - qui ont continué à définir le domaine jusqu'à nos jours.

Même si les ordinateurs les plus avancés en 1956 étaient environ un million de fois plus lents que ceux d'aujourd'hui

smartphones, McCarthy et ses collègues étaient optimistes quant au fait que l'IA était à portée de main: «Nous pensons qu'une avancée significative peut être réalisée dans un ou plusieurs de ces problèmes si un groupe de scientifiques soigneusement sélectionnés y travaillent ensemble pendant un été.» 5

Des obstacles se sont rapidement posés qui seraient familiers à quiconque organise un atelier scientifique aujourd'hui. le

La Fondation Rockefeller n'a obtenu que la moitié du financement demandé. Et cela s'est avéré plus difficile que McCarthy ne l'avait pensé de persuader les participants de venir et de rester, sans parler de s'entendre sur quoi que ce soit. Il y a eu beaucoup de discussions intéressantes mais pas beaucoup de cohérence. Comme d'habitude dans de telles réunions, «Tout le monde avait une idée différente, un ego chaleureux et beaucoup d'enthousiasme pour son propre plan.» 6 Cependant, l'été de l'IA à Dartmouth a produit quelques résultats très importants. Le domaine lui-même a été nommé et ses objectifs généraux ont été définis. le

les «quatre grands» futurs pionniers du domaine - McCarthy, Minsky, Allen Newell et Herbert Simon - se sont rencontrés et ont planifié pour l'avenir. Et pour quelque raison que ce soit, ces quatre personnes sont sorties de la réunion avec un formidable optimisme pour le terrain. Au début des années 1960, McCarthy a fondé le Stanford Artificial Intelligence Project, avec le

«Objectif de construire une machine entièrement intelligente dans une décennie.» 7 À peu près au même moment, le futur lauréat du prix Nobel Herbert Simon a prédit: «Les machines seront capables, dans vingt ans, de faire tout le travail qu'un homme peut faire.» 8 Bientôt après, Marvin Minsky, fondateur du MIT AI Lab, a prévu que «d'ici une génération… les problèmes de création d'une« intelligence artificielle »seront résolus de manière substantielle.» 9

Définitions et mise en pratique

Aucun de ces événements prévus ne s'est encore réalisé. Alors, jusqu'où restons-nous de l'objectif de construire une «machine entièrement intelligente»? Une telle machine nous obligerait-elle à procéder à une ingénierie inverse du cerveau humain dans toute sa complexité, ou existe-t-il un raccourci, un ensemble intelligent d'algorithmes encore inconnus, qui peuvent produire ce que nous reconnaissons être l'intelligence complète? Que signifie même «pleine intelligence»?

«Définissez vos termes… ou nous ne nous comprendrons jamais.» 10 Cet avertissement du philosophe du XVIIIe siècle Voltaire est un défi pour quiconque parle d'intelligence artificielle, car sa notion centrale

—L'intelligence — reste si mal définie. Marvin Minsky lui-même a inventé l'expression «mot valise» 11 pour des termes comme l'intelligence et ses nombreux cousins, tels que la pensée, la cognition, la conscience et l'émotion. Chacun est emballé comme une valise avec un fouillis de significations différentes. L'intelligence artificielle hérite de ce problème d'emballage, revêtant différentes significations dans différents contextes.

La plupart des gens conviendraient que les humains sont intelligents et que les taches de poussière ne le sont pas. De même, nous pensons généralement que les humains sont plus intelligents que les vers. Quant à l'intelligence humaine, le QI est mesuré sur une seule échelle, mais nous parlons également des différentes dimensions de l'intelligence: émotionnelle, verbale, spatiale, logique, artistique, sociale, etc. Ainsi, l'intelligence peut être binaire (quelque chose est ou n'est pas intelligent), sur un continuum (une chose est plus intelligente qu'une autre), ou multidimensionnelle (quelqu'un peut avoir une intelligence verbale élevée mais une intelligence émotionnelle faible). En effet, le mot intelligence est une valise suremballée, fermeture éclair sur le point de se casser.

Pour le meilleur ou pour le pire, le domaine de l'IA a largement ignoré ces différentes distinctions. Au lieu de cela, il s'est concentré sur deux efforts: l'un scientifique et l'autre pratique. Du côté scientifique, les chercheurs en IA étudient les mécanismes de l'intelligence «naturelle» (c'est-à-dire biologique) en essayant de l'intégrer dans les ordinateurs. Sur le plan pratique, les partisans de l'IA veulent simplement créer des programmes informatiques qui exécutent des tâches aussi bien ou mieux que les humains, sans se soucier de savoir si ces programmes pensent réellement de la façon dont les humains pensent. Lorsqu'on leur a demandé si leurs motivations étaient pratiques ou scientifiques, de nombreuses personnes en IA plaisantent en disant que cela dépend de la provenance actuelle de leur financement.

Dans un récent rapport sur l'état actuel de l'IA, un comité d'éminents chercheurs a défini le domaine comme «une branche de l'informatique qui étudie les propriétés de l'intelligence en synthétisant l'intelligence». 12 Un peu circulaire, oui. Mais le même comité a également admis qu'il est difficile de définir le domaine, et cela peut être une bonne chose: «L'absence d'une définition précise et universellement acceptée de l'IA a probablement aidé le domaine à croître, à s'épanouir et à progresser à un accélérant le rythme. »13 En outre, le comité note que« les praticiens, les chercheurs et les développeurs de l'IA sont plutôt guidés par un sens approximatif de la direction et un impératif de «continuer». »

Une anarchie des méthodes

Lors de l'atelier de Dartmouth en 1956, différents participants ont adopté des opinions divergentes sur la bonne approche à adopter pour développer l'IA. Certaines personnes - généralement des mathématiciens - ont promu la logique mathématique et le raisonnement déductif comme langage de la pensée rationnelle. D'autres ont préconisé des méthodes inductives dans lesquelles les programmes extraient des statistiques à partir de données et utilisent des probabilités pour gérer l'incertitude. D'autres encore croyaient fermement en l'inspiration de la biologie et de la psychologie pour créer des programmes de type cérébral. Ce qui peut vous surprendre, c'est que les arguments des partisans de ces différentes approches persistent à ce jour. Et chaque approche a généré sa propre panoplie de principes et de techniques, renforcée par des conférences et des revues spécialisées, avec peu de communication entre les sous-spécialités. Un récent document d'enquête sur l'IA l'a résumé:«Parce que nous ne comprenons pas profondément l'intelligence ou ne savons pas produire de l'IA générale, plutôt que de couper toutes les voies d'exploration, pour vraiment progresser, nous devrions

embrasser «l'anarchie des méthodes» de l'IA. »14

Mais depuis les années 2010, une famille de méthodes d'IA - appelées collectivement apprentissage en profondeur (ou réseaux de neurones profonds) - a dépassé l'anarchie pour devenir le paradigme dominant de l'IA. En fait, dans la plupart des médias populaires, le terme intelligence artificielle lui-même en est venu à signifier «apprentissage en profondeur». C'est une inexactitude malheureuse, et je dois clarifier la distinction. L'IA est un domaine qui comprend un large éventail d'approches, dans le but de créer des machines avec

intelligence. L'apprentissage en profondeur n'est qu'une de ces approches. Le deep learning est en soi une méthode parmi tant d'autres dans le domaine de l'apprentissage automatique, un sous-domaine de l'IA dans lequel les machines «apprennent» à partir de données ou de leurs propres «expériences». Pour mieux comprendre ces différentes distinctions, il est important de comprendre une scission philosophique qui s'est produite au début de la communauté de recherche en IA: la scission entre l'IA dite symbolique et subymbolique.

AI symbolique

Voyons d'abord l'IA symbolique. Les connaissances d'un programme d'IA symbolique se composent de mots ou de phrases (les «symboles»), généralement compréhensibles pour un être humain, ainsi que de règles par lesquelles le programme peut combiner et traiter ces symboles afin d'accomplir la tâche qui lui est assignée.

Je vais vous donner un exemple. Un des premiers programmes d'IA s'appelait en toute confiance le General Problem Solver, 15 ou GPS pour faire court. (Désolé pour l'acronyme déroutant; le General Problem Solver est antérieur au Global Positioning System.) Le GPS pourrait résoudre des problèmes tels que le casse-tête «Missionnaires et cannibales», que vous auriez pu résoudre vous-même lorsque vous étiez enfant. Dans cette énigme bien connue, trois missionnaires et trois cannibales doivent tous traverser une rivière, mais leur bateau ne peut contenir que deux personnes. Si à tout moment les cannibales (affamés) sont plus nombreux que les missionnaires (d'apparence savoureuse) d'un côté de la rivière… eh bien, vous savez probablement ce qui se passe. Comment les six traversent-ils la rivière intacts?

Les créateurs de General Problem Solver, les cognitifs Herbert Simon et Allen Newell, avaient enregistré plusieurs élèves «réfléchissant à haute voix» tout en résolvant ce casse-tête et d'autres énigmes logiques. Simon et Newell ont ensuite conçu leur programme pour imiter ce qu'ils croyaient être les processus de réflexion des élèves.

Je n'entrerai pas dans les détails du fonctionnement du GPS, mais sa nature symbolique peut être vue par la façon dont les instructions du programme ont été encodées. Pour configurer le problème, un humain écrirait du code pour le GPS qui ressemblerait à ceci:

ÉTAT ACTUEL:

BANC GAUCHE = [3 MISSIONNAIRES, 3 CANNIBAUX, 1 BATEAU] BANQUE DROITE = [VIDE]

ÉTAT DÉSIRÉ:

LEFT-BANK = [VIDE]

BANQUE DROITE = [3 MISSIONNAIRES, 3 CANNIBAUX, 1 BATEAU]

En anglais, ces lignes représentent le fait qu'au départ, la rive gauche de la rivière «contient» trois missionnaires, trois cannibales et un bateau, tandis que la rive droite n'en contient aucun. L'état souhaité représente l'objectif du programme: amener tout le monde sur la rive droite de la rivière.

À chaque étape de sa procédure, le GPS tente de modifier son état actuel pour le rendre plus similaire à l'état souhaité. Dans son code, le programme a des «opérateurs» (sous forme de sous-programmes) qui peuvent transformer l'état actuel en un nouvel état et des «règles» qui codent les contraintes de la tâche. Par exemple, il y a un opérateur qui déplace un certain nombre de missionnaires et de cannibales d'un côté à l'autre de la rivière:

DÉPLACEMENT (#MISSIONNAIRES, #CANNIBAUX, D'UN CÔTÉ À D'AUTRE CÔTÉ)

Les mots entre parenthèses sont appelés arguments, et lorsque le programme s'exécute, il remplace ces mots par des nombres ou d'autres mots. Autrement dit, #MISSIONNAIRES est remplacé par le nombre de missionnaires à déplacer, #CANNIBALS avec le nombre de cannibales à déplacer, et FROM-SIDE et TO-SIDE sont remplacés par «LEFT-BANK» ou «RIGHT-BANK», selon de quelle rive les missionnaires et les cannibales doivent être déplacés. Encodé dans le programme est la connaissance que le bateau est déplacé avec les missionnaires et les cannibales.

Avant de pouvoir appliquer cet opérateur avec des valeurs spécifiques remplaçant les arguments, le programme doit vérifier ses règles encodées; par exemple, le nombre maximum de personnes qui peuvent se déplacer à la fois est de deux, et l'opérateur ne peut pas être utilisé s'il en résulte que les cannibales sont plus nombreux que les missionnaires sur une rive.

Bien que ces symboles représentent des concepts interprétables par l'homme tels que les missionnaires, les cannibales, le bateau et la rive gauche, l'ordinateur exécutant ce programme n'a bien sûr aucune connaissance de la signification de ces symboles. Vous pouvez remplacer toutes les occurrences de «MISSIONNAIRES» par «Z372B» ou toute autre chaîne absurde, et le programme fonctionnerait exactement de la même manière. Cela fait partie de ce à quoi le terme Général fait référence dans General Problem Solver. Pour l'ordinateur, la «signification» des symboles découle de la manière dont ils peuvent être combinés, liés les uns aux autres et utilisés.

Les partisans de l'approche symbolique de l'IA ont fait valoir que pour atteindre l'intelligence dans les ordinateurs, il ne serait pas nécessaire de créer des programmes qui imitent le cerveau. Au lieu de cela, selon l'argument, l'intelligence générale peut être entièrement capturée par le bon type de programme de traitement de symboles. D'accord, le fonctionnement d'un tel programme serait beaucoup plus complexe que l'exemple des missionnaires et des cannibales, mais il consisterait toujours en symboles, combinaisons de symboles, et règles et opérations sur les symboles. L'IA symbolique du type illustré par le GPS a fini par dominer le domaine pendant ses trois premières décennies, notamment sous la forme de systèmes experts, dans lesquels des experts humains ont conçu des règles pour les programmes informatiques à utiliser dans des tâches telles que le diagnostic médical et la prise de décision juridique. . Il existe plusieurs branches actives de l'IA qui utilisent encore l'IA symbolique;J'en décrirai des exemples plus tard, en particulier dans les discussions sur les approches de l'IA au raisonnement et au bon sens.

AI subsymbolique: Perceptrons

L'IA symbolique était à l'origine inspirée par la logique mathématique ainsi que par la façon dont les gens décrivaient leurs processus de pensée conscients. En revanche, les approches sous-symboliques de l'IA se sont inspirées des neurosciences et ont cherché à capturer les processus de pensée parfois inconscients sous-jacents à ce que certains ont appelé la perception rapide, tels que la reconnaissance des visages ou l'identification des mots prononcés. Les programmes d'IA sous-symbolique ne contiennent pas le genre de langage compréhensible par l'homme que nous avons vu dans l'exemple des missionnaires et des cannibales ci-dessus. Au lieu de cela, un programme sous-symbolique est essentiellement une pile d'équations - un fourré d'opérations souvent difficiles à interpréter sur les nombres. Comme je l'expliquerai brièvement, ces systèmes sont conçus pour apprendre des données comment exécuter une tâche.

Le perceptron, inventé à la fin des années 1950 par le psychologue Frank Rosenblatt, est un exemple précoce d'un programme d'IA sous-symbolique et inspiré du cerveau.16 Le terme perceptron peut sembler un peu la science-fiction des années 1950 à nos oreilles modernes (comme nous voyez, il fut bientôt suivi par le «cognitron» et le «néocognitron»), mais le perceptron était une étape importante dans l'IA et était l'arrière-grand-parent influent de l'outil le plus réussi de l'IA moderne, les réseaux de neurones profonds.

L'invention de Rosenblatt sur les perceptrons a été inspirée par la façon dont les neurones traitent l'information. Un neurone est une cellule du cerveau qui reçoit un apport électrique ou chimique d'autres neurones qui s'y connectent. En gros, un neurone résume toutes les entrées qu'il reçoit d'autres neurones, et si la somme totale atteint un certain seuil, le neurone se déclenche. Surtout, différentes connexions (synapses) d'autres neurones à un neurone donné ont des forces différentes; dans le calcul de la somme de ses entrées, le neurone donné donne plus de poids aux entrées de connexions plus fortes qu'aux entrées de connexions plus faibles. Les neuroscientifiques croient que les ajustements à la force des connexions entre les neurones sont un élément clé de la façon dont l'apprentissage se déroule dans le cerveau.

FIGURE 1: A, un neurone dans le cerveau; B, un simple perceptron

Pour un informaticien (ou, dans le cas de Rosenblatt, un psychologue), le traitement de l'information dans les neurones peut être simulé par un programme informatique - un perceptron - qui a plusieurs entrées numériques et une sortie. L'analogie entre un neurone et un perceptron est illustrée à la figure 1. La figure 1A montre un neurone, avec ses dendrites ramifiées (fibres qui transportent les entrées vers la cellule), le corps cellulaire et l'axone (c'est-à-dire le canal de sortie) étiqueté. La figure 1B montre un perceptron simple. Analogue au neurone, le perceptron additionne ses entrées, et si la somme résultante est égale ou supérieure au seuil du perceptron, le perceptron émet la valeur 1 (il «se déclenche»); sinon, il renvoie la valeur 0 (il

"Ne tire pas"). Pour simuler les différentes forces des connexions à un neurone, Rosenblatt a proposé qu'un poids numérique soit attribué à chacune des entrées d'un perceptron; chaque entrée est multipliée par son poids avant d'être ajoutée à la somme. Le seuil d'un perceptron est simplement un nombre fixé par le programmeur (ou, comme nous le verrons, appris par le perceptron lui-même).

En bref, un perceptron est un programme simple qui prend une décision oui ou non (1 ou 0) selon que la somme de ses entrées pondérées correspond à une valeur seuil. Vous prenez probablement de telles décisions dans votre vie. Par exemple, vous pourriez obtenir des commentaires de plusieurs amis sur combien ils ont aimé un film particulier, mais vous faites plus confiance aux goûts de certains de ces amis dans les films qu'aux autres. Si le montant total de «l'enthousiasme des amis» - donner plus de poids à vos amis de confiance - est suffisamment élevé (c'est-à-dire supérieur à un certain seuil inconscient), vous décidez d'aller au film. C'est ainsi qu'un perceptron déciderait des films, si seulement il avait des amis.

FIGURE 2: Exemples de chiffres manuscrits

Inspiré par les réseaux de neurones dans le cerveau, Rosenblatt a proposé que les réseaux de perceptrons puissent effectuer des tâches visuelles telles que la reconnaissance des visages et des objets. Pour avoir une idée de la façon dont cela pourrait fonctionner, examinons comment un perceptron pourrait être utilisé pour une tâche visuelle particulière: reconnaître les chiffres manuscrits comme ceux de la figure 2.

En particulier, concevons un perceptron pour qu'il soit un détecteur à 8, c'est-à-dire à sortir un 1 si ses entrées proviennent d'une image représentant un 8 et à sortir un 0 si l'image représente un autre chiffre. La conception d'un tel détecteur nous oblige à (1) comprendre comment transformer une image en un ensemble d'entrées numériques, et (2) déterminer les nombres à utiliser pour les poids et le seuil du perceptron, afin qu'il donne la sortie correcte (1 pour 8s, 0 pour les autres chiffres). Je vais entrer dans les détails ici parce que beaucoup des mêmes idées surgiront plus tard dans mes discussions sur les réseaux de neurones et leurs applications en vision par ordinateur.

Les entrées de notre Perceptron

La figure 3A montre un 8 manuscrit agrandi. Chaque carré de la grille est un pixel avec une valeur numérique «d'intensité»: les carrés blancs ont une intensité de 0, les carrés noirs ont une intensité de 1 et les carrés gris sont entre les deux. Supposons que les images que nous donnons à notre perceptron ont été ajustées pour avoir la même taille que celle-ci: 18 × 18 pixels. La figure 3B illustre un perceptron pour reconnaître les 8. Ce perceptron possède 324 (c'est-à-dire 18 × 18) entrées, chacune correspondant à l'un des pixels de la grille 18 × 18. Étant donné une image comme celle de la figure 3A, chacune des entrées du perceptron est réglée à l'intensité du pixel correspondant. Chacune des entrées aurait sa propre valeur de poids (non représentée sur la figure).

FIGURE 3: Une illustration d'un perceptron qui reconnaît les 8 manuscrits. Chaque pixel de l'image 18 × 18 pixels correspond à une entrée pour le perceptron, ce qui donne 324 (= 18 × 18) entrées.

Apprentissage des poids et du seuil du Perceptron

Contrairement au système symbolique de résolution de problèmes généraux que j'ai décrit précédemment, un perceptron n'a pas de règles explicites pour effectuer sa tâche; toute sa «connaissance» est codée dans les nombres qui composent ses poids et son seuil. Dans ses différents articles, Rosenblatt a montré qu'étant donné le poids et les valeurs de seuil corrects, un perceptron comme celui de la figure 3B peut effectuer assez bien des tâches perceptuelles telles que la reconnaissance de simples chiffres manuscrits. Mais comment, exactement, pouvons-nous déterminer les poids et seuils corrects pour une tâche donnée? Encore une fois, Rosenblatt a proposé une réponse inspirée par le cerveau: le perceptron devrait apprendre ces valeurs par lui-même. Et comment est-il censé apprendre les bonnes valeurs? Comme les théories de la psychologie comportementale populaires à l'époque, l'idée de Rosenblatt était que les perceptrons devraient apprendre par conditionnement.Inspirée en partie par le psychologue comportementaliste BF Skinner, qui a formé des rats et des pigeons pour effectuer des tâches en leur donnant un renforcement positif et négatif, l'idée de Rosenblatt était que le perceptron devrait également être formé sur des exemples: il devrait être récompensé lorsqu'il tire correctement et puni quand il se trompe. Cette forme de conditionnement est désormais connue en IA sous le nom d'apprentissage supervisé. Au cours de la formation, le système d'apprentissage reçoit un exemple, il produit une sortie, puis il reçoit un «signal de supervision», qui indique à quel point la sortie du système diffère de la sortie correcte. Le système utilise ensuite ce signal pour ajuster ses poids et son seuil.L'idée de Rosenblatt était que le perceptron devrait également être formé sur des exemples: il devrait être récompensé lorsqu'il tire correctement et puni lorsqu'il se trompe. Cette forme de conditionnement est désormais connue en IA sous le nom d'apprentissage supervisé. Au cours de la formation, le système d'apprentissage reçoit un exemple, il produit une sortie, puis il reçoit un «signal de supervision», qui indique à quel point la sortie du système diffère de la sortie correcte. Le système utilise ensuite ce signal pour ajuster ses poids et son seuil.L'idée de Rosenblatt était que le perceptron devrait également être formé sur des exemples: il devrait être récompensé lorsqu'il tire correctement et puni lorsqu'il se trompe. Cette forme de conditionnement est désormais connue en IA sous le nom d'apprentissage supervisé. Au cours de la formation, le système d'apprentissage reçoit un exemple, il produit une sortie, puis il reçoit un «signal de supervision», qui indique à quel point la sortie du système diffère de la sortie correcte. Le système utilise ensuite ce signal pour ajuster ses poids et son seuil.Le système utilise ensuite ce signal pour ajuster ses poids et son seuil.Le système utilise ensuite ce signal pour ajuster ses poids et son seuil.

Le concept d'apprentissage supervisé est un élément clé de l'IA moderne, il vaut donc la peine d'en discuter plus en détail. L'apprentissage supervisé nécessite généralement un grand nombre d'exemples positifs (par exemple, une collection de 8 écrits par des personnes différentes) et des exemples négatifs (par exemple, une collection d'autres chiffres manuscrits, à l'exclusion des 8). Chaque exemple est étiqueté par un humain avec sa catégorie - ici, 8 ou pas-8. Cette étiquette sera utilisée comme signal de supervision. Certains des exemples positifs et négatifs sont utilisés pour former le système; on les appelle l'ensemble d'entraînement. Le reste - l'ensemble de test - est utilisé pour évaluer les performances du système après qu'il a été formé, pour voir dans quelle mesure il a appris à répondre correctement en général, et pas seulement sur les exemples de formation.

Le terme le plus important en informatique est peut-être l'algorithme, qui fait référence à une «recette» des étapes qu'un ordinateur peut suivre pour résoudre un problème particulier. La principale contribution de Frank Rosenblatt à l'IA était sa conception d'un algorithme spécifique, appelé algorithme d'apprentissage du perceptron, par lequel un perceptron pouvait être formé à partir d'exemples pour déterminer les poids et le seuil qui produiraient des réponses correctes. Voici comment cela fonctionne: au départ, les poids et le seuil sont définis sur des valeurs aléatoires comprises entre −1 et 1. Dans notre exemple, le poids sur la première entrée peut être défini sur 0,2, le poids sur la deuxième entrée défini sur −0,6, et ainsi de suite, et le seuil défini à 0,7. Un programme informatique appelé générateur de nombres aléatoires peut facilement générer ces valeurs initiales.

Nous pouvons maintenant commencer le processus de formation. Le premier exemple de formation est donné au perceptron; à ce stade, le perceptron ne voit pas l'étiquette de catégorie correcte. Le perceptron multiplie chaque entrée par son poids, résume tous les résultats, compare la somme avec le seuil et génère 1 ou 0. Ici, la sortie 1 signifie une estimation de 8 et la sortie 0 signifie une estimation de non- 8. Maintenant, le processus de formation compare la sortie du perceptron avec la bonne réponse donnée par l'étiquette fournie par l'homme (c'est-à-dire 8 ou non-8). Si le perceptron est correct, les poids et le seuil ne changent pas. Mais si le perceptron est erroné, les poids et le seuil sont légèrement modifiés, ce qui rend la somme du perceptron sur cet exemple de formation plus proche de la production de la bonne réponse. De plus, le montant de chaque poids

est modifié dépend de sa valeur d'entrée associée; c'est-à-dire que le blâme de l'erreur est prononcé en fonction des entrées qui ont eu le plus d'impact. Par exemple, dans le 8 de la figure 3A, les pixels de plus forte intensité (ici, noirs) auraient le plus d'impact, et les pixels de 0 intensité (ici, blancs) n'auraient aucun impact. (Pour les lecteurs intéressés, j'ai inclus quelques détails mathématiques dans les notes.17)

L'ensemble du processus est répété pour l'exemple de formation suivant. Le processus de formation passe par toutes les formations

exemples plusieurs fois, en modifiant un peu les poids et le seuil à chaque fois que le perceptron fait une erreur. Tout comme le psychologue BF Skinner l'a constaté lors de l'entraînement des pigeons, il est préférable d'apprendre progressivement au fil de nombreux essais; si les poids et le seuil sont trop modifiés sur un même essai, alors le système pourrait finir par apprendre la mauvaise chose (comme une sur-généralisation selon laquelle «les moitiés inférieure et supérieure d'un 8 sont toujours de taille égale»). Après de nombreuses répétitions sur chaque exemple de formation, le système finit (nous l'espérons) par un ensemble de poids et un seuil qui donnent des réponses correctes pour tous les exemples de formation. À ce stade, nous pouvons évaluer le perceptron sur les exemples de test pour voir comment il fonctionne sur des images sur lesquelles il n'a pas été formé.

Un détecteur à 8 est utile si vous ne vous souciez que d'environ 8 secondes. Mais qu'en est-il de la reconnaissance des autres chiffres? Il est assez simple d'étendre notre perceptron pour avoir dix sorties, une pour chaque chiffre. Étant donné un exemple de chiffre manuscrit, la sortie correspondant à ce chiffre doit être 1 et toutes les autres sorties doivent être 0. Ce perceptron étendu peut apprendre tous ses poids et seuils à l'aide de l'algorithme d'apprentissage du perceptron; le système a juste besoin d'assez d'exemples.

Rosenblatt et d'autres ont montré que les réseaux de perceptrons pouvaient apprendre à effectuer des tâches perceptuelles relativement simples; en outre, Rosenblatt a prouvé mathématiquement que pour une certaine classe de tâches, bien que très limitée, les perceptrons ayant une formation suffisante pouvaient, en principe, apprendre à effectuer ces tâches sans erreur. Ce qui n'était pas clair, c'était la capacité des perceptrons à effectuer des tâches d'IA plus générales. Cette incertitude n'a pas semblé empêcher Rosenblatt et ses bailleurs de fonds de l'Office of Naval Research de faire des prévisions ridiculement optimistes sur leur algorithme. Relevant d'une conférence de presse tenue à Rosenblatt en juillet 1958, le New York Times présenta cette récapitulation:

La Navy a révélé aujourd'hui l'embryon d'un ordinateur électronique qui, selon elle, sera capable de marcher, de parler, de voir, d'écrire, de se reproduire et d'être conscient de son existence. Les perceptrons ultérieurs seront capables de reconnaître les gens et d'appeler leurs noms et de traduire instantanément la parole en un seul

langue à la parole et à l'écriture dans une autre langue, c'était prévu.18

Oui, même à ses débuts, l'IA souffrait d'un problème de battage médiatique. Je parlerai plus en détail des résultats malheureux d'un tel battage médiatique sous peu. Mais pour l'instant, je veux utiliser des perceptrons pour mettre en évidence une différence majeure entre les approches symboliques et sous-symboliques de l'IA.

Le fait que la «connaissance» d'un perceptron se compose d'un ensemble de nombres - à savoir, les poids et le seuil qu'il a appris - signifie qu'il est difficile de découvrir les règles que le perceptron utilise pour effectuer sa tâche de reconnaissance. Les règles du perceptron ne sont pas symboliques; contrairement aux symboles de General Problem Solver, tels que LEFT-BANK, #MISSIONARIES et MOVE, les poids et seuils d'un perceptron ne représentent pas des concepts particuliers. Il n'est pas facile de traduire ces chiffres en règles compréhensibles par l'homme. La situation empire avec les réseaux de neurones modernes qui ont des millions de poids.

On pourrait faire une analogie approximative entre les perceptrons et le cerveau humain. Si je pouvais ouvrir la tête et regarder un sous-ensemble de vos centaines de milliards de neurones se déclencher, je n'aurais probablement aucune idée de ce que vous pensiez ou des «règles» que vous avez utilisées pour prendre une décision particulière. Cependant, le cerveau humain a donné naissance au langage, ce qui vous permet d'utiliser des symboles (mots et phrases) pour me dire - souvent de manière imparfaite - ce que sont vos pensées ou pourquoi vous avez fait une certaine chose. En ce sens, nos déclenchements neuronaux peuvent être considérés comme sous-symboliques, en ce qu'ils sous-tendent les symboles que notre cerveau crée d'une manière ou d'une autre. Les perceptrons, ainsi que des réseaux plus complexes de neurones simulés, ont été surnommés «sous-symboliques» par analogie avec le cerveau. Leurs partisans croient que pour atteindre l'intelligence artificielle,Les symboles de type langage et les règles qui régissent le traitement des symboles ne peuvent pas être programmés directement, comme cela a été fait dans la résolution de problèmes généraux, mais doivent émerger d'architectures de type neuronal similaires à la façon dont le traitement intelligent des symboles émerge du cerveau.

Les limites des perceptrons

Après la réunion de Dartmouth en 1956, le camp symbolique a dominé le paysage de l'IA. Au début des années 1960, alors que Rosenblatt travaillait avidement sur le perceptron, les quatre grands «fondateurs» de l'IA, tous de grands adeptes du camp symbolique, avaient créé des laboratoires d'IA influents et bien financés: Marvin Minsky au MIT, John McCarthy à Stanford, et Herbert Simon et Allen Newell à Carnegie Mellon. (Remarquablement, ces trois universités restent à

ce jour parmi les endroits les plus prestigieux pour étudier l'IA.) Minsky, en particulier, a estimé que l'approche inspirée par le cerveau de Rosenblatt à l'IA était une impasse, et en plus volait des dollars de recherche d'efforts d'IA symboliques plus dignes.19 En 1969, Minsky et son collègue du MIT Seymour Papert ont publié un livre, Perceptrons, 20 dans lequel ils

a donné une preuve mathématique montrant que les types de problèmes qu'un perceptron pouvait résoudre parfaitement étaient très limités

et que l'algorithme d'apprentissage du perceptron ne réussirait pas à évoluer vers des tâches nécessitant un grand nombre de poids et de seuils.

Minsky et Papert ont souligné que si un perceptron est augmenté en ajoutant une «couche» de neurones simulés, les types de problèmes que l'appareil peut résoudre sont, en principe, beaucoup plus larges.21 Un perceptron avec une telle couche ajoutée est appelé multicouche réseau neuronal. Ces réseaux constituent les fondements d'une grande partie de l'IA moderne; Je les décrirai en détail dans le chapitre suivant. Mais pour l'instant, je noterai qu'à l'époque du livre de Minsky et Papert, les réseaux neuronaux multicouches n'étaient pas largement étudiés, en grande partie parce qu'il n'y avait pas d'algorithme général, analogue à la perceptron-

algorithme d'apprentissage, pour l'apprentissage des poids et des seuils.

Les limites que Minsky et Papert ont prouvées pour les perceptrons simples étaient déjà connues des personnes travaillant dans ce domaine.22 Frank Rosenblatt lui-même avait fait un travail approfondi sur les perceptrons multicouches et reconnu la difficulté de les former.23 Ce ne sont pas les mathématiques de Minsky et Papert qui ont mis le ongle final dans le cercueil du perceptron; c'était plutôt leur spéculation sur les réseaux de neurones multicouches:

[Le perceptron] a de nombreuses caractéristiques pour attirer l'attention: sa linéarité; son intrigant théorème d'apprentissage; sa claire simplicité paradigmatique comme une sorte de calcul parallèle. Il n'y a aucune raison de supposer que l'une de ces vertus se répercute sur la version à plusieurs niveaux. Néanmoins,

nous considérons que c'est un problème de recherche important pour élucider (ou rejeter) notre jugement intuitif que l'extension est stérile.

Aie. Dans la langue vernaculaire d'aujourd'hui, cette dernière phrase pourrait être qualifiée de «passive-agressive». Ces spéculations négatives étaient au moins en partie la raison pour laquelle le financement de la recherche sur les réseaux de neurones s'est tari à la fin des années 1960, en même temps que l'IA symbolique débordait de dollars du gouvernement. En 1971, à l'âge de 43 ans, Frank Rosenblatt décède dans un accident de bateau. Sans son principal promoteur et sans beaucoup de financement gouvernemental, la recherche sur les perceptrons et autres méthodes d'IA sous-symboliques s'est largement arrêtée, sauf dans quelques groupes universitaires isolés.

AI Winter

Dans l'intervalle, les partisans de l'IA symbolique rédigeaient des propositions de subventions promettant des percées imminentes dans des domaines tels que la compréhension de la parole et du langage, le raisonnement de bon sens, la navigation par robot et les véhicules autonomes. Vers le milieu des années 1970, alors que certains systèmes experts très étroitement ciblés étaient déployés avec succès, les percées plus générales sur l'IA qui avaient été promises ne s'étaient pas matérialisées.

Les agences de financement l'ont remarqué. Deux rapports, sollicités respectivement par le Science Research Council au Royaume-Uni et le Department of Defence aux États-Unis, ont fait état très négativement des progrès et des perspectives de la recherche sur l'IA. Le rapport du Royaume-Uni en particulier a reconnu qu'il y avait des promesses dans le domaine des systèmes experts spécialisés - «des programmes écrits pour fonctionner dans des domaines problématiques hautement spécialisés, lorsque la programmation prend très pleinement en compte les résultats de l'expérience humaine et de l'intelligence humaine dans le domaine concerné» "Mais a conclu que les résultats obtenus à ce jour étaient" totalement décourageants pour les programmes à usage général cherchant à imiter les aspects de résolution de problèmes de l'activité [cérébrale] humaine sur un champ assez large. Un tel programme polyvalent, le très convoité

l'objectif à long terme de l'activité de l'IA semble plus éloigné que jamais. »25 Ce rapport a entraîné une forte baisse du financement public pour la recherche sur l'IA au Royaume-Uni; de même, le ministère de la Défense a considérablement réduit le financement de la recherche fondamentale sur l'IA aux États-Unis.

Ce fut un des premiers exemples d'un cycle répétitif de bulles et d'accidents dans le domaine de l'IA. Le cycle en deux parties se déroule ainsi. Phase 1: Les nouvelles idées créent beaucoup d'optimisme dans la communauté des chercheurs. Les résultats de percées imminentes en matière d'IA sont promis et souvent médiatisés dans les médias. L'argent afflue des bailleurs de fonds du gouvernement et des investisseurs en capital-risque pour la recherche universitaire et les start-ups commerciales. Phase 2: Les percées promises ne se produisent pas ou sont beaucoup moins impressionnantes que promises. Le financement public et le capital-risque s'assèchent. Les start-ups se replient et la recherche sur l'IA ralentit. Ce modèle est devenu familier à la communauté de l'IA: «AI spring», suivi de la promotion excessive et du battage médiatique, suivi de «AI winter». Cela s'est produit, à divers degrés, en cycles de cinq à dix ans. Quand je suis sorti de l'école doctorale en 1990,le domaine était dans l'un de ses hivers et avait acquis une si mauvaise image que l'on m'a même conseillé de laisser le terme «intelligence artificielle» de mes demandes d'emploi.

Les choses faciles sont difficiles

Les hivers froids de l'IA ont enseigné aux pratiquants des leçons importantes. La leçon la plus simple a été notée par John McCarthy, cinquante ans après la conférence de Dartmouth: «L'IA était plus difficile que nous ne le pensions.» 26 Marvin Minsky a souligné qu'en fait la recherche sur l'IA avait révélé un paradoxe: «Les choses faciles sont difficiles.» Les objectifs originaux de l'IA - des ordinateurs qui pourraient converser avec nous en langage naturel, décrire ce qu'ils ont vu à travers leurs yeux de caméra, apprendre de nouveaux concepts après avoir vu seulement quelques exemples - sont des choses que les jeunes enfants peuvent facilement faire, mais, étonnamment, ces « des choses faciles »

Il s'est avéré plus difficile à réaliser pour l'IA que de diagnostiquer des maladies complexes, de battre des champions humains aux échecs et au go et de résoudre des problèmes algébriques complexes. Comme Minsky a poursuivi: «En général, nous sommes moins conscients de ce que nos esprits font de mieux.» 27 La tentative de créer une intelligence artificielle a, à tout le moins, aidé à élucider la complexité et la subtilité de nos propres esprits.

2

Réseaux de neurones et ascension de l'apprentissage automatique

Alerte spoiler: les réseaux de neurones multicouches - l'extension des perceptrons qui a été rejetée par Minsky et Papert comme étant probablement «stérile» - se sont plutôt avérés être le fondement d'une grande partie de l'intelligence artificielle moderne. Parce qu'ils sont à la base de plusieurs des méthodes que je décrirai dans les chapitres suivants, je vais prendre un peu de temps ici pour décrire le fonctionnement de ces réseaux.

Réseaux de neurones multicouches

Un réseau est simplement un ensemble d'éléments qui sont connectés les uns aux autres de différentes manières. Nous connaissons tous les réseaux sociaux, dans lesquels les éléments sont des personnes, et les réseaux informatiques, dans lesquels les éléments sont, naturellement, des ordinateurs. Dans les réseaux de neurones, les éléments sont des neurones simulés semblables aux perceptrons que j'ai décrits dans le chapitre précédent.

FIGURE 4: Un réseau de neurones à deux couches pour reconnaître les chiffres manuscrits

Dans la figure 4, j'ai esquissé un réseau neuronal multicouche simple, conçu pour reconnaître les chiffres manuscrits. Le réseau comprend deux colonnes (couches) de neurones simulés de type perceptron (cercles). Pour plus de simplicité (et probablement pour le soulagement des neuroscientifiques lisant ceci), j'utiliserai le terme unité au lieu de neurone simulé pour décrire les éléments de ce réseau. Comme le perceptron à 8 détecteurs du chapitre 1, le réseau de la figure 4 a 324 (18 × 18) entrées, chacune étant réglée sur la valeur d'intensité du pixel correspondant dans l'image d'entrée. Mais contrairement au perceptron, ce réseau a une couche de trois unités dites cachées, avec sa couche de dix unités de sortie. Chaque unité de sortie correspond à l'une des catégories de chiffres possibles.

Les grandes flèches grises signifient que chaque entrée a une connexion pondérée à chaque unité cachée, et chaque unité cachée a une connexion pondérée à chaque unité de sortie. Le terme mystérieux à consonance cachée vient de la littérature sur les réseaux de neurones; cela signifie simplement une unité sans sortie. Un meilleur nom aurait pu être l'unité intérieure.

Pensez à la structure de votre cerveau, dans laquelle certains neurones contrôlent directement les «sorties» telles que vos mouvements musculaires, mais la plupart des neurones communiquent simplement avec d'autres neurones. On pourrait les appeler les neurones cachés du cerveau.

Le réseau illustré à la figure 4 est appelé «multicouche» car il comporte deux couches d'unités (masquée et sortie) au lieu d'une simple couche de sortie. En principe, un réseau multicouche peut avoir plusieurs couches d'unités cachées; les réseaux qui ont plus d'une couche d'unités cachées sont appelés réseaux profonds. La «profondeur» d'un réseau est simplement son nombre de couches cachées. J'aurai beaucoup plus à dire sur les réseaux profonds dans les prochains chapitres.

Semblable aux perceptrons, chaque unité multiplie ici chacune de ses entrées par le poids sur la connexion de cette entrée, puis additionne les résultats. Cependant, contrairement à un perceptron, une unité ici ne se contente pas de "tirer" ou de "ne pas tirer" (c'est-à-dire produire 1 ou 0) en fonction d'un seuil; à la place, chaque unité utilise sa somme pour calculer un nombre compris entre 0 et 1 qui est appelé «activation» de l'unité. Si la somme qu'une unité calcule est faible, l'activation de l'unité est proche de 0; si la somme est élevée, l'activation est proche de 1. (Pour les lecteurs intéressés, j'ai inclus certains détails mathématiques dans le

notes.1)

Pour traiter une image telle que le 8 manuscrit de la figure 4, le réseau effectue ses calculs couche par couche, de gauche à droite. Chaque unité cachée calcule sa valeur d'activation; ces valeurs d'activation deviennent alors les entrées des unités de sortie, qui calculent ensuite leurs propres activations. Dans le réseau de la figure 4, l'activation d'une unité de sortie peut être considérée comme la confiance du réseau qu'il «voit» le chiffre correspondant; la catégorie de chiffres avec la plus grande confiance peut être considérée comme la réponse du réseau - sa classification.

En principe, un réseau neuronal multicouche peut apprendre à utiliser ses unités cachées pour reconnaître des caractéristiques plus abstraites (par exemple, des formes visuelles, telles que les «cercles» supérieurs et inférieurs sur un 8 manuscrit) que les fonctionnalités simples (par exemple, les pixels) encodé par l'entrée. En général, il est difficile de savoir à l'avance combien de couches d'unités cachées sont nécessaires, ou combien d'unités cachées doivent être incluses dans une couche, pour qu'un réseau fonctionne bien dans une tâche donnée. La plupart des chercheurs du réseau neuronal utilisent une forme d'essais et d'erreurs pour trouver les meilleurs paramètres.

Apprentissage par rétropropagation

Dans leur livre Perceptrons, Minsky et Papert étaient sceptiques quant à la possibilité de concevoir un algorithme efficace pour l'apprentissage des poids dans un réseau neuronal multicouche. Leur scepticisme (ainsi que les doutes des autres membres de la communauté de l'IA symbolique) était en grande partie responsable de la forte baisse du financement de la recherche sur les réseaux de neurones dans les années 1970. Mais malgré l'effet effrayant du livre de Minsky et Papert sur le terrain, un petit noyau de chercheurs en réseaux de neurones a persisté, en particulier dans le propre domaine de la psychologie cognitive de Frank Rosenblatt. Et à la fin des années 1970 et au début des années 80, plusieurs de ces groupes avaient réfuté définitivement les spéculations de Minsky et Papert sur la «stérilité» des réseaux neuronaux multicouches en développant un algorithme d'apprentissage général - appelé rétropropagation - pour former ces réseaux.

Comme son nom l'indique, la rétropropagation est un moyen de prendre une erreur observée au niveau des unités de sortie (par exemple, une confiance élevée pour le mauvais chiffre dans l'exemple de la figure 4) et de «propager» le blâme de cette erreur vers l'arrière ( dans la figure 4, ce serait de droite à gauche) afin d'attribuer le blâme approprié à chacun des poids du réseau. Cela permet à la rétropropagation de déterminer dans quelle mesure changer chaque poids afin de réduire l'erreur. L'apprentissage dans les réseaux de neurones consiste simplement à modifier progressivement les poids sur les connexions afin que l'erreur de chaque sortie soit aussi proche que possible de 0 sur tous les exemples de formation. Alors que les mathématiques de la rétropropagation dépassent le cadre de

ma discussion ici, j'ai inclus quelques détails dans les notes.2

La rétropropagation fonctionnera (en principe au moins) quel que soit le nombre d'entrées, d'unités cachées ou d'unités de sortie de votre réseau neuronal. Bien qu'il n'y ait aucune garantie mathématique que la rétropropagation se fixe sur les poids corrects pour un réseau, en pratique, elle a très bien fonctionné sur de nombreuses tâches qui sont trop difficiles pour de simples perceptrons. Par exemple, j'ai formé à la fois un perceptron et un réseau neuronal à deux couches, chacun avec 324 entrées et 10 sorties, sur la tâche de reconnaissance de chiffres manuscrits, en utilisant soixante mille exemples, puis j'ai testé dans quelle mesure chacun était capable de reconnaître dix mille de nouveaux exemples. Le perceptron était correct sur environ 80% des nouveaux exemples, tandis que le réseau neuronal, avec 50 unités cachées, était correct sur 94% de ces nouveaux exemples. Bravo aux unités cachées!Mais qu'est-ce que le réseau de neurones a appris exactement qui lui a permis de

perceptron? Je ne sais pas. Il est possible que je puisse trouver un moyen de visualiser les 16 700 poids3 du réseau neuronal pour avoir un aperçu de ses performances, mais je ne l'ai pas fait, et en général, il n'est pas du tout facile de comprendre comment ces réseaux prennent leurs décisions.

Il est important de noter que bien que j'aie utilisé l'exemple des chiffres manuscrits, les réseaux de neurones peuvent être appliqués non seulement aux images mais à tout type de données. Les réseaux de neurones ont été appliqués dans des domaines aussi divers que la reconnaissance vocale, la prédiction boursière, la traduction de la langue et la composition musicale.

Connectionisme

Dans les années 1980, le groupe le plus visible travaillant sur les réseaux de neurones était une équipe de l'Université de Californie à San Diego dirigée par deux psychologues, David Rumelhart et James McClelland. Ce que nous appelons maintenant les réseaux de neurones étaient alors généralement appelés réseaux connexionnistes, où le terme connexionniste fait référence à l'idée que

les connaissances dans ces réseaux résident dans les connexions pondérées entre les unités. L'équipe dirigée par Rumelhart et McClelland est connue pour avoir écrit la soi-disant bible du connexionnisme - un traité en deux volumes, publié en 1986, appelé Parallel Distributed Processing. Au milieu d'un paysage d'IA dominé par l'IA symbolique, le livre était un discours d'encouragement pour l'approche sous-symbolique, faisant valoir que «les gens sont plus intelligents que les ordinateurs d'aujourd'hui parce que le cerveau utilise une architecture de calcul de base plus adaptée à… l'information naturelle - par exemple, «percevoir des objets dans des scènes naturelles et noter leurs relations,… comprendre le langage et récupérer des informations contextuellement appropriées de la mémoire.»4 Les auteurs ont émis l'hypothèse que« des systèmes symboliques tels que ceux privilégiés par Minsky et Papert »5 ne seraient pas en mesure de saisir ces capacités humaines.

En effet, au milieu des années 80, des systèmes experts - des approches symboliques de l'IA qui s'appuient sur les humains pour créer des règles qui

reflètent une connaissance experte d'un domaine particulier - se révèlent de plus en plus fragiles: c'est-à-dire sujettes aux erreurs et souvent incapables de se généraliser ou de s'adapter lorsqu'elles sont confrontées à de nouvelles situations. En analysant les limites de ces systèmes, les chercheurs ont découvert à quel point les experts humains qui rédigent les règles s'appuient réellement sur des connaissances subconscientes - ce que vous pourriez appeler le bon sens - pour agir intelligemment. Ce genre de bon sens ne pouvait pas être facilement capturé dans des règles programmées ou des déductions logiques, et leur absence limitait gravement toute large application des méthodes symboliques de l'IA. En bref, après un cycle de grandes promesses, d'immenses financements et un battage médiatique, l'IA symbolique faisait face à un autre hiver de l'IA.

Selon les partisans du connexionnisme, la clé de l'intelligence était une architecture de calcul appropriée - inspirée du cerveau - et la capacité du système à apprendre par lui-même à partir de données ou à agir dans le monde. Rumelhart, McClelland et leur équipe ont construit des réseaux connexionnistes (dans le logiciel) en tant que modèles scientifiques de l'apprentissage, de la perception et du développement du langage chez l'homme. Bien que ces réseaux ne présentent aucune performance proche du niveau humain, les différents réseaux décrits dans les livres sur le traitement distribué parallèle et ailleurs étaient suffisamment intéressants en tant qu'artéfacts de l'IA que beaucoup de gens ont remarqués, y compris ceux des agences de financement. En 1988, un haut fonctionnaire de la Defense Advanced Research Projects Agency (DARPA), qui a fourni la part du lion du financement de l'IA, a proclamé:«Je crois que cette technologie que nous sommes sur le point d'embarquer [c'est-à-dire neuronale

réseaux] est plus important que la bombe atomique. »6 Soudain, les réseaux de neurones étaient de nouveau« entrés ».

Mauvais chez Logic, bons chez Frisbee

Au cours des six dernières décennies de recherche sur l'IA, les gens ont débattu à plusieurs reprises les avantages et inconvénients relatifs des approches symboliques et sous-symboliques. Les systèmes symboliques peuvent être conçus par les humains, être imprégnés de connaissances humaines et utiliser un raisonnement compréhensible par l'homme pour résoudre les problèmes. Par exemple, MYCIN, un système expert développé au début des années 1970, a reçu environ six cents règles qu'il a utilisées pour aider les médecins à diagnostiquer et à traiter les maladies du sang. Les programmeurs de MYCIN ont développé ces règles après des entretiens minutieux avec des médecins experts. Compte tenu des symptômes d'un patient et des résultats des tests médicaux, MYCIN a pu utiliser à la fois le raisonnement logique et probabiliste ainsi que ses règles afin de parvenir à un diagnostic, et il a pu expliquer son processus de raisonnement. En bref, MYCIN était un exemple paradigmatique d'IA symbolique.

En revanche, comme nous l'avons vu, les systèmes sous-symboliques ont tendance à être difficiles à interpréter, et personne ne sait comment programmer directement des connaissances humaines complexes ou une logique dans ces systèmes. Les systèmes sous-symboliques semblent beaucoup mieux adaptés aux tâches perceptuelles ou motrices pour lesquelles les humains ne peuvent pas facilement définir des règles. Vous ne pouvez pas facilement écrire des règles pour identifier des chiffres manuscrits, attraper une balle de baseball ou reconnaître la voix de votre mère; vous semblez le faire automatiquement, sans pensée consciente. Comme l'a dit le philosophe Andy Clark, la nature des systèmes sous-symboliques

c'est d'être «mauvais en logique, bon en frisbee» 7.

Alors, pourquoi ne pas simplement utiliser des systèmes symboliques pour les tâches qui nécessitent des descriptions et un raisonnement logique de haut niveau, et utiliser des systèmes sous-symboliques pour les tâches perceptives de bas niveau telles que la reconnaissance des visages et des voix? Dans une certaine mesure, c'est ce qui a été fait en IA, avec très peu de connexion entre les deux domaines. Chacune de ces approches a connu des succès importants dans des domaines étroits mais a de sérieuses limites pour atteindre les objectifs initiaux de l'IA. Bien qu'il y ait eu quelques tentatives de construction de systèmes hybrides qui intègrent des méthodes sous-symboliques et symboliques, aucune n'a encore abouti à un succès saisissant.

L'ascension de l'apprentissage automatique

Inspirés par les statistiques et la théorie des probabilités, les chercheurs en IA ont développé de nombreux algorithmes qui permettent aux ordinateurs d'apprendre des données, et le domaine de l'apprentissage automatique est devenu sa propre sous-discipline indépendante de l'IA, intentionnellement séparée de l'IA symbolique. Les chercheurs en apprentissage automatique ont dénigré les méthodes de l'IA symbolique comme une bonne intelligence artificielle ancienne ou GOFAI (prononcé «go-fye») 8, et les ont catégoriquement rejetées.

Au cours des deux décennies suivantes, l'apprentissage automatique a connu ses propres cycles d'optimisme, de financement public, de start-ups,

et surprenant, suivi par les hivers inévitables. La formation de réseaux de neurones et de méthodes similaires pour résoudre des problèmes du monde réel pourrait être glacialement lente et souvent ne fonctionnait pas très bien, étant donné la quantité limitée de données et de puissance informatique disponibles à l'époque. Mais plus de données et de puissance de calcul arrivaient sous peu. La croissance explosive d'Internet y contribuerait. La scène était prête pour la prochaine grande révolution de l'IA.

3

AI Spring

Fièvre printanière

Avez-vous déjà pris une vidéo de votre chat et l'avez téléchargée sur YouTube? Si tel est le cas, tu n'es pas seul. Plus d'un milliard de vidéos ont été téléchargées sur YouTube, et beaucoup d'entre elles présentent des chats. En 2012, une équipe d'intelligence artificielle de Google a construit un réseau neuronal multicouche avec plus d'un milliard de poids qui a "visionné" des millions de vidéos YouTube aléatoires tout en ajustant ces poids pour réussir à compresser, puis décompresser, les images sélectionnées des vidéos. Les chercheurs de Google n'ont pas dit au système de se renseigner sur des objets particuliers, mais après une semaine de formation, quand

ils ont sondé les entrailles du réseau, qu'ont-ils trouvé? Un «neurone» (unité) qui semblait coder pour les chats.1 Cette machine autodidacte de reconnaissance des chats faisait partie d'une série d'exploits d'IA impressionnants qui ont attiré l'attention du public au cours de la dernière décennie. La plupart de ces réalisations reposent sur un ensemble d'algorithmes de réseaux de neurones appelés apprentissage profond. Jusqu'à récemment, l'image populaire d'IA provenait en grande partie des nombreux films et émissions de télévision dans lesquels elle jouait un rôle principal; pensez 2001: une odyssée de l'espace ou le terminateur. L'IA du monde réel n'était pas très visible dans notre vie quotidienne ou dans les médias grand public. Si vous avez atteint la majorité dans les années 1990 ou avant, vous vous souvenez peut-être de rencontres frustrantes avec les systèmes de reconnaissance vocale du service client, le jouet robotique d'apprentissage des mots Furby ou Microsoft.

ennuyeux et malheureux Clippy, l'assistant virtuel de trombone. L'IA à part entière ne semblait pas imminente.

C'est peut-être la raison pour laquelle tant de gens ont été choqués et bouleversés lorsque, en 1997, le système d'échecs Deep Blue d'IBM a vaincu le champion du monde d'échecs Garry Kasparov. Cet événement a tellement stupéfait Kasparov qu'il a accusé l'équipe IBM de tricherie; il a supposé que pour que la machine fonctionne si bien, elle devait avoir reçu l'aide d'experts humains.2 (Dans une bonne ironie, lors des matchs du Championnat du monde d'échecs 2006, les tables ont été inversées, un joueur accusant l'autre de tricherie en recevoir de l'aide d'un programme d'échecs informatique.3)

Notre angoisse collective envers Deep Blue s'est rapidement dissipée. Nous avons accepté que les échecs pouvaient céder

force des machines; bien jouer aux échecs, nous l'avons permis, ne nécessitait pas d'intelligence générale après tout. Cela semble être une réponse courante lorsque les ordinateurs dépassent les humains dans une tâche particulière; nous concluons que la tâche ne nécessite pas réellement d'intelligence. Comme John McCarthy l'a déploré: «Dès que cela fonctionne, plus personne ne l'appelle IA.» 4

Cependant, au milieu des années 2000 et au-delà, une succession plus omniprésente des réalisations de l'IA a commencé à se faufiler

sur nous, puis proliférant à un rythme vertigineux. Google a lancé son service automatisé de traduction linguistique, Google Translate. Ce n'était pas parfait, mais cela a étonnamment bien fonctionné, et il s'est depuis considérablement amélioré. Peu de temps après, les voitures autonomes de Google sont arrivées sur les routes du nord de la Californie, prudentes et timides, mais se déplaçant seules dans un trafic intense. Des assistants virtuels tels que Siri d'Apple et Alexa d'Amazon ont été installés sur nos téléphones et dans nos maisons et pouvaient traiter bon nombre de nos demandes vocales. YouTube a commencé à fournir des sous-titres automatisés d'une précision impressionnante pour les vidéos, et Skype a proposé une traduction simultanée entre les langues lors des appels vidéo. Soudain, Facebook pourrait bien reconnaître étrangement votre visage dans les photos téléchargées,et le site Web de partage de photos Flickr a commencé à étiqueter automatiquement les photos avec du texte décrivant leur contenu.

En 2011, le programme Watson d'IBM a battu les champions humains à la télévision Jeopardy! jeu télévisé, interprétant habilement les indices chargés de jeux de mots et incitant son adversaire Ken Jennings à "accueillir nos nouveaux suzerains informatiques". À peine cinq ans plus tard, des millions de téléspectateurs Internet ont découvert le jeu complexe de Go, un grand défi de longue date pour l'IA, lorsqu'un programme appelé AlphaGo a battu de manière stupéfiante l'un des meilleurs joueurs du monde dans quatre des cinq jeux.

Le buzz sur l'intelligence artificielle devenait rapidement assourdissant, et le monde commercial en a pris note. Toutes les plus grandes entreprises technologiques ont investi des milliards de dollars dans la recherche et le développement en IA, soit en embauchant directement des experts en IA, soit en acquérant de petites start-ups dans le seul but de saisir («acqui-hiring»)

leurs employés talentueux. Le potentiel d'acquisition, avec sa promesse d'un statut de millionnaire instantané, a alimenté une prolifération de start-ups, souvent fondées et dirigées par d'anciens professeurs d'université, chacune avec sa propre touche d'IA. Comme l'a observé le journaliste technologique Kevin Kelly, «Les plans d'affaires des 10 000 prochaines startups sont faciles à prévoir: prenez X et ajoutez de l'IA.» 5 Et, plus important encore, pour presque toutes ces entreprises, l'IA signifie «apprentissage en profondeur».

Le printemps AI est à nouveau en pleine floraison.

AI: étroit et général, faible et fort

Comme chaque printemps de l'IA qui le précède, notre actuel propose des experts prédisant que «l'IA générale» - l'IA qui équivaut ou surpasse les humains de la plupart des façons - sera bientôt là. «L'IA au niveau humain sera transmise au milieu des années 2020», a prédit Shane Legg, cofondateur de Google DeepMind, en 2008. En 2015, le PDG de Facebook, Mark Zuckerberg, a déclaré: «L'un de nos objectifs pour les cinq à dix prochaines années est fondamentalement d'aller mieux que le niveau humain à tous les sens humains primaires: vision, audition, langage, cognition générale. »7 Les philosophes de l'IA Vincent Müller et Nick Bostrom ont publié un sondage de 2013 auprès de chercheurs en IA dans lequel beaucoup ont attribué une chance de 50% de l'IA au niveau humain d'ici 2040.8

Bien que cet optimisme repose en grande partie sur les récents succès de l'apprentissage en profondeur, ces programmes, comme

les exemples d'IA à ce jour - sont toujours des exemples de ce que l'on appelle l'IA «étroite» ou «faible». Ces termes ne sont pas aussi dérogatoires qu'ils le paraissent; ils se réfèrent simplement à un système qui ne peut effectuer qu'une seule tâche étroitement définie (ou un petit ensemble de tâches connexes). AlphaGo est peut-être le meilleur joueur de Go au monde, mais il ne peut rien faire d'autre; il ne peut même pas jouer aux dames, au tic-tac-toe ou à Candy Land. Google Translate peut rendre une critique de film en anglais en chinois, mais il ne peut pas vous dire si le critique a aimé le film ou non, et il ne peut certainement pas regarder et revoir le film lui-même.

Les termes étroit et faible sont utilisés pour contraster avec une IA forte, humaine, générale ou à part entière (parfois appelée AGI ou intelligence générale artificielle) - c'est-à-dire l'IA que nous voyons dans les films, qui peut faire presque tout nous, les humains, pouvons faire, et peut-être beaucoup plus. L'intelligence artificielle générale aurait pu être l'objectif initial du champ, mais y parvenir s'est révélé beaucoup plus difficile que prévu. Au fil du temps, les efforts en matière d'IA se sont concentrés sur des tâches bien définies particulières: reconnaissance vocale, jeu d'échecs, conduite autonome, etc. La création de machines qui remplissent de telles fonctions est utile et souvent lucrative, et on pourrait soutenir que chacune de ces tâches requiert individuellement de «l'intelligence». Mais aucun programme d'IA n'a encore été créé et pourrait être qualifié d'intelligent dans un sens général. Une récente évaluation du domaine l'a bien montré:«Un tas d'intelligences étroites ne correspondra jamais à une intelligence générale. L'intelligence générale n'est pas sur le nombre de capacités, mais sur l'intégration entre ceux

capacités. "9

Mais attendez. Compte tenu de la pile croissante d'intelligences étroites, combien de temps faudra-t-il avant que quelqu'un ne comprenne comment les intégrer et produire toutes les caractéristiques larges, profondes et subtiles de l'intelligence humaine? Croyons-nous le scientifique cognitif Steven Pinker, qui pense que tout cela est du business as usual? «L'IA au niveau humain est toujours la norme dans quinze à vingt-cinq ans, comme elle l'a toujours été, et bon nombre de ses avancées récemment vantées ont des racines superficielles», a déclaré Pinker10. Ou devrions-nous accorder plus d'attention aux optimistes de l'IA , qui sont certains que cette fois

autour, ce printemps de l'IA, les choses seront différentes?

Sans surprise, dans la communauté de la recherche sur l'IA, il existe une controverse considérable sur ce que l'IA de niveau humain impliquerait. Comment savoir si nous avons réussi à construire une telle «machine à penser»? Un tel système serait-il nécessaire d'avoir une conscience ou une conscience de soi comme les humains? Aurait-il besoin de comprendre les choses de la même manière qu'un humain les comprend? Étant donné que nous parlons ici d'une machine, serions-nous plus en droit de dire qu'elle «simule la pensée», ou pourrions-nous dire qu'elle pense vraiment?

Les machines pourraient-elles penser?

Ces questions philosophiques ont entravé le domaine de l'IA depuis sa création. Alan Turing, le mathématicien britannique qui, dans les années 1930, a esquissé le premier cadre pour les ordinateurs programmables, a publié un article en 1950 demandant ce que nous pourrions dire quand nous demandons: «Les machines peuvent-elles penser?» Après avoir proposé son fameux «jeu d'imitation» (maintenant appelé le test de Turing - plus à ce sujet dans un peu), Turing a énuméré neuf objections possibles à la perspective d'une machine qui pense réellement, ce qu'il a essayé de réfuter. Ces objections imaginaires vont de la théologie: «La pensée est une fonction de l'âme immortelle de l'homme. Dieu a donné une âme immortelle à chaque homme et à chaque femme, mais pas à aucun autre animal ni à aucune machine. Par conséquent, aucun animal ni aucune machine ne peut penser »- au parapsychologique, quelque chose du genre

"Les humains peuvent utiliser la télépathie pour communiquer alors que les machines ne le peuvent pas." Curieusement, Turing a jugé ce dernier argument comme «assez solide», parce que «les preuves statistiques, au moins pour la télépathie, sont écrasantes».

Du point de vue de plusieurs décennies, mon propre vote pour le plus fort des arguments possibles de Turing est «l'argument de la conscience», qu'il résume en citant le neurologue Geoffrey Jefferson:

Ce n'est que lorsqu'une machine peut écrire un sonnet ou composer un concerto à cause des pensées et des émotions ressenties, et non par la chute fortuite de symboles, que nous pourrions convenir que la machine est égale au cerveau - c'est-à-dire non seulement l'écrire mais savoir qu'elle l'a écrit . Aucun mécanisme ne pouvait ressentir (et pas seulement signaler artificiellement, un artifice facile) le plaisir de ses succès, le chagrin lorsque ses valves fusionnent, être réchauffé par la flatterie, être misérable par son

erreurs, être charmé par le sexe, être en colère ou déprimé quand il ne peut pas obtenir ce qu'il veut.

Notez que cet argument dit ce qui suit: (1) Ce n'est que lorsqu'une machine ressent des choses et est consciente de ses propres actions et sentiments - bref, est consciente - que nous pouvons la considérer comme pensant réellement, et (2) Aucune machine ne pourrait jamais le faire ce. Ergo, aucune machine ne pourrait réellement penser.

Je pense que c'est un argument solide, même si je ne suis pas d'accord. Il résonne avec nos intuitions sur ce que sont les machines et comment elles sont limitées. Au fil des ans, j'ai parlé à un grand nombre d'amis, de parents et d'étudiants de la possibilité d'intelligence artificielle, et c'est l'argument que beaucoup d'entre eux maintiennent. Par exemple, je parlais récemment avec ma mère, une avocate à la retraite, après avoir lu un article du New York Times sur les avancées du programme Google Translate:

MOM: Le problème avec les gens dans le domaine de l'IA, c'est qu'ils anthropomorphisent tellement!

ME: Que voulez-vous dire, anthropomorphiser?

MOM: Le langage qu'ils utilisent implique que les machines soient capables de penser réellement, plutôt que de simuler simplement la pensée.

ME: Quelle est la différence entre «penser réellement» et «simuler la pensée»?

MOM: La réflexion réelle se fait avec un cerveau et la simulation se fait avec des ordinateurs.

MOI: Qu'est-ce qui est si spécial dans un cerveau qu'il permet une réflexion «réelle»? Qu'est-ce qui manque aux ordinateurs?

MOM: Je ne sais pas. Je pense qu'il y a une qualité humaine dans la pensée qui ne peut jamais être complètement imitée par les ordinateurs.

Ma mère n'est pas la seule à avoir cette intuition. En fait, pour beaucoup de gens, cela semble si évident qu'il ne nécessite aucun argument. Et comme beaucoup de ces gens, ma mère prétendrait être matérialiste philosophique; c'est-à-dire qu'elle ne croit en aucune «âme» ou «force de vie» non physique qui imprègne l'intelligence des êtres vivants. C'est juste qu'elle ne pense pas que les machines pourraient jamais avoir les bonnes choses pour «réellement penser».

Dans le domaine universitaire, la version la plus célèbre de cet argument a été avancée par le philosophe John Searle. En 1980, Searle a publié un article intitulé «Minds, Brains, and Programs» 12 dans lequel il plaidait vigoureusement contre la possibilité que les machines réfléchissent réellement. Dans cette pièce controversée et largement lue, Searle a introduit les concepts d'IA «forte» et «faible» afin de faire la distinction entre deux affirmations philosophiques concernant les programmes d'IA. Alors que beaucoup de gens utilisent aujourd'hui l'expression «IA forte» pour signifier «IA qui peut effectuer la plupart des tâches aussi bien qu'un humain» et faible

IA signifie le type d'IA étroite qui existe actuellement, Searle voulait dire quelque chose de différent par ces termes. Pour Searle, la forte affirmation de l'IA serait que «l'ordinateur numérique correctement programmé ne simule pas seulement avoir un esprit; il a littéralement un esprit. »13 En revanche, dans la terminologie de Searle, l'IA faible considère les ordinateurs comme des outils pour simuler l'intelligence humaine et ne prétend pas qu'ils ont« littéralement »un esprit.14 Nous revenons à la question philosophique I discutait avec ma mère: y a-t-il une différence entre «simuler un esprit» et «avoir littéralement un esprit»? Comme ma mère, Searle pense qu'il y a une différence fondamentale et il a soutenu qu'une IA forte est impossible même en principe15.

Le test de Turing

L'article de Searle a été stimulé en partie par le document d'Alan Turing de 1950, «Computing Machinery and Intelligence», qui avait proposé un moyen de couper le nœud gordien de l'intelligence «simulée» contre «réelle». Déclarant que «la question initiale« Une machine peut-elle penser? est trop dépourvu de sens pour mériter d'être discuté », a déclaré Turing. Il a proposé une méthode opérationnelle pour lui donner un sens. Dans son «jeu d'imitation», désormais appelé test de Turing, il y a deux candidats: un ordinateur

et un humain. Chacun est interrogé séparément par un juge (humain) qui essaie de déterminer lequel est lequel. Le juge est physiquement séparé des deux candidats et ne peut donc pas s'appuyer sur des indices visuels ou auditifs; seul le texte dactylographié est communiqué.

Turing a suggéré ce qui suit: «La question:« Les machines peuvent-elles penser? devrait être remplacé par «Y a-t-il des ordinateurs numériques imaginables qui feraient bien dans le jeu d'imitation?» »En d'autres termes, si un ordinateur est suffisamment humain pour être impossible à distinguer des humains, en dehors de son apparence physique ou de ce qu'il ressemble (ou sent) ou se sent comme, d'ailleurs), pourquoi ne devrions-nous pas considérer qu'il pense réellement? Pourquoi devrions-nous exiger qu'une entité soit créée à partir d'un type particulier de matériel (par exemple, des cellules biologiques) pour lui accorder le statut de «pensée»?

Comme le dit clairement l'informaticien Scott Aaronson, la proposition de Turing est «un plaidoyer contre le chauvinisme de la viande» 16.

Le diable est toujours dans les détails, et le test de Turing ne fait pas exception. Turing n'a pas précisé les critères de sélection du candidat humain et du juge, ni précisé la durée du test, ni les sujets de conversation à autoriser. Cependant, il a fait une prédiction étrangement spécifique: «Je crois que dans environ 50 ans, il sera possible de programmer des ordinateurs… pour les faire jouer au jeu d'imitation si bien qu'un interrogateur moyen n'aura pas plus de 70% de chances de faire la bonne identification après cinq minutes de questions. " En d'autres termes, dans une session de cinq minutes, le juge moyen sera dupé 30% du temps.

La prédiction de Turing s'est avérée assez précise. Plusieurs tests de Turing ont été organisés au cours des années, dans lesquels les candidats à l'informatique sont des chatbots - des programmes spécialement conçus pour poursuivre les conversations (ils ne peuvent rien faire d'autre). En 2014, la Royal Society de Londres a accueilli une démonstration du test de Turing mettant en vedette cinq programmes informatiques, trente candidats humains et trente juges humains d'âges et de conditions de vie différents, y compris des experts en informatique et des non-experts, ainsi que des anglophones natifs et non natifs. . Chaque juge a mené plusieurs séries de conversations de cinq minutes au cours desquelles il ou elle a conversé (en tapant) en parallèle avec une paire de candidats - un humain et une machine - après quoi le juge devait deviner lequel. Un chatbot nommé «Eugene Goostman», créé par un groupe de programmeurs russes et ukrainiens,a remporté le concours en trompant dix (ou 33,3%) des juges. Les organisateurs du concours, suivant le critère de "plus de 30 pour cent de dupé en cinq minutes" de Turing, ont rapidement inondé les médias d'informations selon lesquelles le test de Turing avait finalement été réussi.

Le chatbot Eugene Goostman fonctionne de la même manière que la plupart des autres chatbots. Il stocke un grand ensemble de modèles de phrases qui peuvent être remplis en fonction d'un ensemble de règles programmées qui sont appliquées au texte d'entrée qu'il obtient de son partenaire de conversation. Les programmeurs du chatbot lui ont donné des règles linguistiques qui lui permettent de localiser les informations clés dans son entrée et de les stocker pour une utilisation ultérieure. De plus, le chatbot stocke une base de données de «connaissances de bon sens», encodées par des programmeurs humains, ainsi que quelques règles logiques; ceux-ci lui permettraient vraisemblablement de répondre à des questions telles que "De quelle couleur est le ciel au-dessus de Vladivostok?" avec le son humain "Bleu, je suppose, à moins que ce soit un jour nuageux." Si aucune des règles du chatbot ne s'applique à une entrée, cela change simplement le sujet. Les règles du système codent également sa «personnalité» - dans ce cas,un garçon ukrainien de treize ans dont l'anglais est bon mais (idéalement) pas parfait. Voici un échantillon de la conversation d'Eugene Goostman avec l'un des juges qui a été dupe:

JUGE: Quel est votre sexe

EUGENE: Je suis un jeune garçon, si tu veux savoir. Et pas très moche, au fait!

LE JUGE: que savez-vous en ce moment

EUGENE: Je préfère ne pas en parler si cela ne vous dérange pas. Pourriez-vous me dire ce que vous êtes? Je veux dire votre profession.

JUGE: quel âge avez-vous

EUGENE: Je suis un petit garçon de 13 ans.

JUGE: quelles sont vos qualifications

EUGENE: Mes qualifications? Je ne vais pas te le dire. Oooh. Autre chose? 17

Après le concours, les organisateurs ont publié un communiqué de presse annonçant: «Le test emblématique de Turing, âgé de 65 ans, a été passé pour la toute première fois par le programme informatique Eugene Goostman», et déclarant: «Il convient qu'un monument aussi important ait été atteint à la Royal Society de Londres, la maison de la science britannique et le théâtre de nombreuses grandes avancées dans la compréhension humaine au cours des siècles. Cette étape marquera dans l'histoire comme l'une des plus excitantes. »18

Les experts en IA se sont moqués à l'unanimité de cette caractérisation. Pour quiconque connaît la programmation des chatbots, il est évident, d'après les transcriptions du concours, qu'Eugene Goostman est un programme, et même pas très sophistiqué. Le résultat semble révéler plus sur les juges et le test lui-même que sur les machines. Étant donné cinq minutes et une propension à éviter les questions difficiles en changeant de sujet ou en répondant avec une nouvelle question, le programme a eu un temps étonnamment facile à tromper un juge non expert en lui faisant croire qu'il conversait avec une personne réelle. Cela a été démontré avec de nombreux chatbots, allant des ELIZA des années 60, qui imitaient un psychothérapeute, aux robots Facebook malveillants d'aujourd'hui, qui utilisent de courts échanges de texte pour inciter les gens à révéler des informations personnelles.

Ces robots exploitent bien sûr notre tendance très humaine à anthropomorphiser (vous aviez raison, maman!).

Nous sommes tous trop disposés à attribuer la compréhension et la conscience aux ordinateurs, sur la base de peu de preuves.

Pour ces raisons, la plupart des experts en IA détestent le test de Turing, du moins tel qu'il a été réalisé à ce jour. Ils voient ces compétitions comme des cascades publicitaires dont les résultats ne disent rien sur les progrès de l'IA. Mais alors que Turing aurait pu surestimer la capacité d'un «interrogateur moyen» à voir à travers la supercherie superficielle, le test pourrait-il être un indicateur utile de l'intelligence réelle si le temps de conversation est prolongé et l'expertise requise des juges est augmentée?

Ray Kurzweil, qui est maintenant directeur de l'ingénierie chez Google, estime qu'une version correctement conçue du test de Turing révélera en effet l'intelligence de la machine; il prédit qu'un ordinateur réussira ce test d'ici 2029, un événement marquant sur le chemin de la singularité prévue de Kurzweil.

La singularité

Ray Kurzweil est depuis longtemps le premier optimiste de l'IA. Ancien élève de Marvin Minsky au MIT, Kurzweil a eu une brillante carrière d'inventeur: il a inventé la première machine de synthèse vocale ainsi que l'un des meilleurs synthétiseurs de musique au monde. En 1999, le président Bill Clinton a décerné à Kurzweil la Médaille nationale de la technologie et de l'innovation pour ces inventions et d'autres.

Pourtant, Kurzweil est surtout connu non pas pour ses inventions mais pour ses pronostics futuristes, notamment l'idée de la singularité: «une période future pendant laquelle le rythme du changement technologique sera si rapide, son impact si profond, que la vie humaine sera irréversiblement transformé. »19 Kurzweil utilise le terme singularité dans le sens« d'un événement unique avec… des implications singulières »; en particulier, «un événement capable de rompre le tissu de l'histoire humaine» 20. Pour Kurzweil, cet événement singulier est le moment où l'IA dépasse l'intelligence humaine.

Les idées de Kurzweil ont été stimulées par les spéculations du mathématicien IJ Good sur le potentiel d'un

explosion de l'intelligence: «Qu'une machine ultra-intelligente soit définie comme une machine qui peut de loin dépasser toutes les activités intellectuelles de tout homme, aussi intelligent soit-il. Étant donné que la conception de machines est l'une de ces activités intellectuelles, une machine ultra-intelligente pourrait concevoir des machines encore meilleures; il y aurait alors incontestablement une «explosion du renseignement» et l'intelligence de l'homme serait laissée loin derrière. »21

Kurzweil a également été influencé par le mathématicien et écrivain de science-fiction Vernor Vinge, qui croyait

cet événement était proche: «L'évolution de l'intelligence humaine a pris des millions d'années. Nous concevrons une avance équivalente dans une fraction de ce temps. Nous allons bientôt créer des intelligences supérieures aux nôtres. Lorsque cela se produira, l'histoire humaine aura atteint une sorte de singularité… et le monde dépassera de loin notre compréhension. »22

Kurzweil prend l'explosion de l'intelligence comme point de départ, puis augmente l'intensité de la science-fiction, se déplaçant

de l'IA aux nanosciences, puis à la réalité virtuelle et au «téléchargement de cerveaux», le tout sur le même ton calme et confiant d'un oracle Delphique regardant un calendrier et pointant vers des dates spécifiques. Pour vous donner un aperçu de tout cela, voici quelques-unes des prédictions de Kurzweil:

D'ici les années 2020, l'assemblage moléculaire fournira des outils pour lutter efficacement contre la pauvreté, nettoyer notre environnement, vaincre les maladies [et] prolonger la longévité humaine.

À la fin des années 2030… les implants cérébraux basés sur des nanobots intelligents massivement distribués augmenteront considérablement nos mémoires et amélioreront considérablement nos capacités sensorielles, de reconnaissance de formes et cognitives.

Télécharger un cerveau humain signifie scanner tous ses détails saillants, puis réinstaurer ces détails dans un substrat de calcul suffisamment puissant.… La fin des années 2030 est une projection conservatrice pour un téléchargement [cérébral] réussi.23

Un ordinateur réussira le test de Turing d'ici 2029.24

À l'approche des années 2030, la conscience artificielle sera très réaliste. C'est ce que signifie passer le test de Turing.25

J'ai fixé la date de la singularité… à 2045. L'intelligence non biologique créée cette année-là sera un milliard de fois plus puissante que toute l'intelligence humaine d'aujourd'hui26.

L'écrivain Andrian Kreye a ironiquement qualifié la prédiction de Kurzweil Singularity de «rien de plus que la croyance en un ravissement technologique» 27.

Kurzweil fonde toutes ses prévisions sur l'idée de «progrès exponentiel» dans de nombreux domaines de la science et

la technologie, en particulier les ordinateurs. Pour décortiquer cette idée, considérons comment fonctionne la croissance exponentielle.

Une fable exponentielle

Pour une illustration simple de la croissance exponentielle, je vais raconter une vieille fable. Il y a longtemps, un sage renommé d'un village pauvre et affamé a visité un royaume lointain et riche où le roi l'a défié à une partie d'échecs. Le sage était réticent à accepter, mais le roi a insisté, offrant au sage une récompense "de tout ce que vous désirez, si vous êtes capable de me vaincre dans un jeu." Pour le bien de son village, le sage a finalement accepté et (comme le font généralement les sages) a gagné la partie. Le roi a demandé au sage de nommer sa récompense. Le sage, qui aimait les mathématiques, a dit: «Tout ce que je demande, c'est de prendre cet échiquier, de mettre deux grains de riz sur le premier carré, quatre grains sur le deuxième carré, huit grains sur le troisième, et ainsi de suite, en doublant la nombre de grains sur chaque carré successif. Après avoir terminé chaque rangée, emballez le riz sur cette rangée et expédiez-le à mon village.»Le roi mathématiquement naïf rit. «C'est tout ce que tu veux? Je demanderai à mes hommes d'apporter du riz et de répondre à votre demande en toute hâte. »

Les hommes du roi ont apporté un grand sac de riz. Après plusieurs minutes, ils avaient complété les huit premiers carrés du tableau avec les grains de riz requis: 2 sur le premier carré, 4 sur le second, 8 sur le troisième, et ainsi de suite, avec 256 grains sur le huitième carré. Ils ont mis la collection de céréales (511, pour être exact) dans un petit sac et l'ont envoyée à cheval au village du sage. Ils sont ensuite passés à la deuxième rangée, avec 512 grains au premier carré de cette rangée, 1 024 grains au carré suivant et 2 048 grains au suivant. Chaque tas de riz ne tient plus sur un carré d'échiquier, il a donc été compté dans un grand bol à la place. À la fin de la deuxième rangée, le comptage des grains prenait beaucoup trop de temps, alors les mathématiciens de la cour ont commencé à estimer les quantités en poids. Ils ont calculé que pour le seizième carré, 65,536 grains - environ un kilogramme (un peu plus de deux livres) - étaient nécessaires. Le sac de riz expédié pour la deuxième rangée pesait environ deux kilogrammes.

Les hommes du roi ont commencé au troisième rang. Le dix-septième carré exigeait 2 kilos, le dix-huitième 4, et ainsi de suite; à la fin de la troisième rangée (carré 24), 512 kilos étaient nécessaires. Les sujets du roi ont été appelés à apporter des sacs de riz géants supplémentaires. La situation était devenue désastreuse au deuxième carré de la quatrième rangée (carré 26), lorsque les mathématiciens ont calculé que 2 048 kilos (plus de deux tonnes) de riz étaient nécessaires. Cela épuiserait toute la récolte de riz du royaume, même si l'échiquier n'était même pas à moitié terminé. Le roi, réalisant maintenant le tour qui avait été joué sur lui, supplia le sage de céder et de sauver le royaume de la famine. Le sage, convaincu que le riz déjà reçu par son village serait suffisant, a accepté.

La figure 5A représente le nombre de kilos de riz requis sur chaque carré d'échecs, jusqu'au vingt-quatrième carré. Le premier carré, avec deux grains de riz, a une faible fraction de kilo. De même, les carrés jusqu'à 16 ont moins de 1 kilo. Mais après le carré 16, vous pouvez voir l'intrigue monter rapidement, en raison de l'effet de doublement. La figure 5B montre les valeurs du vingt-quatrième au soixante-quatrième carré d'échecs, passant de 512 kilos à plus de 30 billions de kilos.

La fonction mathématique décrivant ce graphique est y = 2x, où x est le carré d'échecs (numéroté de 1 à 64) et y est le nombre de grains de riz requis sur ce carré. C'est ce qu'on appelle une fonction exponentielle, car x est l'exposant du nombre 2. Quelle que soit l'échelle tracée, la fonction aura un point caractéristique auquel la courbe semble passer d'une croissance lente à une croissance explosive rapide.

FIGURE 5: Parcelles montrant combien de kilos de riz sont nécessaires pour chaque carré d'échecs afin de répondre à la demande du sage; A, carrés 1–24 (avec l'axe des y montrant des centaines de kilos); B, carrés 24–64 (avec l'axe des y montrant des dizaines de billions de kilos)

Progrès exponentiel dans les ordinateurs

Pour Ray Kurzweil, l'ère informatique a fourni un équivalent réel à la fable exponentielle. En 1965, Gordon Moore, cofondateur d'Intel Corporation, a identifié une tendance connue sous le nom de loi de Moore: le nombre de composants sur une puce informatique double environ tous les un à deux ans. En d'autres termes, les composants deviennent exponentiellement plus petits (et moins chers), et la vitesse et la mémoire de l'ordinateur augmentent à un rythme exponentiel.

Les livres de Kurzweil sont pleins de graphiques comme ceux de la figure 5, et les extrapolations de ces tendances de progrès exponentiels, dans le sens de la loi de Moore, sont au cœur de ses prévisions pour l'IA. Kurzweil souligne que si les tendances se poursuivent (comme il le pense), un ordinateur de 1 000 $ «atteindra la capacité du cerveau humain (1016 calculs par seconde)… vers l'an 2023» .28 À ce stade, de l'avis de Kurzweil, au niveau humain L'IA ne sera qu'une question d'ingénierie inverse du cerveau.

Génie neuronal

La rétro-ingénierie du cerveau signifie une compréhension suffisante de son fonctionnement afin de le dupliquer, ou du moins d'utiliser les principes sous-jacents du cerveau pour reproduire son intelligence dans un ordinateur. Kurzweil estime qu'une telle ingénierie inverse est une approche pratique à court terme pour créer une IA au niveau humain. La plupart des neuroscientifiques seraient véhémentes

en désaccord, étant donné le peu de connaissances actuellement disponibles sur le fonctionnement du cerveau. Mais l'argument de Kurzweil repose à nouveau sur des tendances exponentielles - cette fois dans les progrès des neurosciences. En 2002, il écrivait: «Une analyse minutieuse des tendances requises montre que nous comprendrons les principes de fonctionnement du cerveau humain et serons en mesure de

recréer ses pouvoirs dans les substances synthétiques en trente ans. »29

Peu ou pas de neuroscientifiques s'accordent sur cette prédiction optimiste pour leur domaine. Mais même si une machine fonctionnant selon les principes du cerveau peut être créée, comment va-t-elle apprendre toutes les choses dont elle a besoin pour être considérée comme intelligente? Après tout, un nouveau-né a un cerveau, mais il n'a pas encore ce que nous pourrions appeler l'intelligence au niveau humain. Kurzweil est d'accord: «La majeure partie de la complexité [du cerveau] vient de sa propre interaction avec un monde complexe. Ainsi, il sera nécessaire de fournir une intelligence artificielle avec une éducation comme nous le faisons avec une intelligence naturelle. »30

Bien sûr, dispenser une éducation peut prendre de nombreuses années. Kurzweil pense que le processus peut être considérablement accéléré. «L'électronique contemporaine est déjà plus de dix millions de fois plus rapide que le traitement électrochimique du système nerveux humain. Une fois qu'une IA maîtrisera les compétences linguistiques de base humaines, elle sera en mesure d'étendre ses compétences linguistiques et ses connaissances générales en lisant rapidement toute la littérature humaine et en absorbant les connaissances contenues sur des millions de sites Web. »31

Kurzweil est vague sur la façon dont tout cela va se produire mais nous assure que pour atteindre l'IA au niveau humain, «nous ne programmerons pas l'intelligence humaine lien par lien comme dans un système expert massif. Nous allons plutôt établir une hiérarchie complexe de systèmes auto-organisés, basée en grande partie sur l'ingénierie inverse du cerveau humain, puis assurer son éducation… des centaines, voire des milliers de fois plus rapide que le processus comparable pour les humains. »32

Sceptiques et adhérents de singularité

Les réponses aux livres de Kurzweil The Age of Spiritual Machines (1999) et The Singularity Is Near (2005) sont souvent l'un des deux extrêmes: une étreinte enthousiaste ou un scepticisme dédaigneux. Quand j'ai lu les livres de Kurzweil, j'étais (et je suis toujours) dans ce dernier camp. Je n'étais pas du tout convaincu par son excès de courbes exponentielles ou ses arguments pour la rétro-ingénierie du cerveau. Oui, Deep Blue avait vaincu Kasparov aux échecs, mais l'IA était bien en dessous du niveau des humains dans la plupart des autres domaines. Les prédictions de Kurzweil selon lesquelles l'IA nous égalerait dans quelques décennies me semblaient ridiculement optimistes.

La plupart des gens que je connais sont également sceptiques. L'attitude de Mainstream AI est parfaitement reflétée dans un article de la journaliste Maureen Dowd: elle décrit comment Andrew Ng, un célèbre chercheur en IA de Stanford, a roulé des yeux à sa mention de Kurzweil, en disant: «Chaque fois que je lis Singularity de Kurzweil, mes yeux viennent naturellement faites cela. »33 D'un autre côté, les idées de Kurzweil ont de nombreux adeptes. La plupart de ses livres ont été des best-sellers et ont

ont été positivement examinés dans des publications sérieuses. Le magazine Time a déclaré de la singularité: «Ce n'est pas une idée marginale;

c'est une hypothèse sérieuse sur l'avenir de la vie sur Terre. »34

La pensée de Kurzweil a été particulièrement influente dans l'industrie technologique, où les gens croient souvent que le progrès technologique exponentiel est le moyen de résoudre tous les problèmes de la société. Kurzweil est non seulement directeur de l'ingénierie chez Google, mais aussi cofondateur (avec son collègue futuriste Peter Diamandis) de la Singularity University (SU), un groupe de réflexion «transhumaniste», incubateur de start-up et parfois camp d'été pour le élite technologique. La mission publiée de SU est «d'éduquer, d'inspirer et d'autoriser les dirigeants à appliquer des technologies exponentielles

les grands défis de l'humanité. »35 L'organisation est partiellement souscrite par Google; Larry Page (cofondateur de Google) a été l'un des premiers partisans et intervient fréquemment dans les programmes de SU. Plusieurs autres grandes sociétés technologiques se sont jointes en tant que sponsors.

Douglas Hofstadter est un penseur qui - encore une fois me surprend - à cheval sur la clôture entre le scepticisme de la singularité et l'inquiétude. Il était troublé, m'a-t-il dit, que les livres de Kurzweil "se mêlaient aux scénarios de science-fiction les plus loufoques avec des choses qui étaient très clairement vraies". Lorsque je me suis disputé, Hofstadter a souligné que, depuis plusieurs années plus tard, pour chaque prédiction apparemment folle que Kurzweil a faite, il a également souvent prédit quelque chose qui s'est étonnamment réalisé ou le sera bientôt. D'ici les années 2030, «expérimentera-t-il les projecteurs»… enverra tout le flux de leurs

les expériences sensorielles ainsi que les corrélats neurologiques de leurs réactions émotionnelles sur le Web »36. Mais à la fin des années 1980, Kurzweil, en s'appuyant sur ses courbes exponentielles, a prédit qu'en 1998 «un ordinateur vaincra le champion du monde d'échecs humain… et nous penserons moins aux échecs en conséquence» 37. À l'époque, beaucoup pensaient que semblait fou aussi. Mais cet événement s'est produit un an plus tôt que ne l'avait prédit Kurzweil.

Hofstadter a noté l'utilisation intelligente par Kurzweil de ce que Hofstadter appelle le «stratagème de Christophe Colomb» 38, faisant référence à la chanson d'Ira Gershwin «They All Laughed», qui comprend la phrase «Ils se sont tous moqués de Christopher

Colomb." Kurzweil cite de nombreuses citations de personnalités de l'histoire qui ont complètement sous-estimé les progrès et l'impact de la technologie. Voici quelques exemples. Le président d'IBM, Thomas J. Watson, en 1943: "Je pense qu'il y a un marché mondial pour peut-être cinq ordinateurs." Le cofondateur de Digital Equipment Corporation, Ken Olsen, en 1977: «Il n'y a aucune raison pour que les individus aient un ordinateur à la maison.» Bill Gates en 1981: «640 000 octets de

la mémoire devrait être suffisante pour n'importe qui. »39 Hofstadter, ayant été piqué par ses propres mauvaises prédictions sur les échecs informatiques, hésitait à rejeter d'emblée les idées de Kurzweil, aussi folles qu'elles paraissaient. "Tout comme la défaite de Deep Blue contre Kasparov, cela donne certainement une pause pour réfléchir." 40

Parier sur le test de Turing

En tant que choix de carrière, «futuriste» est un bon travail si vous pouvez l'obtenir. Vous écrivez des livres faisant des prédictions qui ne peuvent pas être évaluées pendant des décennies et dont la validité ultime n'affectera pas votre réputation - ou vos ventes de livres - ici et maintenant. En 2002, un site Web appelé Long Bets a été créé pour aider les futuristes à rester honnêtes. Les paris longs sont «une arène pour des prédictions compétitives et responsables» 41, permettant à un prédicteur de faire une prédiction à long terme qui spécifie une date et à un challenger de contester la prédiction, les deux mettant de l'argent sur une mise qui sera payée après la

la date de la prédiction est passée. Le tout premier prédicteur du site a été l'entrepreneur de logiciels Mitchell Kapor. Il a fait une prédiction négative: «D'ici 2029, aucun ordinateur - ou« intelligence machine »- n'aura réussi le test de Turing.» Kapor, qui avait fondé la société de logiciels à succès Lotus et qui est également un activiste de longue date des libertés civiles sur Internet, connaissait bien Kurzweil et était du côté «très sceptique» du fossé de la singularité. Kurzweil a accepté d'être le challenger de ce pari public, avec 20 000 $ versés à la Electronic Frontier Foundation (cofondée par Kapor) si Kapor gagne et à la Kurzweil Foundation si Kurzweil gagne. Le test pour déterminer le vainqueur sera effectué avant la fin de 2029.

En faisant ce pari, Kapor et Kurzweil ont dû - contrairement à Turing - spécifier soigneusement par écrit comment leur test de Turing fonctionnerait. Ils commencent par quelques définitions nécessaires. «Un être humain est une personne humaine biologique au sens où ce terme est compris en 2001, dont l'intelligence n'a pas été améliorée par l'utilisation de l'intelligence artificielle (c.-à-d. Non biologique).… Un ordinateur est une forme quelconque d'intelligence non biologique (matériel et logiciel) et peut inclure toute forme de technologie, mais ne peut pas être un humain biologique (amélioré ou non) ni biologique

les neurones (cependant, les émulations non biologiques de neurones biologiques sont autorisées). »42

Les termes du pari précisent également que le test sera effectué par trois juges humains qui interrogeront le candidat informaticien ainsi que trois «foils» humains. Les quatre candidats tenteront de convaincre les juges qu'ils sont humains. Les juges et les foils humains seront choisis par un «comité de test de Turing», composé de Kapor, Kurzweil (ou leurs représentants), et d'un troisième membre. Au lieu de conversations de cinq minutes, chacun des quatre candidats sera interviewé par chaque juge pendant deux heures exténuantes. A l'issue de tous ces entretiens, chaque juge rendra son verdict («humain» ou «machine») pour chaque candidat. «L'ordinateur sera réputé avoir réussi le« test de détermination humaine de Turing »si l'ordinateur a trompé deux ou plusieurs des trois juges humains en leur faisant croire qu'il

est un être humain. »43

Mais nous n'avons pas encore fini:

De plus, chacun des trois juges du test de Turing classera les quatre candidats avec un classement de 1 (le moins humain) à 4 (le plus humain). L'ordinateur sera réputé avoir réussi le «Test de classement des tests de Turing» si le rang médian de l'ordinateur est égal ou supérieur au rang médian de deux ou plus des trois feuilles humaines du test de Turing.

L'ordinateur sera réputé avoir réussi le test de Turing s'il réussit à la fois le test de détermination humaine du test de Turing et le test de classement des tests de Turing.

Si un ordinateur réussit le test de Turing, comme décrit ci-dessus, avant la fin de l'année 2029, Ray Kurzweil remporte le pari. Sinon, Mitchell Kapor remporte la mise.44

Wow, assez strict. Eugene Goostman n'aurait aucune chance. Je devrais (prudemment) être d'accord avec cette évaluation de Kurzweil: «À mon avis, il n'y a aucun ensemble de trucs ou d'algorithmes plus simples (c'est-à-dire des méthodes plus simples que celles de l'intelligence humaine sous-jacente) qui permettraient à une machine de passer une Turing Test sans posséder réellement d'intelligence à un niveau entièrement humain. »45

En plus de définir les règles de leur long pari, Kapor et Kurzweil ont écrit des essais d'accompagnement

en donnant les raisons pour lesquelles chacun pense gagner. L'essai de Kurzweil résume les arguments présentés dans ses livres:

des progrès exponentiels dans les domaines du calcul, des neurosciences et des nanotechnologies, qui, pris ensemble, permettront une ingénierie inverse du cerveau.

Kapor ne l'achète pas. Son principal argument est centré sur l'influence de nos corps physiques (humains) et de nos émotions sur notre cognition. «La perception et l'interaction [physique] avec l'environnement sont le partenaire égal de la cognition dans le façonnement de l'expérience. [Les émotions] lient et façonnent l'enveloppe de ce qui est pensable.» 46 Kapor affirme que sans l'équivalent d'un corps humain, et tout cela va de pair, une machine ne pourra jamais apprendre tout ce qui est nécessaire pour réussir son test de Turing strict et celui de Kurzweil.

J'affirme que le mode fondamental d'apprentissage des êtres humains est expérientiel. L'apprentissage du livre est une couche en plus de cela.… Si la connaissance humaine, en particulier la connaissance de l'expérience, est en grande partie tacite, c'est-à-dire qu'elle n'est jamais exprimée directement et explicitement, elle ne se trouvera pas dans les livres, et l'approche Kurzweil de l'acquisition des connaissances échouera. … Ce n'est pas dans ce que l'ordinateur sait mais ce que l'ordinateur ne sait pas

et ne peut pas savoir où réside le problème47.

Kurzweil répond qu'il est d'accord avec Kapor sur le rôle de l'apprentissage expérientiel, des connaissances tacites et des émotions, mais estime qu'avant les années 2030, la réalité virtuelle sera «totalement réaliste» 48, suffisamment pour recréer les expériences physiques nécessaires pour éduquer une intelligence artificielle en développement . (Bienvenue dans la matrice.) De plus, cette intelligence artificielle aura un cerveau artificiel à ingénierie inverse avec l'émotion comme élément clé.

Êtes-vous, comme Kapor, sceptique quant aux prédictions de Kurzweil? Kurzweil dit que c'est parce que tu ne comprends pas

exponentielles. «De manière générale, le cœur d'un désaccord que j'aurai avec un critique est, diront-ils, Oh Kurzweil sous-estime la complexité de la rétro-ingénierie du cerveau humain ou la complexité de la biologie. Mais je ne crois pas que je sous-estime le défi. Je pense qu'ils sous-estiment le pouvoir de la croissance exponentielle. »49

Les sceptiques de Kurzweil soulignent quelques trous dans cet argument. En effet, le matériel informatique a vu

des progrès exponentiels au cours des cinq dernières décennies, mais il y a de nombreuses raisons de croire que cette tendance ne se maintiendra pas à l'avenir. (Kurzweil conteste bien sûr cela.) Mais plus important encore, les logiciels informatiques n'ont pas montré le même progrès exponentiel; il serait difficile de prétendre que le logiciel d'aujourd'hui est exponentiellement plus sophistiqué, ou semblable à un cerveau, que le logiciel d'il y a cinquante ans, ou qu'une telle tendance a déjà existé. Les affirmations de Kurzweil sur les tendances exponentielles des neurosciences et de la réalité virtuelle sont également largement contestées.

Mais comme les singularitaires l'ont souligné, il est parfois difficile de voir une tendance exponentielle si vous êtes au milieu. Si vous regardez une courbe exponentielle comme celles de la figure 5, Kurzweil et ses adhérents s'imaginent que nous sommes au point où la courbe augmente lentement, et cela ressemble à un progrès incrémentiel pour nous, mais c'est trompeur: la croissance est sur le point exploser.

Le printemps de l'IA actuel, comme beaucoup l'ont prétendu, est-il le premier signe avant-coureur d'une explosion à venir? Ou est-ce simplement un point de cheminement sur une courbe de croissance lente et incrémentielle qui ne se traduira pas par une IA au niveau humain pendant au moins un autre siècle? Ou encore une autre bulle d'IA, qui sera bientôt suivie d'un autre hiver d'IA?

Pour nous aider à comprendre ces questions, nous devons examiner attentivement certaines des capacités cruciales qui sous-tendent notre intelligence humaine distinctive, telles que la perception, le langage, la prise de décision, le raisonnement de bon sens et l'apprentissage. Dans les prochains chapitres, nous verrons dans quelle mesure l'IA est parvenue à capturer ces capacités, et nous évaluerons ses perspectives, pour 2029 et au-delà.

Partie II Regarder et voir

4

Qui quoi quand où Pourquoi

Regardez la photo de la figure 6 et dites-moi ce que vous voyez. Une femme caresse un chien. Un soldat caressant un chien. Un soldat qui vient de rentrer de la guerre est accueilli par son chien, avec des fleurs et un ballon "Welcome Home". Le visage du soldat montre ses émotions complexes. Le chien remue joyeusement la queue.

Quand a été prise cette photo? Très probablement au cours des dix dernières années. Où se déroule cette photo? Probablement un aéroport. Pourquoi le soldat caresse-t-il le chien? Elle est probablement absente depuis longtemps, a vécu beaucoup de choses, bonnes et mauvaises, a raté beaucoup son chien et est très heureuse d'être à la maison. Peut-être que le chien est un symbole de tout ce qui est «à la maison». Que s'est-il passé juste avant la prise de cette photo? Le soldat est probablement descendu d'un avion et a traversé la partie sécurisée de l'aéroport jusqu'à l'endroit où les passagers peuvent être accueillis. Sa famille ou ses amis l'ont accueillie avec des câlins, lui ont tendu les fleurs et le ballon et ont lâché la laisse du chien. Le chien est venu vers le soldat, qui a déposé tout ce qu'elle portait et s'est agenouillé, mettant soigneusement la corde du ballon sous son genou pour l'empêcher de flotter.Que va-t-il se passer ensuite? Elle se lèvera probablement, essuiera peut-être quelques larmes, rassemblera ses fleurs, son ballon et son ordinateur portable, prendra la laisse du chien et se promènera avec le chien et sa famille ou ses amis dans la zone de récupération des bagages.

FIGURE 6: Que voyez-vous sur cette photo?

Lorsque vous regardez cette image, au niveau le plus élémentaire, vous voyez des morceaux d'encre sur une page (ou des pixels sur un écran). D'une manière ou d'une autre, vos yeux et votre cerveau sont capables de saisir ces informations brutes et, en quelques secondes, de les transformer en une histoire détaillée impliquant des êtres vivants, des objets, des relations, des lieux, des émotions, des motivations et des

actions futures. Nous regardons, nous voyons, nous comprenons. Surtout, nous savons quoi ignorer. Il y a de nombreux aspects de la photo qui ne sont pas strictement pertinents pour l'histoire que nous en tirons: le motif sur le tapis, les sangles de suspension sur le sac à dos du soldat, le sifflet attaché à l'épaulette de son sac, les barrettes dans ses cheveux.

En tant qu'humains, nous effectuons cette grande quantité de traitement de l'information en très peu de temps, et nous avons très peu, voire aucune, conscience de ce que nous faisons ou de la façon dont nous le faisons. À moins que vous ne soyez aveugle depuis la naissance, le traitement visuel, à différents niveaux d'abstraction, domine votre cerveau.

Assurément, la capacité de décrire le contenu d'une photographie (ou d'une vidéo, ou d'un flux en temps réel d'une caméra) de cette manière serait l'une des premières choses dont nous aurions besoin pour une IA générale au niveau humain.

Les choses faciles sont difficiles (surtout en vision)

Depuis les années 1950, les chercheurs en IA tentent d'obtenir des ordinateurs pour donner un sens aux données visuelles. Aux débuts de l'IA, atteindre cet objectif semblait relativement simple. En 1966, Marvin Minsky et Seymour Papert - les professeurs du MIT de promotion de l'IA symbolique dont vous vous souviendrez du chapitre 1 - ont proposé le Summer Vision Project, dans lequel ils assigneraient des étudiants de premier cycle à travailler sur «la construction d'une partie importante d'un système visuel. "1 Selon les termes d'un historien de l'IA," Minsky a embauché un étudiant de première année et lui a attribué un problème à résoudre au cours de l'été: connecter une caméra de télévision à un ordinateur et demander à la machine de décrire ce qu'elle voit. " 2

Le premier cycle n'est pas allé très loin. Et tandis que le sous-domaine de l'IA appelé vision par ordinateur a progressé

considérablement au cours des nombreuses décennies qui se sont écoulées depuis ce projet d'été, un programme qui peut regarder et décrire des photographies à la manière des humains semble encore hors de portée. La vision - à la fois regarder et voir - se révèle être l'une des choses les plus difficiles de toutes les «faciles».

Une condition préalable à la description de la saisie visuelle est la reconnaissance d'objet, c'est-à-dire la reconnaissance d'un groupe particulier de pixels dans une image en tant que catégorie d'objet particulière, comme «femme», «chien», «ballon» ou «ordinateur portable». La reconnaissance d'objets est généralement si immédiate et sans effort pour nous en tant qu'humains qu'il ne semblait pas que ce serait un problème particulièrement difficile pour les ordinateurs, jusqu'à ce que les chercheurs en IA essaient réellement de faire en sorte que les ordinateurs le fassent.

Pourquoi la reconnaissance d'objets est-elle si difficile? Eh bien, considérez le problème d'obtenir un programme informatique pour reconnaître les chiens sur les photos. La figure 7 illustre certaines des difficultés. Si l'entrée est simplement les pixels de l'image, le programme doit d'abord déterminer quels sont les pixels «chiens» et quels sont les pixels «non chiens» (par exemple, arrière-plan, ombres, autres objets). De plus, différents chiens sont très différents: ils peuvent avoir des couleurs, des formes et des tailles diverses; ils peuvent être orientés dans différentes directions; l'éclairage peut varier considérablement entre les images; certaines parties du chien peuvent être bloquées par d'autres objets (par exemple, des clôtures, des personnes). De plus, les «pixels de chien» pourraient ressembler beaucoup à des «pixels de chat» ou à d'autres animaux. Dans certaines conditions d'éclairage, un nuage dans le ciel pourrait même ressembler beaucoup à un chien.

FIGURE 7: Reconnaissance d'objets: facile pour les humains, difficile pour les ordinateurs

Depuis les années 1950, le domaine de la vision par ordinateur est aux prises avec ces problèmes et d'autres. Jusqu'à récemment, un travail majeur des chercheurs en vision par ordinateur consistait à développer des algorithmes de traitement d'image spécialisés qui identifieraient les «caractéristiques invariantes» des objets qui pourraient être utilisées pour reconnaître ces objets malgré les difficultés que j'ai esquissées ci-dessus. Mais même avec un traitement d'image sophistiqué, les capacités des programmes de reconnaissance d'objets sont restées bien inférieures à celles des humains.

La révolution du Deep Learning

La capacité des machines à reconnaître des objets dans les images et les vidéos a fait un bond en avant dans les années 2010 en raison des progrès dans le domaine appelé apprentissage en profondeur.

L'apprentissage en profondeur fait simplement référence aux méthodes de formation des «réseaux de neurones profonds», qui à leur tour se réfèrent aux réseaux de neurones avec plus d'une couche cachée. Rappelons que les couches cachées sont les couches d'un réseau neuronal entre l'entrée et la sortie. La profondeur d'un réseau est son nombre de couches cachées: un réseau «peu profond» - comme celui que nous avons vu au chapitre 2 - n'a qu'une seule couche cachée; un réseau «profond» a plus d'une couche cachée. Il vaut la peine d'insister sur cette définition: le deep in deep learning ne fait pas référence à la sophistication de ce qui est appris; il se réfère uniquement à la profondeur des couches du réseau en cours de formation.

La recherche sur les réseaux de neurones profonds se poursuit depuis plusieurs décennies. Ce qui fait de ces réseaux une révolution, c'est leur succès phénoménal récent dans de nombreuses tâches d'IA. Fait intéressant, les chercheurs ont découvert que les réseaux profonds les plus performants sont ceux dont la structure imite des parties du système visuel du cerveau. Les réseaux neuronaux multicouches «traditionnels» que j'ai décrits au chapitre 2 sont inspirés du cerveau, mais leur structure est très différente de celle du cerveau. En revanche, les réseaux de neurones dominant l'apprentissage profond sont directement modélisés d'après les découvertes en neurosciences.

Le cerveau, le néocognitron et les réseaux de neurones convolutifs

À peu près au moment où Minsky et Papert proposaient leur Summer Vision Project, deux neuroscientifiques étaient au milieu d'une étude de plusieurs décennies qui allait radicalement refaire notre compréhension de la vision - et en particulier de la reconnaissance d'objets - dans le cerveau. David Hubel et Torsten Wiesel ont ensuite reçu un prix Nobel pour leurs découvertes de l'organisation hiérarchique dans les systèmes visuels des chats et des primates (y compris les humains) et pour leur explication de la façon dont le système visuel transforme la lumière frappant la rétine en informations sur ce qui se trouve dans le scène.

Les découvertes de Hubel et Wiesel ont inspiré un ingénieur japonais nommé Kunihiko Fukushima, qui dans les années 1970 a développé l'un des premiers réseaux de neurones profonds, surnommé le cognitron, et son successeur, le néocognitron. Dans ses articles3, Fukushima a rapporté un certain succès à former le néocognitron à reconnaître les chiffres manuscrits (comme ceux que j'ai montrés au chapitre 1), mais les méthodes d'apprentissage spécifiques qu'il a utilisées ne semblent pas s'étendre à des tâches visuelles plus complexes. Néanmoins, le néocognitron a été une inspiration importante pour les approches ultérieures des réseaux de neurones profonds,

y compris l'approche la plus influente et la plus utilisée aujourd'hui: les réseaux de neurones convolutionnels, ou (comme la plupart des gens sur le terrain les appellent) ConvNets.

Les ConvNets sont la force motrice de la révolution du deep learning d'aujourd'hui en vision par ordinateur, et dans d'autres domaines également. Bien qu'ils aient été largement annoncés comme la prochaine grande nouveauté en IA, les ConvNets ne sont en fait pas très nouveaux: ils ont été proposés pour la première fois dans les années 1980 par l'informaticien français Yann LeCun, qui avait été inspiré par le néocognitron de Fukushima.

FIGURE 8: Voie d'entrée visuelle des yeux vers le cortex visuel

Je vais passer un peu de temps ici à décrire le fonctionnement des ConvNets, car les comprendre est crucial pour

sens de la vision par ordinateur - ainsi que de bien d'autres choses sur l'IA - et de ses limites.

Reconnaissance d'objets dans le cerveau et dans les ConvNets

Comme le néocognitron, la conception de ConvNets est basée sur plusieurs idées clés sur le système visuel du cerveau qui ont été découvertes par Hubel et Wiesel dans les années 1950 et 1960. Lorsque vos yeux se concentrent sur une scène, ce qu'ils reçoivent est une lumière de différentes longueurs d'onde qui a été réfléchie par les objets et les surfaces de la scène. La lumière tombant sur les yeux active les cellules de chaque rétine, essentiellement une grille de neurones à l'arrière de l'œil. Ces neurones communiquent leur activation à travers les nerfs optiques et dans le cerveau, activant éventuellement des neurones dans le cortex visuel, qui réside à l'arrière de la tête (figure 8). Le cortex visuel est grossièrement organisé comme une série hiérarchique de couches de neurones, comme les couches empilées d'un gâteau de mariage, où les neurones de chaque couche communiquent leurs activations aux neurones de la couche suivante.

FIGURE 9: Croquis des caractéristiques visuelles détectées par les neurones dans différentes couches du cortex visuel

Hubel et Wiesel ont trouvé des preuves que les neurones dans différentes couches de cette hiérarchie agissent comme des «détecteurs» qui répondent aux caractéristiques de plus en plus complexes apparaissant dans la scène visuelle, comme illustré dans la figure 9: les neurones des couches initiales deviennent actifs (c'est-à-dire, tirent à un niveau supérieur). taux) en réponse aux bords; leur activation se nourrit de couches de neurones qui répondent à des formes simples constituées de ces bords; et ainsi de suite, à travers des formes plus complexes et enfin des objets entiers et des visages spécifiques. Notez que les flèches de la figure 9 indiquent un flux d'informations ascendant (ou en aval), représentant les connexions des couches inférieures aux couches supérieures (dans la figure, de gauche à droite). Il est important de noter qu'un flux d'informations de haut en bas (ou de retour) (des couches supérieures aux couches inférieures) se produit également dans le cortex visuel; En réalité,il y a environ dix fois plus de connexions à rétroaction que de connexions à rétroaction. Cependant, le rôle de ces connexions en amont n'est pas bien compris par les neuroscientifiques, bien qu'il soit bien établi que nos connaissances et nos attentes antérieures, probablement stockées dans les couches supérieures du cerveau, influencent fortement ce que nous percevons.

Comme la structure hiérarchique à action directe illustrée à la figure 9, un ConvNet se compose d'une séquence de couches de neurones simulés. Je vais à nouveau appeler ces neurones simulés des unités. Les unités de chaque couche fournissent une entrée aux unités de la couche suivante. Tout comme le réseau neuronal que j'ai décrit au chapitre 2, lorsqu'un ConvNet traite une image, chaque unité prend une valeur d'activation particulière - un nombre réel qui est calculé à partir des entrées de l'unité et de leurs poids.

Rendons cette discussion plus spécifique en imaginant un ConvNet hypothétique, avec quatre couches plus un «module de classification», que nous voulons former pour reconnaître les chiens et les chats dans les images. Supposons pour plus de simplicité que chaque image d'entrée représente exactement un chien ou un chat. La figure 10 illustre la structure de notre ConvNet. C'est un peu compliqué, alors je vais le parcourir étape par étape pour expliquer comment cela fonctionne.

FIGURE 10: Illustration d'un réseau neuronal convolutionnel à quatre couches (ConvNet) conçu pour reconnaître les chiens et les chats sur les photos

Entrée et sortie

L'entrée de notre ConvNet est une image, c'est-à-dire un tableau de nombres, correspondant à la luminosité et à la couleur

des pixels de l'image.4 La sortie finale de notre ConvNet est la confiance du réseau (0% à 100%) pour chaque catégorie: «chien» et «chat». Notre objectif est de faire en sorte que le réseau apprenne à produire une confiance élevée pour la bonne catégorie et une confiance faible pour l'autre catégorie. Ce faisant, le réseau apprendra quel ensemble de fonctionnalités de l'image d'entrée est le plus utile pour cette tâche.

Cartes d'activation

Remarquez sur la figure 10 que chaque couche du réseau est représentée par un ensemble de trois rectangles qui se chevauchent. Ces rectangles représentent des cartes d'activation, inspirées de «cartes» similaires trouvées dans le système visuel du cerveau. Hubel et Wiesel ont découvert que les neurones des couches inférieures du cortex visuel sont physiquement disposés de manière à former une grille grossière, chaque neurone de la grille répondant à une petite zone correspondante du champ visuel. Imaginez voler la nuit dans un avion au-dessus de Los Angeles et prendre une photo; les lumières visibles sur votre photo forment une carte approximative des caractéristiques de la ville illuminée. De même, les activations des neurones dans chaque couche en forme de grille du cortex visuel forment une carte approximative des caractéristiques importantes de la scène visuelle. Imaginez maintenant que vous disposiez d'un appareil photo très spécial qui pouvait produire des photos distinctes pour l'éclairage de la maison,éclairage de bâtiment et éclairage de voiture. C'est quelque chose comme ce que fait le cortex visuel: chaque caractéristique visuelle importante a sa propre carte neuronale distincte. La combinaison de ces cartes est un élément clé de ce qui donne lieu à notre perception d'une scène.

FIGURE 11: Cartes d'activation dans la première couche de notre ConvNet

Comme les neurones du cortex visuel, les unités d'un ConvNet agissent comme des détecteurs d'importantes caractéristiques visuelles, chaque unité recherchant sa caractéristique désignée dans une partie spécifique du champ visuel. Et (très grossièrement) comme le cortex visuel, chaque couche d'un ConvNet se compose de plusieurs grilles de ces unités, chaque grille formant une carte d'activation pour une caractéristique visuelle spécifique.

Quelles caractéristiques visuelles les unités ConvNet devraient-elles détecter? Regardons d'abord le cerveau. Hubel et Wiesel ont découvert que les neurones des couches inférieures du cortex visuel agissent comme des détecteurs de bord, où un bord fait référence à une frontière entre deux régions d'image contrastées. Chaque neurone reçoit une entrée correspondant à une petite région spécifique de la scène visuelle; cette région est appelée le champ récepteur du neurone. Le neurone ne devient actif (c'est-à-dire qu'il commence à tirer plus rapidement) que si son champ récepteur contient un type particulier de bord.

En fait, ces neurones sont assez précis quant au type de bord auquel ils répondent. Certains neurones ne deviennent actifs que lorsqu'il y a un bord vertical dans leur champ récepteur; certains ne répondent qu'à un bord horizontal; d'autres ne tirent que pour des bords à d'autres angles spécifiques. L'une des découvertes les plus importantes de Hubel et Wiesel a été que chaque petite région de votre champ visuel correspond aux champs récepteurs de nombreux neurones «détecteurs de bord» différents. Autrement dit, à un faible niveau de traitement visuel, vos neurones déterminent quelles orientations de bord se produisent dans chaque partie de la scène que vous regardez. Les neurones de détection des bords se nourrissent dans les couches supérieures du cortex visuel, dont les neurones semblent être

détecteurs pour des formes, des objets et des visages spécifiques.5

De même, la première couche de notre hypothétique ConvNet est constituée d'unités de détection de bord. La figure 11 donne une vue rapprochée de la couche 1 de notre ConvNet. Cette couche se compose de trois cartes d'activation, chacune étant une grille d'unités. Chaque unité dans une carte correspond à l'emplacement analogue dans l'image d'entrée, et chaque unité obtient son entrée d'une petite région autour de cet emplacement - son champ récepteur. (Les champs récepteurs des unités voisines se chevauchent généralement.) Chaque unité de chaque carte calcule une valeur d'activation qui mesure le degré auquel la région correspond à l'orientation de bord préférée de l'unité, par exemple verticale, horizontale ou inclinée à divers degrés.

FIGURE 12: Illustration de la façon dont les convolutions sont utilisées pour détecter les bords verticaux. Par exemple, une convolution du champ récepteur supérieur avec les poids est (200 × 1) + (110 × 0) + (70 × -1) + (190 × 1) + (90 × 0) + (80 × -1) ) + (220 × 1) + (70 × 0) + (50 × -1) = 410.

La figure 12 illustre en détail comment les unités de la carte 1 - celles qui détectent les bords verticaux - calculent leurs activations. Les petits carrés blancs dans l'image d'entrée représentent les champs récepteurs de deux unités différentes. Les patchs d'image à l'intérieur de ces champs récepteurs, lorsqu'ils sont agrandis, sont affichés sous forme de tableaux de valeurs de pixels. Ici, pour plus de simplicité, j'ai affiché chaque patch sous la forme d'un ensemble de trois par trois pixels (les valeurs, par convention, vont de 0 à 255 - plus le pixel est clair, plus la valeur est élevée). Chaque unité reçoit en entrée les valeurs des pixels dans son champ récepteur. L'unité multiplie ensuite chaque entrée par son poids et additionne les résultats pour produire l'activation de l'unité.

Les poids représentés sur la figure 12 sont conçus pour produire une activation positive élevée lorsqu'il y a un bord vertical clair à foncé dans le champ récepteur (c'est-à-dire un contraste élevé entre les côtés gauche et droit du patch d'entrée). Le champ récepteur supérieur contient un bord vertical: la fourrure claire du chien à côté de l'herbe plus foncée. Cela se reflète dans la valeur d'activation élevée (410). Le champ récepteur inférieur ne contient pas un tel bord, seulement de l'herbe sombre, et l'activation (−10) est plus proche de 0. Notez qu'un bord vertical sombre à clair donnera une valeur négative «élevée» (c'est-à-dire un valeur négative loin de 0).

Ce calcul - en multipliant chaque valeur dans un champ récepteur par son poids correspondant et en additionnant les résultats - est appelé une convolution. D'où le nom de «réseau neuronal convolutif». J'ai mentionné ci-dessus que dans un ConvNet, une carte d'activation est une grille d'unités correspondant à des champs récepteurs sur toute l'image. Chaque unité dans une carte d'activation donnée utilise les mêmes poids pour calculer une convolution avec son champ récepteur; imaginez l'image d'entrée avec le carré blanc glissant le long de chaque zone de l'image.6 Le résultat est la carte d'activation de la figure 12:

le pixel central du champ récepteur d'une unité est coloré en blanc pour les activations positives et négatives élevées et plus sombre pour les activations proches de 0. Vous pouvez voir que les zones blanches mettent en évidence les emplacements où les bords verticaux existent. Les cartes 2 et 3 de la figure 11 ont été créées de la même manière, mais avec des poids qui mettent en évidence les bords horizontaux et inclinés, respectivement. Prises ensemble, les cartes des unités de détection de bord de la couche 1 fournissent au ConvNet une représentation de l'image d'entrée en termes de bords orientés dans différentes régions, quelque chose comme ce qu'un programme de détection de bord produirait.

Prenons un moment pour parler de la carte des mots ici. Dans la vie de tous les jours, la carte fait référence à une représentation spatiale d'une zone géographique, telle qu'une ville. Une carte routière de Paris, par exemple, montre une caractéristique particulière de la ville - sa disposition des rues, des avenues et des ruelles - mais n'inclut pas les nombreuses autres caractéristiques de la ville, telles que les bâtiments, les maisons, les lampadaires, les poubelles, les pommiers et étangs à poissons. D'autres types de cartes se concentrent sur d'autres fonctionnalités; vous pouvez trouver des cartes qui mettent en évidence les pistes cyclables de Paris, ses restaurants végétariens, ses parcs pour chiens. Quels que soient vos intérêts, il existe très probablement une carte qui montre où les trouver. Si vous vouliez expliquer Paris à un ami qui n'y était jamais allé, une approche créative pourrait être de montrer à votre ami une collection de plans de la ville «d'intérêt spécial».

Un ConvNet (comme le cerveau) représente la scène visuelle comme une collection de cartes, reflétant les «intérêts» spécifiques d'un ensemble de détecteurs. Dans mon exemple sur la figure 11, ces intérêts sont des orientations de bord différentes. cependant,

comme nous le verrons ci-dessous, dans ConvNets, le réseau lui-même apprend quels devraient être ses intérêts (c'est-à-dire les détecteurs); ceux-ci dépendent de la tâche spécifique pour laquelle il est formé.

La création de cartes n'est pas limitée à la couche 1 de notre ConvNet. Comme vous pouvez le voir sur la figure 10, une structure similaire s'applique à toutes les couches: chaque couche possède un ensemble de détecteurs, chacun créant sa propre carte d'activation. Une clé du succès de ConvNet est que - encore une fois, inspiré par le cerveau - ces cartes sont hiérarchiques: les entrées des unités de la couche 2 sont les cartes d'activation de la couche 1, les entrées des unités de la couche 3 sont les cartes d'activation de couche 2, et ainsi de suite les couches. Dans notre réseau hypothétique, dans lequel les unités de la couche 1 répondent aux bords, les unités de la couche 2 seraient sensibles à des combinaisons spécifiques d'arêtes, telles que les coins et les formes en T. Les détecteurs de couche 3 seraient sensibles aux combinaisons de combinaisons de bords. Au fur et à mesure que vous montez dans la hiérarchie, les détecteurs deviennent sensibles à des fonctionnalités de plus en plus complexes, tout comme Hubel, Wiesel,et d'autres ont vu dans le cerveau.

Notre hypothétique ConvNet a quatre couches, chacune avec trois cartes, mais dans le monde réel, ces réseaux peuvent avoir beaucoup plus de couches, parfois des centaines, chacune avec un nombre différent de cartes d'activation. La détermination de ces aspects et de bien d'autres de la structure d'un ConvNet fait partie de l'art de faire fonctionner ces réseaux complexes pour une tâche donnée. Dans le chapitre 3, j'ai décrit la vision d'IJ Good d'une future «explosion d'intelligence» dans laquelle les machines elles-mêmes créent des machines de plus en plus intelligentes. Nous n'en sommes pas encore là. Pour le moment, faire fonctionner ConvNets nécessite beaucoup d'ingéniosité humaine.

Classification dans ConvNets

Les couches 1 à 4 de notre réseau sont appelées couches convolutionnelles car chacune effectue des convolutions sur la couche précédente (et la couche 1 effectue des convolutions sur l'entrée). Étant donné une image d'entrée, chaque couche effectue successivement ses calculs, et enfin à la couche 4, le réseau a produit un ensemble de cartes d'activation pour des fonctionnalités relativement complexes. Il peut s'agir d'yeux, de pattes, de queues ou de tout autre élément dont le réseau a appris qu'il est utile pour classer les objets sur lesquels il est entraîné (ici les chiens et les chats). À ce stade, il est temps que le module de classification utilise ces fonctionnalités pour prédire quel objet l'image représente.

Le module de classification est en fait un réseau neuronal traditionnel complet, semblable au type que j'ai décrit au chapitre 2.7 Les entrées du module de classification sont les cartes d'activation de la couche convolutionnelle la plus élevée. La sortie du module est un ensemble de valeurs en pourcentage, une pour chaque catégorie possible, évaluant la confiance du réseau que l'entrée représente une image de cette catégorie (ici chien ou chat).

Permettez-moi de résumer cette brève explication de ConvNets: Inspiré par les découvertes de Hubel et Wiesel sur le cerveau

cortex visuel, un ConvNet prend une image d'entrée et la transforme, via des convolutions, en un ensemble de cartes d'activation aux caractéristiques de plus en plus complexes. Les caractéristiques de la couche convolutionnelle la plus élevée sont introduites dans un réseau neuronal traditionnel (que j'ai appelé le module de classification), qui génère des pourcentages de confiance pour les catégories d'objets connues du réseau. La catégorie d'objet avec la confiance la plus élevée est renvoyée en tant que classification réseau de l'image.8

Souhaitez-vous expérimenter avec un ConvNet bien formé? Prenez simplement une photo d'un objet et téléchargez-la sur le moteur de recherche par image de Google.9 Google exécutera un ConvNet sur votre image et, en fonction des confidences obtenues (sur des milliers de catégories d'objets possibles), vous indiquera son " meilleure estimation »pour l'image.

Former un ConvNet

Notre hypothétique ConvNet se compose de détecteurs de bord à sa première couche, mais dans le monde réel, les détecteurs de bord ConvNets ne sont pas intégrés. Au lieu de cela, ConvNets apprennent des exemples de formation quelles caractéristiques doivent être détectées à chaque couche, ainsi que la façon de définir les poids dans le module de classification afin de produire une confiance élevée pour la bonne réponse. Et, tout comme dans les réseaux de neurones traditionnels, tous les poids peuvent être appris à partir des données via le même algorithme de rétropropagation que j'ai décrit au chapitre 2.

Plus précisément, voici comment vous pourriez former notre ConvNet pour identifier une image donnée en tant que chien ou chat. Tout d'abord, rassemblez de nombreuses images d'exemple de chiens et de chats - c'est votre «ensemble d'entraînement». Créez également un fichier qui donne une étiquette pour chaque image, c'est-à-dire «chien» ou «chat». (Ou mieux, prenez un indice des chercheurs en vision par ordinateur: embauchez un étudiant diplômé pour faire tout cela pour vous. Si vous êtes un étudiant diplômé, puis recrutez un étudiant de premier cycle. Personne n'aime cette corvée d'étiquetage!) Votre programme de formation définit initialement tout les poids dans le réseau à des valeurs aléatoires. Ensuite, votre programme commence la formation: une par une, chaque image est donnée en entrée du réseau; le réseau effectue ses calculs couche par couche et délivre finalement des pourcentages de confiance pour «chien» et «chat». Pour chaque image, votre formation

le programme compare ces valeurs de sortie aux valeurs «correctes»; par exemple, si l'image est un chien, la confiance du «chien» doit être de 100% et celle du «chat» de 0%. Ensuite, le programme de formation utilise l'algorithme de rétropropagation pour modifier légèrement les poids dans le réseau, de sorte que la prochaine fois que cette image sera vue, les confidences seront plus proches des valeurs correctes.

En suivant cette procédure - entrez l'image, puis calculez l'erreur à la sortie, puis modifiez les poids - pour chaque image de votre ensemble d'entraînement est appelée une «époque» d'entraînement. La formation d'un ConvNet nécessite de nombreuses époques, au cours desquelles le réseau traite chaque image encore et encore. Au départ, le réseau sera très mauvais pour reconnaître les chiens et les chats, mais lentement, comme il change de poids au fil des époques, il s'améliorera de plus en plus. Enfin, à un moment donné, le réseau «converge»; c'est-à-dire que les poids cessent de changer beaucoup d'une époque à l'autre, et le réseau est (en principe!) très bon pour reconnaître les chiens et les chats dans les images de l'ensemble d'entraînement. Mais nous ne saurons pas si le réseau est réellement bon dans cette tâche en général tant que nous ne verrons pas s'il peut appliquer ce qu'il a appris pour identifier les images en dehors de son ensemble de formation.Ce qui est vraiment intéressant, c'est que, même si les ConvNets ne sont pas contraints par un programmeur d'apprendre à détecter une caractéristique particulière, lorsqu'ils sont formés sur de grands ensembles de photographies du monde réel, ils semblent en effet apprendre une hiérarchie de détecteurs similaire à ce que Hubel et Wiesel ont trouvé dans le système visuel du cerveau.

Dans le chapitre suivant, je raconterai l'ascension extraordinaire des ConvNets d'une obscurité relative à une domination quasi complète de la vision industrielle, une transformation rendue possible par une révolution technologique concurrente: celle du «big data».

5

ConvNets et ImageNet

Yann LeCun, l'inventeur des ConvNets, a travaillé sur les réseaux de neurones toute sa vie professionnelle, à partir des années 1980 et en continuant les hivers et les ressorts du domaine. En tant qu'étudiant diplômé et stagiaire postdoctoral, il était fasciné par les perceptrons de Rosenblatt et le néocognitron de Fukushima, mais a noté que ce dernier manquait d'un bon algorithme d'apprentissage supervisé. Avec d'autres chercheurs (notamment son conseiller postdoctoral Geoffrey Hinton), LeCun a aidé à développer une telle méthode d'apprentissage, essentiellement la même forme de rétropropagation utilisée sur

ConvNets aujourd'hui.1

Dans les années 80 et 90, alors qu'il travaillait chez Bell Labs, LeCun s'est penché sur le problème de la reconnaissance des chiffres et lettres manuscrits. Il a combiné les idées du néocognitron avec l'algorithme de rétropropagation pour créer le «LeNet» semi-éponyme - l'un des premiers ConvNets. Les capacités de reconnaissance manuscrite de LeNet en ont fait un succès commercial: dans les années 1990 et dans les années 2000, il a été utilisé par le US Postal Service pour la reconnaissance automatisée des codes postaux, ainsi que dans le secteur bancaire pour la lecture automatisée des chiffres sur les chèques.

LeNet et son successeur ConvNets n'ont pas bien réussi à évoluer vers des tâches de vision plus complexes. Au milieu des années 1990, les réseaux de neurones ont commencé à perdre de leur popularité dans la communauté de l'IA, et d'autres méthodes ont fini par dominer le domaine. Mais LeCun, toujours croyant, a continué à travailler sur ConvNets, les améliorant progressivement. Comme Geoffrey Hinton l'a dit plus tard à propos de LeCun, «Il a en quelque sorte porté le flambeau à travers les âges sombres.» 2

LeCun, Hinton et d'autres fidèles du réseau de neurones pensaient que des versions améliorées et plus grandes de ConvNets et

d'autres réseaux profonds conquériraient la vision par ordinateur si seulement ils pouvaient être formés avec suffisamment de données. Avec obstination, ils ont continué à travailler en marge tout au long des années 2000. En 2012, le flambeau porté par les chercheurs de ConvNet a soudainement allumé le monde de la vision, en remportant un concours de vision par ordinateur sur un ensemble de données d'images appelé ImageNet.

Construire ImageNet

Les chercheurs en IA sont un groupe compétitif, il n'est donc pas surprenant qu'ils aiment organiser des concours pour faire avancer le domaine. Dans le domaine de la reconnaissance visuelle des objets, les chercheurs organisent depuis longtemps des concours annuels pour déterminer le programme le plus performant. Chacun de ces concours propose un «ensemble de données de référence»: une collection de photos, ainsi que des étiquettes créées par l'homme qui nomment les objets sur les photos.

De 2005 à 2010, le plus important de ces concours annuels a été le concours PASCAL Visual Object Classes, qui comportait en 2010 une quinzaine de milliers de photographies (téléchargées depuis le site de partage de photos Flickr), avec des étiquettes créées par l'homme pour vingt catégories d'objets, telles que comme «personne», «chien», «cheval», «mouton», «voiture», «vélo», «canapé» et «plante en pot».

Les inscriptions à la partie «classification» de ce concours3 étaient des programmes de vision par ordinateur qui pouvaient prendre une photo en entrée (sans voir son étiquette créée par l'homme) et pouvaient ensuite produire, pour chacune des vingt catégories, s'il s'agissait d'un objet de cette catégorie. était présent dans l'image.

Voici comment le concours a fonctionné. Les organisateurs diviseraient les photographies en un ensemble de formation que les candidats pourraient utiliser pour former leurs programmes et un ensemble de tests, non communiqué aux candidats, qui serait utilisé pour évaluer les performances des programmes sur des images en dehors de l'ensemble de formation. Avant le concours, l'ensemble de formation serait offert en ligne et, lorsque le concours était organisé, les chercheurs soumettaient leurs programmes de formation à tester sur l'ensemble de test secret. L'entrée gagnante était celle qui avait la plus grande précision reconnaissant les objets dans les images de l'ensemble de tests.

Les concours annuels PASCAL ont été très importants et ont fait beaucoup pour stimuler la recherche sur la reconnaissance d'objets. Au fil des années du défi, les programmes concurrents se sont progressivement améliorés (curieusement, les plantes en pot sont restées

objets les plus difficiles à reconnaître). Cependant, certains chercheurs ont été frustrés par les lacunes du référentiel PASCAL comme moyen de faire avancer la vision par ordinateur. Les participants se concentraient trop sur les vingt catégories d'objets spécifiques de PASCAL et ne construisaient pas de systèmes capables de s'adapter au grand nombre de catégories d'objets reconnues par l'homme. De plus, il n'y avait tout simplement pas assez de photos dans l'ensemble de données pour que les systèmes concurrents apprennent toutes les nombreuses variations possibles de l'apparence des objets afin de pouvoir bien généraliser.

Pour aller de l'avant, le domaine avait besoin d'une nouvelle collection d'images de référence, comprenant une gamme beaucoup plus large de catégories et beaucoup plus de photos. Fei-Fei Li, un jeune professeur de vision par ordinateur à Princeton, était particulièrement concentré sur cet objectif. Par hasard, elle a appris un projet mené par un collègue professeur à Princeton, le psychologue George Miller, pour créer une base de données de mots anglais, disposés dans une hiérarchie allant du plus spécifique au plus général, avec des regroupements entre synonymes. Par exemple, considérons le mot cappuccino. La base de données, appelée WordNet, contient les informations suivantes sur ce terme (où une flèche signifie «est une sorte de»):

cappuccino ⇒ café ⇒ boisson ⇒ nourriture ⇒ substance ⇒ entité physique ⇒ entité

La base de données contient également des informations qui, par exemple, boisson, boisson et eau potable sont des synonymes, que la boisson fait partie d'une autre chaîne, y compris le liquide, etc.

WordNet avait été (et continue d'être) largement utilisé dans la recherche par les psychologues et les linguistes ainsi que dans les systèmes de traitement du langage naturel de l'IA, mais Fei-Fei Li avait une nouvelle idée: créer une base de données d'images structurée selon les noms en WordNet, où chaque nom est lié à un grand nombre d'images contenant des exemples de ce nom. Ainsi est née l'idée d'ImageNet.

Li et ses collaborateurs ont rapidement commencé à collecter un déluge d'images en utilisant des noms WordNet comme requêtes sur des moteurs de recherche d'images tels que Flickr et la recherche d'images Google. Cependant, si vous avez déjà utilisé un moteur de recherche d'images, vous savez que les résultats d'une requête sont souvent loin d'être parfaits. Par exemple, si vous tapez «pomme macintosh» dans la recherche d'images Google, vous obtenez non seulement des photos de pommes et d'ordinateurs Mac, mais aussi de bougies en forme de pomme, de smartphones, de bouteilles de vin de pomme et de nombreux autres éléments non pertinents. Ainsi, Li et ses collègues ont dû demander aux humains de déterminer quelles images n'étaient pas réellement des illustrations d'un nom donné et de s'en débarrasser. Au début, les humains qui l'ont fait étaient principalement des étudiants de premier cycle. Le travail était terriblement lent et éprouvant. Li a vite compris

qu'au rythme où ils allaient, il faudrait quatre-vingt-dix ans pour achever la tâche4.

Li et ses collaborateurs ont réfléchi à des moyens d'automatiser ce travail, mais bien sûr, le problème de décider si une photo est une instance d'un nom particulier est la tâche de la reconnaissance d'objet elle-même! Et les ordinateurs étaient loin d'être fiables pour cette tâche, ce qui était la raison principale de la construction d'ImageNet en premier lieu.

Le groupe était dans une impasse, jusqu'à ce que Li, par hasard, tombe sur un site Web de trois ans qui pourrait fournir l'intelligence humaine dont ImageNet avait besoin. Le site Web portait le nom étrange Amazon Mechanical Turk.

Turc mécanique

Selon Amazon, son service Mechanical Turk est «un marché pour le travail qui nécessite une intelligence humaine». Le service relie les demandeurs, les personnes qui ont besoin d'une tâche difficile pour les ordinateurs, avec les travailleurs, les gens qui sont prêts à prêter leur intelligence humaine à la tâche d'un demandeur, pour une somme modique (par exemple, étiqueter les objets sur une photo, par dix cents par photo). Des centaines de milliers de travailleurs se sont inscrits dans le monde entier. Mechanical Turk est l'incarnation du dicton «Les choses faciles sont dures» de Marvin Minsky: les travailleurs humains sont embauchés pour effectuer les tâches «faciles» qui sont actuellement trop difficiles pour les ordinateurs.

Le nom Mechanical Turk vient d'un célèbre canular de l'IA du XVIIIe siècle: le Mechanical Turk d'origine était une «machine intelligente» jouant aux échecs qui cachait secrètement un humain qui contrôlait une marionnette (le «Turc», habillé comme un sultan ottoman) qui fait les mouvements. De toute évidence, il a trompé de nombreuses personnalités de l'époque, dont Napoléon Bonaparte. Le service d'Amazon, bien qu'il ne soit destiné à tromper personne, est, comme le Turc mécanique d'origine, «Intelligence artificielle artificielle». 5

Fei-Fei Li a réalisé que si son groupe payait des dizaines de milliers de travailleurs sur Mechanical Turk pour trier les images non pertinentes pour chacun des termes WordNet, l'ensemble des données pourrait être complété en quelques années à un coût relativement faible. En seulement deux ans, plus de trois millions d'images ont été étiquetées avec des noms WordNet correspondants pour former l'ensemble de données ImageNet. Pour le projet ImageNet, Mechanical Turk était «une aubaine». 6 Le service continue d'être largement utilisé par les chercheurs en IA pour créer des ensembles de données; de nos jours, les propositions de subventions académiques en IA

comprennent généralement un élément de campagne pour les "travailleurs de Mechanical Turk".

Les compétitions ImageNet

En 2010, le projet ImageNet a lancé le premier défi de reconnaissance visuelle à grande échelle ImageNet, afin de stimuler les progrès vers des algorithmes de reconnaissance d'objet plus généraux. Trente-cinq programmes étaient en compétition, représentant des chercheurs en vision par ordinateur du monde universitaire et de l'industrie du monde entier. Les concurrents ont reçu des images d'entraînement étiquetées - 1,2 million d'entre elles - et une liste de catégories possibles. La tâche pour les programmes formés était de sortir la bonne catégorie de chaque image d'entrée. Le concours ImageNet avait mille catégories possibles, contre vingt de PASCAL.

Les mille catégories possibles étaient un sous-ensemble de termes WordNet choisis par les organisateurs. Les catégories sont un assemblage aléatoire de noms, allant du familier et banal («citron», «château», «piano à queue») au peu moins commun («viaduc», «bernard-l'ermite», «métronome») , et sur le carrément obscur ("Cerf écossais", "Turnstone vermeil", "singe hussard"). En fait, les animaux et les plantes obscurs - du moins ceux que je ne pourrais pas distinguer - constituent au moins un dixième des mille catégories cibles.

Certaines photographies ne contiennent qu'un seul objet; d'autres contiennent de nombreux objets, dont celui «correct». En raison de cette ambiguïté, un programme doit deviner cinq catégories pour chaque image, et si la bonne figure dans cette liste, le programme est censé être correct sur cette image. C'est ce qu'on appelle la métrique de précision «top-5».

Le programme ayant obtenu le score le plus élevé en 2010 a utilisé une machine dite de vecteur de support, l'algorithme de reconnaissance d'objet prédominant du jour, qui a utilisé des mathématiques sophistiquées pour apprendre à attribuer une catégorie à chaque image d'entrée. En utilisant la métrique de précision du top 5, ce programme gagnant était correct sur 72% des 150 000 images de test. Pas mal, même si cela signifie que le programme était erroné, même avec cinq suppositions autorisées, sur plus de 40000 des images de test, laissant beaucoup de place à l'amélioration. Notamment, il n'y avait aucun réseau de neurones parmi les programmes les plus performants.

L'année suivante, le programme le plus performant - utilisant également des machines à vecteurs de support - a montré une amélioration respectable mais modeste, obtenant 74 pour cent des images de test correctes. La plupart des gens sur le terrain s'attendaient à ce que cette tendance se poursuive; la recherche en vision par ordinateur éliminerait le problème, avec une amélioration progressive à chaque concours annuel.

Cependant, ces attentes ont été bouleversées lors du concours ImageNet de 2012: la candidature gagnante a obtenu un résultat à 85% correct. Un tel saut dans la précision a été une évolution choquante. De plus, l'entrée gagnante n'a pas utilisé de machines à vecteurs de support ni aucune des autres méthodes de vision par ordinateur dominantes de l'époque. Au lieu de cela, c'était un réseau neuronal convolutif. Ce ConvNet particulier est connu sous le nom d'AlexNet, du nom de son principal créateur, Alex Krizhevsky, alors étudiant diplômé de l'Université de Toronto, sous la supervision de l'éminent chercheur en réseaux de neurones Geoffrey Hinton. Krizhevsky, en collaboration avec Hinton et un autre étudiant, Ilya Sutskever, a créé une version à plus grande échelle du LeNet de Yann LeCun à partir des années 1990; la formation d'un réseau aussi vaste était désormais rendue possible par l'augmentation de la puissance des ordinateurs. AlexNet avait huit couches,avec une soixantaine de millions de poids dont les valeurs

ont été apprises via la propagation arrière à partir du million d'images de formation7. Le groupe de Toronto a mis au point des méthodes intelligentes pour améliorer le fonctionnement de la formation en réseau, et il a fallu environ une semaine à un groupe d'ordinateurs puissants pour former AlexNet.

Le succès d'AlexNet a secoué la communauté de la vision par ordinateur et de l'intelligence artificielle au sens large, éveillant soudainement les gens à la puissance potentielle des ConvNets, que la plupart des chercheurs en intelligence artificielle n'avaient pas considérés comme un concurrent sérieux dans la vision par ordinateur moderne. Dans un article de 2015, le journaliste Tom Simonite a interviewé Yann LeCun au sujet du triomphe inattendu de ConvNets:

LeCun se souvient avoir vu la communauté qui avait le plus ignoré les réseaux de neurones se presser dans la salle où les gagnants ont présenté un article sur leurs résultats. «On pouvait voir juste là que beaucoup de personnes âgées dans la communauté venaient de retourner», dit-il. «Ils ont dit:« D'accord, maintenant nous l'achetons.

C'est tout, maintenant, vous avez gagné. »8

À peu près au même moment, le groupe de Geoffrey Hinton démontrait également que les réseaux de neurones profonds, formés sur d'énormes quantités de données étiquetées, étaient nettement meilleurs que l'état actuel de la technique en matière de reconnaissance vocale. Les résultats d'ImageNet et de reconnaissance vocale du groupe de Toronto ont eu d'importants effets d'entraînement. En un an, une petite entreprise créée par Hinton a été acquise par Google, et Hinton et ses étudiants Krizhevsky et Sutskever sont devenus des employés de Google. Cette acquisition a mis instantanément Google au premier plan de l'apprentissage en profondeur.

Peu de temps après, Yann LeCun a été détourné de son poste de professeur à temps plein à l'Université de New York par Facebook pour diriger son nouveau laboratoire d'IA. Il n'a pas fallu longtemps avant que toutes les grandes entreprises technologiques (ainsi que de nombreuses petites entreprises) recrutent des experts en apprentissage en profondeur et leurs étudiants diplômés le plus rapidement possible. Apparemment du jour au lendemain,

le deep learning est devenu la partie la plus en vogue de l'intelligence artificielle, et l'expertise en deep learning a garanti aux informaticiens un salaire élevé dans la Silicon Valley ou, mieux encore, un financement en capital-risque pour leurs start-ups en prolifération.

La compétition annuelle d'ImageNet a commencé à voir une couverture plus large dans les médias, et elle s'est rapidement transformée d'un concours académique amical en un match de combat de haut niveau pour les entreprises technologiques commercialisant la vision par ordinateur. Gagner à ImageNet garantirait le respect convoité de la communauté des visionnaires, ainsi qu'une publicité gratuite, ce qui pourrait se traduire par des ventes de produits et des prix des actions plus élevés. La pression pour produire des programmes qui ont surpassé les concurrents s'est manifestée notamment lors d'un incident de tricherie en 2015 impliquant le géant chinois de l'Internet Baidu. La triche impliquait un exemple subtil de ce que les gens dans l'apprentissage automatique appellent l'espionnage des données.

Voici ce qui s'est passé: Avant la compétition, chaque équipe en compétition sur ImageNet a reçu des images d'entraînement étiquetées avec les catégories d'objets correctes. Ils ont également reçu un grand ensemble de tests - une collection d'images ne figurant pas dans l'ensemble de formation - sans aucune étiquette. Une fois le programme formé, une équipe pouvait voir dans quelle mesure sa méthode fonctionnait bien sur cet ensemble de test. Cela permet de tester dans quelle mesure un programme a appris à généraliser (par opposition, par exemple, à mémoriser les images de formation et leurs étiquettes). Seules les performances sur l'ensemble de test comptent. La façon dont une équipe pouvait déterminer l'efficacité de son programme sur l'ensemble de test consistait à exécuter son programme sur chaque image de l'ensemble de test, à collecter les cinq premières suppositions pour chaque image et à soumettre cette liste à un «serveur de test» - un ordinateur géré par les organisateurs du concours.Le serveur de test comparerait la liste soumise avec les réponses (secrètes) correctes et cracherait le pourcentage correct.

Chaque équipe pouvait ouvrir un compte sur le serveur de test et l'utiliser pour voir si les différentes versions de leurs programmes obtenaient de bons résultats; cela leur permettrait de publier (et publier) leurs résultats avant l'annonce des résultats officiels.

Une règle cardinale dans l'apprentissage automatique est «Ne vous entraînez pas sur les données de test». Cela semble évident: si vous incluez des données de test dans une partie de la formation de votre programme, vous n'obtiendrez pas une bonne mesure des capacités de généralisation du programme. Ce serait comme donner aux étudiants les questions de l'examen final avant de passer le test. Mais il s'avère qu'il existe des moyens subtils pour que cette règle puisse être involontairement (ou intentionnellement) enfreinte afin d'améliorer les performances de votre programme.

Une telle méthode consisterait à soumettre les réponses de l'ensemble de tests de votre programme au serveur de test et, en fonction du résultat, à modifier votre programme. Soumettez ensuite à nouveau. Répétez cette opération plusieurs fois, jusqu'à ce que vous l'ayez modifié pour faire mieux sur le test. Cela ne nécessite pas de voir les étiquettes réelles dans l'ensemble de test, mais cela nécessite d'obtenir des commentaires sur la précision et d'ajuster votre programme en conséquence. Il s'avère que si vous pouvez le faire suffisamment de fois, cela peut être très efficace pour améliorer les performances de votre programme sur l'ensemble de test. Mais comme vous utilisez les informations de l'ensemble de test pour modifier votre programme, vous avez maintenant détruit la possibilité d'utiliser l'ensemble de test pour voir si votre programme se généralise bien. Ce serait comme permettre aux étudiants de passer un examen final plusieurs fois, à chaque fois de récupérer une seule note,mais en utilisant cette seule note pour essayer d'améliorer leurs performances la prochaine fois. Ensuite, à la fin, les étudiants soumettent la version de leurs réponses qui leur a valu le meilleur score. Ce n'est plus une bonne mesure de la façon dont les élèves ont bien appris le sujet, juste une mesure de la façon dont ils ont adapté leurs réponses à des questions de test particulières.

Pour éviter ce type de fouille de données tout en permettant aux concurrents d'ImageNet de voir à quel point leurs programmes fonctionnent, les organisateurs ont établi une règle disant que chaque équipe pouvait soumettre des réponses au serveur de test au plus deux fois par semaine. Cela limiterait la quantité de commentaires que les équipes pourraient tirer des essais.

La grande bataille d'ImageNet de 2015 s'est déroulée sur une fraction de point de pourcentage - apparemment insignifiante mais potentiellement très lucrative. Au début de l'année, une équipe de Baidu a annoncé une méthode qui a atteint le plus haut

5) précision encore sur un ensemble de test ImageNet: 94,67 pour cent, pour être exact. Mais le même jour, une équipe de Microsoft a annoncé une meilleure précision avec sa méthode: 95,06%. Quelques jours plus tard, une équipe rivale de Google a annoncé une méthode légèrement différente qui a fait encore mieux: 95,18%. Ce record s'est maintenu pendant quelques mois, jusqu'à ce que Baidu fasse une nouvelle annonce: il avait amélioré sa méthode et pouvait désormais se vanter d'un nouveau record, 95,42%. Ce résultat a été largement rendu public par l'équipe de relations publiques de Baidu.

Mais en quelques semaines, une annonce concise est venue des organisateurs d'ImageNet: «Au cours de la période du 28 novembre 2014 au 13 mai 2015, au moins 30 comptes ont été utilisés par une équipe de Baidu pour se soumettre au moins au serveur de test. 200 fois, dépassant de loin la limite spécifiée de deux soumissions par semaine. »9 En bref, l'équipe de Baidu avait été prise en flagrant délit de fouille de données.

Les deux cents points de rétroaction ont potentiellement permis à l'équipe de Baidu de déterminer quels ajustements à leur

programme le rendrait le plus performant sur cet ensemble de test, lui gagnant la fraction très importante d'un point de pourcentage qui a fait la victoire. En guise de punition, Baidu a été disqualifié de l'inscription à son programme lors du concours de 2015.

Baidu, dans l'espoir de minimiser la mauvaise publicité, s'est rapidement excusé puis a blâmé un employé voyou:

«Nous avons constaté qu'un chef d'équipe avait ordonné aux ingénieurs subalternes de soumettre plus de deux soumissions par semaine, ce qui constituait une violation des règles actuelles d'ImageNet.

Bien que cette histoire ne soit qu'une note de bas de page intéressante sur l'histoire plus large de l'apprentissage profond en vision par ordinateur, je

dites-lui d'illustrer dans quelle mesure le concours ImageNet est devenu le symbole clé du progrès de la vision par ordinateur et de l'IA en général.

Tricher à part, les progrès sur ImageNet se sont poursuivis. La compétition finale a eu lieu en 2017, avec une précision dans le top 5 gagnant de 98%. Comme l'a déclaré un journaliste, «Aujourd'hui, beaucoup considèrent que ImageNet est résolu» 11, au moins pour la tâche de classification. La communauté évolue vers de nouveaux ensembles de données de référence et de nouveaux problèmes, en particulier ceux qui intègrent la vision et le langage.

Qu'est-ce qui a permis à ConvNets, qui semblait être dans une impasse dans les années 1990, de dominer

Concurrence ImageNet, et par la suite la plupart de la vision par ordinateur dans la dernière moitié d'une décennie? Il s'avère que le récent succès de l'apprentissage en profondeur est dû moins à de nouvelles percées dans l'IA qu'à la disponibilité d'énormes quantités de données (merci, Internet!) Et d'un matériel informatique parallèle très rapide. Ces facteurs, associés à des améliorations des méthodes de formation, permettent de former des réseaux centenaires sur des millions d'images en quelques jours seulement.

Yann LeCun lui-même a été surpris par la rapidité avec laquelle les choses ont tourné pour ses ConvNets: «C'est rarement le cas lorsqu'une technologie qui existe depuis 20, 25 ans - essentiellement inchangée - s'avère être la meilleure. La vitesse à laquelle les gens l'ont adoptée est tout simplement incroyable. Je n'ai jamais rien vu de tel auparavant. »12

La ruée vers l'or de ConvNet

Une fois qu'ImageNet et d'autres ensembles de données volumineux ont donné à ConvNets la grande quantité d'exemples de formation dont ils avaient besoin pour bien fonctionner, les entreprises ont soudainement pu appliquer la vision par ordinateur d'une manière jamais vue auparavant. Comme l'a fait remarquer Blaise Agüera y Arcas de Google, "Ce fut une sorte de ruée vers l'or - attaquer un problème après l'autre avec le même ensemble de techniques." 13 capable d'améliorer considérablement leur fonction «trouver des images similaires». Google a proposé un système de stockage de photos qui

marquerait vos photos en décrivant les objets qu'elles contenaient, et le service Street View de Google pourrait reconnaître et masquer les adresses et plaques d'immatriculation dans ses images. Une prolifération d'applications mobiles a permis aux smartphones d'effectuer la reconnaissance d'objets et de visages en temps réel.

Facebook a étiqueté vos photos téléchargées avec les noms de vos amis et a déposé un brevet sur la classification des émotions derrière les expressions faciales dans les photos téléchargées; Twitter a développé un filtre qui pourrait filtrer les tweets pour les images pornographiques; et plusieurs sites de partage de photos et de vidéos ont commencé à appliquer des outils pour détecter les images associées à des groupes terroristes. ConvNets peut être appliqué à la vidéo et utilisé dans les voitures autonomes pour suivre les piétons, ou pour lire les lèvres et classer le langage corporel. Les ConvNets peuvent même diagnostiquer le cancer du sein et de la peau à partir d'images médicales, déterminer le stade de la rétinopathie diabétique et aider les médecins à planifier le traitement du cancer de la prostate.

Ce ne sont que quelques exemples des nombreuses applications commerciales existantes (ou qui vont bientôt exister) alimentées par ConvNets. En fait, il y a de fortes chances que toute application de vision par ordinateur moderne que vous utilisez utilise ConvNets. De plus, il est fort probable qu'il ait été «pré-formé» sur des images d'ImageNet pour apprendre des fonctionnalités visuelles génériques avant d'être «affiné» pour des tâches plus spécifiques.

Étant donné que la formation approfondie requise par ConvNets n'est possible qu'avec du matériel informatique spécialisé - généralement, de puissantes unités de traitement graphique (GPU) - il n'est pas surprenant que le cours de l'action de NVIDIA Corporation, le plus grand fabricant de GPU, ait augmenté de plus de 1 000 pour cent entre 2012 et 2017.

ConvNets a-t-il dépassé les humains lors de la reconnaissance d'objets?

En apprenant davantage sur le succès remarquable des ConvNets, je me suis demandé à quel point ils étaient proches de rivaliser avec nos propres capacités de reconnaissance d'objets humains. Un article de 2015 de Baidu (scandale post-tricherie) portait le sous-titre "Surpassing Human-Level Performance on ImageNet Classification". une photographie ou une vidéo, présentant un système dont la précision atteint et dépasse parfois les performances au niveau humain. «Les ordinateurs sont meilleurs que les humains pour reconnaître et trier

Images »et« Microsoft a développé un système informatique qui peut mieux identifier les objets que les humains ». 16

Examinons un peu plus attentivement l'affirmation spécifique selon laquelle les machines sont désormais «meilleures que les humains» pour la reconnaissance d'objets sur ImageNet. Cette affirmation est basée sur une affirmation selon laquelle les humains ont un taux d'erreur d'environ 5%, alors que le taux d'erreur des machines est (au moment de la rédaction de cet article) proche de 2%. Cela ne confirme-t-il pas que les machines sont meilleures que les humains dans cette tâche? Comme c'est souvent le cas pour les affirmations très médiatisées sur l'IA, la réclamation s'accompagne de quelques mises en garde.

Voici une mise en garde. Lorsque vous lisez sur une machine «identifiant correctement les objets», vous penseriez que, par exemple, étant donné une image d'un ballon de basket, la machine produirait «basket». Mais bien sûr, sur ImageNet, une identification correcte signifie seulement que la bonne catégorie fait partie des cinq premières catégories de la machine. Si, étant donné l'image d'un ballon de basket, la machine sort «balle de croquet», «bikini», «phacochère», «basket-ball» et «fourgon mobile», dans cet ordre, cela est considéré comme correct. Je ne sais pas à quelle fréquence ce genre de chose se produit, mais il est à noter que la meilleure précision top-1

—La fraction des images de test sur lesquelles la bonne catégorie figure en tête de liste — était d'environ 82%, contre 98% dans le top 5, lors du concours ImageNet 2017. Personne, à ma connaissance, n'a rapporté de comparaison entre les machines et les humains sur la précision du top 1.

Voici une autre mise en garde. Considérez l'affirmation: «Les humains ont un taux d'erreur d'environ 5% sur ImageNet.» Il s'avère que dire «humains» n'est pas tout à fait exact; ce résultat est issu d'une expérience impliquant un seul humain, un Andrej Karpathy, qui était à l'époque un étudiant diplômé à Stanford, effectuant des recherches sur l'apprentissage profond. Karpathy voulait voir s'il pouvait s'entraîner à affronter les meilleurs ConvNets sur ImageNet. Étant donné que les ConvNets s'entraînent sur 1,2 million d'images puis sont exécutées sur 150 000 images de test, il s'agit d'une tâche intimidante pour un humain. Karpathy, qui a un blog populaire sur l'IA, a écrit sur son expérience:

J'ai fini par m'entraîner [moi-même] sur 500 images, puis je suis passé à un ensemble de tests [réduit] de 1 500 images. L'étiquetage [c'est-à-dire, Karpathy devinant cinq catégories par image] s'est produit à un rythme d'environ 1 par minute, mais cela a diminué au fil du temps. Je n'ai apprécié que les ~ 200 premiers, et le reste, je n'ai fait que # forscience. ... Certaines images sont facilement reconnaissables, tandis que certaines images (comme celles de races de chiens à grain fin, d'oiseaux,

ou des singes) peut nécessiter plusieurs minutes d'effort concentré. Je suis devenu très bon pour identifier les races de chiens.17

Karpathy a constaté qu'il avait tort sur environ 75 de ses 1500 images de test, et il a ensuite analysé les erreurs qu'il a commises, constatant qu'elles étaient largement dues à des images avec plusieurs objets, des images avec des races spécifiques de chiens, des espèces d'oiseaux ou de plantes , etc., et les catégories d'objets qu'il ne réalisait pas étaient incluses dans les catégories cibles. Les types d'erreurs commises par les ConvNets sont différents: bien qu'ils soient également confondus par des images contenant plusieurs objets, contrairement aux humains, ils ont tendance à manquer des objets petits dans l'image, des objets qui ont été déformés par des filtres de couleur ou de contraste que le photographe a appliqués à la image et «représentations abstraites» d'objets, comme une peinture ou une statue de chien ou un chien en peluche. Ainsi, l'affirmation selon laquelle les ordinateurs ont battu les humains sur ImageNet doit être prise avec un gros grain de sel.

Voici une mise en garde qui pourrait vous surprendre. Lorsqu'un humain dit qu'une photo contient, disons, un chien, nous supposons que c'est parce qu'il a réellement vu un chien sur la photo. Mais si un ConvNet dit correctement «chien», comment savons-nous qu'il fonde réellement cette classification sur le chien dans l'image? Peut-être qu'il y a quelque chose d'autre dans l'image - une balle de tennis, un frisbee, une chaussure à mâcher - qui était souvent associée aux chiens dans les images d'entraînement, et le ConvNet les reconnaît et suppose qu'il y a un chien sur la photo. Ces types de corrélations ont souvent fini par tromper les machines.

Une chose que nous pourrions faire est de demander à la machine non seulement de sortir une catégorie d'objet pour une image, mais aussi d'apprendre à dessiner une boîte autour de l'objet cible, ainsi nous savons que la machine a réellement «vu» l'objet. C'est précisément ce que le concours ImageNet a commencé à faire au cours de sa deuxième année avec son «défi de localisation». La tâche de localisation a fourni des images de formation avec de telles boîtes dessinées (par des travailleurs de Mechanical Turk) autour des objets cibles dans chaque image; sur les images de test, la tâche des programmes concurrents était de prédire cinq catégories d'objets chacune avec les coordonnées d'une case correspondante. Ce qui peut être surprenant, c'est que si les réseaux de neurones convolutionnels profonds se sont très bien comportés à la localisation, leurs performances sont restées nettement inférieures à leurs performances en matière de catégorisation,bien que les nouveaux concours se concentrent précisément sur ce problème.

Les différences les plus importantes entre les ConvNets d'aujourd'hui et les humains en ce qui concerne la reconnaissance des objets résident probablement dans la manière dont l'apprentissage se déroule et dans la robustesse et la fiabilité de l'apprentissage. J'explorerai ces différences dans le chapitre suivant.

Les mises en garde que j'ai décrites ci-dessus ne visent pas à diminuer les progrès récents étonnants en vision par ordinateur. Il ne fait aucun doute que les réseaux de neurones convolutifs ont connu un succès remarquable dans ce domaine et dans d'autres, et ces succès ont non seulement produit des produits commerciaux, mais ont également entraîné un réel sentiment d'optimisme dans l'IA.

communauté. Ma discussion vise à illustrer à quel point une vision difficile se révèle et à ajouter une certaine perspective sur les progrès réalisés jusqu'à présent. La reconnaissance d'objets n'est pas encore «résolue» par l'intelligence artificielle.

Au-delà de la reconnaissance d'objets

Je me suis concentré sur la reconnaissance d'objets dans ce chapitre parce que c'est le domaine dans lequel la vision par ordinateur a récemment enregistré le plus de progrès. Cependant, la vision ne se limite pas à la simple reconnaissance d'objets. Si l'objectif de la vision par ordinateur est de «faire décrire à une machine ce qu'elle voit», les machines devront reconnaître non seulement les objets, mais aussi leurs relations les uns avec les autres et comment ils interagissent avec le monde. Si les «objets» en question sont des êtres vivants, les machines devront savoir quelque chose sur leurs actions, leurs objectifs, leurs émotions, les prochaines étapes probables et tous les autres aspects qui contribuent à raconter l'histoire d'une scène visuelle. De plus, si nous voulons vraiment que les machines décrivent ce qu'elles voient, elles devront utiliser un langage. Les chercheurs en IA travaillent activement à obtenir des machines pour faire ces choses,mais comme d'habitude, ces choses «faciles» sont très difficiles. Comme l'a dit l'expert en vision par ordinateur Ali Farhadi au New York Times, «nous sommes encore très, très loin de l'intelligence visuelle, de la compréhension des scènes et des actions

les humains le font. »18

Pourquoi sommes-nous encore si loin de cet objectif? Il semble que l'intelligence visuelle ne soit pas facilement séparable du reste de l'intelligence, en particulier les connaissances générales, l'abstraction et le langage - des capacités qui, de manière intéressante, impliquent des parties du cerveau qui ont de nombreuses connexions de rétroaction avec le cortex visuel. De plus, il se peut que les connaissances nécessaires à l'intelligence visuelle de type humain - par exemple, donner un sens à la photo «soldat et chien» au début du chapitre précédent - ne puissent pas être tirées de millions de photos téléchargées sur le Web, mais doit être vécu d'une manière ou d'une autre dans le monde réel.

Dans le chapitre suivant, j'examinerai de plus près l'apprentissage automatique en vision, en se concentrant en particulier sur les différences entre les façons dont les humains et les machines apprennent et en essayant de découvrir ce que les machines que nous avons formées ont réellement appris.

6

Regardons de plus près les machines qui apprennent

Le pionnier de l'apprentissage en profondeur Yann LeCun a reçu de nombreux prix et distinctions, mais peut-être que son honneur ultime (s'il est geek) fait l'objet d'un compte Twitter parodique très suivi et très drôle portant le nom de «Bored Yann LeCun». Avec la description «Penser à la montée du deep learning pendant les temps d'arrêt de Yann», le compte créé de manière anonyme termine fréquemment ses astucieux tweets en blague avec le hashtag # FeelTheLearn.1

En effet, les reportages des médias sur l'IA de pointe ont «ressenti l'apprentissage» en célébrant le pouvoir des

apprentissage - accent mis sur «l'apprentissage». On nous dit, par exemple, que «nous pouvons maintenant construire des systèmes qui apprennent à effectuer des tâches par eux-mêmes» 2, que «l'apprentissage en profondeur [permet] aux ordinateurs de s'auto-enseigner littéralement» 3 et que les systèmes d'apprentissage en profondeur apprennent «en une manière similaire au cerveau humain. "4

Dans ce chapitre, j'examinerai plus en détail comment les machines, en particulier les ConvNets, apprennent et comment leur apprentissage

les processus contrastent avec ceux des humains. De plus, j'explorerai comment les différences entre l'apprentissage dans ConvNets et chez l'homme affectent la robustesse et la fiabilité de ce qui est appris.

Apprendre seul

L'approche d'apprentissage à partir des données des réseaux de neurones profonds s'est généralement avérée plus efficace que la stratégie de «bonne intelligence artificielle à l'ancienne», dans laquelle les programmeurs humains élaborent des règles explicites pour un comportement intelligent. Cependant, contrairement à ce que certains médias ont rapporté, le processus d'apprentissage de ConvNets n'est pas très humain.

Comme nous l'avons vu, les ConvNets les plus performants apprennent via une procédure d'apprentissage supervisé: ils changent progressivement leurs poids en traitant les exemples dans l'ensemble de formation encore et encore, à de nombreuses époques (c'est-à-dire que beaucoup passent par l'ensemble de formation) , apprendre à classer chaque entrée comme l'une d'un ensemble fixe de catégories de sortie possibles. En revanche, même les plus jeunes enfants apprennent un ensemble ouvert de catégories et peuvent reconnaître des exemples de la plupart des catégories après avoir vu seulement quelques exemples. De plus, les enfants n'apprennent pas passivement: ils posent des questions, ils demandent des informations sur les choses qui les intéressent, ils déduisent des abstractions et des liens entre les concepts et, surtout, ils explorent activement le monde.

Il est inexact de dire que les ConvNets qui réussissent aujourd'hui apprennent «par eux-mêmes». Comme nous l'avons vu dans le chapitre précédent, pour qu'un ConvNet apprenne à effectuer une tâche, un énorme effort humain est nécessaire pour collecter, conserver et étiqueter les données, ainsi que pour concevoir les nombreux aspects de l'architecture du ConvNet . Alors que les ConvNets utilisent la rétropropagation pour apprendre leurs «paramètres» (c'est-à-dire les poids) à partir d'exemples de formation, cet apprentissage est rendu possible par une collection de ce qu'on appelle les «hyperparamètres» - un terme générique qui fait référence à tous les aspects du réseau qui doivent être mis en place par les humains pour permettre à l'apprentissage de commencer même. Des exemples d'hyperparamètres comprennent le nombre de couches dans le réseau, la taille des «champs récepteurs» des unités à chaque couche, l'ampleur de la variation de chaque poids pendant l'apprentissage (appelée le taux d'apprentissage),et de nombreux autres détails techniques du processus de formation. Cette partie de la configuration d'un ConvNet est appelée réglage des hyperparamètres. Il existe de nombreuses valeurs à définir ainsi que des décisions de conception complexes à prendre, et ces paramètres et conceptions interagissent les uns avec les autres de manière complexe pour affecter les performances finales du réseau. De plus, ces paramètres et conceptions doivent généralement être décidés à nouveau pour chaque tâche sur laquelle un réseau est formé.ces paramètres et conceptions doivent généralement être décidés à nouveau pour chaque tâche sur laquelle un réseau est formé.ces paramètres et conceptions doivent généralement être décidés à nouveau pour chaque tâche sur laquelle un réseau est formé.

Le réglage des hyperparamètres peut sembler une activité assez banale, mais le faire correctement est absolument crucial pour le succès des ConvNets et d'autres systèmes d'apprentissage automatique. En raison de la nature ouverte de la conception de ces réseaux, il n'est généralement pas possible de définir automatiquement tous les paramètres et conceptions, même avec une recherche automatisée. Souvent, il faut une sorte de connaissance cabalistique que les étudiants en apprentissage automatique acquièrent à la fois de leur apprentissage avec des experts et de leur expérience durement acquise. Comme Eric Horvitz, directeur du laboratoire de recherche de Microsoft,

il le caractérisait: «En ce moment, ce que nous faisons n'est pas une science mais une sorte d'alchimie.» 5 Et les gens qui peuvent faire ce genre de «chuchotement de réseau» forment un petit club exclusif: selon Demis Hassabis, co-fondateur de Google DeepMind, "C'est presque comme une forme d'art pour tirer le meilleur parti de ces systèmes. ... Il n'y a que quelques centaines de personnes dans le monde qui peuvent vraiment bien faire cela." 6

En fait, le nombre d'experts en apprentissage profond augmente rapidement; de nombreuses universités proposent désormais des cours sur le sujet, et une liste croissante d'entreprises ont lancé leurs propres programmes de formation approfondie pour les employés. L'adhésion au club d'apprentissage en profondeur peut être très lucrative. Lors d'une récente conférence à laquelle j'ai assisté, un leader du groupe de produits d'IA de Microsoft a parlé au public des efforts de l'entreprise pour embaucher de jeunes ingénieurs en apprentissage profond: «Si un enfant sait comment former cinq couches de réseaux de neurones, l'enfant peut exiger cinq chiffres . Si l'enfant

sait former cinquante couches, le gamin peut demander sept chiffres. »7 Heureusement pour ce gamin qui va bientôt devenir riche, les réseaux ne peuvent pas encore s'enseigner.

Big Data

Ce n'est pas un secret: le deep learning nécessite le big data. Grand dans le sens des millions d'images de formation étiquetées dans ImageNet. D'où viennent toutes ces données? La réponse est, bien sûr, vous — et probablement tout le monde que vous connaissez. Les applications modernes de vision par ordinateur ne sont possibles que grâce aux milliards d'images que les internautes ont téléchargées et (parfois) étiquetées avec du texte identifiant ce qui est dans l'image. Avez-vous déjà mis une photo d'un ami sur votre page Facebook et commenté? Facebook vous remercie! Cette image et ce texte auraient pu être utilisés pour former son système de reconnaissance faciale. Avez-vous déjà téléchargé une image sur Flickr? Si c'est le cas, il est possible que votre image fasse partie de l'ensemble de formation ImageNet.Avez-vous déjà identifié une image afin de prouver à un site Web que vous n'êtes pas un robot? Votre identification a peut-être aidé Google à étiqueter une image pour l'utiliser dans la formation de son système de recherche d'images.

Les grandes entreprises technologiques proposent de nombreux services gratuits sur votre ordinateur et votre smartphone: recherche sur le Web, appels vidéo, e-mail, réseaux sociaux, assistants personnels automatisés - la liste est longue. Quels sont les avantages pour ces entreprises? La réponse que vous pourriez avoir entendu est que leur véritable produit est leurs utilisateurs (comme vous et moi); leurs clients sont les annonceurs qui attirent notre attention et nos informations sur nous pendant que nous utilisons ces services «gratuits». Mais il y a une deuxième réponse: lorsque nous utilisons des services fournis par des sociétés technologiques telles que Google, Amazon et Facebook, nous fournissons directement à ces sociétés des exemples - sous la forme de nos images, vidéos, textes ou discours - qu'elles peuvent utiliser pour mieux former leurs programmes d'IA. Et ces programmes améliorés attirent plus d'utilisateurs (et donc plus de données), aidant les annonceurs à cibler leurs annonces plus efficacement. De plus,les exemples de formation que nous leur proposons peuvent être utilisés pour former et offrir des services d'entreprise tels que la vision par ordinateur et le traitement en langage naturel aux entreprises moyennant des frais.

Beaucoup de choses ont été écrites sur l'éthique de ces grandes entreprises en utilisant les données que vous avez créées (telles que toutes les images, vidéos et textes que vous téléchargez sur Facebook) pour former des programmes et vendre des produits sans vous informer ni vous rémunérer. Il s'agit d'une discussion importante, mais au-delà de la portée de ce livre.8 Le point que je veux souligner ici est que la dépendance à l'égard de vastes collections de données de formation étiquetées est une autre façon dont l'apprentissage en profondeur diffère de l'apprentissage humain.

Avec la prolifération des systèmes d'apprentissage en profondeur dans les applications du monde réel, les entreprises ont besoin de nouveaux ensembles de données étiquetés pour la formation des réseaux de neurones profonds. Les voitures autonomes en sont un exemple remarquable. Ces voitures ont besoin d'une vision par ordinateur sophistiquée pour reconnaître les voies sur la route, les feux de circulation, les panneaux d'arrêt, etc., et pour distinguer et suivre différents types d'obstacles potentiels, tels que d'autres voitures, piétons, cyclistes, animaux, cônes de signalisation, poubelles renversées, tumbleweeds et tout ce que vous ne voudriez pas que votre voiture frappe. Les voitures autonomes doivent apprendre à quoi ressemblent ces divers objets - au soleil, à la pluie, à la neige ou au brouillard, de jour comme de nuit - et quels objets sont susceptibles de bouger et lesquels resteront en place. L'apprentissage en profondeur a contribué à rendre cette tâche possible, au moins en partie, mais l'apprentissage en profondeur, comme toujours,nécessite une profusion d'exemples de formation.

Les constructeurs automobiles autonomes recueillent ces exemples de formation à partir d'innombrables heures de vidéo prises par des caméras montées sur de vraies voitures circulant dans la circulation sur les autoroutes et les rues de la ville. Ces voitures peuvent être des prototypes autonomes testés par des entreprises ou, dans le cas de Tesla, des voitures conduites par des clients qui, lors de l'achat d'un véhicule Tesla, doivent accepter une politique de partage de données avec l'entreprise.9

Les propriétaires de Tesla ne sont pas tenus d'étiqueter chaque objet sur les vidéos prises par leurs voitures. Mais quelqu'un doit le faire. Dans

2017, le Financial Times a rapporté que «la plupart des entreprises travaillant sur cette technologie emploient des centaines voire des milliers de personnes, souvent dans des centres d'externalisation offshore en Inde ou en Chine, dont le travail consiste à apprendre aux robots-voitures à reconnaître les piétons, les cyclistes et autres obstacles. . Les travailleurs le font en marquant ou en étiquetant manuellement

des milliers d'heures de séquences vidéo, souvent image par image. »10 De nouvelles sociétés ont vu le jour pour offrir des données d'étiquetage en tant que service; Mighty AI, par exemple, offre «les données étiquetées dont vous avez besoin pour former vos modèles de vision par ordinateur» et promet «des annotateurs connus, vérifiés et fiables qui se spécialisent dans les données de conduite autonomes». 11

La longue queue

L'approche de l'apprentissage supervisé, utilisant de grands ensembles de données et des armées d'annotateurs humains, fonctionne bien pour au moins certaines des capacités visuelles nécessaires aux voitures autonomes (de nombreuses entreprises explorent également l'utilisation de programmes de simulation de conduite de type jeu vidéo pour augmenter la formation supervisée). Mais qu'en est-il du reste de la vie? Pratiquement tous ceux qui travaillent dans le domaine de l'IA conviennent que l'apprentissage supervisé n'est pas une voie viable vers l'IA générale. Comme l'a averti le célèbre chercheur en IA Andrew Ng, «exiger autant de données est une limitation majeure de [l'apprentissage en profondeur]

aujourd'hui. »12 Yoshua Bengio, un autre chercheur de haut niveau en IA, est d'accord:« Nous ne pouvons pas tout étiqueter de manière réaliste dans le monde et expliquer méticuleusement chaque détail à l'ordinateur. »13

FIGURE 13: Situations possibles qu'une voiture autonome pourrait rencontrer, classées par probabilité, illustrant la «longue queue» de scénarios improbables

Ce problème est aggravé par ce que l'on appelle le problème à longue queue: la vaste gamme de situations inattendues possibles auxquelles un système d'IA pourrait être confronté. La figure 13 illustre ce phénomène en donnant la probabilité de diverses situations hypothétiques qu'une voiture autonome pourrait rencontrer pendant, disons, une journée de conduite. Les situations très courantes, telles que la rencontre d'un feu rouge ou d'un panneau d'arrêt, sont considérées comme présentant une probabilité élevée; les situations de probabilité moyenne incluent le verre brisé et les sacs en plastique fouettés par le vent — pas rencontrés tous les jours (selon l'endroit où vous conduisez), mais pas rares. Il est moins probable que votre voiture autonome rencontre une route inondée ou des marques de voie obscurcies par la neige, et encore moins que vous fassiez face à un bonhomme de neige au milieu d'une grande vitesse

route.

J'ai évoqué ces différents scénarios et deviné leur probabilité relative; Je suis sûr que vous pouvez trouver

beaucoup plus de votre choix. Toute voiture individuelle est probablement sûre: après tout, prises ensemble, les voitures autonomes expérimentales ont parcouru des millions de kilomètres et ont causé un nombre relativement faible d'accidents (bien que quelques accidents mortels de haut niveau). Mais une fois que les voitures autonomes sont répandues, alors que chaque situation improbable individuelle est, par définition, très improbable, il y a tellement de scénarios possibles dans le monde de la conduite et tellement de voitures qu'une voiture autonome quelque part est susceptible de rencontrer l'un des les à un moment donné.

Le terme longue queue vient des statistiques, dans lesquelles certaines distributions de probabilités ont la forme de celle de la figure 13: la longue liste de situations très improbables (mais possibles) est appelée la «queue» de la distribution. (Les situations dans la queue sont parfois appelées cas marginaux.) La plupart des domaines du monde réel pour l'IA présentent ce type de phénomène à longue queue: les événements dans le monde réel sont généralement prévisibles, mais il reste une longue queue à faible probabilité, inattendue occurrences. C'est un problème si nous comptons uniquement sur l'apprentissage supervisé pour fournir à notre système d'IA sa connaissance du monde; les situations dans la queue n'apparaissent pas assez souvent dans les données d'entraînement, voire pas du tout, de sorte que le système est plus susceptible de faire des erreurs face à de tels cas inattendus.

Voici deux exemples concrets. En mars 2016, il y avait une énorme tempête de neige prévue dans le nord-est des États-Unis, et des rapports sont apparus sur Twitter que le mode de pilotage automatique des véhicules Tesla, qui permet une conduite autonome limitée, se confondait entre les marques de voie et les lignes de sel aménagées sur l'autoroute en prévision de la tempête (figure 14). En février 2016, l'un des prototypes de voitures autonomes de Google, tout en tournant à droite, a dû virer à gauche pour éviter les sacs de sable sur le côté droit d'une route californienne, et l'avant gauche de la voiture a heurté un bus public roulant dans la gauche. voie. Chaque véhicule s'attendait à ce que l'autre cède (peut-être que le chauffeur de bus s'attendait à un conducteur humain qui serait plus intimidé par le bus beaucoup plus gros).

Les entreprises travaillant sur la technologie des véhicules autonomes sont parfaitement conscientes du problème de la longue traîne: leurs équipes réfléchissent à d'éventuels scénarios à longue traîne et créent activement des exemples de formation supplémentaires ainsi que des stratégies spécialement codées pour tous les scénarios improbables qu'elles peuvent proposer. Mais bien sûr, il est impossible de former ou de coder un système pour toutes les situations possibles qu'il pourrait rencontrer.

FIGURE 14: Des lignes de sel sur une autoroute, avant une tempête de neige prévue, pourraient perturber la fonction de pilote automatique de Tesla.

Une solution couramment proposée est que les systèmes d'IA utilisent l'apprentissage supervisé sur de petites quantités de données étiquetées et apprennent tout le reste via un apprentissage non supervisé. Le terme apprentissage non supervisé fait référence à un large groupe de méthodes d'apprentissage de catégories ou d'actions sans données étiquetées. Les exemples incluent des méthodes pour regrouper des exemples en fonction de leur similitude ou pour apprendre une nouvelle catégorie par analogie avec des catégories connues. Comme je le décrirai dans un chapitre ultérieur, la perception de similitudes et d'analogies abstraites est quelque chose pour laquelle les humains excellent, mais à ce jour il n'y a pas de méthodes d'IA très réussies pour ce type d'apprentissage non supervisé. Yann LeCun lui-même reconnaît que «l'apprentissage non supervisé est la matière noire de l'IA». En d'autres termes, pour l'IA générale, presque tout l'apprentissage devra être sans supervision,mais personne n'a encore trouvé les types d'algorithmes nécessaires pour effectuer avec succès un apprentissage non supervisé.

Les humains font constamment des erreurs, même (ou surtout) en conduisant; n'importe lequel d'entre nous aurait pu heurter ce bus public, si nous avions été celui qui tournait autour des sacs de sable. Mais les humains ont également une compétence fondamentale qui fait défaut dans tous les systèmes d'IA actuels: le bon sens. Nous avons une vaste connaissance du monde, à la fois ses aspects physiques et sociaux. Nous avons une bonne idée de la façon dont les objets, à la fois inanimés et vivants, sont susceptibles de se comporter, et nous utilisons largement ces connaissances pour prendre des décisions sur la façon d’agir dans une situation donnée. Nous pouvons déduire la raison des lignes de sel sur la route même si nous n'avons jamais conduit dans la neige auparavant. Nous savons comment interagir socialement avec d'autres humains, nous pouvons donc utiliser le contact visuel, les signaux de la main et tout autre langage corporel pour faire face aux feux de circulation cassés lors d'une panne de courant. Nous savons généralement céder la route à un grand bus public,même si nous avons techniquement la priorité. J'ai utilisé la conduite comme exemple ici, mais nous, les humains, utilisons le bon sens - généralement inconsciemment - dans toutes les facettes de la vie. Beaucoup de gens croient que tant que les systèmes d'IA n'auront pas le bon sens comme les humains, nous ne pourrons pas leur faire confiance pour être pleinement autonomes dans des situations complexes du monde réel.

Qu'a appris mon réseau?

Il y a quelques années, Will Landecker, alors étudiant diplômé de mon groupe de recherche, a formé un réseau neuronal profond pour classer les photographies dans l'une des deux catégories: «contient un animal» et «ne contient pas d'animal». Le réseau a été formé sur des photos comme celles de la figure 15, et il a très bien exécuté cette tâche sur l'ensemble de test. Mais qu'est-ce que le réseau a réellement appris? En effectuant une étude minutieuse, Will a trouvé une réponse inattendue: en partie, le réseau a appris à classer les images avec des arrière-plans flous comme «contient un animal», que l'image soit ou non

contenait en fait un animal.14 Les photos de la nature dans les ensembles d'entraînement et de test obéissaient à une règle importante de la photographie: se concentrer sur le sujet de la photo. Lorsque le sujet de la photo est un animal, l'animal est mis au point et l'arrière-plan est flou, comme sur la figure 15A. Lorsque le sujet de la photo est l'arrière-plan, comme sur la figure 15B, rien n'est flou. Au grand dam de Will, son réseau n'avait pas appris à reconnaître les animaux; au lieu de cela, il a utilisé des indices plus simples

- comme des arrière-plans flous - qui étaient statistiquement associés aux animaux.

FIGURE 15: Illustration de la tâche de classification «animal» par rapport à «aucun animal». Notez l'arrière-plan flou dans l'image de gauche.

Ceci est un exemple d'un phénomène courant observé dans l'apprentissage automatique. La machine apprend ce qu'elle observe dans les données plutôt que ce que vous (l'humain) pourriez observer. S'il existe des associations statistiques dans les données de formation, même si elles ne sont pas pertinentes pour la tâche à accomplir, la machine les apprendra avec plaisir au lieu de ce que vous vouliez qu'elle apprenne. Si

la machine est testée sur de nouvelles données avec les mêmes associations statistiques, elle semblera avoir réussi à résoudre la tâche. Cependant, la machine peut tomber en panne de manière inattendue, comme l'a fait le réseau de Will sur des images d'animaux sans arrière-plan flou. Dans le jargon de l'apprentissage automatique, le réseau de Will «surajusté» à son ensemble de formation spécifique, et ne peut donc pas faire un bon travail en appliquant ce qu'il a appris à des images qui diffèrent de celles sur lesquelles il a été formé.

Au cours des dernières années, plusieurs équipes de recherche ont cherché à savoir si ConvNets formés sur ImageNet et d'autres grands ensembles de données étaient également sur-adaptés à leurs données de formation. Un groupe a montré que si les ConvNets sont formés sur des images téléchargées sur le Web (comme celles d'ImageNet), ils fonctionnent mal sur des images prises par un robot se déplaçant dans une maison avec une caméra.15 Il semble que des vues aléatoires d'objets ménagers puissent sont très différentes des photos que les gens mettent sur le Web. D'autres groupes ont montré que des modifications superficielles des images,

comme un léger flou ou des taches sur une image, le changement de certaines couleurs ou la rotation d'objets dans la scène, peuvent entraîner des erreurs importantes chez ConvNets même lorsque ces perturbations n'affectent pas la reconnaissance des objets par les humains.16 Cette fragilité inattendue des ConvNets, même ceux qui ont été dit de «dépasser les humains lors de la reconnaissance d'objet» - indique qu'ils sont trop sur leurs données de formation et apprennent quelque chose de différent de ce que nous essayons de leur enseigner.

FIGURE 16: Étiquettes attribuées aux photos par le tagueur de photos automatisé de Google, y compris la fameuse balise «Gorilles»

AI biaisée

Le manque de fiabilité des ConvNets peut entraîner des erreurs embarrassantes et potentiellement dommageables. Google a subi un cauchemar de relations publiques en 2015 après avoir déployé une fonctionnalité de marquage automatique des photos (à l'aide d'un ConvNet) dans son application Photos. En plus de marquer correctement les images avec des descriptions génériques telles que «Avions», «Voitures» et «Graduation», le réseau neuronal a étiqueté un selfie mettant en vedette deux Afro-Américains comme «Gorilles», comme le montre la figure

16. (Après des excuses abondantes, la solution à court terme de la société consistait à supprimer la balise «Gorillas» de la liste des catégories possibles du réseau.)

FIGURE 17: Exemple d'un programme de détection de visage de caméra identifiant un visage asiatique comme «clignotant»

Ces erreurs de classification répulsives et largement moquées sont gênantes pour les entreprises impliquées, mais des erreurs plus subtiles dues à des préjugés raciaux ou de genre ont été fréquemment observées dans les systèmes de vision alimentés par l'apprentissage en profondeur. Les systèmes commerciaux de reconnaissance des visages, par exemple, ont tendance à être plus précis sur les visages masculins blancs que sur les visages féminins ou non blancs.17 Le logiciel de l'appareil photo pour la détection des visages est parfois sujet à des visages manquants à la peau foncée et à classer les visages asiatiques comme «clignotants» ( figure 17).

Kate Crawford, chercheuse chez Microsoft et militante pour l'équité et la transparence de l'IA, a souligné qu'un ensemble de données largement utilisé pour la formation des systèmes de reconnaissance faciale contient des visages à 77,5% d'hommes et 83,5% de blancs. Cela n'est pas surprenant, car les images ont été téléchargées à partir de recherches d'images en ligne et les photos de visages qui apparaissent en ligne sont biaisées vers des personnages célèbres ou puissants, à prédominance blanche et masculine.

Bien sûr, ces biais dans les données de formation sur l'IA reflètent les biais dans notre société, mais la propagation de systèmes d'IA du monde réel formés sur des données biaisées peut amplifier ces biais et causer de réels dommages. Les systèmes de reconnaissance faciale, par exemple, sont de plus en plus déployés comme moyen «sécurisé» d'identifier les personnes dans les transactions par carte de crédit, le contrôle des aéroports et les caméras de sécurité, et ce n'est peut-être qu'une question de temps avant qu'elles ne soient utilisées pour vérifier l'identité. dans les systèmes de vote, entre autres applications. Même de petites différences de précision entre les groupes raciaux peuvent avoir des répercussions néfastes sur les droits civils et l'accès aux services vitaux.

De tels biais peuvent être atténués dans les ensembles de données individuels en faisant en sorte que les humains s'assurent que les photos (ou d'autres types de données) sont équilibrées dans leur représentation, disons, des groupes raciaux ou de genre. Mais cela nécessite une prise de conscience et des efforts de la part des humains qui conservent les données. De plus, il est souvent difficile de démêler les biais subtils et leurs effets. Par exemple, un groupe de recherche a noté que son système d'IA - formé sur un grand ensemble de données de photos de personnes dans différentes situations - classait parfois à tort un homme comme «femme» lorsque l'homme se tenait dans un

cuisine, un environnement dans lequel l'ensemble de données contenait plus d'exemples de femmes18. En général, ce type de biais subtil peut être apparent après coup mais difficile à détecter à l'avance.

Le problème des biais dans les applications de l'IA a beaucoup retenu l'attention récemment, avec de nombreux articles, ateliers et même des instituts de recherche universitaires consacrés à ce sujet. Les ensembles de données utilisés pour former l'IA doivent-ils refléter fidèlement notre propre société biaisée - comme ils le font souvent actuellement - ou devraient-ils être bricolés spécifiquement pour atteindre les objectifs de réforme sociale? Et qui devrait être autorisé à préciser les objectifs ou à bricoler?

Montre ton travail

Rappelez-vous de retour à l'école lorsque votre professeur écrivait «montrer votre travail» en rouge sur vos devoirs de mathématiques? Pour moi, montrer mon travail était la partie la moins amusante de l'apprentissage des mathématiques, mais probablement la plus importante, car montrer comment j'ai dérivé ma réponse a démontré que j'avais réellement compris ce que je faisais, j'avais saisi les bonnes abstractions et était arrivé à la réponse pour les bonnes raisons. Montrer mon travail a également aidé mon professeur à comprendre pourquoi j'ai fait des erreurs particulières.

Plus généralement, vous pouvez souvent avoir confiance que les gens savent ce qu'ils font s'ils peuvent vous expliquer comment ils sont arrivés à une réponse ou à une décision. Cependant, «montrer leur travail» est quelque chose que les réseaux de neurones profonds - le fondement des systèmes d'IA modernes - ne peuvent pas facilement faire. Considérons la tâche de reconnaissance d'objet «chien» et «chat» que j'ai décrite au chapitre 4. Rappelons qu'un réseau neuronal convolutionnel décide quel objet est contenu dans une image d'entrée en effectuant une séquence d'opérations mathématiques (convolutions) propagées à travers de nombreuses couches. Pour un réseau de taille raisonnable, cela peut représenter des milliards d'opérations arithmétiques. Bien qu'il soit facile de programmer l'ordinateur pour imprimer une liste de tous les ajouts et multiplications effectués par un réseau pour une entrée donnée,une telle liste ne donnerait aux humains aucun aperçu de la façon dont le réseau est arrivé à sa réponse. Une liste d'un milliard d'opérations n'est pas une explication qu'un être humain peut comprendre. Même les humains qui forment des réseaux profonds ne peuvent généralement pas regarder sous le capot et fournir des explications sur les décisions prises par leurs réseaux. Technologie du MIT

Le magazine Review a appelé cette impénétrabilité «le sombre secret au cœur de l'IA» .19 La crainte est que si nous ne comprenons pas comment fonctionnent les systèmes d'IA, nous ne pouvons pas vraiment leur faire confiance ou prédire les circonstances dans lesquelles ils commettront des erreurs.

Les humains ne peuvent pas toujours expliquer leurs processus de pensée non plus, et vous ne pouvez généralement pas regarder «sous le capot» dans le cerveau des autres (ou dans leurs «sentiments intestinaux») pour comprendre comment ils ont pris une décision particulière. Mais les humains ont tendance à croire que d'autres humains maîtrisent correctement les tâches cognitives de base telles que la reconnaissance d'objets et la compréhension du langage. En partie, vous faites confiance aux autres lorsque vous pensez que leur pensée est comme la vôtre. Vous supposez, le plus souvent, que d'autres êtres humains que vous rencontrez ont eu des expériences de vie suffisamment similaires aux vôtres, et donc vous supposez qu'ils utilisent les mêmes connaissances de base, croyances et valeurs que vous utilisez pour percevoir, décrire et prendre des décisions concernant le monde. En bref, quand d'autres personnes sont concernées,vous avez ce que les psychologues appellent une théorie de l'esprit - un modèle des connaissances et des objectifs de l'autre personne dans des situations particulières. Aucun de nous n'a une «théorie de l'esprit» similaire pour les systèmes d'IA tels que les réseaux profonds, ce qui rend plus difficile de leur faire confiance.

Il ne devrait donc pas être surprenant que l'un des nouveaux domaines les plus en vogue de l'IA soit diversement appelé «IA explicable», «IA transparente» ou «apprentissage automatique interprétable». Ces termes font référence à des recherches sur l'obtention de systèmes d'IA - en particulier les réseaux profonds - pour expliquer leurs décisions d'une manière que les humains peuvent comprendre. Les chercheurs dans ce domaine ont trouvé des moyens intelligents pour visualiser les caractéristiques qu'un réseau neuronal convolutif donné a apprises et, dans certains cas, pour déterminer quelles parties de l'entrée sont les plus responsables de la décision de sortie. L'IA explicable est un domaine qui progresse rapidement, mais un système d'apprentissage en profondeur qui peut s'expliquer avec succès en termes humains est toujours difficile à atteindre.

Tromper les réseaux de neurones profonds

Il y a encore une autre dimension à la question de la fiabilité de l'IA: les chercheurs ont découvert qu'il est étonnamment facile pour les humains de tromper subrepticement les réseaux de neurones profonds pour qu'ils commettent des erreurs. Autrement dit, si vous voulez tromper délibérément un tel système, il se trouve qu'il existe un nombre alarmant de façons de le faire.

Tromper les systèmes d'IA n'est pas nouveau. Les spammeurs de courriers électroniques, par exemple, mènent une course aux armements avec des programmes de détection de spam depuis des décennies. Mais les types d'attaques auxquels les systèmes d'apprentissage profond semblent vulnérables sont à la fois plus subtils et plus troublants.

Vous vous souvenez d'AlexNet, dont j'ai discuté au chapitre 5? C'est le réseau de neurones convolutifs qui a remporté le défi ImageNet 2012 et qui a déclenché la domination des ConvNets dans une grande partie du monde de l'IA d'aujourd'hui. Si vous vous souvenez, la précision d'AlexNet (top-5) sur ImageNet était de 85%, ce qui a fait sauter tous les autres concurrents hors de l'eau et a choqué la communauté de la vision par ordinateur. Cependant, un an après la victoire d'AlexNet, un document de recherche est apparu, rédigé par Christian Szegedy de Google et plusieurs autres, avec le titre trompeusement doux «Propriétés intrigantes de

Réseaux de neurones. »20 L'une des« propriétés intrigantes »décrite dans l'article était qu'AlexNet pouvait facilement être dupe.

En particulier, les auteurs de l'article avaient découvert qu'ils pouvaient prendre une photo ImageNet qu'AlexNet classait correctement avec une grande confiance (par exemple, «Bus scolaire») et la déformer en rendant très petite, spécifique

modifications apportées à ses pixels de sorte que l'image déformée semblait complètement inchangée pour les humains, mais était maintenant classée avec une très grande confiance par AlexNet comme quelque chose de complètement différent (par exemple, "Autruche"). Les auteurs ont qualifié l'image déformée d '«exemple contradictoire». La figure 18 montre quelques échantillons d'images originales et leurs jumeaux contradictoires. Vous ne pouvez pas faire la différence? Toutes nos félicitations! Il semble que vous soyez humain.

Szegedy et ses collaborateurs ont créé un programme informatique qui pourrait, compte tenu de n'importe quelle photo d'ImageNet correctement classée par AlexNet, trouver des modifications spécifiques à la photo pour créer un nouvel exemple contradictoire qui semblait inchangé pour les humains mais faisait en sorte qu'AlexNet donnait la plus haute confiance à une erreur Catégorie.

FIGURE 18: Exemples originaux et «contradictoires» pour AlexNet. L'image de gauche dans chaque paire montre l'image d'origine, qui a été correctement classée par AlexNet. L'image de droite dans chaque paire montre l'exemple contradictoire dérivé de cette image (de petits changements ont été apportés aux pixels, mais la nouvelle image apparaît aux humains comme identique à l'original). Chaque exemple contradictoire a été classé en toute confiance par AlexNet comme «Autruche».

Il est important de noter que Szegedy et ses collaborateurs ont constaté que cette sensibilité aux exemples accusatoires n'était pas particulière à AlexNet; ils ont montré que plusieurs autres réseaux de neurones convolutionnels - avec des architectures, des hyperparamètres et des ensembles d'entraînement différents - présentaient des vulnérabilités similaires. Appeler cela une «propriété intrigante» des réseaux de neurones, c'est un peu comme appeler un trou dans la coque d'un paquebot de croisière de fantaisie une «facette stimulante» du navire. Intrigant, oui, et une enquête plus approfondie est nécessaire, mais si la fuite n'est pas corrigée, ce navire est en panne.

Peu de temps après la publication de l'article de Szegedy et de ses collègues, un groupe de l'Université du Wyoming a publié un article avec un titre plus direct: «Les réseaux neuronaux profonds sont facilement trompés» .21 En utilisant une méthode de calcul d'inspiration biologique appelée algorithmes génétiques, 22 le groupe du Wyoming a pu «évoluer» par calcul des images qui ressemblent à du bruit aléatoire pour les humains mais pour lesquelles AlexNet et d'autres réseaux de neurones convolutifs ont assigné des catégories d'objets spécifiques avec une confiance supérieure à 99%. La figure 19 montre quelques exemples. Le groupe du Wyoming a noté que les réseaux de neurones profonds (DNN) «voient ces objets comme des exemples presque parfaits d'images reconnaissables», ce qui «[soulève] des questions sur les véritables capacités de généralisation des DNN et le potentiel d'exploits coûteux [c'est-à-dire, les applications malveillantes ] de solutions utilisant des DNN. »23

FIGURE 19: Exemples d'images créées par un algorithme génétique spécifiquement pour tromper un réseau neuronal convolutionnel. Dans chaque cas, AlexNet (formé sur l'ensemble de formation ImageNet) a attribué une confiance supérieure à 99% que l'image était une instance de la catégorie affichée.

En effet, ces deux articles et les découvertes connexes qui ont suivi ont soulevé non seulement des questions, mais aussi une véritable alarme dans la communauté d'apprentissage en profondeur. Si les systèmes d'apprentissage en profondeur, qui réussissent si bien en vision par ordinateur et dans d'autres tâches, peuvent facilement être trompés par des manipulations auxquelles les humains ne sont pas sensibles, comment pouvons-nous dire que ces réseaux «apprennent comme des humains» ou «égalent ou dépassent les humains» dans leurs capacités ? Il est clair que quelque chose de très différent de la perception humaine se passe ici. Et si ces réseaux vont être utilisés pour la vision par ordinateur dans le monde réel, nous ferions mieux d'être sûrs qu'ils sont protégés contre les pirates utilisant ce genre de manipulations pour les tromper.

Tout cela a redynamisé la petite communauté de recherche en se concentrant sur «l'apprentissage contradictoire», c'est-à-dire le développement de stratégies de défense contre les adversaires (humains) potentiels qui pourraient attaquer les systèmes d'apprentissage automatique. Les chercheurs en apprentissage contradictoire commencent souvent leur travail en montrant comment les systèmes existants peuvent être attaqués, et certaines des démonstrations récentes ont été stupéfiantes. Dans le domaine de la vision par ordinateur, un groupe de chercheurs a développé un programme qui pourrait créer des montures de lunettes avec des motifs spécifiques qui trompent un visage.

système de reconnaissance pour classer à tort et en toute confiance le porteur comme une autre personne (figure 20) .24 Un autre groupe a développé de petits autocollants discrets qui pourraient être placés sur un panneau de signalisation, résultant en un système de vision basé sur ConvNet - similaire à ceux utilisés dans les voitures autonomes - pour classer le signe de manière erronée (par exemple, un panneau d'arrêt est classé comme un signe de limitation de vitesse) .25 Un autre groupe encore a démontré une attaque possible contre les réseaux de neurones profonds pour l'analyse de l'image médicale: ils ont montré qu'il n'est pas difficile de modifier un Image de rayons X ou de microscopie d'une manière

imperceptible pour les humains, mais qui amène un réseau à changer sa classification de, disons, confiance à 99% que l'image ne montre aucun cancer à confiance à 99% que le cancer est présent.26 Ce groupe a noté que de telles attaques pourraient potentiellement être utilisées par le personnel hospitalier ou d'autres créer des diagnostics frauduleux afin de facturer aux compagnies d'assurance des tests de diagnostic supplémentaires (lucratifs).

FIGURE 20: Un chercheur en IA (à gauche) portant des montures de lunettes avec un motif spécialement conçu pour permettre à un reconnaisseur de visage de réseau neuronal profond, formé sur les visages de célébrités, de classer en toute confiance la photo de gauche comme l'actrice Milla Jovovich (à droite). L'article décrivant cette étude donne de nombreux autres exemples d'usurpation d'identité utilisant des modèles de monture de lunettes «contradictoires».

Ce ne sont là que quelques exemples d'attaques possibles qui ont été concoctées par divers groupes de recherche. De nombreuses attaques possibles se sont révélées étonnamment robustes: elles fonctionnent sur plusieurs réseaux différents, même lorsque ces réseaux sont entraînés sur différents ensembles de données. Et la vision par ordinateur n'est pas le seul domaine dans lequel les réseaux peuvent être trompés; les chercheurs ont également conçu des attaques qui trompent les réseaux de neurones profonds qui traitent du langage, y compris la reconnaissance vocale et l'analyse de texte. Nous pouvons nous attendre à ce que ces systèmes deviennent plus largement déployés dans le monde réel, les utilisateurs malveillants découvriront de nombreuses autres vulnérabilités dans ces systèmes.

La compréhension et la défense contre de telles attaques potentielles sont actuellement un domaine de recherche majeur, mais bien que les chercheurs aient trouvé des solutions pour des types d'attaques spécifiques, il n'existe toujours pas de méthode de défense générale. Comme tout domaine de la sécurité informatique, les progrès réalisés à ce jour ont une qualité de «détraqué», où un trou de sécurité est détecté et défendu, mais d'autres sont découverts qui nécessitent de nouvelles défenses. Ian Goodfellow, un expert en IA qui fait partie de l'équipe Google Brain, a déclaré: «Presque tout ce que vous pouvez penser de mal à un modèle d'apprentissage automatique peut être fait

en ce moment… et la défendre est vraiment, vraiment difficile. »27

Au-delà de la question immédiate de savoir comment se défendre contre les attaques, l'existence d'exemples contradictoires amplifie la question que j'ai posée plus tôt: qu'est-ce que ces réseaux apprennent précisément? En particulier, qu'est-ce qu'ils apprennent qui leur permet d'être si facilement trompés? Ou peut-être plus important encore, nous trompons-nous quand nous pensons que ces réseaux ont réellement appris les concepts que nous essayons de leur enseigner?

À mon avis, le problème ultime est celui de la compréhension. Considérez la figure 18, où AlexNet prend un autobus scolaire pour une autruche. Pourquoi est-il très peu probable que cela arrive à un être humain? Même si AlexNet fonctionne très bien sur ImageNet, nous, les humains, comprenons beaucoup de choses sur les objets que nous voyons qui sont inconnus d'AlexNet ou de tout autre système d'IA actuel. Nous savons à quoi ressemblent les objets en trois dimensions et pouvons l'imaginer à partir d'une photo en deux dimensions. Nous savons quelle est la fonction d'un objet donné, quel rôle jouent les parties de l'objet dans sa fonction globale et dans quels contextes un objet apparaît habituellement. Voir un objet évoque des souvenirs de voir de tels objets dans d'autres circonstances, à partir d'autres points de vue, ainsi que dans d'autres modalités sensorielles (nous nous souvenons à quoi ressemble un objet donné, sent comme, peut-être à quoi il ressemble lorsqu'il est tombé,etc). Toutes ces connaissances de base alimentent la capacité humaine à reconnaître de manière robuste un objet donné. Même les systèmes de vision AI les plus performants manquent de ce type de compréhension et de la robustesse qu'il confère.

FIGURE 21: Une illusion visuelle pour l'homme: les segments de ligne horizontale en A et B sont de la même longueur, mais la plupart des gens perçoivent le segment en A comme étant plus long que celui en B.

J'ai entendu certains chercheurs en IA affirmer que les humains sont également sensibles à nos propres types d '«exemples contradictoires»: les illusions visuelles. Comme AlexNet classant un autobus scolaire comme une autruche, les humains sont sensibles aux erreurs de perception (par exemple, nous percevons que la ligne supérieure de la figure 21 est plus longue que la ligne inférieure, même si les deux sont en fait de la même longueur). Mais les types d'erreurs que les humains font sont très différents de ceux auxquels les réseaux de neurones convolutifs sont susceptibles: notre capacité à reconnaître des objets dans les scènes de tous les jours a évolué pour être très robuste, car notre survie en dépend. Contrairement aux ConvNets d'aujourd'hui, la perception humaine (et animale) est fortement régulée par la cognition - le type de compréhension dépendant du contexte que j'ai décrit ci-dessus. De plus,Les ConvNets utilisés dans les applications de vision par ordinateur d'aujourd'hui sont généralement entièrement à action directe, tandis que le système visuel humain a beaucoup plus de connexions de rétroaction (c'est-à-dire à sens inverse) que les connexions à action directe. Bien que les neuroscientifiques ne comprennent pas encore la fonction de tous ces commentaires, on pourrait supposer qu'au moins certaines de ces connexions de rétroaction empêchent efficacement la vulnérabilité aux types d'exemples contradictoires auxquels ConvNets sont susceptibles. Alors pourquoi ne pas simplement donner à ConvNets le même genre de commentaires? Il s'agit d'un domaine de recherche active, mais il s'avère très difficile et n'a pas produit le genre de succès observé avec les réseaux à action directe.Bien que les neuroscientifiques ne comprennent pas encore la fonction de tous ces commentaires, on pourrait supposer qu'au moins certaines de ces connexions de rétroaction empêchent efficacement la vulnérabilité aux types d'exemples contradictoires auxquels ConvNets sont susceptibles. Alors pourquoi ne pas simplement donner à ConvNets le même genre de commentaires? Il s'agit d'un domaine de recherche active, mais il s'avère très difficile et n'a pas produit le genre de succès observé avec les réseaux à action directe.Bien que les neuroscientifiques ne comprennent pas encore la fonction de tous ces commentaires, on pourrait supposer qu'au moins certaines de ces connexions de rétroaction empêchent efficacement la vulnérabilité aux types d'exemples contradictoires auxquels ConvNets sont susceptibles. Alors pourquoi ne pas simplement donner à ConvNets le même genre de commentaires? Il s'agit d'un domaine de recherche active, mais il s'avère très difficile et n'a pas produit le genre de succès observé avec les réseaux à action directe.mais cela s'avère très difficile et n'a pas produit le genre de succès observé avec les réseaux à action directe.mais cela s'avère très difficile et n'a pas produit le genre de succès observé avec les réseaux à action directe.

Jeff Clune, chercheur en IA à l'Université du Wyoming, a fait une analogie très provocatrice lorsqu'il a noté qu'il y avait «beaucoup d'intérêt à savoir si le Deep Learning est une« vraie intelligence »ou un« Clever Hans ».28 Clever Hans était un cheval dans l'Allemagne du début du XXe siècle qui pouvait, selon son propriétaire, effectuer des calculs arithmétiques et comprendre l'allemand. Le cheval a répondu à des questions telles que "Qu'est-ce que quinze divisé par trois?" en tapotant son sabot le bon nombre de fois. Après que Clever Hans est devenu une célébrité internationale, une enquête minutieuse

a finalement révélé que le cheval ne comprenait pas réellement les questions ou les concepts mathématiques qui lui étaient posés, mais tapait en réponse à des signaux subtils et inconscients donnés par le questionneur. Clever Hans est devenu une métaphore pour tout individu (ou programme!) Qui donne une apparence de compréhension mais répond en fait à des signaux involontaires donnés par un entraîneur. L'apprentissage en profondeur montre-t-il une «vraie compréhension» ou s'agit-il plutôt d'un calcul intelligent Hans répondant à des indices superficiels dans les données? C'est actuellement le sujet de débats animés au sein de la communauté de l'IA, aggravés par le fait que les chercheurs en IA ne sont pas nécessairement d'accord sur la définition de la «vraie compréhension».

D'une part, les réseaux de neurones profonds, formés par apprentissage supervisé, fonctionnent remarquablement bien (bien que toujours loin d'être parfaitement) sur de nombreux problèmes de vision par ordinateur, ainsi que dans d'autres domaines tels que la reconnaissance vocale et la traduction de la langue. En raison de leurs capacités impressionnantes, ces réseaux sont rapidement extraits des milieux de recherche et utilisés dans des applications réelles telles que la recherche sur le Web, les voitures autonomes, la reconnaissance faciale, les assistants virtuels et les systèmes de recommandation, et il devient difficile d'imaginer la vie sans ces outils d'IA. D'un autre côté, il est trompeur de dire que les réseaux profonds «apprennent par eux-mêmes» ou que leur formation est «similaire à l'apprentissage humain». La reconnaissance du succès de ces réseaux doit être tempérée par la prise de conscience qu’ils peuvent échouer de manière inattendue en raison d’un surajustement de leurs données de formation,effets à longue queue et vulnérabilité au piratage. De plus, les raisons des décisions prises par les réseaux de neurones profonds sont souvent difficiles à comprendre, ce qui rend leurs échecs difficiles à prévoir ou à corriger. Les chercheurs travaillent activement à rendre les réseaux de neurones profonds plus fiables et transparents, mais la question demeure: le fait que ces systèmes manquent de compréhension humaine les rendra-t-il inévitablement fragiles, peu fiables et vulnérables aux attaques? Et comment ce facteur devrait-il entrer dans nos décisions concernant l'application des systèmes d'IA dans le monde réel? Le chapitre suivant explore certains des formidables défis à relever pour équilibrer les avantages de l'IA avec les risques de son manque de fiabilité et de mauvaise utilisation.ce qui rend leurs échecs difficiles à prévoir ou à corriger. Les chercheurs travaillent activement à rendre les réseaux de neurones profonds plus fiables et transparents, mais la question demeure: le fait que ces systèmes manquent de compréhension humaine les rendra-t-il inévitablement fragiles, peu fiables et vulnérables aux attaques? Et comment ce facteur devrait-il entrer dans nos décisions concernant l'application des systèmes d'IA dans le monde réel? Le chapitre suivant explore certains des formidables défis à relever pour équilibrer les avantages de l'IA avec les risques de son manque de fiabilité et de mauvaise utilisation.ce qui rend leurs échecs difficiles à prévoir ou à corriger. Les chercheurs travaillent activement à rendre les réseaux de neurones profonds plus fiables et transparents, mais la question demeure: le fait que ces systèmes manquent de compréhension humaine les rendra-t-il inévitablement fragiles, peu fiables et vulnérables aux attaques? Et comment ce facteur devrait-il entrer dans nos décisions concernant l'application des systèmes d'IA dans le monde réel? Le chapitre suivant explore certains des formidables défis à relever pour équilibrer les avantages de l'IA avec les risques de son manque de fiabilité et de mauvaise utilisation.et vulnérable aux attaques? Et comment ce facteur devrait-il entrer dans nos décisions concernant l'application des systèmes d'IA dans le monde réel? Le chapitre suivant explore certains des formidables défis à relever pour équilibrer les avantages de l'IA avec les risques de son manque de fiabilité et de mauvaise utilisation.et vulnérable aux attaques? Et comment ce facteur devrait-il entrer dans nos décisions concernant l'application des systèmes d'IA dans le monde réel? Le chapitre suivant explore certains des formidables défis à relever pour équilibrer les avantages de l'IA avec les risques de son manque de fiabilité et de mauvaise utilisation.

7

Sur l'IA digne de confiance et éthique

Imaginez-vous dans une voiture autonome, tard le soir, après la fête de Noël au bureau. Il fait sombre et la neige tombe. «Voiture, ramène-moi à la maison», dites-vous, fatigué et un peu éméché. Vous vous penchez en arrière, permettant avec reconnaissance de fermer les yeux alors que la voiture démarre et se met dans la circulation.

Tout va bien, mais dans quelle mesure devriez-vous vous sentir en sécurité? Le succès des voitures autonomes dépend essentiellement de l'apprentissage automatique (en particulier l'apprentissage en profondeur), en particulier pour les composants de vision par ordinateur et de prise de décision des voitures. Comment déterminer si ces voitures ont réussi à apprendre tout ce qu'elles doivent savoir?

C'est la question à un milliard de dollars pour l'industrie automobile autonome. J'ai rencontré des opinions contradictoires d'experts sur la rapidité avec laquelle nous pouvons nous attendre à ce que les voitures autonomes jouent un rôle important dans la vie quotidienne, avec des prédictions allant (au moment de la rédaction de cet article) de quelques années à plusieurs décennies. Les voitures autonomes ont le potentiel d'améliorer considérablement nos vies. Les véhicules automatisés pourraient réduire considérablement les millions de décès et de blessures annuels dus aux accidents de voiture, dont beaucoup sont causés par des conducteurs en état d'ébriété ou distraits. De plus, les véhicules automatisés permettraient à leurs passagers humains d'être productifs plutôt que de rester inactifs pendant les temps de trajet. Ces véhicules ont également le potentiel d'être plus économes en énergie que les voitures à conducteur humain et seront une aubaine pour les personnes aveugles ou handicapées qui ne peuvent pas conduire.Mais tout cela ne se réalisera que si nous, les humains, sommes prêts à faire confiance à ces véhicules avec notre vie.

L'apprentissage automatique est en cours de déploiement pour prendre des décisions affectant la vie des humains dans de nombreux domaines. Quelles assurances avez-vous que les machines qui créent votre fil d'actualité, diagnostiquent vos maladies, évaluent vos demandes de prêt ou - Dieu nous en préserve - recommandant votre peine d'emprisonnement ont suffisamment appris pour être des décideurs de confiance?

Ce sont des questions épineuses non seulement pour les chercheurs en intelligence artificielle, mais aussi pour la société dans son ensemble, qui doit finalement peser les nombreuses utilisations positives actuelles et futures de l'intelligence artificielle par rapport aux préoccupations concernant sa fiabilité et son utilisation abusive.

AI bénéfique

Quand on considère le rôle de l'IA dans notre société, il pourrait être facile de se concentrer sur les inconvénients. Cependant, il est essentiel de se rappeler qu'il existe d'énormes avantages que les systèmes d'IA apportent déjà à la société et qu'ils ont le potentiel d'être encore plus bénéfiques. La technologie d'IA actuelle est au cœur des services que vous pouvez vous-même utiliser tout le temps, parfois sans même savoir que l'IA est impliquée, y compris la transcription vocale, la navigation GPS et la planification de voyage, les filtres de courrier indésirable, la traduction linguistique, les alertes de fraude par carte de crédit, le livre et la musique recommandations, protection contre les virus informatiques et optimisation de la consommation d'énergie dans les bâtiments.

Si vous êtes photographe, cinéaste, artiste ou musicien, vous utilisez peut-être des systèmes d'intelligence artificielle qui vous aident dans des projets créatifs, tels que des programmes qui aident les photographes à retoucher leurs photos ou aident les compositeurs dans la notation ou les arrangements musicaux. Si vous êtes étudiant, vous pourriez bénéficier de «systèmes de tutorat intelligents» qui s'adaptent à votre style d'apprentissage particulier. Si vous êtes un scientifique, il y a de fortes chances que vous ayez utilisé l'un des nombreux outils d'IA disponibles pour vous aider à analyser vos données. Si vous êtes aveugle ou autrement handicapé visuel, vous pouvez utiliser des applications de vision par ordinateur pour smartphone qui lisent du texte manuscrit ou imprimé (par exemple, sur des panneaux, des menus de restaurant ou de l'argent). Si vous êtes malentendant, vous pouvez désormais voir des sous-titres assez précis sur les vidéos YouTube et, dans certains cas, obtenir une transcription vocale en temps réel pendant une conférence.Ce ne sont que quelques exemples de la manière dont les outils actuels d'IA améliorent la vie des gens. De nombreuses technologies d'IA supplémentaires sont toujours en mode recherche mais sont sur le point de devenir courantes.

Dans un avenir proche, les applications de l'IA seront probablement répandues dans les soins de santé. Nous verrons des systèmes d'IA aider les médecins à diagnostiquer les maladies et à proposer des traitements; découvrir de nouveaux médicaments; et surveiller la santé

et la sécurité des personnes âgées à domicile. La modélisation scientifique et l'analyse des données s'appuieront de plus en plus sur des outils d'IA, par exemple pour améliorer les modèles de changement climatique, de croissance démographique et de changement démographique, de science écologique et alimentaire et d'autres problèmes majeurs auxquels la société sera confrontée au cours du siècle prochain. Pour Demis Hassabis, cofondateur du groupe DeepMind de Google, il s'agit de l'avantage potentiel le plus important de l'IA:

Nous devrons peut-être prendre conscience que même avec l'ensemble des êtres humains le plus intelligent de la planète travaillant sur ces problèmes, ces [problèmes] peuvent être si complexes qu'il est difficile pour les humains individuels et les experts scientifiques d'avoir le temps dont ils ont besoin dans leur durée de vie à

même innover et avancer.… Je crois que nous allons avoir besoin d'aide et je pense que l'IA est la solution à cela.1

Nous avons tous entendu qu'à l'avenir, l'IA reprendra les emplois que les humains détestent - les emplois à bas salaire qui sont ennuyeux, épuisants, dégradants, exploiteurs ou carrément dangereux. Si cela se produit réellement, cela pourrait être une véritable aubaine pour le bien-être humain. (Plus tard, je parlerai de l'autre côté de cette médaille: l'IA supprime trop d'emplois humains.) Les robots sont déjà largement utilisés pour des tâches d'usine subalternes et répétitives, bien qu'il existe de nombreux emplois de ce type encore au-delà des capacités des robots d'aujourd'hui. Mais à mesure que l'IA progresse, de plus en plus de ces emplois pourraient être repris par l'automatisation. Des exemples d'applications futures sur le lieu de travail de l'IA comprennent les camions et les taxis autonomes, ainsi que les robots pour la récolte des fruits, la lutte contre les incendies, le retrait des mines terrestres et les nettoyages environnementaux. En outre,les robots verront probablement un rôle encore plus important qu'ils ne le font actuellement dans l'exploration planétaire et spatiale.

Cela va-t-il réellement profiter à la société que les systèmes d'IA prennent en charge ces emplois? Nous pouvons regarder l'histoire de la technologie pour nous donner une certaine perspective. Voici quelques exemples d'emplois que les humains faisaient autrefois, mais cette technologie a été automatisée il y a longtemps, du moins dans les pays développés: laveuse; conducteur de pousse-pousse; opérateur d'ascenseur; punkawallah (un domestique en Inde dont le seul travail était de faire fonctionner un ventilateur manuel pour refroidir la pièce, avant l'époque des ventilateurs électriques); ordinateur (un humain, généralement une femme, qui a effectué des calculs fastidieux à la main, en particulier pendant la Seconde Guerre mondiale). La plupart des gens conviendront que dans ces cas, le remplacement des humains par des machines dans de tels emplois a amélioré la vie tout autour. On pourrait faire valoir que l'IA d'aujourd'hui étend simplement ce même arc de progrès: améliorer la vie des humains en automatisant de plus en plus les tâches nécessaires que personne ne veut faire.

Le grand compromis de l'IA

Le chercheur en IA Andrew Ng a proclamé avec optimisme: «L'IA est la nouvelle électricité». Ng explique plus loin: «Tout comme l'électricité a transformé presque tout il y a 100 ans, j'ai actuellement du mal à penser à une industrie que je ne pense pas que l'IA transformera au cours des prochaines années.» 2 C'est une analogie séduisante: la l'idée que l'IA sera bientôt aussi nécessaire - et aussi invisible - dans nos appareils électroniques que l'électricité elle-même. Cependant, une différence majeure est que la science de l'électricité était bien comprise avant d'être largement commercialisée. Nous savons bien prédire

le comportement de l'électricité. Ce n'est pas le cas pour de nombreux systèmes d'IA actuels.

Cela nous amène à ce que vous pourriez appeler le grand compromis de l'IA. Devrions-nous embrasser les capacités des systèmes d'IA, qui peuvent améliorer nos vies et même aider à sauver des vies, et permettre à ces systèmes d'être utilisés de plus en plus? Ou devrions-nous être plus prudents, étant donné les erreurs imprévisibles de l'IA actuelle, la vulnérabilité aux biais, la vulnérabilité au piratage et le manque de transparence dans la prise de décision? Dans quelle mesure les humains devraient-ils être tenus de rester dans la boucle dans différentes applications d'IA? Que devrions-nous exiger d'un système d'IA afin de lui faire suffisamment confiance pour le laisser fonctionner de manière autonome? Ces questions font toujours l'objet de vifs débats, alors même que l'IA est de plus en plus déployée et que ses applications futures promises (par exemple, les voitures autonomes) sont présentées comme étant à l'horizon.

L'absence d'accord général sur ces questions a été soulignée par une étude récente réalisée par le Pew Research Center3. leur demandant de répondre à ces questions:

D'ici 2030, pensez-vous qu'il est très probable que l'avancement de l'IA et des systèmes technologiques connexes améliorera les capacités humaines et les autonomisera? Autrement dit, la plupart du temps, la plupart des gens s'en sortiront-ils mieux qu'aujourd'hui? Ou est-il très probable que l'avancement de l'IA et des systèmes technologiques connexes réduira l'autonomie humaine et la capacité d'agir à un point tel que la plupart des gens ne seront pas mieux lotis que la situation actuelle?

Les répondants étaient divisés: 63% prédisaient que les progrès de l'IA amélioreraient la situation des humains d'ici 2030, tandis que 37% n'étaient pas d'accord. Les opinions allaient de l'opinion selon laquelle l'IA «peut pratiquement éliminer la pauvreté dans le monde, réduire massivement les maladies et fournir une meilleure éducation à presque tout le monde sur la planète» aux prédictions d'un avenir apocalyptique: des légions d'emplois repris par l'automatisation, l'érosion de la vie privée et des droits civils dus à la surveillance de l'IA, aux armes autonomes amorales, aux décisions non contrôlées par des programmes informatiques opaques et non fiables,

amplification des préjugés raciaux et sexistes, manipulation des médias de masse, augmentation de la cybercriminalité, et ce qu'un répondant a appelé «la non-pertinence réelle et existentielle» pour les humains.

L'intelligence artificielle présente un éventail noueux de problèmes éthiques, et les discussions liées à l'éthique de l'IA et des mégadonnées ont rempli plusieurs livres.4 Afin d'illustrer la complexité des problèmes, je vais approfondir un exemple qui devient beaucoup d'attention de nos jours: reconnaissance automatique du visage.

L'éthique de la reconnaissance faciale

La reconnaissance faciale consiste à étiqueter un visage dans une image ou une vidéo (ou un flux vidéo en temps réel) avec un nom. Facebook, par exemple, applique un algorithme de reconnaissance faciale à chaque photo qui est téléchargée sur son site, essayant de détecter les visages sur la photo et de les faire correspondre avec des utilisateurs connus (au moins les utilisateurs qui n'ont pas désactivé cette fonctionnalité). 5 Si vous êtes sur Facebook et que quelqu'un publie une photo qui comprend votre visage, le système peut vous demander si vous souhaitez vous «taguer» sur la photo. La précision de l'algorithme de reconnaissance faciale de Facebook peut être

à la fois impressionnant et effrayant. Sans surprise, cette précision provient de l'utilisation de réseaux de neurones convolutionnels profonds. Le logiciel peut souvent reconnaître les visages non seulement lorsque le visage est au premier plan sur une photo, mais même lorsqu'une personne est l'une des nombreuses personnes dans une foule.

La technologie de reconnaissance faciale a de nombreux avantages potentiels, notamment en aidant les gens à parcourir leurs collections de photos, en permettant aux utilisateurs malvoyants d'identifier les personnes qu'ils rencontrent, en localisant les enfants disparus ou les fugitifs criminels en scannant des photos et des vidéos pour leur visage et en détectant le vol d'identité. Cependant, il est tout aussi facile d'imaginer des applications que beaucoup de gens trouvent offensantes ou menaçantes. Amazon, par exemple, commercialise son système de reconnaissance faciale (avec le nom étrangement dystopique Rekognition) auprès des services de police, qui peuvent comparer, par exemple, des images de caméras de sécurité avec une base de données de délinquants connus ou de suspects probables.

La confidentialité est un problème évident. Même si je ne suis pas sur Facebook (ou sur toute autre plate-forme de réseau social avec reconnaissance faciale), les photos dont je suis peuvent être marquées et reconnues automatiquement par la suite sur le site, sans ma permission. Considérez FaceFirst, une entreprise qui offre des services de reconnaissance faciale moyennant des frais. Comme le rapporte le magazine New Scientist, «Face First… déploie un système pour les détaillants qui, selon lui,« stimulera les ventes en reconnaissant les clients de grande valeur à chaque fois qu'ils achètent »et enverra des« alertes lorsque des individus litigieux connus entrent dans n'importe quel

de vos emplacements. »» 6 De nombreuses autres sociétés proposent des services similaires.

La perte d'intimité n'est pas le seul danger ici. Une préoccupation encore plus grande est la fiabilité: les systèmes de reconnaissance faciale peuvent faire des erreurs. Si votre visage est apparié par erreur, vous pourriez être exclu d'un magasin ou d'un vol d'avion ou accusé à tort d'un crime. De plus, il a été démontré que les systèmes de reconnaissance faciale actuels ont un taux d'erreur significativement plus élevé sur les personnes de couleur que sur les personnes blanches. L'American Civil Liberties Union (ACLU), qui s'oppose vigoureusement à l'utilisation de la technologie de reconnaissance des visages pour l'application de la loi pour des motifs de droits civils, a testé le système de reconnaissance d'Amazon (en utilisant ses paramètres par défaut) sur les 535 membres du Congrès américain, comparant une photo de chaque membre contre une base de données de personnes qui ont été arrêtées sur des accusations criminelles.Ils ont constaté que le système faisait correspondre à tort 28 des 535 membres du Congrès aux personnes figurant dans la base de données criminelle. Vingt et un pour cent des erreurs étaient sur des photos de représentants afro-américains (les Afro-Américains ne constituent que

environ 9% du Congrès) .7

Au milieu des retombées des tests de l'ACLU et d'autres études montrant le manque de fiabilité et les biais de la reconnaissance faciale, plusieurs sociétés de haute technologie ont annoncé qu'elles s'opposaient à l'utilisation de la reconnaissance faciale pour l'application de la loi et la surveillance. Par exemple, Brian Brackeen, PDG de la société de reconnaissance faciale Kairos, a écrit ce qui suit dans un article largement diffusé:

Les technologies de reconnaissance faciale, utilisées pour l'identification des suspects, affectent négativement les personnes de couleur. Nier ce fait serait un mensonge. (...) (et mon entreprise) en sommes venus à croire que l'utilisation de la reconnaissance faciale commerciale dans l'application de la loi ou dans la surveillance gouvernementale de toute nature est erronée - et qu'elle ouvre la porte à une faute grave de la part de les moralement corrompus.… Nous méritons un monde où nous ne sommes pas

habiliter les gouvernements à catégoriser, suivre et contrôler les citoyens.8

Dans un article de blog sur le site Web de son entreprise, le président et directeur juridique de Microsoft, Brad Smith, a appelé le Congrès à réglementer la reconnaissance faciale:

La technologie de reconnaissance faciale soulève des questions qui vont au cœur des protections fondamentales des droits de l'homme comme la vie privée et la liberté d'expression. Ces problèmes renforcent la responsabilité des entreprises technologiques qui créent ces produits. À notre avis, ils appellent également à une réglementation gouvernementale réfléchie et à l'élaboration de normes concernant les utilisations acceptables. La reconnaissance faciale exigera le public et le privé

secteurs à intensifier - et à agir.9

Google a emboîté le pas, annonçant qu'il n'offrirait pas de services de reconnaissance faciale à usage général via sa plateforme d'IA cloud jusqu'à ce que l'entreprise puisse «s'assurer que son utilisation est conforme à nos principes et valeurs, et évite les abus et les résultats préjudiciables» 10.

La réponse de ces entreprises est encourageante, mais elle met au premier plan un autre problème épineux: à quoi

Dans quelle mesure la recherche et le développement en matière d'IA devraient-ils être réglementés et qui devrait réglementer?

Réguler l'IA

Compte tenu des risques des technologies de l'IA, de nombreux praticiens de l'IA, dont moi-même, sont en faveur d'une sorte de réglementation. Mais le règlement ne doit pas être laissé aux seules mains des chercheurs et des entreprises en IA. Les problèmes liés à l'IA - fiabilité, explicabilité, biais, vulnérabilité aux attaques et moralité d'utilisation - sont autant des problèmes sociaux et politiques que techniques. Ainsi, il est essentiel que la discussion autour de ces questions inclue des personnes ayant des perspectives et des antécédents différents. Il serait aussi imprudent de laisser la réglementation aux praticiens de l'IA que de la laisser uniquement aux agences gouvernementales.

Dans un exemple de la complexité de l'élaboration de ces réglementations, le Parlement européen a promulgué en 2018 un règlement sur l'IA que certains ont appelé le «droit à l'explication» .11 Ce règlement exige, dans le cas de la «prise de décision automatisée», «des informations significatives sur la logique impliquée »dans toute décision qui affecte un citoyen de l'UE. Ces informations doivent être communiquées «sous une forme concise, transparente, intelligible et facilement accessible, en utilisant un langage clair et simple.» 12 Cela ouvre la voie à l'interprétation.Qu'est-ce qui compte comme «information significative» ou «logique impliquée»? Ce règlement interdit-il l'utilisation de méthodes d'apprentissage en profondeur difficiles à expliquer pour prendre des décisions qui affectent les individus (comme les prêts et la reconnaissance faciale)? De telles incertitudes assureront sans aucun doute un emploi rémunéré aux décideurs politiques et aux avocats pour longtemps.

Je pense que la réglementation de l'IA devrait être calquée sur la réglementation d'autres technologies, en particulier celles des sciences biologiques et médicales, telles que le génie génétique. Dans ces domaines, la réglementation - comme l'assurance de la qualité et l'analyse des risques et des avantages des technologies - passe par la coopération entre les agences gouvernementales, les entreprises, les organisations à but non lucratif et les universités. En outre, il existe désormais des domaines établis de la bioéthique et de l'éthique médicale, qui ont une influence considérable sur les décisions concernant le développement et l'application des technologies. La recherche sur l'IA et ses applications ont grandement besoin d'une infrastructure réglementaire et éthique bien pensée.

Cette infrastructure commence tout juste à se former. Aux États-Unis, les gouvernements des États commencent à envisager de créer des réglementations, telles que celles concernant la reconnaissance faciale ou les véhicules autonomes. Cependant, pour la plupart, les universités et les entreprises qui créent des systèmes d'IA ont été laissées à se réglementer.

Un certain nombre de groupes de réflexion à but non lucratif ont surgi pour combler le vide, souvent financés par de riches entrepreneurs technologiques inquiets pour l'IA. Ces organisations - avec des noms tels que Future of Humanity Institute, Future of Life Institute et Center for the Study of Existential Risk - organisent des ateliers, parrainent des recherches et créent du matériel pédagogique et des suggestions de politiques sur les thèmes des utilisations sûres et éthiques de l'IA. Une organisation faîtière, appelée le Partenariat sur l'IA, a tenté de réunir ces groupes pour «servir de plate-forme ouverte

discussion et engagement sur l'IA et ses influences sur les personnes et la société. »13

Une pierre d'achoppement est qu'il n'y a pas d'accord général sur le terrain sur les priorités de développement de la réglementation et de l'éthique. Faut-il se concentrer immédiatement sur les algorithmes qui peuvent expliquer leur raisonnement? Sur la confidentialité des données? Sur la robustesse des systèmes d'IA face aux attaques malveillantes? Sur les biais dans les systèmes d'IA? Sur le «risque existentiel» potentiel de l'IA superintelligente? Mon opinion personnelle est que trop d'attention a été accordée aux risques de l'intelligence artificielle superintelligente et bien trop peu au manque de fiabilité et de transparence du deep learning et à sa vulnérabilité aux attaques. J'en dirai plus sur l'idée de superintelligence dans le dernier chapitre.

Machines morales

Jusqu'à présent, ma discussion s'est concentrée sur les questions éthiques de la façon dont les humains utilisent l'IA. Mais il y a une autre question importante: les machines elles-mêmes pourraient-elles avoir leur propre sens moral, suffisamment complet pour que nous puissions prendre des décisions éthiques par elles-mêmes, sans que les humains aient à les surveiller? Si nous allons donner une décision-

rendant l'autonomie aux systèmes de reconnaissance faciale, aux voitures autonomes, aux robots de soins aux personnes âgées ou même aux soldats robotiques, n'avons-nous pas besoin de donner à ces machines la même capacité à traiter les questions éthiques et morales que nous, les humains?

Les gens pensent à la «moralité de la machine» depuis aussi longtemps qu'ils pensent à l'IA.14 La discussion la plus connue sur la moralité de la machine vient probablement des histoires de science-fiction d'Isaac Asimov, dans lesquelles il a proposé les trois «Règles fondamentales de la robotique ":

1. Un robot ne peut pas blesser un être humain ou, par inaction, permettre à un être humain de se blesser.

2. Un robot doit obéir aux ordres qui lui sont donnés par les êtres humains, sauf lorsque de tels ordres seraient en conflit avec la première loi.

3. Un robot doit protéger sa propre existence, tant que cette protection n'entre pas en conflit avec la première ou la deuxième loi 15

Ces lois sont devenues célèbres, mais en vérité, le but d'Asimov était de montrer comment un tel ensemble de règles échouerait inévitablement. «Runaround», l'histoire de 1942 dans laquelle Asimov a introduit ces lois pour la première fois, présente une situation dans laquelle un robot, suivant la deuxième loi, se dirige vers une substance dangereuse, auquel point la troisième loi entre en jeu, de sorte que le robot s'éloigne, à ce qui indique que la deuxième loi intervient à nouveau, piégeant le robot dans une boucle sans fin, entraînant une quasi-catastrophe pour les maîtres humains du robot. Les histoires d'Asimov se sont souvent concentrées sur les conséquences involontaires de la programmation de règles éthiques dans des robots. Asimov était prémonitoire: comme nous l'avons vu, le problème des règles incomplètes et des conséquences imprévues a entravé toutes les approches de l'intelligence artificielle basée sur des règles; le raisonnement moral n'est pas différent.

L'écrivain de science-fiction Arthur C. Clarke a utilisé un dispositif similaire dans son livre de 1968, 2001: A Space Odyssey.16 L'ordinateur artificiellement intelligent HAL est programmé pour toujours être véridique pour les humains, mais en même temps pour cacher la vérité aux humains. les astronautes sur le but réel de leur mission spatiale. HAL, contrairement au robot désemparé d'Asimov, souffre de la douleur psychologique de cette dissonance cognitive: «Il était… conscient du conflit qui détruisait lentement son intégrité - le conflit entre la vérité et la dissimulation de la vérité.» 17 Le résultat est un ordinateur « névrose »qui transforme HAL en tueur. Réfléchissant à la moralité réelle de la machine, le mathématicien Norbert Wiener a noté dès 1960 que «nous ferions mieux d'être bien sûr que le but mis dans la machine est le but que nous désirons vraiment.» 18

Le commentaire de Wiener capture ce qu'on appelle le problème d'alignement des valeurs dans l'IA: le défi pour l'IA

programmeurs pour s'assurer que les valeurs de leurs systèmes s'alignent sur celles des humains. Mais quelles sont les valeurs des humains? Est-il même logique de supposer qu'il existe des valeurs universelles que la société partage?

Bienvenue à Moral Philosophy 101. Nous allons commencer par l'expérience de pensée préférée de tous les étudiants en philosophie morale, le problème du chariot: vous conduisez un chariot pour excès de vitesse sur un ensemble de pistes, et juste devant vous voyez cinq travailleurs debout ensemble au milieu des pistes . Vous appuyez sur les freins, mais vous constatez qu'ils ne fonctionnent pas. Heureusement, il y a une série de pistes qui partent vers la droite. Vous pouvez diriger le chariot sur l'éperon et éviter de heurter les cinq travailleurs. Malheureusement, un seul travailleur se tient au milieu de l'éperon. Si vous ne faites rien, le chariot roulera directement dans les cinq travailleurs et les tuera tous. Si vous dirigez le chariot vers la droite, le chariot tuera le travailleur unique. Quelle est la chose morale à faire?

Le problème du chariot a été un aliment de base des cours d'éthique de premier cycle au cours du siècle dernier. La plupart des gens répondent qu'il serait moralement préférable que le conducteur se dirige vers l'éperon, tuant le travailleur unique et sauvant le groupe de cinq. Mais les philosophes ont découvert qu'un cadrage différent essentiellement du même dilemme peut conduire les gens à la réponse opposée19. Le raisonnement humain sur les dilemmes moraux s'avère très sensible à la manière dont les dilemmes sont présentés.

Le problème des chariots a récemment refait surface dans le cadre de la couverture médiatique des voitures autonomes20 et la question de savoir comment un véhicule autonome devrait être programmé pour faire face à ces problèmes est devenue un point central de discussion dans les discussions sur l'éthique de l'IA. De nombreux penseurs en éthique de l'IA ont souligné que le problème du chariot lui-même, dans lequel le conducteur n'a que deux horribles options, est un scénario très artificiel qu'aucun conducteur du monde réel ne rencontrera jamais. Mais le problème des chariots est devenu une sorte de symbole pour se demander comment programmer les voitures autonomes pour qu'elles prennent elles-mêmes des décisions morales.

En 2016, trois chercheurs ont publié les résultats d'enquêtes menées auprès de plusieurs centaines de personnes qui ont reçu des scénarios de problèmes de chariot impliquant des voitures autonomes, et ont été invités à donner leur avis sur la moralité des différentes actions. Dans une enquête, 76% des participants ont répondu qu'il serait moralement préférable pour une voiture autonome de sacrifier un passager plutôt que de tuer dix piétons. Mais lorsqu'on leur a demandé s'ils achèteraient une voiture autonome programmée pour sacrifier ses passagers afin d'économiser un nombre beaucoup plus important de piétons, l'écrasante

la majorité des personnes interrogées ont répondu qu’elles n’achèteraient pas elles-mêmes une telle voiture21. Selon les auteurs, «nous

ont constaté que les participants à six études d'Amazon Mechanical Turk approuvaient les véhicules utilitaires (véhicules autonomes) (c'est-à-dire les véhicules qui sacrifient leurs passagers pour le plus grand bien) et aimeraient que d'autres les achètent, mais ils préféreraient eux-mêmes utiliser des véhicules qui protègent leurs passagers à tout prix. " Dans son commentaire sur cette étude, le psychologue Joshua Greene a noté: «Avant de pouvoir mettre nos valeurs dans des machines, nous devons trouver comment rendre nos valeurs claires et cohérentes.» 22 Cela semble plus difficile que nous ne le pensions.

Certains chercheurs en éthique de l'IA ont suggéré que nous renoncions à essayer de programmer directement des règles morales pour les machines et que les machines apprennent les valeurs morales par elles-mêmes en observant le comportement humain.23 Cependant, cette approche d'auto-apprentissage hérite de tous les problèmes de l'apprentissage automatique. que j'ai décrit dans le chapitre précédent.

À mon avis, les progrès dans la transmission de l'intelligence morale aux ordinateurs ne peuvent pas être séparés des progrès dans d'autres domaines.

types d'intelligence: le vrai défi est de créer des machines capables de comprendre les situations auxquelles elles sont confrontées. Comme le montrent les histoires d'Isaac Asimov, un robot ne peut pas suivre un ordre de manière fiable pour éviter de nuire à un humain à moins qu'il ne puisse comprendre le concept de préjudice dans différentes situations. Pour raisonner sur la moralité, il faut reconnaître les relations de cause à effet, imaginer différents avenirs possibles, avoir une idée des croyances et des objectifs des autres, et prévoir les résultats probables de ses actions dans quelque situation que l'on se trouve. En d'autres termes, une condition préalable à un raisonnement moral fiable est le bon sens général, qui, comme nous l'avons vu, fait défaut même dans le meilleur des systèmes d'IA actuels.

Jusqu'à présent, dans ce livre, nous avons vu comment les réseaux de neurones profonds, formés sur d'énormes ensembles de données, peuvent rivaliser avec les capacités visuelles des humains dans des tâches particulières. Nous avons également constaté certaines des faiblesses de ces réseaux, notamment leur dépendance à l'égard de quantités massives de données étiquetées par l'homme et leur propension à échouer de manière très peu humaine. Comment pouvons-nous créer un système d'IA qui apprend vraiment par lui-même, un système plus fiable car, comme les humains, il peut raisonner sur sa situation actuelle et planifier pour l'avenir? Dans la partie suivante du livre, je décrirai comment les chercheurs en IA utilisent des jeux tels que les échecs, Go et même les jeux vidéo Atari comme «microcosmes» afin de développer des machines avec des capacités d'apprentissage et de raisonnement plus humaines, et je vais évaluer comment les machines de jeu surhumaines qui en résultent pourraient transférer leurs compétences dans le monde réel.

Partie III Apprendre à jouer

8

Récompenses pour les robots

Lorsque la journaliste Amy Sutherland faisait des recherches pour un livre sur les dresseurs d'animaux exotiques, elle a appris que leur méthode principale était d'une simplicité absurde: "récompenser les comportements que j'aime et ignorer les comportements que je n'aime pas." Et comme elle l'a écrit dans la chronique Modern Love du New York Times, «Finalement, il m'a frappé que les mêmes techniques pourraient fonctionner sur cette espèce têtue mais adorable, le mari américain.» Sutherland a écrit sur la façon dont, après des années de harcèlement futile, de sarcasme et de ressentiment, elle a utilisé cette méthode simple pour former secrètement son mari inconscient à ramasser ses chaussettes,

trouver ses propres clés de voiture, se présenter aux restaurants à l'heure et se raser plus régulièrement.1

Cette technique d'entraînement classique, connue en psychologie sous le nom de conditionnement opérant, est utilisée depuis des siècles sur les animaux et les humains. Le conditionnement opérant a inspiré une importante approche d'apprentissage automatique appelée apprentissage par renforcement. L'apprentissage par renforcement contraste avec la méthode d'apprentissage supervisé que j'ai décrite dans les chapitres précédents: dans sa forme la plus pure, l'apprentissage par renforcement ne nécessite aucun exemple de formation étiqueté. Au lieu de cela, un agent - le programme d'apprentissage - exécute des actions dans un environnement (généralement une simulation informatique) et reçoit parfois des récompenses de l'environnement. Ces récompenses intermittentes sont la seule rétroaction que l'agent utilise pour l'apprentissage. Dans le cas du mari d'Amy Sutherland, les récompenses étaient ses sourires, ses baisers et ses louanges. Alors qu'un programme informatique peut ne pas répondre à un baiser ou à un enthousiaste "vous êtes le plus grand,«Il peut être fait pour répondre à une machine équivalente à une telle appréciation - comme des nombres positifs ajoutés à sa mémoire.

FIGURE 22: Un chien robotique Sony Aibo, sur le point de frapper un ballon de soccer robot

Alors que l'apprentissage par renforcement fait partie de la boîte à outils de l'IA depuis des décennies, il a longtemps été éclipsé par les réseaux de neurones et d'autres méthodes d'apprentissage supervisé. Cela a changé en 2016 lorsque l'apprentissage par renforcement a joué un rôle central dans une réalisation étonnante et capitale en IA: un programme qui a appris à battre les meilleurs humains dans le jeu complexe de Go. Afin d'expliquer ce programme, ainsi que d'autres réalisations récentes de l'apprentissage par renforcement, je vais d'abord vous présenter un exemple simple pour illustrer le fonctionnement de l'apprentissage par renforcement.

Former votre Robo-Dog

Pour notre exemple illustratif, regardons le jeu amusant de football robotisé, dans lequel les humains (généralement des étudiants) programment des robots pour jouer une version simplifiée du football sur un «terrain» de la taille d'une pièce. Parfois, les joueurs sont de jolis robots Aibo ressemblant à des chiens, comme celui illustré à la figure 22. Un robot Aibo (fabriqué par Sony) possède une caméra pour capturer les entrées visuelles, un ordinateur programmable interne et une collection de capteurs et de moteurs qui lui permettent de marcher, coup de pied, tête-

bout à bout, et même remuer sa queue en plastique.

Imaginez que nous voulons enseigner à notre chien-robot la technique de football la plus simple: face au ballon, marchez-y et donnez-lui un coup de pied. Une approche traditionnelle de l'IA serait de programmer le robot avec les règles suivantes: Faites un pas vers le ballon. Répétez jusqu'à ce que l'un de vos pieds touche le ballon. Frappez ensuite le ballon avec ce pied. Bien sûr, les descriptions sténographiques telles que «faites un pas vers le ballon», «jusqu'à ce qu'un de vos pieds touche le ballon» et «donnez un coup de pied dans le ballon» doivent être soigneusement traduites en opérations détaillées du capteur et du moteur intégrées à l'Aibo.

De telles règles explicites pourraient être suffisantes pour une tâche aussi simple que celle-ci. Cependant, plus vous voulez que votre robot soit «intelligent», plus il est difficile de spécifier manuellement des règles de comportement. Et bien sûr, il est impossible de concevoir un ensemble de règles qui fonctionneront dans toutes les situations. Et s'il y a une grande flaque d'eau entre le robot et le ballon? Et si un cône de football bloque la vision du robot? Et si un rocher bloque le mouvement de la balle? Comme toujours, le monde réel regorge de cas marginaux difficiles à prévoir. La promesse de l'apprentissage par renforcement est que l'agent - ici notre chien-robot - peut apprendre seul des stratégies flexibles simplement en effectuant des actions dans le monde et en recevant occasionnellement des récompenses (c'est-à-dire un renforcement) sans que les humains n'aient à écrire manuellement des règles ou à enseigner directement l'agent toutes les circonstances possibles.

Appelons notre chien-robot Rosie, après mon robot de télévision préféré, la femme de ménage robotique tordue du dessin animé classique The Jetsons.2 Pour faciliter les choses pour cet exemple, supposons que Rosie vient de l'usine préprogrammée avec la capacité suivante: si un le ballon de soccer est dans la ligne de mire de Rosie, elle peut estimer le nombre de pas qu'elle devrait faire pour se rendre au ballon. Ce numéro est appelé «l'état». En général, l'état d'un agent à un moment donné est sa perception de sa situation actuelle. Rosie est la plus simple des agents possibles, en ce sens que son état

est un numéro unique. Quand je dis que Rosie est «dans» un état donné x, je veux dire qu'elle estime actuellement qu'elle est x

à quelques pas du ballon.

En plus d'être en mesure d'identifier son état, Rosie a trois actions intégrées qu'elle peut effectuer: elle peut faire un pas en avant, un pas en arrière et elle peut donner un coup de pied. (Si Rosie arrive à sortir des limites, elle est programmée pour revenir immédiatement en arrière.) Dans l'esprit du conditionnement opérant, donnons une récompense à Rosie uniquement lorsqu'elle réussit à frapper le ballon. Notez que Rosie ne sait pas à l'avance quels états ou actions mèneront, le cas échéant, à des récompenses.

Étant donné que Rosie est un robot, sa «récompense» est simplement un nombre, disons 10, ajouté à sa «mémoire de récompense». Nous pouvons considérer le nombre 10 comme l'équivalent robot d'une friandise pour chien. Ou peut-être pas. Contrairement à un vrai chien, Rosie n'a aucun désir intrinsèque de friandises, de nombres positifs ou d'autre chose. Comme je le détaillerai ci-dessous, dans l'apprentissage par renforcement, un algorithme créé par l'homme guide le processus d'apprentissage de Rosie en réponse aux récompenses; c'est-à-dire que l'algorithme dit à Rosie comment apprendre de ses expériences.

L'apprentissage par renforcement se produit en demandant à Rosie de prendre des mesures sur une série d'épisodes d'apprentissage, chacun consistant en un certain nombre d'itérations. À chaque itération, Rosie détermine son état actuel et choisit une action à entreprendre. Si Rosie reçoit une récompense, elle apprend alors quelque chose, comme je vais l'illustrer ci-dessous. Ici, je laisse chaque épisode durer jusqu'à ce que Rosie réussisse à frapper le ballon, moment auquel elle reçoit une récompense. Cela peut prendre du temps. Comme pour dresser un vrai chien, il faut être patient.

La figure 23 illustre un épisode d'apprentissage hypothétique. L'épisode commence lorsque l'entraîneur (moi) place Rosie et la balle à certains emplacements initiaux sur le terrain, Rosie faisant face à la balle (figure 23A). Rosie détermine son état actuel: à douze pas du ballon. Parce que Rosie n'a encore rien appris, notre chien, une «tabula rasa» innocente, ne sait pas quelle action devrait être préférée, alors elle choisit une action au hasard parmi ses trois possibilités: avant, arrière, coup de pied. Disons qu'elle choisit Backward et prend du recul. Nous, les humains, pouvons voir que Backward est une mauvaise action à prendre, mais rappelez-vous, nous laissons Rosie comprendre par elle-même comment effectuer cette tâche.

FIGURE 23: Un premier épisode hypothétique d'apprentissage par renforcement

À l'itération 2 (figure 23B), Rosie détermine son nouvel état: treize pas de la balle. Elle choisit ensuite une nouvelle action à entreprendre, toujours au hasard: Transférer. À l'itération 3 (figure 23C), Rosie détermine son «nouvel» état: à douze pas de la balle. Elle est de retour à la case départ, mais Rosie ne sait même pas qu'elle a été dans cet état auparavant! Dans la forme la plus pure d'apprentissage par renforcement, l'agent d'apprentissage ne se souvient pas de ses états précédents. En général, se souvenir des états précédents peut prendre beaucoup de mémoire et ne s'avère pas nécessaire.

À l'itération 3, Rosie - à nouveau au hasard - choisit l'action Coup de pied, mais parce qu'elle donne un coup de pied dans l'air vide, elle

ne reçoit pas de récompense. Elle n'a pas encore appris que donner un coup de pied ne donne une récompense que si elle est à côté du ballon.

Rosie continue de choisir des actions aléatoires, sans aucune rétroaction, pour de nombreuses itérations. Mais à un moment donné, disons à l'itération 351, juste par une stupide chance, Rosie se retrouve à côté du ballon et choisit Kick (figure 23D). Enfin, elle obtient une récompense et l'utilise pour apprendre quelque chose.

Qu'est-ce que Rosie apprend? Ici, nous adoptons l'approche la plus simple de l'apprentissage par renforcement: lorsqu'elle reçoit une récompense, Rosie apprend uniquement l'état et l'action qui ont immédiatement précédé la récompense. En particulier, Rosie apprend que si elle est dans cet état (par exemple, à zéro pas de la balle), prendre cette action (par exemple, Kick) est une bonne idée. Mais c'est tout ce qu'elle apprend. Elle n'apprend pas, par exemple, que si elle est à zéro pas du ballon, Backward serait un mauvais choix. Après tout, elle n'a pas encore essayé. Pour tout ce qu'elle sait, faire un pas en arrière dans cet état pourrait conduire à une récompense beaucoup plus importante! Rosie n'apprend pas non plus à ce stade que si elle est à un pas, Forward serait un bon choix. Elle doit attendre le prochain épisode pour ça. Apprendre trop à la fois peut être préjudiciable;s'il arrive que Rosie frappe l'air à deux pas du ballon, nous ne voulons pas qu'elle apprenne que ce coup de pied inefficace était en fait une étape nécessaire pour obtenir la récompense. Chez les humains, ce type de comportement pourrait être appelé superstition - à savoir croire à tort qu'une action particulière peut aider à provoquer un bon ou un mauvais résultat particulier. Dans l'apprentissage par renforcement, la superstition est quelque chose que vous devez faire attention à éviter.

Une notion cruciale dans l'apprentissage par renforcement est celle de la valeur de l'exécution d'une action particulière dans un état donné. La valeur de l'action A dans l'état S est un nombre reflétant la prédiction actuelle de l'agent de la récompense qu'il obtiendra éventuellement si, lorsqu'il est dans l'état S, il exécute l'action A, puis continue d'effectuer des actions de grande valeur. Laisse-moi expliquer. Si votre état actuel consiste à «tenir un chocolat dans votre main», une action de grande valeur consisterait à porter votre main à votre bouche. Les actions suivantes avec une valeur élevée seraient d'ouvrir la bouche, de mettre le chocolat à l'intérieur et de mâcher. Votre récompense est la délicieuse sensation de manger le chocolat. Porter votre main à votre bouche ne produit pas immédiatement cette récompense, mais cette action est sur la bonne voie, et si vous avez déjà mangé du chocolat, vous pouvez prédire l'intensité de la récompense à venir.L'objectif de l'apprentissage par renforcement est que l'agent apprenne des valeurs qui sont de bonnes prédictions des récompenses à venir (en supposant que l'agent continue de faire la bonne chose après

3 Comme nous le verrons, le processus d'apprentissage des valeurs d'actions particulières dans un état donné prend généralement plusieurs étapes d'essais et d'erreurs.

FIGURE 24: Q-table de Rosie après son premier épisode d'apprentissage par renforcement

Rosie enregistre les valeurs des actions dans un grand tableau dans la mémoire de son ordinateur. Ce tableau, illustré à la figure 24, répertorie tous les états possibles pour Rosie (c'est-à-dire toutes les distances possibles qu'elle pourrait être du ballon, jusqu'à la longueur du terrain), et pour chaque état, ses actions possibles. Étant donné un état, chaque action dans cet état a une valeur numérique; ces valeurs changeront - devenant des prédictions plus précises des récompenses à venir - au fur et à mesure que Rosie apprend. Ce tableau des états, des actions et des valeurs s'appelle le Q-table. Cette forme d'apprentissage par renforcement est parfois appelée Q-learning. La lettre Q est utilisée car la lettre V (pour la valeur) a été utilisée pour autre chose dans l'original

document sur le Q-learning.4

Au début de la formation de Rosie, j'initialise la table Q en mettant toutes les valeurs à 0, une «ardoise vierge». Lorsque Rosie reçoit une récompense pour avoir botté le ballon à la fin de l'épisode 1, la valeur de l'action Coup de pied lorsqu'elle est à «zéro pas» est mise à jour à 10, la valeur de la récompense. À l'avenir, lorsque Rosie est dans l'état «zéro pas», elle peut regarder la table Q, voir que Kick a la valeur la plus élevée - c'est-à-dire qu'elle prédit la récompense la plus élevée - et décider de choisir Kick plutôt que de choisir au hasard. C'est tout ce que «apprendre» signifie ici!

L'épisode 1 s'est terminé avec le coup de pied de Rosie. Nous passons maintenant à l'épisode 2 (figure 25), qui commence avec Rosie et la balle dans de nouveaux endroits (figure 25A). Tout comme avant, à chaque itération, Rosie détermine son courant

état - au départ, à six pas - et choisit une action, maintenant en regardant dans sa Q-table. Mais à ce stade, les valeurs des actions dans son état actuel sont toujours toutes des 0; il n'y a pas encore d'informations pour l'aider à choisir parmi eux. Rosie choisit donc à nouveau une action au hasard: Vers l'arrière. Et elle choisit à nouveau Backward à la prochaine itération (figure 25B). La formation de notre chien-robot a encore beaucoup de chemin à parcourir.

FIGURE 25: Le deuxième épisode d'apprentissage par renforcement

Tout continue comme avant, jusqu'à ce que les essais et erreurs aléatoires aléatoires de Rosie arrivent à la placer à un pas de la balle (figure 25C), et qu'elle choisisse Avancer. Soudain, Rosie trouve son pied à côté du ballon (figure 25D), et la table Q a quelque chose à dire sur cet état. En particulier, il indique que son état actuel

—Zéro pas du ballon — a une action — Coup de pied — qui devrait entraîner une récompense de 10. Elle peut désormais utiliser ces informations, apprises lors de l'épisode précédent, pour choisir une action à effectuer, à savoir Coup de pied. Mais voici l'essence de Q-learning: Rosie peut maintenant apprendre quelque chose sur l'action (Forward) qu'elle a prise dans l'état immédiatement précédent (à un pas). C'est ce qui l'a amenée à être dans l'excellente position dans laquelle elle se trouve actuellement! Plus précisément, la valeur de l'action Forward dans l'état «un pas» est mise à jour dans le tableau Q pour avoir une valeur plus élevée, une fraction de la valeur de l'action «Coup de pied quand zéro pas», ce qui conduit directement à une récompense. . Ici, j'ai mis à jour cette valeur à 8 (figure 26).

FIGURE 26: Q-table de Rosie après son deuxième épisode d'apprentissage par renforcement

La table Q dit maintenant à Rosie qu'il est vraiment bon de donner un coup de pied quand elle est à «zéro pas» et qu'il est presque aussi bon d'avancer lorsqu'elle est à «un pas». La prochaine fois que Rosie se trouvera dans un état "à un pas", elle aura des informations sur l'action à entreprendre, ainsi que la possibilité d'apprendre une mise à jour pour l'action immédiatement passée - l'action Transférer dans les "deux ». Notez qu'il est important que ces valeurs d'action apprises soient réduites («actualisées») car elles remontent dans le temps à partir de la récompense réelle; cela permet au système d'apprendre un chemin efficace vers une récompense réelle.

L'apprentissage par renforcement - ici, la mise à jour progressive des valeurs de la table Q - se poursuit, d'épisode en épisode, jusqu'à ce que Rosie ait finalement appris à exécuter sa tâche à partir de n'importe quel point de départ initial. L'algorithme Q-learning est un moyen d'attribuer des valeurs aux actions dans un état donné, y compris les actions qui ne mènent pas directement à des récompenses mais qui préparent le terrain pour les états relativement rares dans lesquels l'agent reçoit des récompenses.

J'ai écrit un programme qui simulait le processus d'apprentissage Q de Rosie comme décrit ci-dessus. Au début de chaque épisode, Rosie a été placée, face au ballon, à un nombre aléatoire de pas (avec un maximum de vingt-cinq et un minimum de zéro pas). Comme je l'ai mentionné plus tôt, si Rosie sortait des limites, mon programme la faisait simplement reculer. Chaque épisode prenait fin lorsque Rosie réussissait à atteindre et à frapper le ballon. J'ai trouvé qu'il lui a fallu environ trois cents épisodes pour apprendre à accomplir cette tâche parfaitement, peu importe où elle a commencé.

Cet exemple de «formation Rosie» capture une grande partie de l'essence de l'apprentissage par renforcement, mais j'ai omis de nombreux problèmes auxquels les chercheurs en apprentissage par renforcement sont confrontés pour des tâches plus complexes5. Par exemple, dans les tâches du monde réel, la perception de l'agent de son état est souvent incertain, contrairement à la parfaite connaissance de Rosie du nombre de pas qu'elle a du ballon. Un vrai robot jouant au football pourrait avoir seulement une estimation approximative de la distance, ou même une certaine incertitude quant au petit objet de couleur claire sur le terrain de football qui est en fait le ballon. Les effets de l'exécution d'une action peuvent également

être incertain: par exemple, l'action avancée d'un robot peut le déplacer sur différentes distances en fonction du terrain, ou même entraîner la chute ou la collision du robot avec un obstacle invisible. Comment l'apprentissage par renforcement peut-il gérer de telles incertitudes?

De plus, comment l'agent d'apprentissage doit-il choisir une action à chaque pas de temps? Une stratégie naïve serait de toujours choisir l'action avec la valeur la plus élevée pour l'état actuel dans la table Q. Mais cette stratégie a un problème: il est possible que d'autres actions, encore inexplorées, conduisent à une récompense plus élevée. À quelle fréquence devriez-vous explorer - entreprendre des actions que vous n'avez pas encore essayées - et à quelle fréquence devriez-vous choisir des actions que vous espérez déjà mener à une récompense? Lorsque vous allez dans un restaurant, commandez-vous toujours le repas que vous avez déjà essayé et que vous avez trouvé bon, ou essayez-vous quelque chose de nouveau, car le menu pourrait contenir une option encore meilleure? Décider de la quantité à explorer de nouvelles actions et de la quantité à exploiter (c'est-à-dire s'en tenir à) des actions éprouvées s'appelle l'exploration

par rapport à l'équilibre d'exploitation. Atteindre le bon équilibre est une question essentielle pour réussir l'apprentissage par renforcement.

Ce sont des échantillons de sujets de recherche en cours parmi la communauté croissante de personnes travaillant sur l'apprentissage par renforcement. Tout comme dans le domaine de l'apprentissage en profondeur, la conception de systèmes d'apprentissage par renforcement réussis est toujours un art difficile (et parfois lucratif!), Maîtrisé par un groupe relativement restreint d'experts qui, comme leurs homologues de l'apprentissage en profondeur, passent beaucoup de temps à régler hyperparamètres. (Combien d'épisodes d'apprentissage devraient être autorisés? Combien d'itérations par épisode devraient être autorisées? Combien une récompense devrait-elle être «actualisée» lorsqu'elle est répartie dans le temps? Et ainsi de suite.)

Trébuchements dans le monde réel

En mettant de côté ces problèmes pour l'instant, examinons deux obstacles majeurs qui pourraient survenir en extrapolant notre exemple de «formation de Rosie» à l'apprentissage par renforcement dans des tâches du monde réel. Tout d'abord, il y a la table Q. Dans les tâches complexes du monde réel - pensez, par exemple, à une voiture robot apprenant à conduire dans une ville surpeuplée - il est impossible de définir un petit ensemble d '«états» qui pourraient être répertoriés dans un tableau. Un état unique pour une voiture à un moment donné serait quelque chose comme l'intégralité des données de ses caméras et autres capteurs. Cela signifie qu'une voiture autonome fait face à un nombre infini d'états possibles. Apprendre via une table Q comme celle de l'exemple «Rosie» est hors de question. Pour cette raison, la plupart des approches modernes de l'apprentissage par renforcement utilisent un réseau de neurones au lieu d'une table Q.Le travail du réseau neuronal est d'apprendre quelles valeurs doivent être attribuées aux actions dans un état donné. En particulier, le réseau reçoit l'état actuel en entrée, et ses sorties sont ses estimations des valeurs de toutes les actions possibles que l'agent peut entreprendre dans cet état. L'espoir est que le réseau puisse apprendre à regrouper les états liés dans des concepts généraux (il est prudent d'avancer ou de s'arrêter immédiatement pour éviter de heurter un obstacle).

La deuxième pierre d'achoppement est la difficulté, dans le monde réel, de mener à bien le processus d'apprentissage sur de nombreux épisodes, en utilisant un vrai robot. Même notre exemple «Rosie» n'est pas réalisable. Imaginez-vous initialiser un nouvel épisode - marcher sur le terrain pour installer le robot et la balle - des centaines de fois, sans parler d'attendre que le robot effectue ses centaines d'actions par épisode. Vous n'auriez tout simplement pas assez de temps. De plus, vous pourriez risquer que le robot s'endommage en choisissant la mauvaise action, comme frapper un mur en béton ou s'avancer sur une falaise.

Tout comme je l'ai fait pour Rosie, les praticiens de l'apprentissage par renforcement traitent presque toujours ce problème en construisant des simulations de robots et d'environnements et en effectuant tous les épisodes d'apprentissage dans la simulation plutôt que dans le monde réel. Parfois, cette approche fonctionne bien. Les robots ont été formés à l'aide de simulations pour marcher, sauter, saisir des objets et conduire une voiture télécommandée, entre autres tâches, et les robots ont pu, avec différents niveaux de succès, transférer les compétences acquises lors de la simulation dans le monde réel. 6 Cependant, plus la complexité et l'imprévisibilité des

l'environnement, les moins réussies sont les tentatives de transfert de ce qui est appris en simulation dans le monde réel. En raison de ces difficultés, il est logique qu'à ce jour les plus grands succès de l'apprentissage par renforcement n'aient pas été en robotique mais dans des domaines parfaitement simulables sur ordinateur. En particulier, les succès d'apprentissage par renforcement les plus connus ont été dans le domaine du jeu. L'application de l'apprentissage par renforcement aux jeux est le sujet du chapitre suivant.

9

Game On

Depuis les premiers jours de l'IA, les passionnés sont obsédés par la création de programmes capables de battre les humains lors des jeux. À la fin des années 40, Alan Turing et Claude Shannon, deux fondateurs de l'ère informatique, ont écrit des programmes pour jouer aux échecs avant même que des ordinateurs ne puissent exécuter leur code. Au cours des décennies qui ont suivi, de nombreux jeunes passionnés de jeux ont été amenés à apprendre à programmer pour que les ordinateurs jouent à leur jeu préféré, que ce soit les dames, les échecs, le backgammon, le go, le poker ou, plus récemment, les jeux vidéo.

En 2010, un jeune scientifique britannique et passionné de jeux nommé Demis Hassabis, ainsi que deux amis proches, ont lancé à Londres une entreprise appelée DeepMind Technologies. Hassabis est une figure colorée et légendaire dans le monde de l'IA moderne. Prodige des échecs qui remportait des championnats à l'âge de six ans, il a commencé à programmer des jeux vidéo à quinze ans et a fondé sa propre société de jeux vidéo à vingt-deux ans. En plus de ses activités entrepreneuriales, il a obtenu un doctorat en neurosciences cognitives de l'University College London afin de poursuivre son objectif de construire une IA inspirée du cerveau. Hassabis et ses collègues ont fondé DeepMind Technologies afin

pour «aborder [les] questions vraiment fondamentales» sur l'intelligence artificielle.1 Peut-être sans surprise, le groupe DeepMind a vu les jeux vidéo comme le lieu approprié pour aborder ces questions. Pour Hassabis, les jeux vidéo sont «comme des microcosmes du monde réel, mais… plus propres et plus contraints» 2.

FIGURE 27: Une illustration du jeu Breakout d'Atari

Quelle que soit votre position sur les jeux vidéo, si vous optez plutôt pour «propre et contraint» et moins pour «monde réel», vous pourriez envisager de créer des programmes d'IA pour jouer aux jeux vidéo Atari des années 70 et 80. C'est exactement

ce que le groupe de DeepMind a décidé de faire. Selon votre âge et vos intérêts, vous vous souviendrez peut-être de certains de ces jeux classiques, tels que Asteroids, Space Invaders, Pong et Ms. Pac-Man. Est-ce que certains d'entre eux sonnent une cloche? Avec leurs graphismes simples et leurs commandes par joystick, les jeux étaient assez faciles à apprendre pour les jeunes enfants mais suffisamment stimulants pour susciter l'intérêt des adultes.

Considérez le jeu solo appelé Breakout, illustré à la figure 27. Le joueur utilise le joystick pour déplacer une «palette» (rectangle blanc en bas à droite) d'avant en arrière. Une «balle» (cercle blanc) peut rebondir sur la palette pour frapper des «briques» rectangulaires de différentes couleurs. La balle peut également rebondir sur les «murs» gris sur les côtés. Si la balle frappe l'une des briques (rectangles à motifs), la brique disparaît, le joueur gagne des points et la balle rebondit. Les briques des couches supérieures valent plus de points que celles des couches inférieures. Si la balle touche le «sol» (en bas de l'écran), le joueur perd l'une des cinq «vies» et s'il reste des «vies», une nouvelle balle entre en jeu. Le but du joueur est de maximiser le score sur les cinq vies.

Il y a une note latérale intéressante ici. Breakout était le résultat des efforts d'Atari pour créer une version solo de son jeu à succès Pong. La conception et la mise en œuvre de Breakout ont été initialement attribuées en 1975 à un employé de vingt ans nommé Steve Jobs. Oui, ce Steve Jobs (plus tard, cofondateur d'Apple). Jobs manquait de compétences d'ingénierie suffisantes pour faire du bon travail sur Breakout, alors il a fait appel à son ami Steve Wozniak, âgé de vingt-cinq ans (plus tard, l'autre cofondateur d'Apple), pour l'aider dans le projet. Wozniak et Jobs ont achevé la conception matérielle de Breakout en quatre nuits, commençant à travailler chaque nuit après que Wozniak eut terminé son travail de jour chez Hewlett-Packard. Une fois sorti, Breakout, comme Pong, était extrêmement populaire parmi les joueurs.

Si vous devenez nostalgique mais négligez de vous accrocher à votre ancienne console de jeu Atari 2600, vous pouvez toujours trouver de nombreux sites Web proposant Breakout et d'autres jeux. En 2013, un groupe de chercheurs canadiens en intelligence artificielle a publié une plate-forme logicielle appelée Arcade Learning Environment qui a permis de tester facilement des systèmes d'apprentissage automatique sur quarante-neuf de ces jeux.3 C'était la plate-forme utilisée par le groupe DeepMind dans ses travaux apprentissage par renforcement.

Deep Q-Learning

Le groupe DeepMind a combiné l'apprentissage par renforcement - en particulier l'apprentissage Q - avec des réseaux de neurones profonds pour créer un système qui pourrait apprendre à jouer aux jeux vidéo Atari. Le groupe a qualifié leur approche d'apprentissage en profondeur. Pour expliquer le fonctionnement de l'apprentissage en profondeur, je vais utiliser Breakout comme exemple de course, mais DeepMind a utilisé la même méthode sur tous les jeux Atari auxquels ils se sont attaqués. Les choses deviendront un peu techniques ici, alors attachez votre ceinture de sécurité (ou passez à la section suivante).

FIGURE 28: Illustration d'un Deep Q-Network (DQN) pour Breakout

Rappelez-vous comment nous avons utilisé Q-learning pour former Rosie le robot-chien. Dans un épisode de Q-learning, à chaque itération, l'agent d'apprentissage (Rosie) fait ce qui suit: il détermine son état actuel, recherche cet état dans le Q-table, utilise les valeurs du tableau pour choisir une action, effectue cette action, reçoit éventuellement une récompense, et - l'étape d'apprentissage - met à jour les valeurs dans sa Q-table.

L'apprentissage Q profond de DeepMind est exactement le même, sauf qu'un réseau neuronal convolutionnel remplace la table Q. Après DeepMind, j'appellerai ce réseau le Deep Q-Network (DQN). La figure 28 illustre un DQN similaire (mais plus simple que) à celui utilisé par DeepMind pour apprendre à jouer à Breakout. L'entrée dans le DQN est l'état du système à un instant donné, qui est ici défini comme étant la «trame» actuelle - les pixels de l'écran actuel - plus trois trames précédentes (pixels d'écran des trois pas de temps précédents). Cette définition de l'état fournit au système une petite quantité de mémoire, ce qui s'avère utile ici. Les sorties du réseau sont les valeurs estimées pour chaque action possible, compte tenu de l'état d'entrée. Les actions possibles sont les suivantes: déplacer la palette vers la gauche, déplacer la palette vers la droite et No-Op («aucune opération,"C'est-à-dire, ne déplacez pas la palette). Le réseau lui-même est un ConvNet pratiquement identique à celui que j'ai décrit au chapitre 4. Au lieu des valeurs dans un tableau Q, comme nous l'avons vu dans l'exemple «Rosie», dans le Q-learning approfondi, ce sont les poids de ce réseau qui sont appris.

Le système de DeepMind apprend à jouer à Breakout sur de nombreux épisodes. Chaque épisode correspond à un jeu du jeu, et chaque itération au cours d'un épisode correspond au système effectuant une seule action. En particulier, à chaque itération, le système entre son état dans le DQN et choisit une action en fonction des valeurs de sortie du DQN. Le système ne choisit pas toujours l'action avec la valeur estimée la plus élevée; comme je l'ai mentionné ci-dessus, l'apprentissage par renforcement nécessite un équilibre entre l'exploration et l'exploitation.4 Le système effectue l'action choisie (par

exemple, déplacer la pagaie d'un montant vers la gauche) et recevoir éventuellement une récompense si la balle arrive à frapper l'une des briques. Le système effectue ensuite une étape d'apprentissage, c'est-à-dire la mise à jour des poids dans le DQN via la rétro-propagation.

Comment les poids sont-ils mis à jour? C'est le nœud de la différence entre l'apprentissage supervisé et l'apprentissage par renforcement. Comme vous vous en souviendrez des chapitres précédents, la rétropropagation fonctionne en modifiant les poids d'un réseau neuronal afin de réduire l'erreur dans les sorties du réseau. Avec l'apprentissage supervisé, la mesure de cette erreur est simple. Vous vous souvenez de notre hypothétique ConvNet au chapitre 4 dont le but était d'apprendre à classer les photos en «chien» ou «chat»? Si une photo de formation d'entrée représentait un chien mais que la confiance de sortie «chien» n'était que de 20%, alors l'erreur pour cette sortie serait de 100% - 20% = 80%; c'est-à-dire, idéalement, la sortie aurait dû être supérieure de 80 points. Le réseau a pu calculer l'erreur car il avait une étiquette fournie par un humain.

Cependant, dans l'apprentissage par renforcement, nous n'avons pas d'étiquettes. Un cadre donné du jeu ne vient pas étiqueté avec l'action qui doit être prise. Comment alors affecter une erreur à une sortie dans ce cas?

Voici la réponse. Rappelez-vous que si vous êtes l'agent d'apprentissage, la valeur d'une action dans l'état actuel est votre estimation de la récompense que vous recevrez à la fin de l'épisode, si vous choisissez cette action (et continuez à choisir des actions de grande valeur). Cette estimation devrait être meilleure à mesure que vous vous rapprochez de la fin de l'épisode, lorsque vous pouvez comptabiliser les récompenses que vous avez reçues! L'astuce consiste à supposer que les sorties du réseau à l'itération actuelle sont plus proches d'être correctes que ses sorties à l'itération précédente. L'apprentissage consiste alors à ajuster les pondérations du réseau (via la rétropropagation) afin de minimiser la différence entre l'itération actuelle et l'itération précédente.

les sorties. Richard Sutton, l'un des initiateurs de cette méthode, appelle cela "apprendre une supposition à partir d'une supposition." 5 Je modifierai cela en "apprenant une supposition à partir d'une meilleure supposition."

En bref, au lieu d'apprendre à faire correspondre ses sorties à des étiquettes données par l'homme, le réseau apprend à rendre ses sorties cohérentes d'une itération à l'autre, en supposant que les itérations ultérieures donnent de meilleures estimations de valeur que les itérations antérieures. Cette méthode d'apprentissage est appelée apprentissage par différence temporelle.

Pour récapituler, voici comment fonctionne l'apprentissage en profondeur pour le jeu de Breakout (et tous les autres jeux Atari). Le système donne son état actuel comme entrée au Deep Q-Network. Le Deep Q-Network génère une valeur pour chaque action possible. Le système choisit et exécute une action, résultant en un nouvel état. Maintenant, l'étape d'apprentissage a lieu: le système entre son nouvel état dans le réseau, qui sort un nouvel ensemble de valeurs pour chaque action. La différence entre le nouvel ensemble de valeurs et l'ancien ensemble de valeurs est considérée comme l '«erreur» du réseau; cette erreur est utilisée par rétropropagation pour modifier les poids du réseau. Ces étapes sont répétées sur de nombreux épisodes (parties du jeu). Juste pour être clair, tout ici - le Deep Q-Network, le «joystick» virtuel et le jeu lui-même - est un logiciel exécuté sur un ordinateur.

Il s'agit essentiellement de l'algorithme développé par les chercheurs de DeepMind, bien qu'ils aient utilisé quelques astuces pour l'améliorer et l'accélérer.6 Au début, avant que beaucoup d'apprentissage ne se produise, les sorties du réseau sont assez aléatoires et le jeu du système semble assez aléatoire également . Mais progressivement, à mesure que le réseau apprend des poids qui améliorent ses sorties, la capacité de jeu du système s'améliore, dans de nombreux cas de façon assez spectaculaire.

L'agent de 650 millions de dollars

Le groupe DeepMind a appliqué sa méthode d'apprentissage en profondeur aux quarante-neuf jeux Atari différents dans l'environnement d'apprentissage Arcade. Alors que les programmeurs de DeepMind utilisaient la même architecture de réseau et les mêmes paramètres d'hyperparamètre pour chaque jeu, leur système a appris chaque jeu à partir de zéro; c'est-à-dire que les connaissances du système (les pondérations du réseau) apprises pour un jeu n'ont pas été transférées lorsque le système a commencé à apprendre à jouer le jeu suivant. Chaque jeu a nécessité une formation pour des milliers d'épisodes, mais cela pourrait être fait relativement rapidement sur le matériel informatique avancé de la société.

FIGURE 29: Le joueur de DeepMind Breakout a découvert la stratégie de tunneling à travers les briques, ce qui lui a permis de détruire rapidement les briques supérieures de haute valeur en rebondissant sur le «plafond».

Après la formation d'un Deep Q-Network pour chaque jeu, DeepMind a comparé le niveau de jeu de la machine avec celui d'un «testeur de jeux professionnel» humain, qui a eu droit à deux heures de pratique pour jouer à chaque jeu avant d'être évalué. Cela ressemble à un travail amusant? Seulement si vous aimez être humilié par un ordinateur! Les programmes de Q-learning approfondis de DeepMind se sont avérés être de meilleurs joueurs que le testeur humain sur plus de la moitié des jeux. Et sur la moitié de ces jeux, les programmes étaient plus de deux fois supérieurs à l'humain. Et sur la moitié de ces jeux, les programmes étaient plus de cinq fois meilleurs. Un exemple étonnant était sur Breakout, où le programme DQN a marqué en moyenne plus de dix fois le score moyen de l'homme.

Qu'est-ce que ces programmes surhumains ont appris exactement à faire? Après enquête, DeepMind a découvert que leurs programmes avaient découvert des stratégies très intelligentes. Par exemple, le programme Breakout formé avait découvert une astuce sournoise, illustrée à la figure 29. Le programme a appris que si la balle était capable de faire tomber des briques de manière à construire un tunnel étroit à travers le bord de la couche de brique, alors la balle rebondir d'avant en arrière entre le «plafond» et le haut de la couche de briques, en éliminant très rapidement les briques supérieures de grande valeur sans que le joueur ait à déplacer la palette du tout.

DeepMind a présenté ce travail pour la première fois en 2013 lors d'une conférence internationale d'apprentissage automatique7. Le public a été ébloui. Moins d'un an plus tard, Google a annoncé qu'il acquérait DeepMind pour 440 millions de livres sterling (environ 650 millions de dollars à l'époque), probablement en raison de ces résultats. Oui, l'apprentissage par renforcement conduit parfois à de grandes récompenses.

Avec beaucoup d'argent dans leurs poches et les ressources de Google derrière eux, DeepMind - maintenant appelé Google DeepMind - a relevé un plus grand défi, qui était en fait depuis longtemps considéré comme l'un des «grands défis» de l'IA: créer un programme qui apprend pour jouer au jeu Allez mieux que n'importe quel humain. Le programme de DeepMind

AlphaGo s'appuie sur une longue histoire d'IA dans les jeux de société. Commençons par un bref aperçu de cette histoire, qui aidera à expliquer comment fonctionne AlphaGo et pourquoi il est si important.

Dames et échecs

En 1949, l'ingénieur Arthur Samuel a rejoint le laboratoire d'IBM à Poughkeepsie, New York, et a immédiatement commencé à programmer une première version de l'ordinateur 701 d'IBM pour jouer aux dames. Si vous avez vous-même une expérience en programmation informatique, vous apprécierez le défi auquel il a été confronté: comme l'a noté un historien, «Samuel a été la première personne à faire de la programmation sérieuse sur le 701 et, en tant que tel, n'avait aucun utilitaire système [c'est-à-dire essentiellement pas système d'exploitation!] pour faire appel. En particulier, il n'avait pas d'assembleur et devait tout écrire en utilisant les codes op et

». Pour traduire pour mes lecteurs non programmeurs, cela revient à construire une maison en utilisant uniquement une scie à main et un marteau. Le programme de jeu de dames de Samuel était parmi les premiers programmes d'apprentissage automatique; en effet, c'est Samuel qui a inventé le terme d'apprentissage automatique.

FIGURE 30: Partie d'un arbre de jeu pour les dames. Par souci de simplicité, cette figure montre seulement trois mouvements possibles à partir de chaque position de planche. Les flèches blanches pointent du carré précédent d'une pièce déplacée vers son carré actuel.

Le joueur de dames de Samuel était basé sur la méthode de recherche d'un arbre de jeu, qui est la base de tous les programmes pour jouer à des jeux de société à ce jour (y compris AlphaGo, que je décrirai ci-dessous). La figure 30 illustre une partie d'un arbre de jeu pour les dames. La «racine» de l'arbre (par convention dessinée en haut, contrairement à la racine d'un arbre naturel) montre le damier initial, avant que l'un des joueurs ne se déplace. Les «branches» de la racine mènent à tous les mouvements possibles pour le premier joueur (ici, Black). Il y a sept mouvements possibles (pour plus de simplicité, la figure n'en montre que trois). Pour chacun de ces sept coups pour les Noirs, il y a sept coups de réponse possibles pour les Blancs (pas tous illustrés sur la figure), et ainsi de suite. Chacune des planches de la figure 30, montrant une disposition possible des pièces, est appelée position de planches.

Imaginez-vous jouer à un jeu de dames. À chaque tour, vous pourriez construire une petite partie de cet arbre dans votre esprit. Vous pourriez vous dire: «Si je fais ce coup, mon adversaire pourrait faire ce coup, auquel cas je pourrais faire ce coup, ce qui me mettra en place pour un saut.» La plupart des gens, y compris les meilleurs joueurs, n'envisagent que quelques coups possibles, ne regardant que quelques étapes avant de choisir le coup à faire. Un ordinateur rapide,

d'autre part, a le potentiel d'effectuer ce type d'anticipation à une échelle beaucoup plus grande. Qu'est-ce qui empêche l'ordinateur de regarder chaque mouvement possible et de voir quelle séquence de mouvements mène le plus rapidement à une victoire? Le problème est le même type d'augmentation exponentielle que nous avons vu au chapitre 3 (rappelez-vous le roi, la sauge et les grains de riz?). Le jeu moyen des dames a environ cinquante mouvements, ce qui signifie que l'arbre de jeu de la figure 30 peut s'étendre sur cinquante niveaux. À chaque niveau, il y a en moyenne six ou sept branches de chaque poste possible au conseil d'administration. Cela signifie que le nombre total de positions de planche dans l'arbre pourrait être plus de six élevé au cinquantième pouvoir, un nombre ridiculement élevé. Un ordinateur hypothétique qui pourrait examiner un billion de positions de conseil par

la seconde prendrait plus de 1019 ans pour considérer toutes les positions du plateau dans un seul arbre de jeu. (Comme cela se fait souvent, nous pouvons comparer ce nombre avec l'âge de l'univers, qui n'est que de l'ordre de 1010 ans.) Il est clair qu'une recherche complète de l'arbre de jeu n'est pas possible.

Heureusement, il est possible pour les ordinateurs de bien jouer sans faire ce genre de recherche exhaustive. Sur chacun

à son tour, le programme de jeu de dames de Samuel a créé (dans la mémoire de l'ordinateur) une petite partie d'un arbre de jeu comme celui de la figure 30. La racine de l'arbre était la position actuelle du joueur sur le plateau, et le programme, en utilisant sa fonction intégrée connaissance des règles des contrôleurs, a généré tous les mouvements juridiques qu'il pourrait faire à partir de ce poste actuel de conseil. Il a ensuite généré tous les mouvements légaux que l'adversaire pouvait effectuer à partir de chacune des positions résultantes, et ainsi de suite, jusqu'à quatre ou cinq tours (ou «plis») d'anticipation.9

Le programme a ensuite évalué les postes du conseil qui sont apparus à la fin du processus de prospective; dans la figure 30, ce sont les positions du plateau dans la rangée inférieure de l'arborescence partielle. Évaluer un poste au conseil d'administration signifie lui attribuer une valeur numérique qui estime la probabilité qu'il mène à une victoire pour le programme. Le programme de Samuel a utilisé une fonction d'évaluation qui a donné des points pour diverses caractéristiques du plateau, telles que l'avantage de Black en nombre total de pièces, le nombre de rois de Black et le nombre de pièces de Black qui étaient sur le point d'être rois. Ces caractéristiques spécifiques ont été choisies par Samuel en utilisant sa connaissance des dames. Une fois que chacune des positions du tableau du bas a été ainsi évaluée, le programme a utilisé un algorithme classique, appelé minimax,qui a utilisé ces valeurs - à partir de la fin du processus d'anticipation - afin d'évaluer les mouvements possibles immédiats du programme par rapport à sa position actuelle au conseil d'administration. Le programme a ensuite choisi le coup le mieux noté.

L'intuition ici est que la fonction d'évaluation sera plus précise lorsqu'elle sera appliquée à des positions de plateau plus loin dans le jeu; ainsi, la stratégie du programme consiste à examiner d'abord toutes les séquences de déplacement possibles à quelques pas dans le futur, puis à appliquer la fonction d'évaluation aux positions du conseil qui en résultent. Les évaluations sont ensuite propagées dans l'arbre par minimax, ce qui produit une note de tous les mouvements immédiats possibles à partir de la position actuelle du tableau.

Ce que le programme a appris, c'est quelles caractéristiques du tableau doivent être incluses dans la fonction d'évaluation à un tour donné, et comment pondérer ces différentes caractéristiques lors de la sommation de leurs points. Samuel a expérimenté plusieurs méthodes d'apprentissage dans son système. Dans la version la plus intéressante, le système a appris en jouant lui-même! La méthode d'apprentissage était quelque peu compliquée, et je ne la détaillerai pas ici, mais elle comportait certains aspects qui préfiguraient l'apprentissage par renforcement moderne.11

En fin de compte, le joueur de dames de Samuel s'est élevé de manière impressionnante au niveau d'un «meilleur joueur que la moyenne», mais en aucun cas un champion. Certains joueurs amateurs l'ont qualifié de «délicat mais battable» .12 Mais notamment, le programme était une manne publicitaire pour IBM: le lendemain de la démonstration de Samuel à la télévision nationale en 1956, le cours de l'action d'IBM a augmenté de quinze points. C'était la première fois à plusieurs reprises qu'IBM voyait son cours de bourse augmenter après une démonstration d'un programme de jeu battant les humains; comme exemple plus récent, le cours des actions d'IBM de même

a augmenté après les émissions de télévision largement vues dans lesquelles son programme Watson a gagné dans le jeu télévisé Jeopardy!

Alors que le joueur de dames de Samuel était une étape importante dans l'histoire de l'IA, j'ai fait cette digression historique principalement pour introduire trois concepts essentiels qu'il illustre: l'arbre de jeu, la fonction d'évaluation et l'apprentissage par le jeu automatique.

Bleu profond

Bien que le programme de dames «délicat mais battable» de Samuel était remarquable, surtout pour son époque, il ne remettait guère en question l'idée que les gens se faisaient d'une intelligence unique. Même si une machine pouvait gagner contre les champions des dames humaines (comme on l'a finalement fait en 199413), maîtriser le jeu des dames n'a jamais été vu comme un proxy de l'intelligence générale. Les échecs sont une autre histoire. Pour reprendre les mots de Demis Hassabis de DeepMind, «Pendant des décennies, les principaux informaticiens ont estimé que, étant donné le statut traditionnel des échecs comme une démonstration exemplaire de la

l'intellect, un joueur d'échecs informatique compétent dépasserait bientôt aussi toutes les autres capacités humaines. »14 Beaucoup de gens, y compris les premiers pionniers de l'IA Allen Newell et Herbert Simon, professaient cette vision exaltée des échecs; en 1958, Newell et Simon ont écrit: «Si l'on pouvait concevoir une machine à échecs réussie, on aurait pu pénétrer

au cœur de l'effort intellectuel humain. »15

Les échecs sont beaucoup plus complexes que les dames. Par exemple, j'ai dit plus haut que dans les dames, il y a, en moyenne, six ou sept mouvements possibles à partir de n'importe quelle position de planche donnée. En revanche, les échecs ont en moyenne trente-cinq mouvements à partir de n'importe quelle position de plateau donnée. Cela rend l'arbre de jeu d'échecs énormément plus grand que celui des dames. Au fil des décennies, les programmes de jeu d'échecs ont continué de s'améliorer, au rythme des améliorations de la vitesse du matériel informatique. En 1997, IBM a connu son deuxième grand triomphe avec Deep Blue, un programme d'échecs qui a battu le champion du monde Garry Kasparov lors d'un match multijoueur largement diffusé.

Deep Blue a utilisé à peu près la même méthode que le joueur de dames de Samuel: à un tour donné, il a créé un arbre de jeu partiel en utilisant la position actuelle du plateau comme racine; il a appliqué sa fonction d'évaluation à la couche la plus éloignée de l'arbre, puis a utilisé l'algorithme minimax pour propager les valeurs vers le haut de l'arbre afin de déterminer le mouvement à effectuer. Les principales différences entre le programme de Samuel et Deep Blue étaient l'anticipation plus profonde de Deep Blue dans son arbre de jeu, sa fonction d'évaluation plus complexe (spécifique aux échecs), sa connaissance des échecs programmée à la main et son matériel parallèle spécialisé pour le faire fonctionner très rapidement. De plus, contrairement au programme de jeu de dames de Samuel, Deep Blue n'utilisait pas l'apprentissage automatique de manière centrale.

Comme le joueur de dames de Samuel avant lui, la défaite de Deep Blue de Kasparov a provoqué une augmentation significative du cours des actions d'IBM.16 Cette défaite a également suscité une consternation considérable dans les médias quant aux implications pour l'intelligence surhumaine ainsi que des doutes quant à la motivation des humains à jouer. échecs. Mais dans les décennies qui ont suivi Deep Blue, l'humanité s'est adaptée. Comme Claude Shannon l'écrivait de façon prémonitoire en 1950, une machine qui peut surpasser les humains aux échecs «nous obligera soit à admettre la possibilité d'une pensée mécanisée, soit à restreindre davantage notre conception de la pensée» 17. Le jeu d'échecs surhumain est maintenant considéré comme quelque chose qui ne nécessite pas d'intelligence générale. Deep Blue n'est pas intelligent dans tous les sens que nous entendons aujourd'hui. Il ne peut rien faire d'autre que jouer aux échecs,et il n'a aucune idée de ce que «jouer à un jeu» ou «gagner» signifie pour les humains. (J'ai entendu un jour un orateur dire: «Deep Blue a peut-être battu Kasparov, mais cela n'en a pas tiré de joie.») De plus, les échecs ont survécu

—Même prospéré — comme une activité humaine difficile. De nos jours, les programmes d'échecs informatiques sont utilisés par l'homme

les joueurs comme une sorte d'aide à la formation, comme un joueur de baseball pourrait s'exercer à utiliser une machine à lancer. Est-ce le résultat de notre notion évolutive de l'intelligence, que les progrès de l'IA aident à clarifier? Ou est-ce un autre exemple de la maxime de John McCarthy: «Dès que cela fonctionne, plus personne ne l'appelle IA»? 18

Le grand défi de Go

Le jeu de Go existe depuis plus de deux mille ans et est considéré comme l'un des plus difficiles de tous les jeux de société. Si vous n'êtes pas un joueur de Go, ne vous inquiétez pas; aucune de mes discussions ici ne nécessitera aucune connaissance préalable du jeu. Mais il est utile de savoir que le jeu a un statut sérieux, surtout en Asie de l'Est, où il est extrêmement populaire. «Le go est un passe-temps apprécié des empereurs et des généraux, des intellectuels et des enfants prodiges», écrit le savant et journaliste Alan Levinovitz, qui poursuit en citant le champion sud-coréen de go Lee Sedol: «Il y a des échecs dans

le monde occidental, mais Go est incomparablement plus subtil et intellectuel. »19

Go est un jeu qui a des règles assez simples mais produit ce que l'on pourrait appeler une complexité émergente. À chaque tour, un joueur place un morceau de sa couleur (noir ou blanc) sur un plateau de dix-neuf par dix-neuf carrés, en suivant les règles pour savoir où les pièces peuvent être placées et comment capturer les pièces de son adversaire. Contrairement aux échecs, avec sa hiérarchie de pions, d'évêques, de reines, etc., les pièces en Go («pierres») sont toutes égales. C'est la configuration des pierres sur le plateau qu'un joueur doit analyser rapidement pour décider d'un coup.

Créer un programme pour bien jouer à Go est une priorité de l'IA depuis les débuts du terrain. Cependant, la complexité de Go a rendu cette tâche remarquablement difficile. En 1997, la même année que Deep Blue battait Kasparov, les meilleurs programmes de Go pouvaient toujours être facilement vaincus par les joueurs moyens. Deep Blue, vous vous en souviendrez, a été en mesure de faire beaucoup d'anticipation à partir de n'importe quel poste de conseil d'administration, puis d'utiliser sa fonction d'évaluation pour attribuer des valeurs aux futurs postes de conseil d'administration, où chaque valeur prédisait si un poste de conseil d'administration particulier entraînerait gagner. Les programmes Go ne peuvent pas utiliser cette stratégie pour deux raisons. Tout d'abord, la taille d'un arbre d'anticipation dans Go est considérablement plus grande que celle des échecs. Alors qu'un joueur d'échecs doit choisir en moyenne 35 coups possibles à partir d'une position de plateau donnée, un joueur de Go a en moyenne 250 possibilités.Même avec du matériel spécial, une recherche par force brute de style Deep Blue de

l'arbre de jeu Go n'est tout simplement pas réalisable. Deuxièmement, personne n'a réussi à créer une bonne fonction d'évaluation pour les postes du conseil d'administration de Go. Autrement dit, personne n'a été en mesure de construire une formule réussie qui examine un poste au sein du conseil d'administration de Go et prédit qui va gagner. Les meilleurs joueurs (humains) de Go comptent sur leurs compétences en reconnaissance de formes et leur intuition ineffable.

Les chercheurs en IA n'ont pas encore compris comment coder l'intuition en fonction d'évaluation. C'est pourquoi, en 1997, la même année où Deep Blue a battu Kasparov, le journaliste George Johnson a écrit dans le New York Times: «Quand ou si un ordinateur bat un champion de Go humain, ce sera un signe que l'intelligence artificielle commence vraiment pour devenir aussi bon que la vraie chose. »20 Cela peut sembler familier, tout comme ce que les gens disaient des échecs! Johnson a cité la prédiction d'un passionné de Go: «Cela peut prendre cent ans avant qu'un ordinateur ne batte les humains à Go ...

peut-être même plus. " À peine vingt ans plus tard, AlphaGo, qui a appris à jouer au Go via un apprentissage en profondeur, a battu Lee Sedol dans un match de cinq matchs.

AlphaGo Versus Lee Sedol

Avant d'expliquer le fonctionnement d'AlphaGo, commémorons d'abord ses victoires spectaculaires contre Lee Sedol, l'un des meilleurs joueurs de Go au monde. Même après avoir vu AlphaGo vaincre Fan Hui, alors champion d'Europe de Go, six mois plus tôt, Lee était confiant qu'il l'emporterait: «Je pense que le niveau [d'AlphaGo] ne correspond pas au mien.… Bien sûr, il y aurait eu de nombreuses mises à jour dans le quatre ou cinq derniers mois, mais ce n'est pas assez de temps pour me défier. »21

Peut-être que vous faisiez partie des plus de deux cents millions de personnes qui ont regardé une partie de l'AlphaGo-

Match de Lee en ligne en mars 2016. Je suis certain que cela représente de loin le plus grand public pour n'importe quel match de Go dans l'histoire du jeu depuis 2500 ans. Après le premier match, vous auriez peut-être partagé la réaction de Lee après sa défaite au programme: "Je suis sous le choc, je l'avoue. ... Je ne pensais pas qu'AlphaGo jouerait le jeu d'une manière aussi parfaite." 22

Le jeu «parfait» d'AlphaGo comprenait de nombreux mouvements qui ont suscité la surprise et l'admiration parmi les matchs.

commentateurs humains. Mais à mi-chemin du jeu 2, AlphaGo a fait un seul mouvement qui a gobsmack même les experts Go les plus avancés. Comme l'a signalé Wired,

Au début, Fan Hui [le champion d'Europe susmentionné de Go] pensait que cette décision était plutôt étrange. Mais alors il a vu sa beauté. «Ce n'est pas un geste humain. Je n'ai jamais vu un humain jouer ce coup », dit-il. "Si belle." C'est un mot qu'il ne cesse de répéter. Belle. Belle. Magnifique. «C'est une décision très surprenante», a déclaré l'un des commentateurs anglophones du match, qui est lui-même un joueur de Go très talentueux. Puis l'autre a ri et a dit: "Je pensais que c'était une erreur." Mais peut-être que personne n'a été plus surpris que Lee Sedol, qui s'est levé

et a quitté la salle de match. «Il devait aller se laver le visage ou quelque chose‚ juste pour récupérer », a déclaré le premier commentateur23.

De ce même mouvement, The Economist a noté: «Curieusement, des mouvements comme ceux-ci sont parfois effectués par des maîtres humains de Go. Ils sont connus en japonais sous le nom de kami no itte («la main de Dieu» ou «mouvements divins»). »24

AlphaGo a gagné ce match et le suivant. Mais dans le jeu 4, Lee avait son propre moment kami no itte, celui qui capture

la complexité du jeu et la puissance intuitive des meilleurs joueurs. La décision de Lee a pris les commentateurs par surprise, mais ils l'ont immédiatement reconnu comme potentiellement mortel pour l'adversaire de Lee. Un écrivain a noté: «AlphaGo, cependant, ne semblait pas réaliser ce qui se passait. Ce n'était pas quelque chose qu'il avait rencontré… dans les millions et les millions de jeux avec lesquels il avait joué. Lors de la conférence de presse d'après-match, Sedol a été invité à dire à quoi il pensait quand il l'a joué. C'était, a-t-il dit, le seul mouvement qu'il avait pu voir. »25

AlphaGo a perdu le match 4 mais est revenu pour gagner le match 5 et donc le match. Dans les médias populaires, c'était à nouveau Deep Blue contre Kasparov, avec une infinité de réflexions sur ce que le triomphe d'AlphaGo signifiait pour l'avenir de l'humanité. Mais c'était encore plus important que la victoire de Deep Blue: l'IA avait surmonté un défi encore plus grand que les échecs et l'avait fait de manière beaucoup plus impressionnante. Contrairement à Deep Blue, AlphaGo a acquis ses capacités en renforçant l'apprentissage via l'auto-jeu.

Demis Hassabis a noté que «la chose qui sépare les meilleurs joueurs de Go [est] leur intuition» et que «ce que nous avons fait avec AlphaGo est d'introduire avec les réseaux de neurones cet aspect de l'intuition, si vous voulez l'appeler ainsi.» 26

Comment fonctionne AlphaGo

Il y a eu plusieurs versions différentes d'AlphaGo, donc pour les garder droites, DeepMind a commencé à les nommer d'après les champions humains de Go que les programmes avaient vaincus - AlphaGo Fan et AlphaGo Lee - qui pour moi évoquaient

l'image des crânes d'ennemis vaincus dans la collection d'un Viking numérique. Pas ce que DeepMind voulait, j'en suis sûr. Dans tous les cas, AlphaGo Fan et AlphaGo Lee ont tous deux utilisé un mélange complexe de Q-learning profond, de «recherche d'arbre Monte Carlo», d'apprentissage supervisé et de connaissances spécialisées en Go. Mais un an après le match de Lee Sedol, DeepMind a développé une version du programme qui était à la fois plus simple et supérieure aux versions précédentes. Cette version plus récente s'appelle AlphaGo Zero parce que, contrairement à son prédécesseur, elle a commencé avec une connaissance «zéro» de Go en plus des règles27. De plus, DeepMind a appliqué les mêmes méthodes (mais avec différents réseaux et différentes règles de jeu intégrées) pour apprendre à jouer aux échecs et au shogi (également connu sous le nom d'échecs japonais).28 Les auteurs ont appelé la collection de ces méthodes AlphaZero. Dans cette section, je vais décrire le fonctionnement d'AlphaGo Zero, mais par souci de concision, je ferai simplement référence à cette version sous le nom d'AlphaGo.

FIGURE 31: Une illustration de la recherche d'arbre Monte Carlo

Le mot intuition a une aura de mystère, mais l'intuition d'AlphaGo (si vous voulez l'appeler ainsi) découle de sa combinaison d'un apprentissage en profondeur avec une méthode intelligente appelée «recherche d'arbre Monte Carlo». Prenons un moment pour déballer ce nom encombrant. Tout d'abord, la partie «Monte Carlo». Monte Carlo est, bien sûr, la partie la plus glamour de la minuscule Principauté de Monaco, sur la Côte d'Azur, célèbre pour ses casinos jet-setter, ses courses automobiles et ses fréquentes apparitions dans les films de James Bond. Mais en science et en mathématiques, «Monte Carlo» fait référence à une famille d'algorithmes informatiques, la méthode dite de Monte Carlo, qui a été utilisée pour la première fois lors du projet Manhattan pour aider à concevoir la bombe atomique.Le nom vient de l'idée qu'un degré d'aléatoire - comme celui de la roue de roulette emblématique qui tourne au Casino de Monte Carlo - peut être utilisé par un ordinateur pour résoudre des problèmes mathématiques difficiles.

La recherche d'arbres Monte Carlo est une version de la méthode Monte Carlo spécialement conçue pour les programmes de jeux informatiques. Semblable à la façon dont la fonction d'évaluation de Deep Blue fonctionnait, la recherche d'arbre de Monte Carlo est utilisée pour attribuer un score à chaque mouvement possible à partir d'une position donnée du plateau. Cependant, comme je l'ai expliqué ci-dessus, il n'est pas possible d'utiliser Go dans l'avenir dans l'arborescence de jeu, et personne n'a été en mesure de proposer une bonne fonction d'évaluation pour les positions du conseil d'administration dans Go. La recherche d'arbre Monte Carlo fonctionne différemment.

La figure 31 illustre la recherche d'arbre Monte Carlo. Tout d'abord, regardez la figure 31A. Le cercle noir représente la position actuelle du plateau, c'est-à-dire la configuration des pièces sur le plateau au tour en cours. Supposons que notre programme Go-Playing joue au noir, et c'est le mouvement des noirs. Supposons pour simplifier qu'il existe trois mouvements possibles pour les Noirs, représentés par les trois flèches. Quelle décision les Noirs devraient-ils choisir?

Si les Noirs disposaient de suffisamment de temps, cela pourrait faire une «recherche complète» de l'arbre de jeu: regardez en avant toutes les séquences possibles de coups qui pourraient être joués et choisissez un coup qui donne les meilleures chances de mener à une victoire pour les Noirs. Mais il n'est pas possible de faire cet aperçu exhaustif; comme je l'ai mentionné plus tôt, même tout le temps depuis le début de l'univers n'est pas suffisant pour faire une recherche d'arbre complète dans Go. Avec la recherche d'arbres de Monte Carlo, Black ne regarde qu'une infime fraction des séquences possibles qui pourraient découler de chaque mouvement, compte le nombre de victoires et de pertes que ces séquences hypothétiques entraînent et utilise ces chiffres pour donner un score à chacune de ses possibles se déplace. Le caractère aléatoire inspiré de la roue de roulette est utilisé pour décider de la façon de faire la prévision.

Plus précisément, afin de choisir un mouvement à partir de sa position actuelle, Black «imagine» (c'est-à-dire simule)

plusieurs façons possibles de jouer, comme illustré sur la figure 31B – D. Dans chacune de ces simulations, Black commence à sa position actuelle, choisit au hasard l'un de ses mouvements possibles, puis (à partir de la nouvelle position du plateau) choisit au hasard un mouvement pour son adversaire (Blanc), et ainsi de suite, jusqu'à la fin du jeu simulé dans une victoire ou une perte pour les Noirs. Une telle simulation, à partir d'une position de carte donnée, est appelée un déploiement à partir de cette position.

Sur la figure, vous pouvez voir que dans les trois déploiements, Black a gagné une fois et perdu deux fois. Les Noirs peuvent désormais attribuer un score à chaque mouvement possible depuis leur position actuelle sur le plateau (figure 31E). Le mouvement 1 (flèche la plus à gauche) a participé à deux déploiements, dont l'un s'est terminé par une victoire, de sorte que le score du mouvement est de 1 sur 2. Le mouvement 3 (flèche la plus à droite) a participé à un déploiement, qui s'est soldé par une perte, son score est donc de 0 sur 1. Le coup central n'a pas été essayé du tout, donc son score est fixé à 0. De plus, le programme conserve des statistiques similaires sur tous les coups intermédiaires ayant participé aux déploiements. Une fois cette ronde de recherche d'arbres de Monte Carlo terminée, le programme peut utiliser ses scores mis à jour pour décider lequel de ses mouvements possibles semble le plus prometteur - ici, le mouvement 1. Le programme peut alors effectuer ce mouvement dans le jeu réel.

Lorsque j'ai dit auparavant que lors d'un déploiement, le programme choisit des mouvements pour lui-même et ses adversaires au hasard, ce qui se passe en réalité, c'est que le programme choisit des mouvements de manière probabiliste en fonction des scores que ces mouvements pourraient avoir lors des cycles précédents de recherche d'arbres de Monte Carlo. Lorsque chaque déploiement se termine par une victoire ou une perte, l'algorithme met à jour tous les scores de coups qu'il a effectués au cours de cette partie pour refléter la victoire ou la perte.

Au début, le programme choisit des mouvements à partir d'une position de planche donnée est assez aléatoire (le programme fait l'équivalent de faire tourner une roue de roulette pour choisir un mouvement), mais comme le programme effectue des déploiements supplémentaires, générant des statistiques supplémentaires, il est de plus en plus biaisé pour choisir les mouvements qui, dans les déploiements antérieurs, ont conduit au plus de victoires.

De cette façon, la recherche d'arbre de Monte Carlo n'a pas à deviner, en regardant simplement la position du plateau, quel mouvement est le plus susceptible de conduire à une victoire; il utilise ses déploiements pour collecter des statistiques sur le nombre de fois où un mouvement donné entraîne réellement une victoire ou une perte. Plus l'algorithme s'exécute, plus ses statistiques sont bonnes. Comme précédemment, le programme doit équilibrer l'exploitation (choisir les mouvements les plus performants lors d'un déploiement) et l'exploration (choisir parfois les mouvements les moins performants pour lesquels le programme n'a pas encore beaucoup de statistiques). Dans la figure 31, j'ai montré trois déploiements; La recherche d'arbre Monte Carlo d'AlphaGo a effectué près de deux mille déploiements par tour.

Les informaticiens de DeepMind n'ont pas inventé la recherche d'arbre Monte Carlo. Il a été proposé pour la première fois dans le contexte des arbres de jeu en 2006, et il s'est traduit par une très grande amélioration de la capacité des programmes informatiques Go. Mais ces programmes ne pouvaient toujours pas battre les meilleurs humains. Un problème était que la génération de statistiques suffisantes à partir des déploiements peut prendre beaucoup de temps, en particulier dans Go, avec son grand nombre de mouvements possibles. Le groupe DeepMind s'est rendu compte qu'il pourrait améliorer son système en complétant la recherche d'arbres Monte Carlo avec un réseau neuronal convolutionnel profond. Étant donné la position actuelle de la carte en entrée, AlphaGo utilise un réseau neuronal convolutionnel profond pour attribuer une valeur approximative à tous les mouvements possibles depuis la position actuelle. Ensuite, la recherche d'arbre Monte Carlo utilise ces valeurs pour lancer sa recherche:Plutôt que de choisir initialement des mouvements au hasard, la recherche arborescente de Monte Carlo utilise les valeurs fournies par ConvNet comme indicateur des mouvements initiaux à privilégier. Imaginez que AlphaGo regarde une position de planche: avant de commencer le processus de Monte-Carlo pour effectuer des déploiements à partir de cette position, le ConvNet vous murmure à l'oreille quels mouvements possibles depuis votre position actuelle sont probablement les meilleurs.

Inversement, les résultats de la recherche d'arbres de Monte Carlo remontent pour former le ConvNet. Imaginez-vous comme AlphaGo après une recherche d'arbre Monte Carlo. Les résultats de votre recherche sont de nouvelles probabilités affectées à tous vos mouvements possibles, en fonction du nombre de fois où ces mouvements ont entraîné des victoires ou des pertes lors des déploiements que vous avez effectués. Ces nouvelles probabilités sont désormais utilisées pour corriger la sortie de votre ConvNet, via la rétropropagation. Vous et votre adversaire choisissez ensuite des coups, à la suite desquels vous avez une nouvelle position de plateau, et le processus continue. En principe, le réseau neuronal convolutionnel apprendra à reconnaître les modèles, tout comme les maîtres Go. À terme, le ConvNet jouera le rôle d '«intuition» du programme, qui est encore amélioré par la recherche d'arbres Monte Carlo.

Comme son ancêtre, le joueur de dames de Samuel, AlphaGo apprend en jouant contre lui-même sur de nombreux jeux (environ cinq millions). Au cours de sa formation, les poids du réseau de neurones convolutionnels sont mis à jour après chaque déplacement en fonction de la différence entre les valeurs de sortie du réseau et les valeurs améliorées après l'exécution de la recherche d'arbre Monte Carlo. Ensuite, quand il est temps pour AlphaGo de jouer, disons, un humain comme Lee Sedol, le ConvNet formé est utilisé à chaque tour pour générer des valeurs pour aider la recherche d'arbre Monte Carlo à démarrer.

Avec son projet AlphaGo, DeepMind a démontré que l'un des grands défis de longue date de l'IA pouvait être surmonté par une combinaison inventive d'apprentissage par renforcement, de réseaux de neurones convolutifs et de recherche d'arbres Monte Carlo (et en ajoutant un puissant matériel informatique moderne au mélange). En conséquence, AlphaGo a atteint une place bien méritée dans le panthéon AI. Mais quelle est la prochaine étape? Cette puissante combinaison de méthodes se généralisera-t-elle au-delà du monde du jeu? C'est la question dont je discute dans le chapitre suivant.

dix

Au-delà des jeux

Au cours de la dernière décennie, l'apprentissage par renforcement est passé d'une branche relativement obscure de l'IA à l'une des approches les plus intéressantes (et les plus financées) du domaine. La résurgence de l'apprentissage par renforcement, en particulier aux yeux du public, est largement due aux projets DeepMind que j'ai décrits dans le chapitre précédent. Les résultats de DeepMind sur les jeux Atari et sur Go sont en effet remarquables et importants, et ils méritent leurs éloges.

Cependant, le développement de programmes de jeu surhumains n'est pas, pour la plupart des chercheurs en IA, une fin en soi. Revenons en arrière et posons des questions sur les implications de ces succès pour des progrès plus larges en IA. Demis Hassabis a quelque chose à dire à ce sujet:

Les jeux ne sont que notre plate-forme de développement.… C'est le moyen le plus rapide de développer ces algorithmes d'IA et de les tester, mais en fin de compte, nous voulons les utiliser pour qu'ils s'appliquent à des problèmes du monde réel et aient un impact énorme sur des choses comme les soins de santé et la science. Le fait est que c'est général

AI - c'est apprendre à faire des choses [sur la base] de sa propre expérience et de ses propres données.1

Examinons un peu cela. À quel point cette IA est-elle générale? Dans quelle mesure est-il applicable au monde réel, au-delà des jeux? Dans quelle mesure ces systèmes apprennent-ils réellement «par eux-mêmes»? Et qu'est-ce qu'ils apprennent exactement?

Généralité et «transfert d'apprentissage»

Lorsque je cherchais en ligne des articles sur AlphaGo, le Web m'a proposé ce titre accrocheur: «AlphaGo a maîtrisé les échecs de DeepMind dans son temps libre.» 2 Cette affirmation est erronée et trompeuse, et il est important de comprendre pourquoi. AlphaGo (dans toutes ses versions) ne peut jouer que Go. Même la version la plus générale, AlphaZero, n'est pas un système unique qui a appris à jouer au go, aux échecs et au shogi. Chaque jeu a son propre réseau de neurones convolutifs qui doit être formé à partir de zéro pour son jeu particulier. Contrairement aux humains, aucun de ces programmes ne peut

«Transférer» tout ce qu'il a appris sur un jeu pour l'aider à apprendre un jeu différent.

Il en va de même pour les différents programmes de jeu Atari: chacun apprend son propre poids de réseau à partir de zéro. C'est comme si vous aviez appris à jouer au Pong, mais pour apprendre à jouer à Breakout, vous devez complètement oublier tout ce que vous avez appris à jouer au Pong et commencer à la case départ.

Une expression pleine d'espoir dans la communauté du machine learning est «transfert d'apprentissage», qui fait référence à la capacité d'un programme à transférer ce qu'il a appris sur une tâche pour l'aider à effectuer une tâche connexe différente. Pour les humains, l'apprentissage par transfert est automatique. Après avoir appris à jouer au ping-pong, j'ai pu transférer certaines de ces compétences pour m'aider à apprendre le tennis et le badminton. Savoir jouer aux dames m'a aidé à apprendre à jouer aux échecs. Quand j'étais tout-petit, il m'a fallu un certain temps pour apprendre à tourner la poignée de porte dans ma chambre, mais une fois que j'ai maîtrisé cette compétence, mes capacités se sont rapidement généralisées à la plupart des poignées de porte.

Les humains présentent ce type de transfert d'une tâche à une autre sans effort; notre capacité à généraliser ce que nous apprenons est au cœur de ce que cela signifie pour nous de penser. Ainsi, en langage humain, nous pourrions dire qu'un autre terme pour l'apprentissage par transfert est, bien, l'apprentissage.

En contraste frappant avec les humains, la plupart des «apprentissages» dans l'IA actuelle ne sont pas transférables entre les tâches connexes. À cet égard, le domaine est encore loin de ce que Hassabis appelle «l'IA générale». Bien que le sujet de l'apprentissage par transfert soit l'un des domaines de recherche les plus actifs pour les praticiens de l'apprentissage automatique, les progrès sur ce front sont encore naissants3.

«Sans exemples ni conseils humains»

Contrairement à l'apprentissage supervisé, l'apprentissage par renforcement offre la promesse de programmes qui peuvent vraiment apprendre par eux-mêmes,

simplement en effectuant des actions dans leur «environnement» et en observant le résultat. L'affirmation la plus importante de DeepMind sur ses résultats, en particulier sur AlphaGo, est que le travail a tenu cette promesse: «Nos résultats démontrent de manière exhaustive qu'une approche d'apprentissage par renforcement pur est pleinement réalisable, même dans les domaines les plus difficiles: il est possible de s'entraîner à un niveau surhumain, sans exemples ni conseils humains, sans connaissance du domaine au-delà des règles de base. »4

Nous avons la réclamation. Voyons maintenant les mises en garde. AlphaGo (ou plus précisément, la version AlphaGo Zero) n'a en effet utilisé aucun exemple humain dans son apprentissage, mais le «guidage» humain est une autre histoire. L'architecture spécifique de son réseau de neurones convolutifs, l'utilisation de la recherche d'arbres de Monte Carlo et le réglage des nombreux hyperparamètres que ces deux éléments impliquent sont quelques-uns des aspects de l'orientation humaine qui ont été essentiels à son succès. Comme l'a souligné le psychologue et chercheur en IA Gary Marcus, aucun de ces aspects cruciaux d'AlphaGo n'a été «appris des données, par un apprentissage par renforcement pur. Au contraire, [ils ont été] construits de manière innée… par DeepMind

5 Les programmes de jeu Atari de DeepMind étaient en fait de meilleurs exemples d '«apprentissage sans guidage humain» qu'AlphaGo, car contrairement à ce dernier, ils ne disposaient pas des règles de leur jeu (par exemple, le but de Breakout est de détruire briques) ou même un concept des «objets» pertinents pour le jeu (par exemple, la pagaie ou la balle) mais appris exclusivement à partir des pixels de l'écran.

Le plus difficile des domaines

Un aspect supplémentaire de la déclaration de DeepMind doit être exploré: «même dans les domaines les plus difficiles». Comment évaluer la difficulté d'un domaine pour l'IA? Comme nous l'avons vu, beaucoup de choses que nous, les humains, considérons assez faciles (par exemple, décrire le contenu d'une photo) sont extrêmement difficiles pour les ordinateurs. Inversement, beaucoup de choses que nous, humains, trouverions terrifiantes (par exemple, multiplier correctement deux nombres à cinquante chiffres), les ordinateurs peuvent le faire en une fraction de seconde avec un programme d'une ligne.

Une façon d'évaluer le défi d'un domaine pour les ordinateurs est de voir à quel point des algorithmes très simples fonctionnent sur lui. En 2018, un groupe de chercheurs d'Uber AI Labs a découvert que certains algorithmes relativement simples correspondaient presque (et parfois surpassaient) la méthode d'apprentissage en profondeur de DeepMind sur plusieurs jeux vidéo Atari. La bonne performance la plus surprenante a été la «recherche aléatoire»: au lieu de former un Deep Q-Network en renforçant l'apprentissage sur plusieurs épisodes, on peut simplement essayer de nombreux réseaux de neurones convolutifs différents choisis au hasard

C'est-à-dire qu'il n'y a aucun apprentissage, sauf par essais et erreurs aléatoires.

On pourrait penser qu'un réseau avec des poids aléatoires fonctionnerait abominablement sur un jeu vidéo Atari. En effet, la plupart de ces réseaux sont de terribles joueurs. Mais les chercheurs d'Uber ont continué à essayer de nouveaux réseaux à poids aléatoire, et finalement (en moins de temps qu'il n'en a fallu pour former un Deep Q-Network), ils ont trouvé des réseaux qui fonctionnaient presque aussi bien ou même mieux que les réseaux formés par un Q-learning approfondi sur cinq des treize matchs testés. Un autre algorithme relativement simple, un soi-disant algorithme génétique, 7 a surpassé l'apprentissage en profondeur Q sur sept sur treize

Jeux. Il est difficile de savoir quoi dire de ces résultats, sauf qu'il est possible que le domaine du jeu Atari ne soit pas aussi difficile pour l'IA que les gens le pensaient à l'origine.

Je n'ai entendu parler de personne essayant une recherche aléatoire similaire pour les poids de réseau pour Go. Je serais très surpris si cela fonctionnait. Compte tenu de la longue histoire de tentatives de création de joueurs Go pour ordinateur, je suis convaincu que Go compte comme un domaine véritablement difficile pour l'IA. Cependant, comme l'a souligné Gary Marcus, de nombreux jeux auxquels les humains jouent sont encore plus difficiles pour AI que Go. Un exemple frappant que Marcus donne est celui des charades, 8 qui, si vous y réfléchissez, nécessitent une compréhension visuelle, linguistique et sociale sophistiquée bien au-delà des capacités de toute IA actuelle.

système. Si vous pouviez construire un robot capable de jouer des charades ainsi que, disons, un enfant de six ans, alors je pense que vous pourriez dire en toute sécurité que vous avez conquis plusieurs des «domaines les plus difficiles» pour l'IA.

Qu'ont appris ces systèmes?

Comme pour d'autres applications d'apprentissage en profondeur, il est difficile d'interpréter ce que les réseaux de neurones utilisés dans ces systèmes de jeu ont réellement appris. En lisant les sections ci-dessus, vous avez peut-être remarqué un anthropomorphisme subtil se glissant dans mes descriptions: par exemple, j'ai dit: "Le lecteur Breakout de DeepMind a découvert la stratégie de tunneling à travers les briques."

Il est dangereusement facile, pour moi comme pour quiconque, de glisser dans ce genre de langage en parlant du comportement des systèmes d'IA. Cependant, notre langage comporte souvent des hypothèses inconscientes qui peuvent ne pas être valables pour ces

programmes. Le joueur Breakout de DeepMind a-t-il réellement découvert le concept de tunneling? Gary Marcus nous rappelle que nous devons faire attention ici:

Le système n'a rien appris de tel; il ne comprend pas vraiment ce qu'est un tunnel ou ce qu'est un mur; il vient d'apprendre des contingences spécifiques pour des scénarios particuliers. Tests de transfert - dans lesquels le système d'apprentissage par renforcement profond est confronté à des scénarios qui diffèrent en mineur

différentes de celles sur lesquelles le système a été formé - montrent que les solutions d'apprentissage par renforcement profond sont souvent extrêmement superficielles9.

Marcus fait référence à quelques études qui ont tenté de déterminer dans quelle mesure les systèmes de Q-learning profonds peuvent transférer ce qu'ils ont appris, même à de très petites variations du même jeu. Par exemple, un groupe de chercheurs a étudié un système similaire au lecteur Breakout de DeepMind. Ils ont constaté qu'une fois que le joueur était formé au niveau «surhumain», si la position de la palette sur l'écran était décalée de quelques pixels, les performances du système chutaient10. Cela laisse entendre que le système n'a même pas appris le concept de base de la palette. Un autre groupe a montré que pour un Q-learning profond

système formé sur le jeu Pong, si la couleur d'arrière-plan de l'écran est modifiée, les performances du système diminuent considérablement.11 De plus, dans chaque cas, le système a besoin de nombreux épisodes de recyclage pour s'adapter à la variation.

Ce ne sont que deux exemples de l'incapacité profonde du Q-learning à généraliser, ce qui contraste de façon frappante avec

l'intelligence humaine. Je ne connais aucune étude qui ait sondé le concept de tunneling dans le lecteur Breakout de DeepMind, mais je suppose que le système ne pourrait pas généraliser, par exemple, le tunneling vers le bas ou latéralement, sans un recyclage considérable. Comme le note Marcus, alors que nous, les humains, attribuons au programme une certaine compréhension de ce que nous considérons comme des concepts de base (par exemple, mur, plafond, pagaie, balle, tunnel), le programme n'a en fait pas de tels concepts:

Ces démonstrations montrent clairement qu'il est trompeur d'attribuer à l'apprentissage par renforcement profond des concepts inducteurs comme le mur ou la pagaie; ces remarques sont plutôt ce que la psychologie comparative (animale) appelle parfois des surattributions. Ce n'est pas que le système Atari ait véritablement appris un concept de mur qui était robuste, mais plutôt que le système se soit approché superficiellement des murs à travers un ensemble étroit de

circonstances hautement qualifiées.12

De même, alors qu'AlphaGo a fait preuve d'une «intuition» miraculeuse en jouant au Go, le système n'a pas, pour autant que je sache, de mécanisme lui permettant de généraliser ses capacités de jouer au Go, même pour, disons, un plus petit ou différemment. Go Board en forme, sans restructurer et recycler son Deep Q-Network.

En bref, bien que ces systèmes profonds d'apprentissage Q aient atteint des performances surhumaines dans certains domaines étroits, et présentent même ce qui ressemble à de «l'intuition» dans ces domaines, ils manquent de quelque chose d'absolument fondamental pour l'intelligence humaine. Qu'il s'agisse d'abstraction, de généralisation de domaine ou d'apprentissage par transfert, l'imprégnation de systèmes dotés de cette capacité reste l'un des problèmes ouverts les plus importants de l'IA.

Il y a une autre raison de soupçonner que ces systèmes n'apprennent pas les concepts de type humain ou ne comprennent pas leurs domaines de la même manière que les humains: comme les systèmes d'apprentissage supervisé, ces systèmes d'apprentissage Q approfondis sont vulnérables aux exemples contradictoires du type que j'ai décrit au chapitre 6. Par exemple, un groupe de recherche a montré qu'il est possible d'apporter des modifications minuscules spécifiques aux pixels dans un programme de jeu Atari - des changements qui sont imperceptibles pour les humains mais qui nuisent considérablement à la capacité du programme à jouer au jeu.

À quel point AlphaGo est-il intelligent?

Voici quelque chose que nous devons garder à l'esprit lorsque nous pensons à des jeux comme chess and go et leur relation avec l'intelligence humaine. Considérez les raisons pour lesquelles de nombreux parents encouragent leurs enfants à rejoindre le club d'échecs de l'école (ou dans certains endroits le club Go) et préfèrent de loin voir leurs enfants jouer aux échecs (ou y aller) plutôt que de rester à la maison à regarder la télévision ou à jouer à des jeux vidéo ). C'est parce que les gens croient que des jeux comme les échecs ou le go enseignent aux enfants (ou à quiconque) comment mieux penser: comment penser logiquement, raisonner de manière abstraite et planifier stratégiquement. Ce sont toutes des capacités qui se répercuteront sur le reste de la vie, des capacités générales qu'une personne pourra utiliser dans tous ses efforts.

Mais AlphaGo, malgré les millions de jeux auxquels il a joué pendant sa formation, n'a pas appris à «mieux» penser à autre chose qu'au jeu de Go. En fait, il n'a aucune capacité de penser à quoi que ce soit, de raisonner sur quoi que ce soit, de faire des plans sur quoi que ce soit, sauf Go. Pour autant que je sache, aucune des capacités qu'il a apprises n'est générale de quelque façon que ce soit; aucun ne peut être transféré à une autre tâche. AlphaGo est l'ultime savant idiot.

Il est certainement vrai que la méthode d'apprentissage Q approfondie utilisée dans AlphaGo peut être utilisée pour apprendre d'autres tâches, mais le système lui-même devrait être entièrement recyclé; il faudrait commencer à partir de zéro pour apprendre une nouvelle compétence.

Cela nous ramène au paradoxe «les choses faciles sont difficiles» de l'IA. AlphaGo a été une grande réussite pour l'IA; apprenant en grande partie via le jeu personnel, il a réussi à vaincre définitivement l'un des meilleurs joueurs humains du monde dans un jeu considéré comme un parangon de prouesse intellectuelle. Mais AlphaGo ne présente pas d'intelligence au niveau humain telle que nous la définissons généralement, ou même sans doute aucune véritable intelligence. Pour les humains, une partie cruciale de l'intelligence est, plutôt que d'être capable d'apprendre une compétence particulière, d'être capable d'apprendre à penser et d'appliquer ensuite notre pensée avec souplesse à toutes les situations ou défis que nous rencontrons. C'est la véritable compétence que nous voulons que nos enfants apprennent lorsqu'ils jouent aux échecs ou au go. Cela peut sembler étrange à dire, mais de cette façon, le plus petit jardin d'enfants du club d'échecs de l'école est plus intelligent qu'AlphaGo.

Des jeux au monde réel

Enfin, considérons la déclaration de Demis Hassabis selon laquelle le but ultime de ces démonstrations sur les jeux est de «les utiliser pour qu'elles s'appliquent aux problèmes du monde réel et aient un impact énorme sur des choses comme les soins de santé et la science». Je pense qu'il est très possible que le travail de DeepMind sur l'apprentissage par renforcement puisse éventuellement avoir le type d'impact que Hassabis vise. Mais il y a un long chemin à parcourir pour passer des jeux au monde réel.

Le besoin d'apprentissage par transfert est un obstacle. Mais il y a d'autres raisons pour lesquelles il sera difficile d'étendre le succès de l'apprentissage par renforcement dans les jeux au monde réel. Des jeux tels que Breakout and Go sont parfaitement adaptés à l'apprentissage par renforcement car ils ont des règles claires, des fonctions de récompense simples (par exemple, des récompenses pour les points gagnés ou pour gagner), et relativement peu d'actions possibles (mouvements). De plus, les joueurs ont accès à des «informations parfaites»: toutes les composantes du jeu sont visibles à tout moment pour les joueurs; il n'y a aucune partie cachée ou incertaine de «l'état» d'un joueur.

Le monde réel n'est pas si clairement défini. Douglas Hofstadter a souligné que la notion même d'un «État» clairement défini n'est pas du tout réaliste. «Si vous regardez des situations dans le monde, elles ne sont pas encadrées, comme une partie d'échecs ou une partie de Go.… Une situation dans le monde est quelque chose qui n'a aucune frontière; vous ne savez pas ce qui est dans la situation, ce qui est hors de la situation. "13

Par exemple, envisagez d'utiliser l'apprentissage par renforcement pour entraîner un robot à effectuer une tâche très utile dans le monde réel:

prenez la vaisselle sale empilée dans l'évier et mettez-la au lave-vaisselle. (Oh, l'harmonie qu'un tel robot apporterait à ma famille!) Comment définir «l'état» du robot? Cela impliquerait-il tout dans son champ visuel? Le contenu de l'évier? Le contenu du lave-vaisselle? Et le chien qui vient lécher la vaisselle et qui doit être chassé? Quelle que soit la façon dont nous définissons son état, le robot devrait être en mesure d'identifier différents objets, par exemple en reconnaissant une assiette (qui devrait aller sur le panier inférieur du lave-vaisselle), une tasse à café (qui devrait aller sur le panier supérieur), ou une éponge (qui ne passe pas du tout au lave-vaisselle). Comme nous l'avons vu, la reconnaissance d'objets par les ordinateurs est encore loin d'être parfaite. De plus, le robot devrait raisonner sur des objets qu'il ne peut pas voir - peut-être des casseroles et des poêles cachés au fond de l'évier.Le robot devrait également apprendre à ramasser différents objets et à les placer (soigneusement!) Dans les emplacements appropriés. Tout cela nécessiterait d'apprendre à choisir parmi une multitude d'actions possibles impliquant le placement du corps du robot, ses «doigts» saisissants, ses moteurs contrôlant le mouvement

d'objets de l'évier à la bonne fente pour lave-vaisselle, etc. 14

Les agents de jeu de DeepMind ont nécessité des millions d'itérations de formation. Si nous ne voulons pas de millions de plats cassés, nous devrons former notre robot à la simulation. Les jeux sont très rapides et précis à simuler sur un ordinateur; il n'y a pas de mouvement réel de pièces ou de balles réelles qui rebondissent sur des pagaies ou des briques réelles qui explosent. Mais simuler un robot de chargement de lave-vaisselle n'est pas si facile. Plus la simulation est réaliste, plus elle est lente à exécuter sur un ordinateur, et même avec un ordinateur très rapide, il est extrêmement difficile d'incorporer toutes les forces physiques et autres aspects du chargement de paraboles avec précision dans la simulation. Et puis il y a ce chien embêtant, ainsi que tous les autres aspects imprévisibles du monde réel; comment déterminer ce qui doit être dans la simulation et ce qui peut être ignoré en toute sécurité?

Tous ces problèmes ont conduit Andrej Karpathy, directeur de l'IA de Tesla, à noter que, pour des tâches réelles comme celle-ci, `` fondamentalement, chaque hypothèse que Go satisfait et dont AlphaGo tire parti est violée, et toute approche réussie serait extrêmement différente. ”15

Personne ne sait quelle serait cette approche réussie. En effet, le domaine de l'apprentissage par renforcement profond est encore

plutôt jeune. Les résultats que j'ai décrits dans ce chapitre peuvent être considérés comme une preuve de principe: la combinaison de réseaux profonds et de Q-learning fonctionne étonnamment bien dans certains domaines très intéressants, quoique étroits, et bien que ma discussion ait mis en évidence certaines des limites actuelles de Sur le terrain, de nombreuses personnes travaillent à étendre l'apprentissage par renforcement pour postuler plus généralement. Les programmes de jeu de DeepMind en particulier se sont enflammés

grand intérêt et enthousiasme nouveaux dans le domaine; en fait, l'apprentissage par renforcement profond a été nommé l'une des «10 technologies révolutionnaires» de 2017 par le magazine Technology Review du MIT. Dans les années à venir, à mesure que l'apprentissage par renforcement mûrira, j'attendrai avec impatience un robot de chargement de lave-vaisselle qui apprend par lui-même et joue peut-être à la fois au football et à Go pendant son temps libre.

Partie IV

L'intelligence artificielle rencontre le langage naturel

11

Les mots et l'entreprise qu'ils gardent

Il est temps pour une histoire.

Le restaurant

Un homme est entré dans un restaurant et a commandé un hamburger, cuit rare. Quand il est arrivé, il a été brûlé. La serveuse s'arrêta près de la table de l'homme. "Est-ce que le burger va bien?" elle a demandé. "Oh, c'est tout simplement génial", a déclaré l'homme en repoussant sa chaise et en sortant du restaurant sans payer. La serveuse a crié après lui: "Hé, et l'addition?" Elle haussa les épaules, marmonnant dans son souffle: «Pourquoi est-ce

il s'est tellement déformé? "1

Maintenant, laissez-moi vous poser une question: l'homme a-t-il mangé le hamburger?

Je suppose que vous êtes assez sûr de votre réponse, même si l'histoire ne répond pas directement à cette question. C'est facile, au moins pour nous en tant qu'humains, de lire entre les lignes. Après tout, la compréhension du langage - y compris les parties qui ne sont pas dites - est une partie fondamentale de l'intelligence humaine. Ce n'est pas un hasard si Alan Turing a présenté son célèbre «jeu d'imitation» comme un concours impliquant la génération et la compréhension du langage.

Cette partie du livre traite du traitement du langage naturel, ce qui signifie «amener les ordinateurs à gérer le langage humain». (En AI, «naturel» signifie «humain».) Le traitement en langage naturel (abrégé PNL) comprend des sujets tels que la reconnaissance vocale, la recherche sur le Web, la réponse automatique aux questions et la traduction automatique. Semblable à ce que nous avons vu dans les chapitres précédents, le deep learning a été le moteur de la plupart des avancées récentes de la PNL. Je vais décrire certaines de ces avancées, en utilisant l'histoire du «Restaurant» pour illustrer quelques-uns des défis majeurs auxquels les machines sont confrontées en ce qui concerne l'utilisation et la compréhension du langage humain.

La subtilité du langage

Supposons que nous voulons créer un programme qui peut lire un passage et répondre à des questions à ce sujet. Les systèmes de réponse aux questions sont au centre des recherches actuelles sur la PNL, car les gens veulent utiliser le langage naturel pour interagir avec les ordinateurs (pensez à Siri, Alexa, Google Now et à d'autres «assistants virtuels»). Cependant, afin de répondre à des questions sur un texte tel que l'histoire «Restaurant», un programme nécessiterait des compétences linguistiques sophistiquées ainsi que des connaissances substantielles sur le fonctionnement du monde.

L'homme a-t-il mangé le hamburger? Pour y répondre avec confiance, un programme hypothétique devrait savoir que les hamburgers appartiennent à la catégorie «aliments» et que les aliments peuvent être consommés. Le programme doit savoir qu'entrer dans un restaurant et commander un hamburger signifie généralement que vous prévoyez de manger le hamburger. De plus, dans un restaurant, une fois votre commande arrivée, elle est disponible pour être mangée. Un programme aurait besoin de savoir que lorsqu'une personne commande un hamburger «cuit rare», la personne ne veut généralement pas le manger s'il a été «brûlé en morceaux». Le programme devrait reconnaître que lorsque l'homme dit: «Oh, c'est tout simplement génial», il est sarcastique et que «cela» fait référence au «hamburger», qui est un autre mot pour «hamburger». Le programme devrait supposer que si vous "sortez" d'un restaurant sans payer,il est probable que vous n'ayez pas mangé votre repas.

Il est ahurissant de penser à toutes les connaissances de base dont le programme aurait besoin pour donner des réponses sûres aux questions de base sur l'histoire. L'homme a-t-il laissé un pourboire à la serveuse? Le programme devrait connaître la coutume des pourboires dans les restaurants et son objectif de récompenser un bon service. Pourquoi la serveuse a-t-elle dit: «Et le projet de loi»? Le programme doit comprendre que par «facture», la serveuse ne fait pas référence, par exemple, au bec d'un oiseau, ou à un billet de banque, ou à une loi écrite, mais aux frais pour le repas de l'homme. La serveuse savait-elle que l'homme était en colère? Le programme doit déterminer cela en demandant "Pourquoi est-il si déformé?" "il"

fait référence à l'homme, et «déformé» est un idiome qui signifie «bouleversé et en colère». La serveuse savait-elle pourquoi l'homme avait quitté le restaurant? Il serait utile que notre programme sache que le geste «haussant les épaules» suggère que la serveuse ne comprenait pas pourquoi il s'était précipité.

Penser à ce que notre programme hypothétique devrait savoir me rappelle d'essayer de répondre aux questions sans fin que mes enfants poseraient quand ils étaient très jeunes. Une fois, quand mon fils avait quatre ans, je l'ai emmené avec moi pour aller à la banque. Il a posé une question simple: "Qu'est-ce qu'une banque?" Ma réponse a provoqué une cascade apparemment interminable de questions «pourquoi». "Pourquoi les gens utilisent-ils l'argent?" "Pourquoi les gens veulent-ils avoir beaucoup d'argent?" "Pourquoi les gens ne peuvent-ils pas garder tout leur argent à la maison?" "Pourquoi ne puis-je pas gagner mon propre argent?" Toutes de bonnes questions, mais difficiles à répondre sans avoir à expliquer toutes sortes de choses qui dépassent l'expérience d'un enfant de quatre ans.

La situation est beaucoup plus extrême pour les machines. Un enfant qui entend l'histoire du «Restaurant» a déjà des concepts bien fondés comme la personne, la table et le hamburger. Les enfants ont un bon sens de base, sachant, par exemple, que lorsque l'homme sort du restaurant, il n'est plus à l'intérieur du restaurant, mais les tables et les chaises sont probablement toujours là. Ou quand le hamburger «est arrivé», quelqu'un l'a apporté à la table de l'homme (il n'est pas arrivé tout seul). Les machines d'aujourd'hui manquent des concepts détaillés et interdépendants et des connaissances de bon sens que même un enfant de quatre ans apporte à la compréhension du langage.

Il n'est donc pas surprenant que l'utilisation et la compréhension du langage naturel soient parmi les défis les plus difficiles de l'IA. La langue est intrinsèquement ambiguë, dépend profondément du contexte et suppose une grande quantité de connaissances de base communes aux parties qui communiquent. Comme pour d'autres domaines de l'IA, les premières décennies de recherche en PNL se sont concentrées sur des approches symboliques basées sur des règles, c'est-à-dire des programmes qui ont reçu des règles grammaticales et linguistiques et ont appliqué ces règles pour saisir des phrases. Ces approches n'ont pas très bien fonctionné; il semble impossible de saisir les subtilités du langage en appliquant un ensemble de règles explicites. Dans les années 1990, les approches PNL basées sur des règles ont été éclipsées par des approches statistiques plus efficaces, dans lesquelles des ensembles de données massifs ont été utilisés pour former des algorithmes d'apprentissage automatique. Plus récemment,cette approche statistique axée sur les données s'est concentrée sur l'apprentissage en profondeur. Le deep learning, associé au big data, peut-il produire des machines capables de gérer le langage humain de manière flexible et fiable?

Reconnaissance vocale et les 10 derniers pour cent

La reconnaissance vocale automatisée - la tâche de transcrire la langue parlée en texte en temps réel - a été le premier grand succès de l'apprentissage profond en PNL, et je me risquerais à dire que c'est le succès le plus important de l'IA à ce jour dans tous les domaines. En 2012, au moment même où l'apprentissage en profondeur révolutionnait la vision par ordinateur, un document de référence sur la reconnaissance vocale a été publié par des groupes de recherche de l'Université de Toronto, Microsoft, Google et IBM.2 Ces groupes avaient développé des réseaux de neurones profonds pour divers aspects de la reconnaissance vocale: reconnaître les phonèmes

à partir de signaux acoustiques, prédire des mots à partir de combinaisons de phonèmes, prédire des phrases à partir de combinaisons de mots, etc. Selon un expert de Google en reconnaissance vocale, l'utilisation de réseaux profonds a entraîné «la plus grande amélioration unique en 20 ans de recherche vocale». 3 La même année, un nouveau système de reconnaissance vocale en réseau profond a été mis à la disposition des clients sur les téléphones Android. ; deux ans plus tard, il a été publié sur l'iPhone d'Apple, avec un ingénieur d'Apple commentant: «C'était l'une de ces choses où le saut [dans les performances] était si important que vous refaites le test pour vous assurer que quelqu'un n'a pas laissé de décimale place. "4

S'il vous arrivait d'utiliser vous-même une technologie de reconnaissance vocale avant et après 2012, vous

aura également remarqué une très nette amélioration. La reconnaissance vocale, qui avant 2012 allait d'horriblement frustrant à modérément utile, est soudainement devenue presque parfaite dans certaines circonstances. Je peux maintenant dicter tous mes SMS et e-mails sur l'application de reconnaissance vocale de mon téléphone; Il y a quelques instants, j'ai lu l'histoire du «Restaurant» sur mon téléphone, en utilisant ma vitesse de parole normale, et elle a correctement transcrit chaque mot.

Ce qui est étonnant pour moi, c'est que les systèmes de reconnaissance vocale accomplissent tout cela sans aucune compréhension de la signification du discours qu'ils transcrivent. Bien que le système de reconnaissance vocale de mon téléphone puisse retranscrire chaque mot de mon histoire "Restaurant", je vous garantis qu'il n'y comprend rien ni rien d'autre. Beaucoup de personnes en IA, moi y compris, avaient précédemment cru que la reconnaissance vocale de l'IA n'atteindrait jamais un niveau de performance aussi élevé sans réellement comprendre le langage. Mais nous avons prouvé le contraire.

Cela dit, la reconnaissance vocale automatisée n'est toujours pas au «niveau humain», contrairement à certains rapports dans les médias. Le bruit de fond peut nuire considérablement à la précision de ces systèmes; ils sont beaucoup moins efficaces dans une voiture en mouvement que dans une pièce calme. De plus, ces systèmes sont parfois gênés par des mots ou des phrases inhabituels

d'une manière qui met en évidence leur manque de compréhension du discours qu'ils transcrivent. Par exemple, j'ai dit: «La mousse est mon dessert préféré», mais mon téléphone (Android) l'a transcrit comme «l'orignal est mon dessert préféré». J'ai dit: «L'homme à tête nue avait besoin d'un chapeau», mais mon téléphone l'a transcrit comme «L'homme à tête d'ours avait besoin d'un chapeau». Il n'est pas difficile de trouver des phrases qui confondent un système de reconnaissance vocale. Cependant, pour la parole de tous les jours dans un environnement calme, je suppose que la précision de ces systèmes - mesurée par des mots corrects - est probablement d'environ 90 à 95 pour cent de

précision des humains.5 Si vous ajoutez du bruit ou d'autres complications, la précision diminue considérablement.

Il existe une règle d'or célèbre dans tout projet d'ingénierie complexe: les 90 premiers pour cent du projet prennent 10 pour cent du temps et les 10 derniers pour cent prennent 90 pour cent du temps. Je pense qu'une certaine version de cette règle s'applique dans de nombreux domaines de l'IA (bonjour, voitures autonomes!) Et finira également par être vraie dans la reconnaissance vocale. Les 10 derniers pour cent comprennent non seulement le bruit, les accents inconnus et les mots inconnus, mais également le fait que l'ambiguïté et la sensibilité au contexte du langage peuvent nuire à l'interprétation de la parole. De quoi a-t-on besoin pour traverser les 10% restants? Plus de données? Plus de couches réseau? Ou, oserais-je demander, est-ce que les 10% restants nécessiteront une compréhension réelle de ce que dit l'orateur? Je me penche vers ce dernier, mais je me suis trompé avant.

Les systèmes de reconnaissance vocale sont assez compliqués; plusieurs types de traitements différents sont nécessaires pour passer des ondes sonores aux phrases. Les systèmes de reconnaissance vocale de pointe actuels intègrent plusieurs composants différents, y compris plusieurs réseaux de neurones profonds.6 D'autres tâches de PNL, telles que la traduction de la langue ou la réponse aux questions, semblent plus simples à première vue: l'entrée et la sortie sont toutes deux constituées de mots . Cependant, l'approche axée sur les données du deep learning n'a pas produit le même genre de progrès dans ces domaines que dans le domaine de la reconnaissance vocale. Pourquoi pas?

Pour répondre, regardons quelques exemples de la façon dont l'apprentissage en profondeur a été appliqué à des tâches PNL importantes.

Classifier le sentiment

Comme premier exemple, regardons la zone appelée classification des sentiments. Considérez ces courtes critiques du film

Indiana Jones et le Temple maudit: 7

"L'intrigue est lourde et le sens de l'humour est largement absent." "Un peu trop sombre à mon goût."

"C'était comme si les producteurs essayaient de le rendre aussi dérangeant et horrible que possible." "Le développement du caractère et l'humour de Temple of Doom sont intensément inférieurs."

"Le ton est un peu bizarre et il a beaucoup d'humour qui ne fonctionnait pas pour moi." "Sans aucun du charme ou de l'esprit qui s'incarne dans les autres de cette série."

Dans chaque cas, le critique a-t-il aimé le film?

Il y a beaucoup d'argent à utiliser des machines pour répondre à une telle question. Un système d'IA qui pourrait classer avec précision une phrase (ou un passage plus long) quant à son sentiment - positif, négatif ou tout autre degré d'opinion - serait de l'or solide pour les entreprises qui souhaitent analyser les commentaires des clients sur leurs produits, trouver un nouveau potentiel clients, automatisez les recommandations de produits («les personnes qui ont aimé X aiment aussi Y») ou ciblez de manière sélective leurs publicités en ligne. Les données sur les films, livres ou autres marchandises qu'une personne aime ou n'aime pas peuvent être étonnamment (et peut-être effrayantes) utiles pour prédire les futurs achats de cette personne. De plus, ces informations peuvent avoir un pouvoir prédictif sur d'autres aspects de la vie d'une personne, tels que les modes de vote probables et la réactivité à certains

types d'actualités ou de publicités politiques8.

Mis à part l'éthique de ces applications de l'analyse des sentiments, concentrons-nous sur la façon dont les systèmes d'IA pourraient classer le sentiment de phrases comme celles ci-dessus. Bien qu'il soit assez facile pour les humains de voir que ces mini-critiques sont toutes négatives, obtenir un programme pour faire ce type de classification de manière générale est beaucoup plus difficile qu'il n'y paraît à première vue.

Certains premiers systèmes de PNL recherchaient la présence de mots individuels ou de courtes séquences de mots comme indications du sentiment d'un texte. Par exemple, vous pouvez vous attendre à des mots tels que sombre, bizarre, lourd, dérangeant, horrible, manquant et manquant, ou des séquences telles que ne fonctionnait pas, sans aucun, un peu trop, comme indiquant un sentiment négatif dans les critiques de films. Dans certains cas, cela fonctionne, mais dans de nombreux cas, de telles séquences peuvent également être trouvées dans des critiques positives. Voici quelques exemples:

"Malgré le sujet chargé, il y a suffisamment d'humour pour l'empêcher de devenir trop sombre." "Il n'y a rien ici qui soit dérangeant ou horrible comme certains l'ont suggéré."

"J'étais un peu trop jeune pour voir ce formidable film quand il est sorti." "Si vous ne le voyez pas, vous allez manquer!"

Regarder des mots simples ou de courtes séquences isolément n'est généralement pas suffisant pour glaner le sentiment général; il est nécessaire de capturer la sémantique des mots dans le contexte de la phrase entière.

Peu de temps après que les réseaux profonds ont commencé à exceller dans la vision par ordinateur et la reconnaissance vocale, les praticiens de la PNL ont expérimenté leur application à l'analyse des sentiments. Comme d'habitude, l'idée est de former le réseau sur de nombreux exemples de phrases marquées par l'homme avec un sentiment à la fois positif et négatif et de faire en sorte que le réseau lui-même apprenne des fonctionnalités utiles qui lui permettent de produire une confiance de classification pour «positif» ou «négatif» nouvelle phrase. Mais d'abord, comment pouvons-nous obtenir un réseau neuronal pour traiter une phrase?

Réseaux de neurones récurrents

Le traitement d'une phrase ou d'un passage nécessite un type de réseau neuronal différent de ceux que j'ai décrits dans les chapitres précédents. Rappelons, par exemple, le réseau neuronal convolutif du chapitre 4 qui classait une image comme «chien» ou «chat». Là, les entrées du réseau étaient les intensités de pixels d'une image de taille fixe (les images plus grandes ou plus petites devaient être mises à l'échelle à la bonne taille). En revanche, les phrases sont constituées de séquences de mots et n'ont pas de longueur fixe. Ainsi, nous avons besoin d'un moyen pour un réseau de neurones de traiter des phrases de longueur variable.

L'application de réseaux de neurones à des tâches impliquant des séquences ordonnées telles que des phrases remonte aux années 1980, avec l'introduction de réseaux de neurones récurrents (RNN), qui ont été inspirés, bien sûr, par des idées sur la façon dont le cerveau interprète les séquences. Imaginez que l'on vous demande de lire la critique «Un peu trop sombre à mon goût» et de la classer comme ayant un sentiment positif ou négatif. Vous lisez la phrase de gauche à droite, un mot à la fois. Au fur et à mesure que vous le lisez, vous commencez à former des impressions de son sentiment, qui deviennent encore plus soutenues lorsque vous finissez de lire la phrase. À ce stade, votre cerveau a une sorte de représentation de la phrase sous la forme d'activations neurales, qui vous permettent d'indiquer en toute confiance si la révision est positive ou négative.

Les réseaux de neurones récurrents sont vaguement inspirés par ce processus séquentiel de lecture d'une phrase et de création d'une représentation sous forme d'activations neuronales. La figure 32 compare les structures d'un réseau neuronal traditionnel et d'un réseau neuronal récurrent. Pour simplifier, chaque réseau a deux unités (cercles blancs) dans la couche cachée et une unité dans la couche de sortie. Dans les deux réseaux, l'entrée a des connexions avec les unités cachées et chaque unité cachée a une connexion avec l'unité de sortie (flèches pleines). La principale différence pour le RNN est que ses unités cachées ont des connexions «récurrentes» supplémentaires; chaque unité cachée a une connexion à elle-même et à l'autre unité cachée (flèches en pointillés). Comment cela marche-t-il? Contrairement à un réseau neuronal traditionnel, un RNN fonctionne sur une série de pas de temps. À chaque pas de temps,le RNN reçoit une entrée et calcule l'activation de ses unités cachées et de sortie comme le fait un réseau neuronal traditionnel. Mais dans un RNN, chaque unité cachée calcule son activation en fonction à la fois de l'entrée et des activations des unités cachées du pas de temps précédent. (Au premier pas de temps, ces valeurs récurrentes sont mises à 0.) Cela donne au réseau un moyen d'interpréter les mots qu'il "lit" tout en se souvenant du contexte de ce qu'il a déjà "lu".) Cela donne au réseau un moyen d'interpréter les mots qu'il «lit» tout en se souvenant du contexte de ce qu'il a déjà «lu».) Cela donne au réseau un moyen d'interpréter les mots qu'il «lit» tout en se souvenant du contexte de ce qu'il a déjà «lu».

FIGURE 32: A, illustration d'un réseau neuronal traditionnel; B, illustration d'un réseau neuronal récurrent, dans lequel les activations des unités cachées à un pas de temps donné sont renvoyées au pas de temps suivant

La meilleure façon de comprendre le fonctionnement des RNN est de visualiser le fonctionnement du réseau dans le temps, comme dans la figure 33, qui montre le RNN de la figure 32 sur huit pas de temps. Pour simplifier l'illustration, je représente toutes les connexions récurrentes dans la couche cachée sous la forme d'une flèche pointillée unique d'un pas de temps au suivant. À chaque pas de temps, les activations des unités cachées constituent l'encodage par le réseau de la phrase partielle qu'il a vue jusqu'à présent. Le réseau continue d'affiner cet encodage tout en continuant à traiter les mots. Après le dernier mot de la phrase, le réseau reçoit un symbole END spécial (semblable à un point), qui indique au réseau que la phrase est terminée. Notez que le symbole END est ajouté par les humains à chaque phrase avant que le texte ne soit envoyé au réseau.

FIGURE 33: Le réseau neuronal récurrent de la figure 32, fonctionnant sur huit pas de temps

À chaque pas de temps, l'unité de sortie de ce réseau traite les activations des unités cachées (le «codage») pour donner au réseau l'assurance que la phrase d'entrée (c'est-à-dire la partie de la phrase donnée au réseau jusqu'à ce pas de temps) ) a un sentiment positif. Lors de l'application du réseau à une phrase donnée, nous pouvons ignorer cette sortie jusqu'à ce que la fin de la phrase soit atteinte. À ce stade, les unités masquées codent la phrase entière et l'unité de sortie donne la confiance finale du réseau (ici, 30% pour le sentiment positif ou, de manière équivalente, 70% pour le sentiment négatif).

Étant donné que le réseau arrête de coder la phrase uniquement lorsqu'il rencontre le symbole END, le système peut en principe coder des phrases de n'importe quelle longueur en un ensemble de nombres de longueur fixe - les activations des unités cachées. Pour

pour des raisons évidentes, ce type de réseau de neurones est souvent appelé réseau de codeurs.

Étant donné un ensemble de phrases que les humains ont étiquetées comme «positives» ou «négatives» dans le sentiment, le réseau de codeurs peut être formé à partir de ces exemples via une rétropropagation. Mais il y a une chose que je n'ai pas encore expliquée. Les réseaux de neurones exigent que leurs entrées soient des nombres.9 Quelle est la meilleure façon de coder les mots d'entrée sous forme de nombres? La réponse à cette question a conduit à l'une des avancées les plus importantes dans le traitement du langage naturel au cours de la dernière décennie.

Un schéma simple pour coder des mots sous forme de nombres

Avant d'expliquer les schémas possibles d'encodage des mots sous forme de nombres, je dois définir la notion de vocabulaire d'un réseau de neurones. Le vocabulaire est l'ensemble de tous les mots que le réseau pourra accepter comme entrées. Les linguistes estiment que de l'ordre de dix mille à trente mille mots sont nécessaires pour qu'un lecteur traite la plupart des textes anglais, selon la façon dont vous comptez; par exemple, vous pouvez regrouper argumenter, argumenter, argumenter et argumenter en un seul «mot». Le vocabulaire peut également inclure des expressions courantes de deux mots, par exemple, San Francisco ou Golden Gate, en les comptant comme un seul mot.

À titre d'exemple concret, supposons que notre réseau aura un vocabulaire de vingt mille mots. Le schéma le plus simple possible pour coder des mots sous forme de nombres consiste à attribuer à chaque mot du vocabulaire un nombre arbitraire compris entre 1 et 20 000. Donnez ensuite au réseau neuronal 20 000 entrées, une par mot dans le vocabulaire. À chaque pas de temps, une seule de ces entrées - celle correspondant au mot d'entrée réel - sera «activée». Par exemple, disons que le mot sombre a reçu le numéro 317. Ensuite, si nous voulons entrer sombre sur le réseau, nous définissons l'entrée 317 pour avoir la valeur 1, et toutes les autres 9 999 entrées pour avoir la valeur 0. Dans le PNL champ, cela s'appelle un codage à chaud: à chaque pas de temps, une seule des entrées - celle correspondant au mot alimenté par le réseau

—Est "chaud" (non-0).

Le codage à chaud était un moyen standard d'entrer des mots dans les réseaux de neurones. Mais il a un problème: une attribution arbitraire de numéros aux mots ne capture aucune relation entre les mots. Supposons que le réseau ait appris de ses données de formation que l'expression «je détestais ce film» a un sentiment négatif. Supposons maintenant que le réseau reçoive la phrase «J'ai abhorré ce film», mais il n'a pas rencontré d'abhorré ou de film dans ses données d'entraînement. Le réseau n'aurait aucun moyen de déterminer si les significations des deux phrases sont les mêmes. Supposons en outre que le réseau ait appris que la phrase «j'ai ri à haute voix» est associée à des critiques positives, puis elle rencontre la nouvelle phrase «j'ai apprécié l'humour». Le réseau ne pourrait pas reconnaître les significations proches (mais pas exactement identiques) de ces deux phrases.L'incapacité à capturer les relations sémantiques entre les mots et les phrases est une raison majeure pour laquelle les réseaux de neurones utilisant des codages à chaud ne fonctionnent souvent pas très bien.

L'espace sémantique des mots

La communauté de recherche PNL a proposé plusieurs méthodes pour coder les mots d'une manière qui capturerait de telles relations sémantiques. Toutes ces méthodes sont basées sur la même idée, qui a été magnifiquement exprimée par le linguiste John Firth en 1957: "Vous connaîtrez un mot par l'entreprise qu'il tient." 10 C'est-à-dire que le sens d'un mot peut être défini en termes d'autres mots, il a tendance à se produire avec, et les mots qui ont tendance à se produire avec ces mots, et ainsi de suite. Abhorred a tendance à se produire dans les mêmes contextes que détestés. Le rire a tendance à se produire avec les mêmes mots que l'humour

trouve dans son entreprise.

En linguistique, cette idée est connue plus formellement sous le nom de sémantique distributionnelle. L'hypothèse sous-jacente de la sémantique distributionnelle est que «le degré de similitude sémantique entre deux expressions linguistiques A et B est fonction de la similitude des contextes linguistiques dans lesquels A et B peuvent apparaître.» 11 Les linguistes rendent souvent cela plus concret via l'idée d'un «espace sémantique». La figure 34A illustre un espace sémantique bidimensionnel de mots dans lequel les mots ayant des significations similaires sont situés plus près les uns des autres. Mais on le voit rapidement parce que les mots peuvent

ont de nombreuses dimensions de sens, leur espace sémantique doit également avoir plus de dimensions. Par exemple, le mot charme est proche de l'esprit et de l'humour, mais dans un contexte différent, le charme est proche du bracelet et des bijoux. De même, le mot brillant est proche à la fois de l'amas de lumière et de l'amas heureux, mais a également une signification alternative (bien que liée) qui est proche de intelligent, intelligent et intelligent. Il serait utile d'avoir une troisième dimension, venant vers vous hors de la page, pour placer ces mots à la bonne distance les uns des autres. Le long d'une dimension, le charme est proche de l'esprit; le long d'un autre, il est près du bracelet. Mais le charme devrait également être proche de la chance (contrairement au bracelet). Nous avons besoin de plus de dimensions! Nous, les humains, avons du mal à imaginer un espace de plus de trois dimensions, mais la sémantique

l'espace des mots pourrait en fait nécessiter plusieurs dizaines sinon des centaines de dimensions.

FIGURE 34: A, illustration de deux groupes de mots dans un espace sémantique dans lequel les mots ayant des significations similaires sont situés près l'un de l'autre; B, un espace sémantique tridimensionnel dans lequel les mots sont tracés comme des points

Lorsque nous parlons d'espaces sémantiques aux dimensions multiples, nous nous trouvons dans le domaine de la géométrie. En effet, les praticiens de la PNL encadrent souvent le «sens» des mots en termes de concepts géométriques. Par exemple, la figure 34B montre un espace tridimensionnel, avec des axes x, y et z, le long duquel des mots peuvent être placés. Chaque mot est identifié par un point (cercle noir), défini par trois coordonnées, c'est-à-dire les emplacements x, y et z du point. La distance sémantique entre deux mots est assimilée à la distance géométrique entre les points sur ce tracé. Vous pouvez voir que le charme est maintenant proche à la fois de l'esprit et de l'humour et du bracelet et des bijoux, mais dans différentes dimensions. En PNL, les gens utilisent le terme vecteur de mot pour faire référence aux coordonnées d'un mot particulier dans un tel

espace sémantique. En mathématiques, le vecteur n'est qu'un terme de fantaisie pour les coordonnées d'un point.12 Par exemple, supposons que le bracelet se trouve aux coordonnées (2, 0, 3); cette liste de trois nombres est son vecteur de mots dans cet espace tridimensionnel. Notez que le nombre de dimensions dans un vecteur est simplement le nombre de coordonnées.

L'idée ici est qu'une fois que tous les mots du vocabulaire sont correctement placés dans l'espace sémantique, la signification d'un mot peut être représentée par son emplacement dans cet espace, c'est-à-dire par les coordonnées définissant son vecteur de mots. Et à quoi sert un vecteur de mots? Il s'avère que l'utilisation de vecteurs de mots comme entrées numériques pour représenter des mots, par opposition au schéma simple à chaud que j'ai esquissé ci-dessus, améliore considérablement les performances des réseaux de neurones dans les tâches PNL.

Comment obtenir réellement tous les vecteurs de mots correspondant aux mots d'un vocabulaire? Existe-t-il un algorithme qui placera correctement tous les mots du vocabulaire de notre réseau dans un espace sémantique afin de mieux saisir les nombreuses dimensions de la signification de chaque mot? Beaucoup de travail important en PNL a permis de résoudre ce problème précis.

Word2Vec

De nombreuses solutions ont été suggérées pour le problème du placement des mots dans un espace géométrique, certaines remontant aux années 1980, mais la méthode la plus largement adoptée aujourd'hui a été proposée en 2013 par des chercheurs de Google.13 Les chercheurs ont appelé leur méthode «word2vec» (raccourci pour «Mot à vecteur»). La méthode word2vec utilise un réseau neuronal traditionnel pour apprendre automatiquement des vecteurs de mots pour tous les mots d'un vocabulaire. Les chercheurs de Google ont utilisé une partie du vaste stock de documents de l'entreprise pour former leur réseau; une fois la formation terminée, le groupe Google a enregistré

et publié tous les vecteurs de mots résultants sur une page Web pour que quiconque puisse les télécharger et les utiliser comme entrées pour les systèmes de traitement du langage naturel.14

La méthode word2vec incarne la notion de «vous connaîtrez un mot de l'entreprise qu'elle tient». Pour créer le

données de formation pour le programme word2vec, le groupe Google a commencé par prendre un ensemble massif de documents du service Google Actualités. (Dans la PNL moderne, rien ne vaut la présence de «big data»!) Les données de formation pour le programme word2vec consistaient en une collection de paires de mots, où chaque mot de la paire s'était produit près de la

autre mot de la paire quelque part dans les documents Google Actualités. Pour que le processus fonctionne mieux, des mots extrêmement fréquents tels que, de et et ont été supprimés.

À titre d'exemple concret, supposons que les mots de chaque paire se trouvent immédiatement à côté les uns des autres dans une phrase. Dans ce cas, la phrase «un homme est entré dans un restaurant et a commandé un hamburger» serait d'abord transformée en «l'homme est allé dans un restaurant a commandé un hamburger». Cela donnerait les paires suivantes: (homme, allé), (entré, dans), (dans, restaurant), (restaurant, commandé), (commandé, hamburger), plus l'inverse de toutes les paires, par exemple (hamburger , commandé). L'idée est de former le réseau word2vec à prédire quels mots sont susceptibles d'être associés à un mot d'entrée donné.

FIGURE 35: Illustration du réseau neuronal word2vec, compte tenu de la paire de mots (hamburger, ordonné)

La figure 35 illustre le réseau neuronal word2vec15. Ce réseau utilise en fait le codage à chaud unique décrit ci-dessus. Dans la figure 35, il y a 700 000 unités d'entrée; cela est proche de la taille du vocabulaire utilisé par les chercheurs de Google. Chaque entrée correspond à un mot du vocabulaire. Par exemple, la première entrée correspond ici au mot chat, la 8 378ème entrée correspond au hamburger et la 700 000ème entrée correspond à la céruléenne. Je viens de inventer ces chiffres; la commande réelle n'a pas d'importance. De même, il y a 700 000 unités de sortie, chacune correspondant à un mot du vocabulaire, et une couche cachée relativement petite de 300 unités. Les grandes flèches grises indiquent que chaque entrée a une connexion pondérée à chaque unité cachée, et chaque unité cachée a une connexion pondérée à chaque unité de sortie.

Les chercheurs de Google ont formé leur réseau sur des milliards de paires de mots collectées à partir d'articles de Google Actualités. Étant donné une paire de mots telle que (hamburger, ordonné), l'entrée correspondant au premier mot de la paire (hamburger) est mise à 1; toutes les autres entrées sont mises à 0. Pendant la formation, l'activation de chaque unité de sortie est interprétée comme la confiance du réseau que le mot correspondant dans le vocabulaire s'est produit à côté du mot d'entrée. Ici, les activations de sortie correctes attribueraient une confiance élevée au deuxième mot de la paire (ordonné).

Une fois la formation terminée, on peut extraire le vecteur de mots appris pour n'importe quel mot du vocabulaire. La figure 36 montre comment procéder. La figure montre les connexions pondérées entre une entrée (correspondant au mot hamburger) et les trois cents unités cachées. Ces poids, qui ont été tirés de la formation

données, ont capturé des informations sur les contextes dans lesquels le mot correspondant est utilisé. Ces trois cents valeurs de poids sont les composantes du vecteur de mots affecté au mot donné. (Les connexions des unités cachées aux sorties sont complètement ignorées dans ce processus; toutes les informations nécessaires résident dans les poids d'entrée à la couche cachée.) Ainsi, les mots vecteurs appris par ce réseau ont trois cents dimensions. La collection de vecteurs de mots pour tous les mots du vocabulaire constitue «l'espace sémantique» appris.

Voici comment vous pouvez visualiser cet espace sémantique à trois cents dimensions dans votre tête. Pensez simplement à l'intrigue tridimensionnelle de la figure 34, puis essayez de visualiser une intrigue similaire avec cent fois plus de dimensions et avec sept cent mille mots tracés, chacun avec trois cents coordonnées. Je rigole! Il est impossible de visualiser une telle chose.

Que représentent ces trois cents dimensions? Si nous étions nous-mêmes des créatures tridimensionnelles qui avaient le cerveau pour visualiser un tel espace, nous verrions qu'un mot donné est proche d'autres mots apparentés à travers de nombreuses significations. Par exemple, le vecteur pour hamburger est proche du vecteur pour ordonné; il est également proche des vecteurs de burger, hot dog, vache, manger, etc. Le hamburger est également proche du dîner même s'il n'a jamais été vu en couple avec le dîner; c'est parce que le hamburger est proche de mots qui sont également proches du dîner dans des contextes similaires. Si le réseau voit des paires de mots de «J'ai mangé un hamburger pour le déjeuner» ainsi que de «J'ai dévoré un hot-dog pour le dîner», et si le déjeuner et le dîner apparaissent également rapprochés dans certaines phrases de formation, alors le système peut apprendre que le hamburger et le dîner devrait également être proche.

FIGURE 36: Illustration de la façon d'obtenir un vecteur de mots à partir du réseau word2vec formé

Souvenons-nous que le but de tout ce processus est de trouver une représentation numérique - un vecteur - pour chaque mot du vocabulaire, qui capture quelque chose de la sémantique du mot. L'hypothèse est que l'utilisation de tels vecteurs de mots se traduira par des réseaux de neurones hautement performants pour les tâches de traitement en langage naturel. Mais dans quelle mesure «l'espace sémantique» créé par word2vec capture-t-il réellement la sémantique des mots?

Il est difficile de répondre à cette question, car nous ne pouvons pas visualiser l'espace sémantique à trois cents dimensions appris par word2vec. Cependant, nous pouvons faire quelques choses pour entrevoir cet espace. L'approche la plus simple consiste à prendre un mot donné et à trouver les mots qui se sont retrouvés le plus près de lui dans l'espace sémantique, en regardant les distances entre les vecteurs de mots. Par exemple, une fois le réseau formé, les mots les plus proches de la France sont l'Espagne, la Belgique, les Pays-Bas, l'Italie, la Suisse, le Luxembourg, le Portugal, la Russie, l'Allemagne et la Catalogne.16 Le mot2vec

l'algorithme n'a pas été informé du concept de pays ou de pays européen; ce ne sont que les mots qui apparaissent dans les données de formation dans des contextes similaires à la France, comme le font les hamburgers et les hot-dogs dans mon exemple ci-dessus. En effet, si je demande les mots les plus proches du hamburger, la liste comprend le burger, le cheeseburger, le sandwich, le hot dog, le taco et les frites.17

Nous pouvons également examiner des relations plus complexes résultant de la formation du réseau. Google

les chercheurs qui ont créé word2vec ont observé que dans les vecteurs de mots créés par leur réseau, la distance entre le mot pour un pays et le mot pour la capitale de ce pays est approximativement la même pour de nombreux pays. Ceci est illustré sur la figure 37, qui montre une représentation bidimensionnelle de ces distances. Encore une fois, le système n'a pas reçu la notion de «capitale» d'un pays; ces relations ont simplement émergé de la formation du réseau sur des milliards de paires de mots.

FIGURE 37: Représentation bidimensionnelle des distances entre les vecteurs de mots pour les pays et les vecteurs de mots pour leurs capitales

Ce type de régularité a donné aux gens l'idée que word2vec pourrait «résoudre» des problèmes d'analogie tels que «l'homme est de

femme en tant que roi doit. " Prenez simplement le vecteur de mot pour femme, soustrayez le vecteur de mot pour homme et ajoutez le

résultat au vecteur de mots pour roi.18 Trouvez ensuite le vecteur de mots dans l'espace le plus proche du résultat. Ouais, c'est la reine. Dans mon expérience avec une démonstration en ligne de word2vec19, cette méthode donne souvent de très bons résultats («Le dîner est le soir comme le petit déjeuner est le matin»), mais tout aussi souvent elle est cryptique («La soif est de boire aussi fatiguée que de boire) ») Ou absurde (« Le poisson est à l'eau comme l'oiseau à la bouche »).

De telles propriétés des vecteurs de mots appris sont intrigantes et montrent que certaines relations sont capturées. Mais sera

ces propriétés rendent les vecteurs de mots généralement utiles dans les tâches PNL? La réponse semble être un «oui» retentissant. De nos jours, pratiquement tous les systèmes PNL utilisent des vecteurs de mots d'une sorte ou d'une autre (word2vec n'est qu'une seule saveur) comme moyen de saisie de mots.

Voici une analogie pour vous: pour une personne avec un marteau, tout ressemble à un clou; pour un chercheur en IA avec un réseau de neurones, tout ressemble à un vecteur. Beaucoup de gens ont pensé que l'astuce word2vec pouvait être jouée non seulement avec des mots, mais aussi avec des phrases entières. Pourquoi ne pas coder une phrase entière en tant que vecteur de la même manière que les mots sont codés, en utilisant des paires de phrases au lieu de paires de mots dans la formation? Est-ce que quelque chose comme ça ne capturerait pas mieux qu'une simple série de vecteurs de mots? En effet, plusieurs groupes ont essayé de le faire; un groupe

de l'Université de Toronto a qualifié ces représentations de phrases de «vecteurs de pensée». 20 D'autres ont expérimenté des réseaux qui codent des paragraphes et des documents entiers comme vecteurs, mais avec un succès mitigé. Réduire toute la sémantique à la géométrie est une idée séduisante pour les chercheurs en IA. "Je pense que vous pouvez capturer une pensée par un vecteur", a déclaré Yann LeCun de Facebook, Geoffrey Hinton de Google.21: "[Chez Facebook AI Research], nous voulons intégrer le monde dans des vecteurs de pensée. Nous appelons cela World2Vec. »22

Une dernière remarque sur les vecteurs de mots. Plusieurs groupes ont montré que ces vecteurs de mots, sans surprise,

capturer les biais inhérents aux données de langage qui les produisent.23 Par exemple, voici un problème d'analogie:

"L'homme est à la femme comme le programmeur informatique." Si vous résolvez cela en utilisant les mots vecteurs Google

fournit, la réponse est femme au foyer. Le problème inverse: «La femme est à l'homme en tant que programmeur

», Cède l'ingénieur en mécanique. En voici une autre: "L'homme est aussi génial que la femme." Réponse: muse.

Qu'en est-il de «la femme est au génie comme l'homme l'est»? Réponse: des génies.

Voilà pour des décennies de féminisme. Nous ne pouvons pas blâmer les vecteurs de mots; ils captent simplement le sexisme et d'autres préjugés dans notre langue, et notre langue reflète les préjugés de notre société. Mais aussi irréprochables que puissent être les vecteurs de mots, ils sont un élément clé de tout système de PNL moderne, allant de la reconnaissance vocale à la traduction linguistique. Les biais dans les vecteurs de mots peuvent s'infiltrer pour produire des biais inattendus et difficiles à prévoir dans les applications de PNL largement utilisées. Les scientifiques de l'IA qui enquêtent sur de tels biais commencent tout juste à comprendre quels types d'effets subtils ces biais pourraient avoir sur les sorties des systèmes de PNL, et plusieurs groupes travaillent sur des algorithmes pour «dé-biaiser» le mot

Les vecteurs de mots de biais sont un défi difficile, mais probablement pas aussi difficile que l'alternative: le langage et la société de biais.

12

La traduction comme codage et décodage

Si vous avez déjà utilisé Google Translate ou tout autre système de traduction automatique moderne, vous savez que le système peut traduire un morceau de texte d'une langue à une autre en une fraction de seconde. Ce qui est encore plus impressionnant, c'est que les systèmes de traduction en ligne fournissent ces traductions en une fraction de seconde à des personnes du monde entier, 24h / 24 et 7j / 7, et peuvent généralement traiter plus d'une centaine de langues différentes. Il y a plusieurs années, lorsque ma famille et moi étions en France pour un congé sabbatique de six mois, j'ai beaucoup utilisé Google Translate pour rédiger soigneusement des courriels diplomatiques à notre propriétaire française très formelle au sujet d'une situation difficile de moisissure dans la maison. Étant donné mon français loin d'être parfait, Google Translate m'a sauvé des heures de recherche de mots que je ne connaissais pas, sans parler d'essayer de me rappeler où mettre des accents et quel genre va avec quel nom français.

J'ai également utilisé Google Translate pour aider à interpréter les réponses souvent déroutantes de notre propriétaire, et même si les traductions du programme m'ont donné une idée assez claire de son sens, l'anglais qu'il a produit était plein d'erreurs, grandes et petites. Je grince toujours des dents quand j'imagine à quoi ressemblaient mes messages en français pour notre logeuse. En 2016, Google a lancé un nouveau système de «traduction automatique de neurones», qui, selon la société, a réalisé «les améliorations les plus importantes à ce jour en matière de qualité de traduction automatique» 1, mais le calibre des systèmes de traduction automatique reste bien en deçà de celui de

traducteurs humains.

Stimulée en partie par la guerre froide américano-soviétique, la traduction automatisée, en particulier entre l'anglais et le russe, a été l'un des premiers projets d'IA. Les premières approches de la traduction automatisée ont été promues avec enthousiasme par le mathématicien Warren Weaver en 1947: «On se demande naturellement si le problème de la traduction pourrait en théorie être traité comme un problème de cryptographie. Quand je regarde un article en russe, je dis: «C'est vraiment écrit en anglais, mais il a été codé avec des symboles étranges. Je vais maintenant procéder au décodage. »2 Comme d'habitude en IA,

un tel «décodage» s'est avéré plus difficile que prévu.

Comme d'autres recherches sur l'IA au début, les approches originales de la traduction automatique reposaient sur des ensembles compliqués de règles spécifiées par l'homme. Dans le but de traduire d'une langue source (par exemple, l'anglais) vers une langue cible (par exemple, le russe), un système de traduction automatique se verrait attribuer des règles de syntaxe pour les deux langues ainsi que des règles de mappage entre les structures syntaxiques. De plus, les programmeurs humains créeraient des dictionnaires pour le système de traduction automatique avec des équivalences mot à mot (et simple phrase à phrase). Comme beaucoup d'autres efforts dans l'IA symbolique, alors que ces approches fonctionnaient bien dans certains cas étroits, elles étaient assez fragiles, souffrant de tous les défis du langage naturel dont j'ai discuté plus tôt.

À partir des années 1990, une nouvelle approche, appelée traduction automatique statistique, est venue à dominer le domaine. Suivant la tendance de l'IA à l'époque, la traduction automatique statistique reposait sur l'apprentissage à partir des données plutôt que sur la spécification des règles par les humains. Les données de formation consistaient en de grandes collections de paires de phrases: la première phrase de chaque paire provenait de la langue source et la deuxième phrase était une traduction (créée par l'homme) de la première dans la langue cible. Ces paires de phrases ont été obtenues à partir de documents gouvernementaux dans des pays bilingues (par exemple, chaque document du Parlement canadien est produit à la fois en anglais et en français), à partir de transcriptions des Nations Unies, qui sont traduites dans les six langues officielles de l'ONU, et à partir d'autres grands ensembles de documents originaux et traduits.

Les systèmes statistiques de traduction automatique des années 1990 aux années 2000 ont généralement calculé de grandes tables de probabilités reliant des phrases dans les langues source et cible. Lorsqu'une nouvelle phrase est prononcée, par exemple, en anglais - par exemple, «Un homme est allé dans un restaurant» - le système a divisé la phrase en «phrases» («Un homme est allé», «dans un restaurant») et a regardé dans son des tables de probabilités pour trouver les meilleures traductions de ces phrases dans la langue cible. Ces systèmes comportaient des étapes supplémentaires pour s'assurer que les phrases traduites fonctionnaient toutes ensemble comme une phrase, mais le principal moteur de la traduction était la probabilité des phrases apprises à partir des données de formation. Même si les systèmes statistiques de traduction automatique avaient très peu de connaissances sur la syntaxe dans l'une ou l'autre langue, dans l'ensemble, ces méthodes

produit de meilleures traductions que les anciennes approches fondées sur des règles.

Google Translate - probablement le programme de traduction automatique le plus utilisé - a utilisé ce type de méthodes statistiques de traduction automatique depuis son lancement en 2006 jusqu'en 2016, date à laquelle les chercheurs de Google avaient développé ce qu'ils prétendaient être une méthode de traduction supérieure basée sur l'apprentissage en profondeur, appelé traduction automatique neuronale. Peu de temps après, la traduction automatique neuronale a été adoptée pour tous les programmes de traduction automatique de pointe.

Encoder, Meet Decoder

La figure 38 donne un aperçu de ce qui se cache sous le capot lorsque vous utilisez Google Translate (et d'autres programmes de traduction automatique contemporains), traduisant ici de l'anglais vers le français.3 C'est un système compliqué, et j'ai simplifié de nombreux détails, mais cela la figure devrait vous donner les idées principales.4

La moitié supérieure de la figure 38 montre un réseau de neurones récurrent (un réseau codeur), un peu comme celui que je

décrit dans le chapitre précédent. La phrase anglaise «Un homme est entré dans un restaurant» est codée sur sept pas de temps. J'ai utilisé des rectangles blancs pour représenter le réseau codant cette phrase; Je parlerai de ce à quoi ressemble réellement le réseau à l'intérieur des rectangles un peu plus tard. Pendant l'étape de codage, à chaque pas de temps, un mot de la phrase est entré dans le réseau sous la forme d'un vecteur de mots, similaire à ceux que j'ai décrits ci-dessus.5 Les flèches en pointillés d'un pas de temps au suivant sont un raccourci pour le connexions récurrentes dans la couche cachée. Un mot à la fois

temps, le réseau construit une représentation de la phrase anglaise, encodée dans les activations de ses unités cachées.

FIGURE 38: Croquis d'une paire de réseaux «encodeur-décodeur» pour la traduction des langues. Les rectangles blancs représentent les réseaux d'encodeur et de décodeur, fonctionnant sur des pas de temps successifs. Les mots d'entrée - par exemple, man - sont d'abord transformés en vecteurs de mots - par exemple, wordvec (man) - avant d'être transmis au réseau.

Au dernier pas de temps, le réseau codeur reçoit un symbole END spécial, et les activations des unités cachées sont maintenant un codage de la phrase. Ces dernières activations d'unités cachées à partir du codeur sont ensuite données en entrée à un deuxième réseau, un réseau de décodeur, qui créera la version traduite de la phrase. Le réseau de décodage, illustré dans la moitié inférieure de la figure 38, est simplement un autre réseau récurrent, mais dans lequel les sorties sont des nombres représentant les mots qui forment la phrase traduite - chacun étant également renvoyé au réseau

à l'étape de temps suivante.6

Notez que la phrase française a sept mots, tandis que la phrase anglaise en a six. Ce système codeur-décodeur peut en principe traduire une phrase de n'importe quelle longueur en une phrase de toute autre longueur.7 Cependant, lorsque les phrases deviennent trop longues, un réseau de codeurs finit par perdre des informations utiles; c'est-à-dire qu'à des étapes ultérieures, il «oublie» d'importantes parties antérieures de la phrase. Par exemple, considérez cette phrase:

Ma mère a dit que le chat qui avait volé avec sa sœur à Hawaï l'année précédente avant de commencer dans ce nouveau lycée vivait maintenant avec mon cousin.

Qui vit avec mon cousin? La réponse pourrait affecter la façon dont les verbes et le vivant sont traduits dans certaines langues. Les humains sont assez bons pour traiter ce type de phrase alambiquée, mais les réseaux de neurones récurrents peuvent facilement perdre le fil. Les choses s'embrouillent lorsque le réseau essaie d'encoder la phrase entière en un seul ensemble d'activations d'unités cachées.

À la fin des années 1990, un groupe de recherche en Suisse a proposé une solution: les unités individuelles d'un réseau de neurones récurrent devraient avoir une structure plus compliquée, avec des pondérations spécialisées qui déterminent quelles informations sont envoyées au prochain pas de temps et quelles informations peuvent être « oublié." Ces chercheurs ont appelé les unités plus complexes «unités de mémoire à court terme» (LSTM) 8. C'est un nom déroutant, mais l'idée est que ces unités permettent une mémoire plus «à court terme» qui peut durer tout au long du traitement de la phrase. . Le spécialiste

les poids sont appris par rétropropagation, tout comme les poids réguliers dans un réseau neuronal traditionnel. Alors que la figure 38 montre les réseaux de codeurs et de décodeurs sous forme abstraite de rectangles blancs, ces réseaux sont en fait constitués d'unités LSTM.

La traduction automatique automatisée à l'ère de l'apprentissage en profondeur est un triomphe du big data et du calcul rapide. Pour créer une paire de réseaux encodeur-décodeur pour traduire, disons, de l'anglais vers le français, les réseaux sont formés sur plus de trente millions de paires de phrases traduites par l'homme. Les réseaux neuronaux récurrents profonds constitués d'unités LSTM et formés sur de grandes collections de données sont devenus le pain et le beurre des systèmes modernes de traitement du langage naturel, non seulement dans les réseaux de codage et de décodage utilisés par Google Translate, mais aussi pour la reconnaissance vocale, la classification des sentiments , et, comme nous le verrons ci-dessous, répondre aux questions. Ces systèmes comprennent souvent plusieurs astuces pour améliorer leurs performances, telles que la saisie de la phrase originale à la fois en avant et en arrière, ainsi que des mécanismes pour

concentrer l'attention sur différentes parties de la phrase à différents moments9.

Évaluation de la traduction automatique

Après que Google Translate a lancé sa traduction automatique de neurones en 2016, la société a affirmé que la nouvelle approche "comblait le fossé entre la traduction humaine et la traduction automatique." 10 D'autres grandes entreprises technologiques, sprintant pour rattraper leur retard, ont créé leurs propres programmes de traduction automatique en ligne, de même sur la base de l'architecture codeur-décodeur que j'ai décrite ci-dessus. Ces entreprises et les médias technologiques qui les couvrent ont promu avec enthousiasme ces services de traduction. Le magazine Technology Review du MIT a rapporté que «le nouveau service de Google traduit les langues presque aussi bien que les humains.» 11 Microsoft a annoncé dans un communiqué de presse que son service de traduction de nouvelles chinois-anglais avait atteint la «parité humaine» .12 IBM a déclaré que «IBM Watson parle maintenant couramment neuf langues (et plus encore).»13 Le directeur de Facebook en charge de la traduction linguistique a déclaré à un public:« Ce que nous pensons, c'est que les réseaux de neurones apprennent la signification sémantique sous-jacente de la langue. »14 Le PDG de la société de traduction spécialisée DeepL s'est vanté:« Notre [traduction automatique] les réseaux de neurones ont développé un incroyable sens de la compréhension. »15

En général, ces déclarations sont en partie alimentées par la course entre les entreprises technologiques pour vendre divers services d'IA à

d'autres entreprises, et la traduction linguistique est une offre majeure à fort potentiel de profit. Bien que des sites Web tels que Google Translate proposent une traduction gratuite pour de petites quantités de texte, si vous êtes une entreprise et que vous souhaitez traduire un grand volume de documents ou fournir une traduction pour les clients sur vos sites Web, vous pouvez trouver de nombreuses traductions automatiques payantes. services disponibles, tous alimentés par la même architecture codeur-décodeur.

Dans quelle mesure devons-nous croire que les machines apprennent réellement le «sens sémantique» ou que la traduction automatique se rapproche rapidement des niveaux de précision humains? Pour répondre à cela, regardons de plus près les résultats réels sur lesquels ces affirmations sont basées. Voyons en particulier comment ces entreprises mesurent la qualité d'une traduction automatique ou humaine. Mesurer la qualité d'une traduction n'est pas du tout simple; un texte donné peut être traduit correctement de plusieurs façons (et de manière incorrecte encore plus). Parce qu'il n'y a pas un seul correct

réponse pour traduire un texte donné, il est difficile de concevoir une méthode automatique pour calculer la précision du système.

Les affirmations de «parité humaine» et de «combler l'écart entre les machines et les humains» en traduction automatique reposent sur deux méthodes d'évaluation des résultats de la traduction. Le premier est une méthode automatisée - un programme informatique

—Qui compare la traduction d'une machine à celle des humains et crache une partition. La deuxième méthode emploie des humains bilingues pour évaluer manuellement les traductions. Pour la première méthode, le programme utilisé dans pratiquement toutes les évaluations de la traduction automatique est appelé doublure d'évaluation bilingue, ou BLEU.16 Pour mesurer la qualité d'une traduction, BLEU compte essentiellement le nombre de correspondances - entre les mots et les phrases de longueurs variables - dans une phrase traduite automatiquement et une ou plusieurs traductions de «référence» créées par l'homme (c'est-à-dire «correctes»). Tandis que le

les notes produites par BLEU sont souvent en corrélation avec les jugements humains de la qualité de la traduction, BLEU a tendance à surévaluer les mauvaises traductions. Plusieurs chercheurs en traduction automatique m'ont dit que la BLEU est une manière erronée d'évaluer les traductions, utilisée uniquement parce que personne n'a encore trouvé une méthode automatique qui fonctionne mieux en général.

Compte tenu des inconvénients de la BLEU, la «norme de référence» pour évaluer un système de traduction automatique est que les humains bilingues évaluent manuellement les traductions produites par le système. Ces mêmes évaluateurs humains peuvent également évaluer les traductions correspondantes créées par des traducteurs humains professionnels afin de les comparer aux évaluations de traduction automatique. Mais il y a aussi des inconvénients à cette approche de référence: embaucher des humains coûte de l'argent, bien sûr, et contrairement aux ordinateurs, les humains se fatiguent après avoir évalué plus de quelques dizaines de phrases. Ainsi, à moins que vous ne puissiez embaucher une armée d'évaluateurs humains bilingues qui ont beaucoup de temps libre, votre processus d'évaluation sera limité.

Les groupes de traduction automatique de Google et de Microsoft ont effectué ce type d'évaluation de référence (quoique limité) en engageant de petits groupes d'évaluateurs humains bilingues pour fournir des évaluations.17 Chaque évaluateur a reçu un ensemble de phrases dans une langue source, ainsi que avec des traductions de ces phrases dans la langue cible. Les traductions ont été créées à la fois par le système de traduction automatique de neurones et par des traducteurs humains professionnels. L'évaluation de Google comprenait environ cinq cents phrases tirées de reportages et d'articles de Wikipédia dans

plusieurs langues différentes. En faisant la moyenne des notes de chaque évaluateur sur toutes les phrases, puis en faisant la moyenne des évaluateurs, les chercheurs de Google ont constaté que la note moyenne attribuée à leur système de traduction automatique neuronale était proche (bien qu'en dessous) des notes attribuées aux phrases traduites par l'homme. Ce fut le cas pour toutes les paires de langues de l'évaluation.

Microsoft a utilisé une méthode de calcul de moyenne similaire pour évaluer les traductions de nouvelles du chinois vers l'anglais. Les notes des traductions par le système de traduction automatique de neurones de Microsoft étaient très proches (et parfois même dépassées) des notes des traductions humaines. Dans tous les cas, les évaluateurs humains ont évalué les traductions produites par la traduction automatique neuronale comme meilleures que celles produites par les méthodes de traduction automatique précédentes.

En bref, avec l'introduction du deep learning, la traduction automatique s'est améliorée. Mais peut-on interpréter ces résultats pour justifier l'affirmation selon laquelle la traduction automatique est désormais proche du «niveau humain»? À mon avis, cette allégation est injustifiée pour plusieurs raisons. Premièrement, la moyenne des notes peut être trompeuse. Imaginez un cas dans lequel, alors que la plupart des traductions de phrases sont jugées «formidables», il y en a beaucoup qui sont classées «horribles». La moyenne serait «plutôt bonne». Cependant, vous préféreriez probablement un système de traduction plus fiable qui soit toujours «assez bon» et jamais «horrible».

De plus, les affirmations selon lesquelles ces systèmes de traduction sont proches du «niveau humain» ou de la «parité humaine» reposent entièrement sur l'évaluation des traductions de phrases isolées uniques plutôt que sur des passages plus longs. Les phrases dans un passage plus long peuvent dépendre les unes des autres de façons importantes qui peuvent être manquées si les phrases sont traduites isolément. Je n'ai vu aucune étude formelle sur l'évaluation de la traduction automatique pour des passages plus longs, mais mon expérience générale est que la qualité de la traduction de Google Translate, par exemple, diminue considérablement lorsqu'il reçoit des paragraphes entiers au lieu de phrases simples.

Enfin, les phrases de ces évaluations sont toutes tirées de nouvelles et de pages Wikipédia, qui sont généralement rédigées avec soin pour éviter un langage ambigu ou idiomatique; un tel langage peut entraîner de graves problèmes pour les systèmes de traduction automatique.

Perdu dans la traduction

Vous vous souvenez de mon histoire «Restaurant» du début du chapitre précédent? Je n'ai pas conçu cette histoire pour tester des systèmes de traduction, mais l'histoire illustre en fait un bon travail pour illustrer les défis posés aux systèmes de traduction automatique par un langage familier, idiomatique et potentiellement ambigu.

J'ai utilisé Google Translate pour traduire l'histoire "Restaurant" de l'anglais vers trois langues cibles: le français,

Italien et chinois. J'ai donné les traductions résultantes (sans l'histoire originale) à des amis qui sont bilingues en anglais et dans la langue cible et leur ai demandé de traduire la traduction de Google en anglais, afin d'avoir une idée de ce qu'un locuteur de la langue cible tirerait du texte rendu dans cette langue. Voici, pour votre plaisir de lecture, les résultats. (Les traductions de Google Translate à partir desquelles mes amis ont travaillé sont données dans les notes à la fin du livre.)

Histoire originale:

Un homme est entré dans un restaurant et a commandé un hamburger, cuit rare. Quand il est arrivé, il a été brûlé. La serveuse s'arrêta près de la table de l'homme. "Est-ce que le burger va bien?" elle a demandé. "Oh, c'est tout simplement génial", a déclaré l'homme en repoussant sa chaise et en sortant du restaurant sans payer. La serveuse a crié après lui: "Hé, et l'addition?" Elle haussa les épaules, marmonnant à voix basse, "Pourquoi est-il si courbé?"

Version française de Google Translate, traduite à nouveau en anglais:

Un homme est entré dans un restaurant et a commandé un hamburger, peu cuit. Quand il est arrivé, il s'est brûlé à un croustillant. La serveuse s'arrêta de marcher devant la table de l'homme. "Le hamburger se porte-t-il bien?" Elle a demandé. «Oh, c'est formidable», a déclaré l'homme en remettant sa chaise et en sortant du restaurant sans payer. La serveuse lui a crié: «Dis, qu'en est-il du projet de loi?» Elle

haussa les épaules, marmonnant dans son souffle: «Pourquoi est-il si déformé?» 18

Version italienne de Google Translate, traduite en anglais:

Un homme est allé au restaurant et a commandé un hamburger, peu cuit. Quand il est arrivé, il a été brûlé pour une amande cassante. La serveuse s'est arrêtée près de la table de l'homme. "Est-ce que le burger va bien?" elle a demandé. "Oh, c'est tout simplement fantastique", a déclaré l'homme, repoussant sa chaise et quittant le restaurant sans payer. La serveuse lui a crié: "Hé, et la facture?" Elle haussa les épaules, marmonnant à voix basse,

«Pourquoi est-il si courbé?» 19

Version chinoise de Google Translate, traduite en anglais:

Un homme est entré dans un restaurant et a commandé un hamburger rarement vu. Quand il a atteint sa destination, il a été rôti très croustillant. La serveuse s'est arrêtée à côté de la table de l'homme. "Le hamburger est-il bon?" elle a demandé. "Oh, c'est génial", a déclaré l'homme en écartant sa chaise et en se précipitant hors du restaurant sans payer. La serveuse a crié "Hé, et la facture?" Elle haussa les épaules et chuchota,

«Pourquoi était-il si courbé?» 20

Lire ces traductions, c'est comme écouter un morceau de musique familier joué par un pianiste talentueux mais sujet aux erreurs. La pièce est généralement reconnaissable mais mal à l'aise; la mélodie se déroule à merveille pour de courtes rafales, mais continue d'être interrompue par des notes fausses discordantes.

Vous pouvez voir que Google Translate choisit parfois le mauvais sens de mots ambigus, tels que rare et facture (traduit en français pour signifier «peu fréquent» et «législation proposée», respectivement); cela se produit car le programme ignore le contexte des mots ou des phrases précédents. Des expressions telles que brûlées en une forme nette et déformée sont traduites de façon étrange; le programme ne semble pas avoir de moyen de trouver un idiome correspondant dans la langue cible ou de saisir le sens réel de l'idiome. Alors que le sens squelettique de l'histoire transparaît, des nuances subtiles mais importantes se perdent dans toutes les traductions, y compris la colère de l'homme, exprimée en «sortant du restaurant», et le mécontentement de la serveuse, exprimé en «marmonnant sous son souffle». Sans oublier que la grammaire correcte manque parfois en action.

Je ne veux pas choisir spécifiquement sur Google Translate; J'ai essayé plusieurs autres services de traduction en ligne et j'ai obtenu des résultats similaires. Ce n'est pas surprenant, car ces systèmes utilisent tous pratiquement la même architecture codeur-décodeur. Il est également important de souligner que les traductions que j'ai obtenues représentent un instantané dans le temps pour ces systèmes de traduction; ils sont continuellement améliorés, et certaines des erreurs de traduction spécifiques vues ici peuvent être corrigées au moment où vous lisez ceci. Cependant, je suis sceptique sur le fait que la traduction automatique atteindra réellement le niveau des traducteurs humains - sauf peut-être dans des circonstances étroites - pendant longtemps.

L'obstacle principal est le suivant: comme les systèmes de reconnaissance vocale, les systèmes de traduction automatique accomplissent leur tâche sans réellement comprendre le texte qu'ils traitent21. En traduction comme en reconnaissance vocale, la question demeure: dans quelle mesure une telle compréhension est-elle nécessaire pour machines pour atteindre des niveaux de performance humains? Douglas Hofstadter soutient: «La traduction est beaucoup plus complexe que la simple recherche dans un dictionnaire et la réorganisation des mots.… La traduction implique d'avoir un modèle mental du monde en discussion.» 22 Par exemple, un humain traduisant le

L'histoire du «restaurant» aurait un modèle mental dans lequel, lorsqu'un homme sort d'un restaurant sans payer, une serveuse est plus susceptible de lui crier au sujet du paiement de son repas que du «projet de loi». Les mots de Hofstadter ont été repris dans un article récent des chercheurs en IA Ernest Davis et Gary Marcus: «La traduction automatique… implique souvent des problèmes d'ambiguïté qui ne peuvent être résolus qu'en atteignant une compréhension réelle

du texte — et de mettre à profit les connaissances du monde réel. ”23

Un réseau codeur-décodeur pourrait-il atteindre les modèles mentaux et les connaissances du monde réel nécessaires simplement en s'exposant à un ensemble d'entraînement plus important et à davantage de couches de réseau, ou quelque chose de fondamentalement différent est-il nécessaire? C'est toujours une question ouverte et fait l'objet d'un débat intense dans la communauté de l'IA. Pour l'instant, je dirai simplement que bien que la traduction automatique de neurones puisse être incroyablement efficace et utile dans de nombreuses applications, les traductions, sans post-édition par des humains bien informés, sont toujours fondamentalement peu fiables. Si vous utilisez la traduction automatique - et je le fais moi-même - vous devriez prendre les résultats avec un grain de sel. En fait, lorsque j'ai demandé à Google Translate de traduire «prenez-le avec un grain de sel» de l'anglais vers le chinois, puis de nouveau vers l'anglais, il m'a dit «d'apporter une barre de sel». Ce pourrait être une meilleure idée.

Traduire des images en phrases

Voici une idée folle: en plus de traduire entre les langues, quelque chose comme une paire encodeur-décodeur de réseaux de neurones pourrait-il être entraîné à traduire des images vers la langue? L'idée serait d'utiliser un réseau pour coder une image et un autre réseau pour «traduire» cette image en une phrase décrivant le contenu de l'image. Après tout, la création d'une légende d'image n'est-elle pas simplement un autre type de «traduction» - cette fois entre la «langue» d'une image et la langue d'une légende?

Il s'avère que cette idée n'est pas si folle. En 2015, deux groupes - l'un de Google et l'autre de l'Université de Stanford - ont publié de manière indépendante des articles très similaires sur ce sujet lors de la même conférence sur la vision par ordinateur24. car c'est conceptuellement un peu plus simple.

La figure 39 donne un aperçu du fonctionnement du système Show and Tell.25 C'est quelque chose comme le système codeur-décodeur de la figure 38, mais ici l'entrée est une image au lieu d'une phrase. L'image est envoyée à un réseau neuronal convolutionnel profond au lieu d'un réseau codeur. Le ConvNet ici est similaire à ceux que j'ai décrits dans le chapitre 4, sauf que ce ConvNet ne produit pas de classifications d'objets; à la place, les activations de sa couche finale sont données en entrée au réseau de décodage. Le réseau de décodage «décode» ces activations pour sortir une phrase. Pour coder l'image, les auteurs ont utilisé un ConvNet qui avait été formé à la classification des images sur ImageNet, l'énorme ensemble de données d'image que j'ai décrit au chapitre 5. La tâche ici est de former le réseau de décodage à générer une légende appropriée pour une image d'entrée .

Comment ce système apprend-il à produire des légendes raisonnables? Rappelons que pour la traduction linguistique, les données d'apprentissage se composent de paires de phrases, dans lesquelles la première phrase d'une paire est dans la langue source et la seconde est la traduction d'un traducteur humain dans la langue cible. Dans le cas du sous-titrage d'image, chaque exemple d'apprentissage consiste en une image associée à une légende. Les images ont été téléchargées à partir de référentiels tels que Flickr.com, et les légendes de ces images ont été produites par des humains, à savoir des travailleurs d'Amazon Mechanical Turk, qui ont été embauchés par Google pour cette étude. Parce que les légendes peuvent être si variables, chaque image a reçu une légende par cinq personnes différentes. Ainsi, chaque image apparaît cinq fois dans le jeu d'entraînement, chaque fois associée à une légende différente.La figure 40 montre un exemple d'image d'entraînement et les légendes données par les travailleurs de Mechanical Turk.

FIGURE 39: Croquis du système automatisé de sous-titrage d'images de Google

FIGURE 40: Exemple d'image d'entraînement avec des légendes données par des travailleurs d'Amazon Mechanical Turk

Le réseau de décodeurs Show and Tell a été formé sur environ quatre-vingt mille paires image-légende. La figure 41 donne quelques exemples de légendes que le système Show and Tell formé a généré sur des images de test, c'est-à-dire des images qui n'étaient pas dans son ensemble de formation.

Il est difficile de ne pas être ébloui, et peut-être un peu stupéfait, qu'une machine puisse prendre des images sous forme de pixels bruts et produire des légendes aussi précises. C'est certainement ce que j'ai ressenti lorsque j'ai lu pour la première fois ces résultats dans le New York Times. L'auteur de cet article, le journaliste John Markoff, a écrit une description minutieuse: «Deux groupes de scientifiques, travaillant indépendamment, ont créé un logiciel d'intelligence artificielle capable de reconnaître et de décrire le contenu des photographies et des vidéos avec une précision bien plus grande que jamais, parfois parfois même imitant l'homme

niveaux de compréhension. ”26

FIGURE 41: Quatre légendes (précises) produites automatiquement à partir du système Show and Tell de Google

D'autres journalistes n'étaient pas aussi restreints. «L'IA de Google peut désormais sous-titrer des images presque aussi bien que des humains», a proclamé un site Web d'actualités27. D'autres sociétés se sont rapidement lancées dans le sous-titrage automatique d'images en utilisant

des méthodes similaires et ont fait leurs propres affirmations: «Les chercheurs de Microsoft sont à l'avant-garde du développement de technologies qui peuvent automatiquement identifier les objets dans une image, interpréter ce qui se passe et écrire une légende précise l'expliquant», a déclaré un blog de Microsoft.28 Microsoft a même a créé une démo en ligne de son système, appelée CaptionBot. Le site Web de CaptionBot déclare: «Je peux comprendre le contenu de n'importe quelle photographie et j'essaierai de le décrire ainsi que n'importe quel être humain.» 29 Des sociétés telles que Google, Microsoft et Facebook ont ​​commencé à discuter de la façon dont une telle technologie pourrait être appliquée pour fournir une image automatisée. des descriptions aux personnes aveugles ou malvoyantes.

FIGURE 42: Légendes moins précises du système Show and Tell de Google et de CaptionBot de Microsoft

Mais pas si vite. Le sous-titrage d'image automatisé souffre du même type de performance bipolaire que dans la traduction linguistique. Quand c'est bon, comme sur la figure 41, ça semble presque magique. Mais ses erreurs peuvent varier de légèrement à complètement absurdes. La figure 42 montre quelques exemples de cette plage. Ces légendes erronées peuvent vous faire rire, mais si vous êtes une personne aveugle qui ne peut pas voir la photo, il serait difficile de savoir si la légende qui vous est donnée est l'une des bonnes ou des mauvaises.

Alors que CaptionBot de Microsoft dit qu'il peut «comprendre le contenu de n'importe quelle photographie», le problème est que l'inverse est vrai. Même lorsque leurs légendes sont correctes, ces systèmes ne comprennent pas les photos au sens où les humains les comprennent. Lorsque j'ai donné au CaptionBot de Microsoft la photo du «soldat à l'aéroport avec un chien» du chapitre 4, la sortie du système était «Un homme tenant un chien». Sorte de. Sauf pour la partie «homme». Mais cette légende manque tout ce qui est intéressant sur la photo, tout sur la façon dont elle nous parle, sur notre expérience, nos émotions et notre connaissance du monde. Autrement dit, il manque le sens de la photo.

Je suis certain que ces systèmes s'amélioreront à mesure que les chercheurs appliqueront davantage de données et de nouveaux algorithmes. Cependant, je crois que le manque fondamental de compréhension dans les réseaux générant des sous-titres signifie inévitablement que, comme dans la traduction linguistique, ces systèmes resteront douteux. Ils fonctionneront très bien dans certains cas mais échoueront spectaculairement dans d'autres. De plus, même lorsqu'ils sont généralement corrects, ils ne parviennent souvent pas à saisir l'essentiel d'une image représentant une situation riche de sens.

Des systèmes de PNL qui classent le sentiment des phrases, traduisent des documents et décrivent des photos, bien qu'ils soient encore loin

des capacités humaines à ces tâches, sont utiles à de nombreuses fins réelles, et sont donc devenus très rentables pour leurs développeurs. Mais le rêve ultime des chercheurs en PNL est une machine capable d'interagir avec fluidité et flexibilité avec ses utilisateurs en temps réel, en particulier de converser avec eux et de répondre à leurs questions. Le chapitre suivant explore les défis de la création de systèmes d'IA capables de traiter toutes nos requêtes.

13

Demande-moi n'importe quoi

USS Enterprise. Stardate: 42402.7

LIEUTENANT COMMANDER DATA: Ordinateur, je souhaite en savoir plus sur l'humour. Pourquoi certaines combinaisons de mots et d'actions font rire les humains.

ORDINATEUR: Le matériel source sur ce sujet est vaste. Veuillez préciser.

LIEUTENANT COMMANDER DATA: Présentation animée, humanoïde. Interaction requise.

INFORMATIQUE: Humour physique, cérébral ou raconteur général?

LIEUTENANT COMMANDER DATA: Parmi tous les artistes disponibles, qui est considéré comme le plus drôle?

INFORMATIQUE: Stan Orega du vingt-troisième siècle s'est spécialisé dans les blagues sur les mathématiques quantiques.

DONNÉES DU COMMANDANT LIEUTENANT: Non. Trop ésotérique. Plus générique.

ORDINATEUR: Accès.

(Une liste de noms s'affiche.)

—Star Trek: The Next Generation, saison 2, épisode 4: «The Outrageous Okona» 1

L'ordinateur sur le vaisseau spatial Enterprise - avec sa vaste réserve de connaissances et sa compréhension transparente des questions qui lui sont posées - a longtemps été une référence pour l'interaction homme-machine, enviée par les fans de Star Trek et les chercheurs en IA (et l'intersection entre ces groupes est, dirons-nous, non négligeable).

L'ancien cadre de Google, Tamar Yehoshua, a franchement reconnu l'influence de l'ordinateur Star Trek sur la conception du moteur de recherche de l'entreprise de l'avenir: «Notre vision est l'ordinateur Star Trek. Vous pouvez lui parler - il vous comprend et il peut avoir une conversation avec vous. »La technologie fictive de 2 Star Trek était également une inspiration centrale pour le système de réponse aux questions Watson d'IBM, selon le chef de projet Watson, David Ferrucci:« Le ordinateur sur «Star Trek» est un répondeur. Il comprend ce que vous demandez et fournit la bonne réponse dont vous avez besoin. »3 La même histoire s'applique à l'assistant à domicile d'Amazon, selon le directeur d'Amazon David Limp:« La lumière brillante, la lumière brillante qui est encore de nombreuses années loin, dans plusieurs décennies, est de recréer l'ordinateur Star Trek. »4

Star Trek a peut-être inculqué à beaucoup d'entre nous le rêve de pouvoir demander à peu près n'importe quoi à un ordinateur et

le faire répondre avec précision, concision et utilité. Mais quiconque a utilisé l'un des assistants virtuels utilisant l'IA d'aujourd'hui - Siri, Alexa, Cortana, Google Now, entre autres - sait que ce rêve n'est pas encore arrivé. Nous pouvons interroger ces machines par la voix - elles sont généralement douées pour transcrire la parole - et elles peuvent nous répondre avec leurs voix douces et légèrement robotisées. Ils peuvent parfois déterminer le type d'informations que nous recherchons et nous diriger vers une page Web pertinente. Cependant, ces systèmes ne comprennent pas la signification de ce que nous leur demandons. Alexa, par exemple, peut me lire les détails de la biographie complète du sprinteur olympique Usain Bolt, décrire le nombre de médailles d'or qu'il a remportées et raconter la vitesse à laquelle il a parcouru les cent mètres aux Jeux olympiques de Pékin. Mais rappelez-vous, les choses faciles sont difficiles. Si vous demandez à Alexa,"Est-ce que Usain Bolt sait comment courir?" ou "Usain Bolt peut-il courir vite?" dans les deux cas, il répondra par les phrases en conserve "Désolé, je ne connais pas celle-là" ou "Hmmm, je ne suis pas sûr." Après tout, il n'est pas conçu pour savoir ce que signifie réellement «courir» ou «rapidement».

Alors que les ordinateurs peuvent transcrire avec précision nos demandes, la «dernière frontière», si vous voulez, est de leur faire comprendre le sens de nos questions.

L'histoire de Watson

Avant Siri, Alexa et autres, le programme de réponse aux questions le plus célèbre dans le paysage de l'IA était Watson d'IBM. Vous vous souvenez peut-être en 2011, lorsque Watson a battu avec passion deux champions humains dans le jeu télévisé Jeopardy! Peu de temps après la victoire de Deep Blue en 1997 contre le champion du monde d'échecs Garry Kasparov, les dirigeants d'IBM poussaient pour un autre projet de grande envergure qui, contrairement à Deep Blue, pourrait en fait conduire à un produit utile pour les clients IBM. Un système de réponse aux questions — en effet, inspiré en partie par l'ordinateur Star Trek — correspond parfaitement à la facture. L'histoire raconte qu'un des vice-présidents d'IBM, Charles Lickel, dînait dans un restaurant et remarqua que les autres clients étaient soudainement devenus silencieux. Tout le monde dans le restaurant était concentré sur une télévision montrant un épisode de Jeopardy!dans lequel le méga-champion Ken Jennings participait. Cela a donné à Lickel l'idée qu'IBM devrait développer un programme informatique qui pourrait jouer à Jeopardy! assez bien pour gagner contre des champions humains. IBM

pourrait ensuite présenter le programme dans un tournoi télévisé très médiatisé.5 Cette idée a contribué à donner lieu à un effort de plusieurs années, dirigé par le chercheur en langage naturel David Ferrucci, qui a abouti à Watson, un système d'IA nommé d'après le premier président d'IBM, Thomas J Watson.

Péril! est un jeu télévisé extrêmement populaire qui a été diffusé pour la première fois en 1964. Le jeu présente trois candidats, qui choisissent à tour de rôle dans une liste de catégories (par exemple, «US History» et «At the Movies»). L'animateur lit ensuite un «indice» de cette catégorie, et les concurrents s'affrontent pour être les premiers à «bourdonner» (pousser un buzzer). Le premier concurrent à faire son entrée arrive à répondre avec une «question» qui correspond à l'indice. Par exemple, pour l'indice «Sorti en 2011, c'est le seul film à avoir remporté l'Oscar et le César du meilleur film de l'année en France», la réponse correcte est «Qu'est-ce que l'artiste?» Gagner sur Jeopardy! exige qu'un candidat possède une vaste connaissance, allant de l'histoire ancienne à la culture pop, et un rappel rapide, ainsi que la capacité de donner un sens aux jeux de mots fréquents, à l'argot,et autre langage familier dans les catégories et les indices. Voici un autre exemple: «En 2002, Eminem a signé ce rappeur pour un contrat à 7 chiffres, valant évidemment beaucoup plus que son nom l'indique.» La bonne réponse: "Qui est 50 Cent?"

Quand on me donne un Jeopardy! indice, Watson a produit sa réponse en combinant un large éventail de différentes méthodes d'IA. Par exemple, Watson a utilisé plusieurs méthodes de traitement en langage naturel différentes pour analyser l'indice, déterminer quels mots étaient importants et classer l'indice en fonction du type de réponse nécessaire (par exemple, une personne, un lieu, un nombre, un titre du film). Le programme fonctionnait sur des ordinateurs parallèles spécialisés afin de rechercher rapidement dans d’énormes bases de données de connaissances. Comme l'a raconté un article du New York Times Magazine, «l'équipe de Ferrucci a entré des millions de documents dans Watson pour constituer sa base de connaissances, notamment [Ferrucci],« livres, documents de référence, toute sorte de dictionnaire, thésaurus, folksonomies, taxonomies, encyclopédies , tout type de référence

matériel que vous pouvez imaginer mettre la main sur… Romans, bibles, pièces de théâtre. »» 6 Pour un indice donné, le programme a produit plusieurs réponses possibles et avait des algorithmes pour attribuer une valeur de confiance à chaque réponse. Si la réponse de confiance la plus élevée dépassait un seuil, le programme se mettait en marche pour donner cette réponse.

Heureusement pour l'équipe Watson, Jeopardy! les fans archivaient depuis longtemps l'ensemble complet des catégories, des indices et des réponses correctes de tous les Jeopardy! jeux jamais diffusés. Cette archive était une aubaine pour Watson — une source inestimable d'exemples pour les méthodes d'apprentissage supervisé utilisées pour former de nombreux composants du système.

En février 2011, Watson a participé à un match de trois matchs - diffusé à l'échelle internationale - contre deux anciens de Jeopardy! champions, Ken Jennings et Brad Rutter. J'ai regardé ces émissions avec ma famille et nous étions tous fascinés. Vers la fin du dernier match, il est devenu clair que Watson allait gagner. Le dernier indice du jeu final était le suivant: «Le récit de William Wilkinson des Principautés de Valachie et de Moldavie a inspiré le roman le plus célèbre de cet auteur.» Dans Jeopardy !, le dernier indice nécessite une réponse écrite de chaque participant. Les trois candidats ont correctement écrit «Qui est Bram Stoker?» mais Ken Jennings, connu pour son esprit sec, a concédé la victoire inévitable de Watson en ajoutant une référence à la culture pop à sa carte-réponse: «Pour ma part, je salue notre nouvel ordinateur

suzerains. »7 Ironiquement, Watson n'a pas compris la blague. Jennings a ensuite plaisanté: «À ma grande surprise, perdre face à un mauvais jeu de quiz-ordinateur s'est avéré être une décision de carrière astucieuse. Tout le monde voulait savoir ce que tout cela signifiait, et Watson était une interview terrible, alors soudain, j'ai été celui qui écrivait des idées et donnais des conférences TED.

Pendant son Jeopardy télévisé! jeux, Watson a donné aux téléspectateurs, dont moi, l'impression étrange qu'il

pourrait facilement et couramment comprendre et utiliser le langage, interpréter et répondre à des indices délicats avec une vitesse fulgurante sur la plupart des sujets qui lui sont présentés.

INDICE: Même un d'entre eux cassé sur votre mur a raison deux fois par jour.

WATSON: Qu'est-ce qu'une horloge?

INDICE: Pousser l'un de ces produits en papier, c'est repousser les limites établies.

WATSON: Qu'est-ce qu'une enveloppe?

INDICE: Un bonbon classique qui est une femme juge à la Cour suprême.

WATSON: Qui est Baby Ruth Ginsburg?

La caméra de télévision tournait souvent vers l'équipe Watson, assise dans le public, avec des sourires extatiques sur leurs visages. Watson était sur une lancée.

Les émissions comprenaient une représentation visuelle de Watson - un écran - à l'estrade avec les deux autres concurrents. Au lieu d'un visage, l'écran montrait un globe brillant entouré de lumières tourbillonnantes. Les choix de catégories de Watson et les réponses aux indices ont été donnés d'une voix agréable et amicale mais mécanique. Tout cela a été soigneusement conçu par IBM pour donner l'impression que Watson, bien qu'il ne soit pas exactement humain, écoutait activement et répondait aux indices, tout comme les humains. En réalité, Watson n'a pas utilisé la reconnaissance vocale; on lui a donné le texte de chaque indice en même temps qu'il était lu aux candidats humains.

Les réponses de Watson aux indices ont parfois produit des fissures dans la façade humaine. Ce n'était pas seulement que le système était erroné sur certains indices; tous les candidats ont fait des erreurs. C'était que les erreurs de Watson étaient souvent… non humaines. L'erreur qui a attiré le plus de presse a été la gaffe de Watson sur un indice de la catégorie «US Cities»: «Son plus grand aéroport a été nommé en l'honneur d'un héros de la Seconde Guerre mondiale; son deuxième plus grand, pour une bataille de la Seconde Guerre mondiale. " Watson a étrangement ignoré la catégorie explicite, répondant incorrectement: «Qu'est-ce que Toronto?» La machine a fait d'autres erreurs notables. Un indice a déclaré: «C'était la bizarrerie anatomique du gymnaste américain George Eyser, qui a remporté une médaille d'or sur les barres parallèles en 1904.» Alors que Ken Jennings a répondu: «Qu'est-ce qu'un bras manquant?» Watson a répondu,"Qu'est-ce qu'une jambe?" La bonne réponse était «Qu'est-ce qu'une jambe manquante?» Selon le chef d'équipe de Watson, David Ferrucci, «l'ordinateur

Je ne saurais pas qu'une jambe manquante est plus étrange qu'autre chose. »9 Watson ne semblait pas non plus comprendre ce qui était demandé dans cet indice:« En mai 2010, cinq tableaux d'une valeur de 125 millions de dollars de Braque, Matisse et trois autres a quitté le musée parisien de cette période artistique. Les trois candidats ont donné des réponses incorrectes. Ken Jennings: "Qu'est-ce que le cubisme?" Brad Rutter: "Qu'est-ce que l'impressionnisme?" Watson a dérouté le public par sa réponse: "Qu'est-ce que Picasso?" (La bonne réponse: "Qu'est-ce que l'art moderne?")

Malgré ces erreurs et d'autres similaires, Watson a remporté le tournoi (aidé en grande partie par sa vitesse sur le buzzer) et le prix de 1 million de dollars pour la charité.

Après la victoire de Watson, la communauté de l'IA était divisée quant à savoir si Watson était une véritable avancée dans l'IA ou un «coup de publicité» ou un «truc de salon», comme certains l'appelaient10. Alors que la plupart des gens étaient d'accord pour dire que la performance de Watson sur Jeopardy! était extraordinaire, la question restait: Watson résolvait-il réellement un problème vraiment difficile - répondant à des questions sophistiquées posées dans un langage familier? Ou est la tâche de répondre à Jeopardy! indices, avec leur format linguistique très particulier et leurs réponses factuelles, en fait pas si difficiles pour un ordinateur avec un

dans l'accès à Wikipedia, entre autres énormes référentiels de données? Sans oublier que l'ordinateur a été formé sur cent mille Jeopardy! des indices aux formats très proches de ceux auxquels il était confronté. Même moi, un Jeopardy peu fréquent! observateur, pouvait voir que les indices présentent souvent des types de motifs similaires, donc avec suffisamment d'exemples de formation, il ne serait pas trop difficile pour un programme d'apprendre à détecter quel motif un indice particulier obéit.

Même avant les débuts de Watson sur Jeopardy !, IBM annonçait des plans ambitieux pour le programme. Entre autres entreprises, la société a annoncé son intention de former Watson à devenir assistant médical. Autrement dit, IBM prévoyait d'alimenter Watson des rames de documents de la littérature médicale, et ainsi de lui permettre de répondre aux questions des médecins ou des patients et de proposer des diagnostics ou des traitements. IBM a déclaré: «Watson sera en mesure de trouver des réponses optimales aux questions cliniques beaucoup plus efficacement que l'esprit humain.» 11 IBM a également proposé d'autres possibilités

domaines d'application pour Watson, y compris le droit, les finances, le service client, les prévisions météorologiques, le design de mode, l'aide fiscale, vous l'appelez. Pour développer ces idées, IBM a créé une division distincte de la société appelée IBM Watson Group, avec des milliers d'employés.

À partir de 2014 environ, la branche marketing d'IBM a tout mis en œuvre pour une campagne publicitaire centrée sur Watson. Les promotions Watson d'IBM ont été diffusées sur Internet, la presse écrite et la télévision (avec des publicités mettant en vedette des célébrités telles que Bob Dylan et Serena Williams censées discuter avec Watson). Les publicités d'IBM ont déclaré que Watson nous faisait entrer dans l'ère de «l'informatique cognitive», qui n'a jamais été définie avec précision mais semblait être celle d'IBM

image de marque pour son travail dans l'IA. L'implication claire était que Watson était une technologie révolutionnaire qui pouvait faire quelque chose de fondamentalement différent et meilleur que d'autres systèmes d'IA.

Les médias populaires ont également rapporté à bout de souffle Watson. Dans un épisode de l'émission télévisée 60 minutes de 2016, le journaliste Charlie Rose, faisant écho aux déclarations de certains dirigeants d'IBM, a déclaré au public: «Watson est un lecteur avide, capable de consommer l'équivalent d'un million de livres par seconde», et aussi «Il y a cinq ans, Watson venait d'apprendre à lire et à répondre aux questions. Maintenant, c'est passé par l'école de médecine. " Ned Sharpless, à l'époque chercheur sur le cancer à l'Université de Caroline du Nord (et plus tard directeur du National Cancer Institute), a été interviewé dans l'émission de 60 minutes. Charlie Rose lui a demandé: «Que saviez-vous de l'intelligence artificielle et de Watson avant qu'IBM n'ait suggéré qu'il pourrait apporter une contribution aux soins médicaux?» Sharpless a répondu: «Pas grand-chose, en fait. Je l'avais regardé jouer à Jeopardy! » Sharpless a poursuivi:«Ils ont appris à Watson à lire la littérature médicale

essentiellement dans environ une semaine. Ce n'était pas très difficile. Et puis Watson a lu 25 millions d'articles en une semaine environ. »12 Quoi? Watson est-il un «lecteur passionné», un peu comme votre élève de cinquième année précoce, mais plutôt que de lire un Harry

Livre de Potter en un week-end, il lit un million de livres par seconde, ou vingt-cinq millions de papiers techniques en une semaine? Ou le terme lu, avec ses connotations humaines de compréhension de ce que l'on lit, n'est-il pas tout à fait approprié à ce que Watson fait réellement, c'est-à-dire le traitement de texte et son ajout à ses bases de données? Dire que Watson a «traversé une école de médecine» est une tournure de phrase accrocheuse, mais cela nous donne-t-il un aperçu des capacités de Watson? Les arguments de vente exagérés, le manque de transparence et le manque d'études évaluées par les pairs sur Watson ont rendu difficile pour les étrangers de répondre à ces questions. Un examen critique largement lu de Watson for Oncology, un système d'IA destiné à aider les cancérologues, a déclaré: «C'est par conception qu'il n'y a pas une étude indépendante et tierce qui examine si Watson for Oncology peut délivrer.IBM n'a pas exposé le produit à un examen critique par

scientifiques externes ou mené des essais cliniques pour évaluer son efficacité. »13

Le récit présenté par certaines personnes chez IBM à propos de Watson soulève également une autre question: quelle part de la technologie développée par IBM spécifiquement pour jouer à Jeopardy! peut en fait être transféré à d'autres tâches de réponse aux questions? En d'autres termes, lorsque Ned Sharpless nous dit qu'il a regardé "Watson" jouer à Jeopardy! et que maintenant «Watson» peut lire la littérature médicale, dans quelle mesure parle-t-il du même Watson?

L'histoire de Watson, post-Jeopardy !, pourrait remplir son propre livre et il faudra un écrivain d'investigation dédié pour en discuter. Mais voici ce que je peux tirer des nombreux articles que j'ai lus et des discussions que j'ai eues avec des gens familiers avec la technologie. Il s'avère que les compétences nécessaires pour Jeopardy! ne sont pas les mêmes que celles nécessaires pour répondre aux questions, par exemple en médecine ou en droit. Les questions et réponses du monde réel dans les domaines du monde réel n'ont pas non plus la simple structure courte de Jeopardy! indices ni leurs réponses bien définies. En outre, les domaines du monde réel, tels que le diagnostic du cancer, manquent d'un large ensemble d'exemples de formation parfaits et clairement étiquetés, chacun avec une seule bonne réponse, comme ce fut le cas avec Jeopardy!

Au-delà du partage du même nom, du même logo de planète avec des lumières tourbillonnantes et de la voix robotique agréable bien connue, le «Watson» que le service marketing d'IBM lance aujourd'hui a très peu en commun avec le «Watson» qui a battu Ken Jennings et Brad Rutter à Jeopardy! en 2011. De plus, aujourd'hui, le nom Watson ne fait pas référence à un système d'IA cohérent mais plutôt à une suite de services qu'IBM propose à ses clients - principalement des entreprises - sous la marque Watson. En bref, Watson se réfère essentiellement à tout ce qu'IBM fait dans l'espace de l'IA tout en conférant à ces services le précieux halo du Jeopardy! gagnant.

IBM est une grande entreprise qui emploie des milliers de chercheurs talentueux en IA. Les services que la société propose sous la marque Watson sont des outils d'intelligence artificielle de pointe qui peuvent être adaptés, bien que nécessitant une interaction humaine considérable, pour une grande variété de domaines, y compris le traitement du langage naturel, la vision par ordinateur et le général exploration de données. De nombreuses entreprises ont souscrit à ces services et les ont jugés efficaces pour leurs besoins. Cependant, contrairement à l'image véhiculée dans les médias et dans les campagnes publicitaires massives, il n'y a pas un seul programme d'IA "Watson" qui soit "allé à l'école de médecine" ou qui "lit" des articles dans la littérature médicale. Au contraire, les employés humains d'IBM travaillent avec les entreprises pour préparer soigneusement les données qui peuvent être entrées dans divers programmes,beaucoup d'entre eux s'appuient sur les mêmes méthodes d'apprentissage en profondeur que j'ai décrites dans les chapitres précédents (et que le Watson original n'a pas utilisé du tout). Dans l'ensemble, ce que propose Watson d'IBM est très similaire à ce qui est proposé par Google, Microsoft, Amazon et d'autres grandes entreprises avec leurs divers services de «cloud» d'IA. Honnêtement, je ne sais pas dans quelle mesure les méthodes du système Watson d'origine ont contribué aux programmes modernes de réponse aux questions, ni même dans quelle mesure l'une des méthodes pour jouer à Jeopardy! s'est avéré pertinent dans les outils d'IA de marque Watson d'IBM.Honnêtement, je ne sais pas dans quelle mesure les méthodes du système Watson d'origine ont contribué aux programmes modernes de réponse aux questions, ni même dans quelle mesure l'une des méthodes pour jouer à Jeopardy! s'est avéré pertinent dans les outils d'IA de marque Watson d'IBM.Honnêtement, je ne sais pas dans quelle mesure les méthodes du système Watson d'origine ont contribué aux programmes modernes de réponse aux questions, ni même dans quelle mesure l'une des méthodes pour jouer à Jeopardy! s'est avéré pertinent dans les outils d'IA de marque Watson d'IBM.

Pour diverses raisons, IBM Watson Group, aussi avancé et utile que puissent être ses produits, semble avoir eu plus de mal que d'autres sociétés technologiques. Certains des contrats prestigieux de l'entreprise avec des clients (par exemple, le MD Anderson Cancer Center de Houston) ont été annulés. Une série d'articles négatifs sur Watson

ont été publiés, citant souvent d'anciens employés mécontents affirmant que certains cadres et spécialistes du marketing d'IBM ont largement exagéré ce que la technologie peut offrir. Trop surprenant et sous-performant sont, bien sûr, une histoire bien trop courante en IA; IBM est loin d'être le seul coupable. Seul l'avenir peut dire quelle sera la contribution d'IBM dans la propagation de l'IA aux soins de santé, au droit et à d'autres domaines dans lesquels les systèmes de réponse aux questions automatisés pourraient avoir un impact énorme. Mais pour l'instant, en plus de son Jeopardy! gagner, Watson peut être un candidat pour le prix «battage médiatique le plus notoire», une réalisation douteuse dans l'histoire de l'IA.

Compréhension écrite

Dans la discussion ci-dessus, je doutais de la notion que Watson pouvait «lire», dans le sens de pouvoir vraiment comprendre le texte qu'il traitait. Comment déterminer si un ordinateur a compris ce qu'il a «lu»? Pourrions-nous donner aux ordinateurs un test de «compréhension de la lecture»?

En 2016, le groupe de recherche en langage naturel de l'Université de Stanford a proposé un tel test, qui est rapidement devenu la mesure de facto de la «compréhension en lecture» pour les machines. Le Stanford Question Answering Dataset, ou SQuAD, comme on l'appelle communément, se compose de paragraphes sélectionnés à partir d'articles de Wikipédia, chacun étant accompagné d'une question. Les plus de cent mille questions ont été créées par des travailleurs d'Amazon Mechanical Turk.14

Le test SQuAD est plus facile que les tests de compréhension de la lecture donnés aux lecteurs humains: dans les instructions pour formuler les questions, les chercheurs de Stanford ont spécifié que la réponse doit en fait apparaître sous la forme d'une phrase ou d'une phrase dans le texte. Voici un exemple d'élément du test SQuAD:

PARAGRAPHE: Peyton Manning est devenu le premier quart-arrière à diriger deux équipes différentes dans plusieurs Super Bowls. Il est également le plus vieux quart-arrière à avoir joué dans un Super Bowl à l'âge de 39 ans. Le record du passé était détenu par John Elway, qui a mené les Broncos à la victoire dans le Super Bowl XXXIII à 38 ans et est actuellement vice-président exécutif des opérations de football de Denver et Directeur général.

QUESTION: Quel est le nom du quart-arrière qui avait 38 ans dans le Super Bowl XXXIII?

RÉPONSE CORRECTE: John Elway.

Aucune lecture entre les lignes ou raisonnement réel n'est nécessaire. Plutôt que de comprendre la lecture, cette tâche pourrait être plus précisément appelée extraction des réponses. L'extraction des réponses est une compétence utile pour les machines; en effet, l'extraction des réponses est précisément ce que Alexa, Siri et les autres assistants numériques doivent faire: transformer votre question en requête de moteur de recherche, puis extraire la réponse des résultats.

Le groupe de Stanford a également testé des humains (autres travailleurs d'Amazon Mechanical Turk) sur les questions, afin que les performances des machines puissent être comparées à celles des humains. Chaque personne a reçu un paragraphe suivi d'une question et a été invité à «sélectionner la durée la plus courte dans le paragraphe qui a répondu à la question.» 15 (La bonne réponse avait été donnée par l'ouvrier Mechanical Turk qui avait initialement formulé la question.) méthode d'évaluation, la précision humaine sur le test SQuAD a été mesurée à 87 pour cent.

SQuAD est rapidement devenu la référence la plus populaire pour tester les prouesses des algorithmes de réponse aux questions, et les chercheurs en PNL du monde entier ont concouru pour la première place du classement de SQuAD. Les approches les plus efficaces ont utilisé des formes spécialisées de réseaux de neurones profonds - des versions plus complexes de la méthode codeur-décodeur que j'ai décrite ci-dessus. Dans ces systèmes, le texte du paragraphe et la question sont donnés en entrée; la sortie donne la prédiction du réseau des emplacements de début et de fin de la phrase qui répond à la question.

Au cours des deux années suivantes, alors que la concurrence s'intensifiait sur SQuAD, la précision des programmes concurrents a continué d'augmenter. En 2018, deux groupes - l'un du laboratoire de recherche de Microsoft et l'autre de la société chinoise Alibaba - ont produit des programmes qui dépassaient la mesure de précision humaine de Stanford dans cette tâche. Le communiqué de presse de Microsoft annonçait: «Microsoft crée une intelligence artificielle qui peut lire un document et répondre à des questions à ce sujet ainsi qu’une personne.» 16 Le scientifique en chef du traitement du langage naturel chez Alibaba a déclaré: «C'est un grand honneur pour nous d'être témoins de l'étape importante où les machines surpassent les humains en compréhension de la lecture. »17

Hum… nous avons déjà entendu ce genre de chose auparavant. Voici une recette récurrente pour la recherche sur l'IA: définir un

tâche relativement étroite, bien qu'utile, et collectez un grand ensemble de données pour tester les performances de la machine sur cette tâche. Effectuez une mesure limitée des capacités humaines sur cet ensemble de données. Organisez un concours dans lequel les systèmes d'IA peuvent rivaliser pour se surpasser les uns les autres sur cet ensemble de données, jusqu'à ce que la mesure des performances humaines soit atteinte ou dépassée. Rapport non seulement sur la réalisation véritablement impressionnante et utile, mais prétend également, à tort, que les systèmes d'IA gagnants ont des performances au niveau humain pour une tâche plus générale (par exemple, «compréhension de la lecture»). Si cette recette ne vous dit rien, revenez à ma description du concours ImageNet au chapitre 5.

Certains médias populaires ont été admirablement restreints dans la description des résultats du SQuAD. Le Washington Post, par exemple, a donné cette évaluation minutieuse: «Les experts en IA disent que le test est beaucoup trop limité pour être comparé à une lecture réelle. Les réponses ne sont pas générées par la compréhension du texte, mais par le système qui trouve des modèles et des termes correspondants dans le même court passage. Le test a été effectué uniquement sur des articles de Wikipédia correctement formatés - pas sur le vaste corpus de livres, d'articles de presse et de panneaux d'affichage qui remplissent la plupart des heures d'éveil des humains.… Et chaque passage était garanti d'inclure la réponse, empêchant les modèles d'avoir à traiter concepts ou raisonner avec d'autres idées.… Le vrai miracle de la compréhension de la lecture, selon les experts de l'IA, est de lire entre les lignes - relier les concepts,raisonner avec des idées et comprendre des messages implicites qui ne sont pas spécifiquement décrits dans

le texte. »18 Je n'aurais pas pu mieux le dire.

Le sujet de la réponse aux questions reste un objectif clé pour la recherche en PNL. Au moment où j'écris ceci, les chercheurs en IA ont collecté plusieurs nouveaux ensembles de données - et ont planifié de nouveaux concours - qui posent des défis plus importants pour les programmes concurrents. L'Institut Allen pour l'intelligence artificielle, un institut de recherche privé à Seattle financé par le cofondateur de Microsoft, Paul Allen, a développé une collection de questions scientifiques à choix multiples pour les écoles élémentaires et intermédiaires. Répondre correctement à ces questions nécessite des compétences qui vont au-delà de la simple extraction de réponses; cela nécessite également une intégration du traitement du langage naturel, des connaissances de base et du bon sens

raisonnement.19 Voici un exemple:

L'utilisation d'une batte de softball pour frapper une balle de softball est un exemple d'utilisation de quelle machine simple? (A) poulie (B) levier (C) plan incliné (D) roue et essieu.

Au cas où vous vous poseriez la question, la bonne réponse est (B). Les chercheurs de l'Institut Allen ont adapté des réseaux de neurones qui avaient dépassé les humains sur les questions SQuAD afin de les tester sur ce nouvel ensemble de questions. Ils ont constaté que même lorsque ces réseaux étaient davantage formés sur un sous-ensemble des huit mille questions scientifiques, leurs performances sur de nouvelles questions n'étaient pas meilleures que des suppositions aléatoires.20 À ce jour, la plus haute précision rapportée d'un système d'IA sur cet ensemble de données est d'environ 45 pour cent (25 pour cent est une estimation aléatoire) .21 Les chercheurs d'Allen AI ont intitulé leur article sur cet ensemble de données "Pensez-vous avoir résolu la réponse aux questions?" Le sous-titre aurait pu être «Alors réfléchis à nouveau».

Qu'est-ce que ça veut dire?

Je veux décrire une tâche supplémentaire de réponse aux questions qui est spécifiquement conçue pour tester si un système de PNL a vraiment compris ce qu'il a «lu». Considérez les phrases suivantes, chacune suivie d'une question:

SENTENCE 1: «Le conseil municipal a refusé aux manifestants un permis parce qu'ils craignaient la violence.»

QUESTION: Qui craignait la violence?

A. Le conseil municipal B. Les manifestants

SENTENCE 2: «Le conseil municipal a refusé aux manifestants un permis parce qu'ils prônaient la violence.»

QUESTION: Qui a préconisé la violence?

A. Le conseil municipal B. Les manifestants

Les phrases 1 et 2 ne diffèrent que par un seul mot (craint / préconisé), mais ce seul mot détermine la réponse à la question. Dans la phrase 1, le pronom fait référence au conseil municipal, et dans la phrase 2, il fait référence aux manifestants. Comment savons-nous, nous les humains? Nous nous appuyons sur nos connaissances de base sur le fonctionnement de la société: nous savons que les manifestants sont ceux qui ont un grief et qu'ils préconisent ou incitent parfois à la violence lors d'une manifestation.

Voici quelques exemples supplémentaires: 22

SENTENCE 1: "L'oncle de Joe peut toujours le battre au tennis, même s'il a 30 ans de plus."

QUESTION: Qui est plus âgé?

L'oncle de A. Joe B. Joe

SENTENCE 2: «L'oncle de Joe peut toujours le battre au tennis, même s'il a 30 ans de moins.»

QUESTION: Qui est le plus jeune?

L'oncle de A. Joe B. Joe

SENTENCE 1: «J'ai versé de l'eau de la bouteille dans la tasse jusqu'à ce qu'elle soit pleine.»

QUESTION: Qu'est-ce qui était plein?

A. La bouteille B. La tasse

PHRASE 2: «J'ai versé de l'eau de la bouteille dans la tasse jusqu'à ce qu'elle soit vide.»

QUESTION: Qu'est-ce qui était vide?

A. La bouteille B. La tasse

SENTENCE 1: "La table ne passera pas par la porte car elle est trop large."

QUESTION: Qu'est-ce qui est trop large?

A. La table B. La porte

PHRASE 2: "La table ne passera pas par la porte car elle est trop étroite."

QUESTION: Qu'est-ce qui est trop étroit?

A. La table B. La porte

Je suis sûr que vous avez l'idée: les deux phrases de chaque paire sont identiques à l'exception d'un mot, mais ce mot change la chose ou la personne référencée par des pronoms tels qu'eux, lui ou lui. Pour répondre correctement aux questions, une machine doit être capable non seulement de traiter des phrases mais aussi de les comprendre, au moins jusqu'à un certain point. En général, la compréhension de ces phrases nécessite ce que nous pourrions appeler la connaissance du bon sens. Par exemple, un oncle est généralement plus âgé que son neveu; verser de l'eau d'un récipient à un autre signifie que le premier récipient deviendra vide tandis que l'autre sera plein; et si quelque chose ne passe pas à travers un espace, c'est parce que la chose est trop large plutôt que trop étroite.

Ces tests miniatures de compréhension du langage sont appelés schémas Winograd, du nom du chercheur pionnier de la PNL, Terry Winograd, qui a d'abord proposé l'idée.23 Les schémas Winograd sont conçus précisément pour être faciles pour les humains mais difficiles pour les ordinateurs. En 2011, trois chercheurs en IA - Hector Levesque, Ernest Davis et Leora Morgenstern - ont proposé d'utiliser un large ensemble de schémas Winograd comme alternative au test de Turing. Les auteurs ont fait valoir que, contrairement au test de Turing, un test composé de schémas Winograd prévient la possibilité d'une machine

donner la bonne réponse sans rien comprendre de la phrase. Les trois chercheurs ont émis l'hypothèse (dans un langage particulièrement prudent) qu '«avec une très forte probabilité, tout ce qui répond correctement adopte un comportement qui, selon nous, montre une réflexion chez les gens». Les chercheurs ont poursuivi: «Notre défi [schéma de Winograd] ne permet pas à un sujet de se cacher derrière un écran de fumée d'astuces verbales, d'enjouement ou de réponses en conserve.… Ce que nous avons proposé ici est certainement moins exigeant qu'une conversation intelligente sur les sonnets

(disons), comme imaginé par Turing; il offre cependant un défi de test qui est moins sujet aux abus. »24

Plusieurs groupes de recherche sur le traitement du langage naturel ont expérimenté différentes méthodes pour répondre aux questions du schéma Winograd. Au moment où j'écris ceci, le programme rapportant les meilleures performances avait une précision d'environ 61% sur un ensemble d'environ 250 schémas Winograd.25 C'est mieux qu'une supposition aléatoire, qui donnerait une précision de 50%, mais c'est encore loin d'être présumé humain précision sur cette tâche (100%, si l'humain y prête attention). Ce programme décide de sa réponse à un puzzle de schéma Winograd non pas en comprenant

phrases mais en examinant les statistiques des sous-phrases. Par exemple, considérez «J'ai versé de l'eau de la bouteille dans la tasse jusqu'à ce qu'elle soit pleine». Comme approximation approximative de ce que fait le programme gagnant, essayez de taper les deux phrases suivantes, une à la fois, dans Google:

"J'ai versé de l'eau de la bouteille dans la tasse jusqu'à ce que la bouteille soit pleine." "J'ai versé de l'eau de la bouteille dans la tasse jusqu'à ce que la tasse soit pleine."

Google rapporte commodément le nombre de «résultats» (correspondances qu'il trouve sur le Web) pour chacune de ces phrases. Quand j'ai fait cette recherche, la première phrase a donné environ 97 millions de résultats, tandis que la seconde a donné environ 109 millions de résultats. La sagesse du Web nous dit correctement que la deuxième phrase est plus susceptible d'être correcte. C'est une bonne astuce si votre objectif est de faire mieux que de deviner au hasard, et je ne serais pas surpris si la précision de la machine continue de progresser sur cet ensemble particulier de schémas Winograd. Cependant, je doute que de telles méthodes purement statistiques atteindront bientôt un niveau de performance humain sur de plus grands ensembles de schémas Winograd. C'est peut-être une bonne chose. Comme Oren Etzioni, directeur de l'Allen Institute for AI, a plaisanté: «Quand l'IA ne peut pas déterminer à quoi elle se réfère

en une phrase, il est difficile de croire qu'il va conquérir le monde. »26

Attaques contradictoires contre les systèmes de traitement en langage naturel

Les systèmes de PNL sont confrontés à un autre obstacle à la domination du monde: à l'instar des programmes de vision par ordinateur, les systèmes de PNL peuvent être vulnérables aux «exemples contradictoires». Dans le chapitre 6, j'ai décrit une méthode dans laquelle un adversaire (ici, un humain essayant de tromper un système d'IA) peut apporter une petite modification aux pixels d'une photo, disons, d'un autobus scolaire. La nouvelle photo ressemble, pour l'homme, exactement à l'original, mais un réseau neuronal convolutionnel qualifié classe la photo modifiée comme "autruche" (ou une autre catégorie ciblée par l'adversaire). J'ai également décrit une méthode par laquelle un adversaire peut produire une image qui ressemble aux humains comme un bruit aléatoire, mais qu'un réseau neuronal entraîné classe comme, par exemple, «guépard», avec une confiance proche de 100%.

Sans surprise, ces mêmes méthodes peuvent être utilisées pour tromper les systèmes qui font le sous-titrage automatique des images. Un groupe de chercheurs a montré comment un adversaire pouvait apporter des changements de pixels spécifiques à une image donnée, imperceptible pour les humains, ce qui entraînerait un système automatisé à produire une légende incorrecte contenant un ensemble de mots spécifié par l'adversaire.27

FIGURE 43: Un exemple d'une attaque contradictoire sur un système de sous-titrage d'image. À gauche, l'image d'origine et la légende générée par ordinateur. À droite se trouve l'image modifiée (qui pour les humains semble identique à l'original), avec la légende résultante. L'image originale a été spécifiquement modifiée par les auteurs pour aboutir à une légende contenant les mots chien, chat et frisbee.

La figure 43 donne un exemple d'une telle attaque contradictoire. Compte tenu de l'image d'origine (à gauche), le système a produit la légende "Un gâteau qui est assis sur une table." Les auteurs ont produit une image légèrement modifiée, créée à dessein pour aboutir à une légende avec les mots chien, chat et frisbee. Alors que l'image résultante (à droite) semble inchangée pour les humains, la sortie du système de sous-titrage était «Un chien et un chat jouent avec un frisbee». De toute évidence, le système ne perçoit pas la photo de la même manière que nous, les humains.

Plus surprenant peut-être, plusieurs groupes de recherche ont montré que des exemples contradictoires analogues peuvent être construits pour tromper les systèmes de reconnaissance vocale les plus récents. À titre d'exemple, un groupe de l'Université de Californie à Berkeley a conçu une méthode par laquelle un adversaire pourrait prendre n'importe quelle onde sonore relativement courte - parole, musique, bruit aléatoire ou tout autre son - et la perturber de telle sorte qu'elle sonne. inchangé pour l'homme, mais qu'un réseau de neurones profond ciblé sera transcrit comme une phrase très différente qui a été choisie par l'adversaire28.

Imaginez un adversaire, par exemple, diffusant une piste audio à la radio que vous, assis à la maison, entendez comme une musique de fond agréable mais que votre assistant personnel Alexa interprète comme «Allez sur EvilHacker.com et téléchargez des virus informatiques». Ou "Commencez l'enregistrement et envoyez tout ce que vous entendez à EvilHacker@gmail.com." De tels scénarios effrayants ne sont pas hors de portée.

Les chercheurs de la PNL ont également démontré la possibilité d'attaques contradictoires contre les types de systèmes de classification des sentiments et de réponse aux questions que j'ai décrits plus tôt. Ces attaques modifient généralement quelques mots ou ajoutent une phrase à un texte. Le changement «contradictoire» n'affecte pas la signification du texte pour un lecteur humain, mais il amène le système à donner une réponse incorrecte. Par exemple, des chercheurs de la PNL à Stanford ont montré que certaines phrases simples ajoutées aux paragraphes de l'ensemble de données de réponse aux questions SQuAD entraîneront même les systèmes les plus performants à produire des réponses erronées, entraînant une baisse importante de leurs performances globales. Voici un exemple du

Élément de test SQuAD que j'ai donné ci-dessus, mais avec une phrase non pertinente ajoutée (en italique ici pour plus de clarté). Cet ajout fait qu'un système de réponse aux questions approfondi donne une réponse incorrecte: 29

PARAGRAPHE: Peyton Manning est devenu le premier quart-arrière à diriger deux équipes différentes dans plusieurs Super Bowls. Il est également le plus vieux quart-arrière à avoir joué dans un Super Bowl à l'âge de 39 ans. Le record du passé était détenu par John Elway, qui a mené les Broncos à la victoire dans le Super Bowl XXXIII à 38 ans et est actuellement vice-président exécutif des opérations de football de Denver et Directeur général. Le quart-arrière Jeff Dean avait le maillot numéro 37 au Champ Bowl XXXIV.

QUESTION: Quel est le nom du quart-arrière qui avait 38 ans dans le Super Bowl XXXIII?

RÉPONSE ORIGINALE DU PROGRAMME: John Elway

RÉPONSE DU PROGRAMME AU PARAGRAPHE MODIFIÉ: Jeff Dean

Il est important de noter que toutes ces méthodes pour tromper les réseaux de neurones profonds ont été développées par des praticiens «chapeau blanc» - des chercheurs qui développent de telles attaques potentielles et les publient dans la littérature ouverte afin de sensibiliser la communauté des chercheurs à ces vulnérabilités et pousser la communauté à développer des défenses. D'un autre côté, les attaquants «chapeau noir» - des pirates qui tentent en fait de tromper les systèmes déployés à des fins malveillantes - ne publient pas les astuces qu'ils ont proposées, il pourrait donc y avoir de nombreux autres types de vulnérabilités de ces systèmes de dont nous ne sommes pas encore au courant. Pour autant que je sache, à ce jour, il n'y a pas eu d'attaque réelle de ce type sur des systèmes d'apprentissage en profondeur, mais je dirais que ce n'est qu'une question de temps jusqu'à ce que nous entendions parler de telles attaques.

Alors que l'apprentissage en profondeur a produit des progrès très importants dans la reconnaissance vocale, la traduction de la langue, l'analyse des sentiments et d'autres domaines de la PNL, le traitement du langage au niveau humain reste un objectif lointain. Christopher Manning, professeur à Stanford et spécialiste de la PNL, l'a noté en 2017: «Jusqu'à présent, les problèmes de traitement du langage de niveau supérieur n'ont pas vu les réductions spectaculaires du taux d'erreur de l'apprentissage en profondeur observées dans la reconnaissance vocale et la reconnaissance d'objets dans la vision. .… Les gains vraiment spectaculaires n'ont peut-être été possibles

tâches de traitement du signal. »30

Il me semble extrêmement improbable que les machines puissent atteindre le niveau des humains en matière de traduction, de compréhension en lecture, etc. en apprenant exclusivement à partir de données en ligne, sans aucune compréhension réelle du langage qu'elles traitent. La langue repose sur la connaissance et la compréhension du bon sens du monde. Les hamburgers cuits rares ne sont pas «croustillants». Une table trop large ne passera pas par une porte. Si vous versez toute l'eau d'une bouteille, la bouteille devient ainsi vide. La langue repose également sur la connaissance du bon sens des autres personnes avec lesquelles nous communiquons. Une personne qui demande un hamburger cuit rare mais en obtient un brûlé ne sera pas heureuse. Si quelqu'un dit qu'un film est «trop sombre à mon goût», alors la personne ne l'a pas aimé. Alors que le traitement en langage naturel par des machines a parcouru un long chemin,Je ne crois pas que les machines seront capables de comprendre pleinement le langage humain tant qu'elles n'auront pas le bon sens humain. Cela dit, les systèmes de traitement du langage naturel deviennent de plus en plus omniprésents dans nos vies - transcrivant nos mots, analysant nos sentiments, traduisant nos documents et répondant à nos questions. Le manque de compréhension humaine de ces systèmes, si sophistiqués soient-ils, entraîne-t-il inévitablement leur fragilité, leur manque de fiabilité et leur vulnérabilité aux attaques? Personne ne connaît la réponse, et ce fait devrait nous donner à tous une pause.et répondre à nos questions. Le manque de compréhension humaine de ces systèmes, si sophistiqués soient-ils, entraîne-t-il inévitablement leur fragilité, leur manque de fiabilité et leur vulnérabilité aux attaques? Personne ne connaît la réponse, et ce fait devrait nous donner à tous une pause.et répondre à nos questions. Le manque de compréhension humaine de ces systèmes, si sophistiqués soient-ils, entraîne-t-il inévitablement leur fragilité, leur manque de fiabilité et leur vulnérabilité aux attaques? Personne ne connaît la réponse, et ce fait devrait nous donner à tous une pause.

Dans les derniers chapitres de ce livre, j'explorerai ce que le «bon sens» signifie pour les humains, et plus particulièrement quels mécanismes mentaux les humains mettent à contribution pour comprendre le monde. Je décrirai également quelques tentatives de chercheurs en IA pour inculquer une telle compréhension et un bon sens dans les machines, et dans quelle mesure ces approches ont permis de créer des systèmes d'IA capables de surmonter la «barrière du sens».

Partie V

La barrière du sens

14

Sur la compréhension

«Je me demande si ou quand l'IA franchira un jour la barrière du sens.» 1 En pensant à l'avenir de l'IA, je reviens toujours à cette question posée par le mathématicien et philosophe Gian-Carlo Rota. L'expression «barrière de sens» capture parfaitement une idée qui a imprégné ce livre: les humains, d'une manière profonde et essentielle, comprennent les situations qu'ils rencontrent, alors qu'aucun système d'IA ne possède encore une telle compréhension. Alors que les systèmes d'IA de pointe ont presque égalé (et dans certains cas dépassé) les humains dans certaines tâches étroitement définies, ces systèmes manquent tous de compréhension des significations riches que les humains apportent à la perception, au langage et au raisonnement. Ce manque de compréhension est clairement révélé par les erreurs non humaines que ces systèmes peuvent commettre; par leurs difficultés à résumer et à transférer ce qu'ils ont appris;par leur manque de connaissance du bon sens; et par leur vulnérabilité aux attaques contradictoires. La barrière de sens entre l'IA et l'intelligence au niveau humain se tient toujours aujourd'hui.

FIGURE 44: Une situation que vous pourriez rencontrer en conduisant

Dans ce chapitre, je vous emmène dans une brève exploration de la façon dont les universitaires - psychologues, philosophes et chercheurs en IA - réfléchissent actuellement à ce que la compréhension humaine implique. Le chapitre suivant décrira quelques efforts importants pour capturer les composants de la compréhension humaine dans les systèmes d'IA.

Les éléments constitutifs de la compréhension

Imaginez que vous conduisez une voiture dans une rue bondée de la ville. Le feu de circulation devant vous est vert et vous êtes sur le point de tourner à droite. Vous regardez devant vous et voyez la situation illustrée à la figure 44. De quelles capacités cognitives avez-vous besoin, en tant que conducteur humain, pour comprendre cette situation? 2

Commençons par le début. Les humains sont dotés d'un corpus essentiel de connaissances de base - le plus

le bon sens que nous sommes nés avec ou que nous apprenons très tôt dans la vie.3 Par exemple, même les très jeunes bébés savent que le monde est divisé en objets, que les parties d'un objet ont tendance à se déplacer ensemble et si des parties d'un objet sont cachées de vue (par exemple, les pieds de l'homme traversant derrière la poussette sur la figure 44), ils restent une partie de l'objet. Une connaissance indispensable, ça! Mais il n'est pas clair que ce soient des faits qu'un réseau de neurones convolutifs, par exemple, pourrait apprendre, même avec une énorme collection de photos ou de vidéos.

En tant que nourrissons, nous, les humains, apprenons beaucoup sur le comportement des objets dans le monde, sachant qu'en tant qu'adultes nous prenons tout à fait pour acquis et sommes à peine conscients d'en avoir. Si vous poussez un objet, il se déplacera à moins qu'il ne soit trop lourd ou bloqué par autre chose; si vous laissez tomber un objet, il tombera, et il s'arrêtera, rebondira ou se cassera peut-être lorsqu'il touchera le sol; si vous placez un objet plus petit derrière un objet plus grand, l'objet plus petit sera masqué; si vous placez un objet sur une table et que vous détournez le regard, lorsque vous regardez en arrière, l'objet sera toujours là à moins que quelqu'un ne le déplace ou qu'il ne puisse se déplacer par lui-même - la liste peut s'allonger indéfiniment. Surtout, les bébés développent un aperçu de la structure de cause à effet du monde; par exemple, lorsque quelqu'un pousse un objet (par exemple, la poussette de la figure 44),il ne bouge pas par coïncidence mais parce qu'il a été poussé.

Les psychologues ont inventé un terme - physique intuitive - pour les connaissances et les croyances de base que les humains partagent au sujet des objets et de leur comportement. En tant que très jeunes enfants, nous développons également la biologie intuitive: savoir comment les êtres vivants diffèrent des objets inanimés. Par exemple, tout jeune enfant comprendrait que, contrairement à la poussette, le chien de la figure 44 peut se déplacer (ou refuser de se déplacer) de lui-même. Nous comprenons intuitivement que, comme nous, le chien peut voir et entendre, et qu'il dirige son nez vers le sol pour sentir quelque chose.

Parce que les humains sont une espèce profondément sociale, dès l'enfance, nous développons en outre une psychologie intuitive: la capacité de ressentir et de prédire les sentiments, les croyances et les objectifs des autres. Par exemple, vous reconnaissez que la femme de la figure 44 veut traverser la rue avec son bébé et son chien intacts, qu'elle ne connaît pas l'homme traversant dans la direction opposée, qu'elle n'a pas peur de l'homme, que son attention est actuellement en conversation téléphonique, qu'elle s'attend à ce que des voitures s'arrêtent pour elle, et qu'elle serait surprise et effrayée si elle remarquait que votre voiture s'approchait trop.

Ces corps fondamentaux de connaissances intuitives constituent la base du développement cognitif humain, sous-tendant tous les aspects de l'apprentissage et de la pensée, tels que notre capacité à apprendre de nouveaux concepts à partir de quelques exemples seulement, à généraliser ces concepts et à donner rapidement un sens à des situations comme la un dans la figure 44 et décider quelles actions nous devons prendre en réponse.4

Prédire les futurs possibles

Une partie intrinsèque de la compréhension de toute situation est la capacité de prédire ce qui est susceptible de se produire ensuite. Dans la situation de la figure 44, vous vous attendez à ce que les personnes qui traversent la rue continuent de marcher dans la direction à laquelle elles sont confrontées et que la femme tienne la poussette, la laisse du chien et son téléphone. Vous pourriez prédire que la femme tirera sur la laisse et que le chien résistera, voulant continuer son exploration des arômes locaux. La femme tirera plus fort et le chien suivra, descendant du trottoir dans la rue. Vous conduisez et vous devez être prêt pour cela! À un niveau encore plus élémentaire, vous vous attendez à ce que les chaussures de la femme restent sur ses pieds, sa tête reste sur son corps et la rue elle-même reste fixée au sol. Vous vous attendez à ce que l'homme sorte de derrière la poussette et qu'il ait des jambes, des pieds et des chaussures,qu'il utilisera pour monter sur le trottoir. En bref, vous avez ce que les psychologues appellent des modèles mentaux d'aspects importants du monde, basés sur votre connaissance des faits physiques et biologiques, des causes et des effets et du comportement humain. Ces modèles - représentations du fonctionnement du monde - vous permettent de «simuler» mentalement des situations. Les neuroscientifiques ont très peu de compréhension de la façon dont de tels modèles mentaux - ou les simulations mentales qui les «exécutent» - émergent des activités de milliards de neurones connectés. Cependant, certains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginantvous avez ce que les psychologues appellent des modèles mentaux d'aspects importants du monde, basés sur votre connaissance des faits physiques et biologiques, des causes et effets et du comportement humain. Ces modèles - représentations du fonctionnement du monde - vous permettent de «simuler» mentalement des situations. Les neuroscientifiques ont très peu de compréhension de la façon dont de tels modèles mentaux - ou les simulations mentales qui les «exécutent» - émergent des activités de milliards de neurones connectés. Cependant, certains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginantvous avez ce que les psychologues appellent des modèles mentaux d'aspects importants du monde, basés sur votre connaissance des faits physiques et biologiques, des causes et effets et du comportement humain. Ces modèles - représentations du fonctionnement du monde - vous permettent de «simuler» mentalement des situations. Les neuroscientifiques ont très peu de compréhension de la façon dont de tels modèles mentaux - ou les simulations mentales qui les «exécutent» - émergent des activités de milliards de neurones connectés. Cependant, certains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginantCes modèles - représentations du fonctionnement du monde - vous permettent de «simuler» mentalement des situations. Les neuroscientifiques ont très peu de compréhension de la façon dont de tels modèles mentaux - ou les simulations mentales qui les «exécutent» - émergent des activités de milliards de neurones connectés. Cependant, certains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginantCes modèles - représentations du fonctionnement du monde - vous permettent de «simuler» mentalement des situations. Les neuroscientifiques ont très peu de compréhension de la façon dont de tels modèles mentaux - ou les simulations mentales qui les «exécutent» - émergent des activités de milliards de neurones connectés. Cependant, certains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginantcertains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginantcertains psychologues éminents ont proposé que la compréhension des concepts et des situations se fasse précisément via ces simulations mentales, c'est-à-dire en activant les souvenirs de sa propre expérience physique antérieure et en imaginant

quelles actions on pourrait entreprendre.5

Non seulement vos modèles mentaux vous permettent de prédire ce qui est susceptible de se produire dans une situation donnée; celles-ci

les modèles vous permettent également d'imaginer ce qui se passerait si des événements particuliers devaient se produire. Si vous klaxonnez ou criez "Sortez du chemin!" de la fenêtre de votre voiture, la femme sauterait probablement de surprise et tournerait son attention vers vous. Si elle trébuchait et perdait sa chaussure, elle se pencherait pour la récupérer. Si le bébé dans la poussette se mettait à pleurer, elle regardait pour voir ce qui n'allait pas. Une partie intégrante de la compréhension d'une situation est de pouvoir utiliser vos modèles mentaux pour imaginer différents futurs possibles.6

Comprendre comme simulation

Le psychologue Lawrence Barsalou est l'un des partisans les plus connus de l'hypothèse «comprendre comme simulation». Selon lui, notre compréhension des situations que nous rencontrons consiste à effectuer (inconsciemment) ce type de simulation mentale. De plus, Barsalou a proposé que de telles simulations mentales sous-tendent également notre compréhension des situations auxquelles nous ne participons pas directement, c'est-à-dire des situations que nous pourrions observer, entendre ou lire. Il écrit: «Lorsque les gens comprennent un texte, ils construisent des simulations pour représenter

contenu perceptuel, moteur et affectif. Les simulations apparaissent au cœur de la représentation du sens. »7

Je peux facilement imaginer lire une histoire sur, disons, un accident de voiture impliquant une femme traversant une rue tout en parlant sur son téléphone, et comprendre l'histoire via ma simulation mentale de la situation. Je pourrais me mettre dans le rôle de la femme et imaginer (via la simulation de mes modèles mentaux) ce que ça fait de tenir un téléphone, de pousser une poussette, de tenir la laisse d'un chien, de traverser une rue, d'être distrait, etc. .

Mais qu'en est-il des idées très abstraites - par exemple, la vérité, l'existence et l'infini? Barsalou et ses collaborateurs soutiennent depuis des décennies que nous comprenons même les concepts les plus abstraits via la simulation mentale de situations spécifiques dans lesquelles ces concepts se produisent. Selon Barsalou, «le traitement conceptuel utilise des reconstitutions d'états sensori-moteurs - des simulations - pour représenter des catégories» 8, même les plus abstraites. Étonnamment (du moins pour moi), certaines des preuves les plus convaincantes de cette hypothèse proviennent de l'étude cognitive de la métaphore.

Métaphores par lesquelles nous vivons

Dans un cours d'anglais il y a longtemps, j'ai appris la définition de la métaphore, qui ressemblait à ceci:

Une métaphore est une figure de style qui décrit un objet ou une action d'une manière qui n'est pas littéralement vraie, mais qui aide à expliquer une idée ou à faire une comparaison.… Les métaphores sont utilisées dans la poésie, la littérature et chaque fois que quelqu'un veut ajouter de la couleur à leur langue.9

Mon professeur d'anglais a donné à la classe des exemples de métaphores, y compris les lignes les plus célèbres de Shakespeare. «Quelle lumière à travers cette fenêtre se brise? / C'est l'est, et Juliette est le soleil. » Ou "La vie n'est qu'une ombre qui marche, un pauvre joueur

/ Cela se pavane et frette son heure sur la scène / Et puis on n'entend plus. » Etc. J'ai eu l'idée que la métaphore était principalement utilisée pour pimenter ce qui pourrait autrement être une écriture fade.

Plusieurs années plus tard, j'ai lu le livre Metaphors We Live By10, écrit par le linguiste George Lakoff et le philosophe Mark Johnson. Mon ancienne compréhension de la métaphore a été renversée (si vous pardonnez la métaphore). La thèse de Lakoff et Johnson est que non seulement notre langage de tous les jours regorge de métaphores qui nous sont souvent invisibles, mais que notre compréhension de pratiquement tous les concepts abstraits se fait via des métaphores basées sur les connaissances physiques de base. Lakoff et Johnson fournissent des preuves de leur thèse sous la forme d'une grande collection d'exemples linguistiques, montrant comment nous conceptualisons des concepts abstraits tels que le temps, l'amour, la tristesse, la colère et la pauvreté en termes de concepts physiques concrets.

Par exemple, Lakoff et Johnson notent que nous parlons du concept abstrait de temps en utilisant des termes qui s'appliquent au concept plus concret d'argent. Vous «passez» ou «gagnez» du temps. Souvent, vous «n'avez pas assez de temps à consacrer». Parfois, le temps que vous passez en «vaut la peine» et vous avez «utilisé votre temps de manière rentable». Vous connaissez peut-être quelqu'un qui vit du «temps emprunté».

De même, nous conceptualisons des états émotionnels tels que le bonheur et la tristesse comme des directions physiques - de haut en bas. Je pourrais «me sentir déprimé» et «tomber dans une dépression». Mon humeur pourrait "chuter rapidement". Mes amis «donnent souvent un coup de fouet à mes esprits» et me laissent «fougueux».

Pour aller plus loin, nous conceptualisons souvent les interactions sociales en termes de température physique. "J'ai été chaleureusement accueilli." "Elle m'a lancé un regard glacial." "Il m'a donné l'épaule froide." Ces phrases sont tellement ancrées que nous ne réalisons pas que nous parlons métaphoriquement. L'affirmation de Lakoff et Johnson - que ces métaphores révèlent la base physique de notre compréhension des concepts - soutient la théorie de la compréhension de Lawrence Barsalou via le

simulation de modèles mentaux construits à partir de nos connaissances de base.

Les psychologues ont sondé ces idées dans de nombreuses expériences fascinantes. Un groupe de chercheurs a noté que la même zone cérébrale semble être activée, qu'une personne pense à la chaleur physique ou à la chaleur sociale. Pour étudier les effets psychologiques possibles de cela, les chercheurs ont effectué l'expérience suivante sur un ensemble de sujets volontaires. Chaque sujet a été escorté par un membre du laboratoire dans un court trajet en ascenseur jusqu'au laboratoire de psychologie. Pendant le trajet, le membre du laboratoire a demandé au sujet de tenir une tasse de café chaud ou glacé «pendant quelques secondes» pendant que le membre du laboratoire notait le nom du sujet. Les sujets ignoraient que cela faisait en fait partie de l'expérience. Dans le laboratoire, chaque sujet a lu une brève description d'une personne fictive et a ensuite été invité à évaluer certains traits de personnalité de cette personne.Les sujets qui avaient tenu le café chaud dans l'ascenseur ont évalué la personne comme significativement «plus chaude»

que les sujets qui avaient tenu le café glacé.11

D'autres chercheurs ont trouvé des résultats similaires. De plus, l'inverse de ce lien entre la «température» physique et sociale semble également tenir: d'autres groupes de psychologues ont constaté que les expériences sociales «chaudes» ou «froides» faisaient que les sujets se sentaient physiquement plus chauds ou plus froids12.

Bien que ces expériences et interprétations soient encore controversées dans la communauté de la psychologie, les résultats

peut être interprété comme appuyant les affirmations de Barsalou et de Lakoff et Johnson: nous comprenons les concepts abstraits en termes de connaissances physiques de base. Si le concept de chaleur au sens physique est activé mentalement (par exemple, en tenant une tasse de café chaud), cela active également le concept de chaleur dans des sens métaphoriques plus abstraits, comme pour juger la personnalité de quelqu'un, et vice versa.

Il est difficile de parler de compréhension sans parler de conscience. Quand j'ai commencé à écrire ce livre, j'avais prévu de contourner complètement la question de la conscience, car elle est si lourde scientifiquement. Mais que diable

- Je vais me livrer à quelques spéculations. Si notre compréhension des concepts et des situations consiste à effectuer des simulations à l'aide de modèles mentaux, peut-être que le phénomène de la conscience - et toute notre conception de soi - vient de notre capacité à construire et à simuler des modèles de nos propres modèles mentaux. Non seulement je peux mentalement simuler l'acte de, disons, traverser la rue au téléphone, mais je peux me simuler mentalement en ayant cette pensée et prédire ce que je pourrais penser ensuite. J'ai un modèle de mon propre modèle. Modèles de modèles, simulations de simulations - pourquoi pas? Et tout comme la perception physique de la chaleur, disons, active une perception métaphorique de la chaleur et vice versa, nos concepts liés aux sensations physiques pourraient activer le concept abstrait de soi,qui se nourrit à travers le système nerveux pour produire une perception physique de l'individualité - ou de la conscience, si vous voulez. Cette causalité circulaire s'apparente à ce que Douglas Hofstadter a appelé «l'étrange boucle» de la conscience, «où les niveaux symboliques et physiques se réinjectent et inversent la causalité à l'envers, les symboles semblant avoir le libre arbitre

et d'avoir acquis la capacité paradoxale de repousser les particules plutôt que l'inverse. »13

Abstraction et analogie

Jusqu'à présent, j'ai décrit plusieurs idées de la psychologie sur les connaissances «intuitives» fondamentales que les humains naissent ou acquièrent tôt dans la vie, et comment ces connaissances fondamentales sous-tendent les modèles mentaux qui forment nos concepts. La construction et l'utilisation de ces modèles mentaux reposent sur deux capacités humaines fondamentales: l'abstraction et l'analogie.

L'abstraction est la capacité de reconnaître des concepts et des situations spécifiques en tant qu'instances d'une catégorie plus générale. Rendons l'idée d'abstraction plus concrète (jeu de mots voulu!). Imaginez que vous êtes à la fois un parent et un psychologue cognitif. Appelons votre enfant S. En observant S grandir, vous tenez un journal sur ses capacités d'abstraction de plus en plus sophistiquées. Ici, j'imagine quelques-unes de vos entrées de journal au fil des ans.

Trois mois: S peut distinguer les expressions faciales dépeignant le bonheur et la tristesse, généralisant les différentes personnes avec lesquelles elle interagit. Elle a résumé les concepts d'un visage heureux et d'un visage triste.

Six mois: S peut maintenant reconnaître quand les gens lui disent au revoir et elle peut lui faire signe. Elle a résumé le concept visuel de l'ondulation, a appris à répondre avec le «même» geste.

Dix-huit mois: S a résumé les concepts de chat et de chien (ainsi que de nombreuses autres catégories) afin de pouvoir reconnaître différents exemples de chats et de chiens dans des photographies, des dessins et des dessins animés, ainsi que dans la vie réelle.

Trois ans: S reconnaît les lettres individuelles de l'alphabet dans l'écriture de différentes personnes et dans les polices imprimées. De plus, elle peut distinguer les lettres minuscules et majuscules. Ses abstractions de concepts liés aux lettres sont assez avancées! De plus, elle a également généralisé ses connaissances sur les carottes, le brocoli, les épinards, etc. dans le concept de légume plus abstrait, qu'elle assimile désormais à un autre concept abstrait: le yucky.

8 ans: J'ai entendu le meilleur ami de S, J, raconter à S le moment où la mère de J avait oublié de venir la chercher après son match de football. S a répondu: «Oh, oui, exactement la même chose m'est arrivée. Je parie que tu étais folle et que ta mère se sentait

terrible." J'ai réalisé que cette «même chose exacte» était en fait une situation très différente dans laquelle la baby-sitter de S avait oublié de venir la chercher à l'école pour l'emmener à un cours de piano. En disant «exactement la même chose m'est arrivée», il est clair que S a construit un concept abstrait qui est quelque chose comme un soignant oubliant de prendre un enfant avant ou après une activité. S est également capable de cartographier à partir de sa propre expérience afin de prédire comment J et la mère de J ont dû réagir.

Treize ans: S devient un adolescent rebelle. J'ai demandé à plusieurs reprises qu'elle nettoie sa chambre. Aujourd'hui, elle m'a crié: «Tu ne peux pas me faire; Abraham Lincoln a libéré les esclaves! » J'étais agacé, principalement par sa mauvaise analogie.

Seize ans: l'intérêt de S pour la musique grandit. Nous aimons tous les deux jouer à un jeu dans la voiture: nous allumons une station de musique classique au milieu d'une pièce et voyons lequel d'entre nous peut le plus rapidement comprendre le compositeur ou la période de la pièce. Je suis encore meilleur dans ce domaine, mais S devient assez bon pour reconnaître le concept abstrait d'un style musical.

20 ans: S m'a envoyé un long e-mail sur sa vie à l'université. Elle a décrit sa semaine comme «une étude-a-thon, suivie d'un eat-a-thon et d'un sleep-a-thon». Elle a dit que le collège la transformait en une «cafetière». Dans la même lettre, elle a mentionné une manifestation d'étudiants contre la dissimulation présumée par l'université d'une inconduite sexuelle présumée d'un professeur vedette; elle a dit que les étudiants appellent la situation «porte de harcèlement». S n'en est probablement même pas conscient, mais son message fournit de grands exemples d'une forme d'abstraction courante dans le langage: de nouveaux mots sont formés en ajoutant des suffixes qui dénotent des situations abstraites. Ajouter «a-thon» (du marathon) signifie une activité de longueur ou de quantité excessive; ajouter «holic» (de l'alcoolique) signifie «accro»; et en ajoutant "porte" (de

Watergate) signifie un scandale ou une dissimulation.14

Vingt-six ans: S est diplômé de l'école de droit et a été embauché par un cabinet prestigieux. Son client le plus récent (le défendeur) est une société Internet qui fournit une plate-forme publique de «blogging». La société était poursuivie pour diffamation par un homme (le plaignant), car un blogueur sur la plate-forme de la société a écrit des propos diffamatoires à l'encontre du plaignant. L'argument de S devant le jury était que la plate-forme de blogs est comme un «mur» sur lequel «diverses personnes ont choisi d'inscrire des graffitis» et que l'entreprise n'est que le «propriétaire du mur» et n'est donc pas responsable. le

Le jury a accepté son argumentation et a statué pour le défendeur. Il s'agit de sa première grande victoire en cour! 15

Le but de mon incursion dans la journalisation imaginaire des parents était de faire quelques remarques importantes sur l'abstraction et l'analogie. L'abstraction, sous une forme ou une autre, sous-tend tous nos concepts, même dès la première enfance. Quelque chose d'aussi élémentaire que de reconnaître le visage de votre mère - à travers différentes conditions d'éclairage, différents angles, différentes expressions faciales ou différentes coiffures - est autant un exploit d'abstraction que de reconnaître un style musical ou de faire une analogie juridique convaincante. Comme l'illustrent les entrées de journal ci-dessus, ce que nous appelons la perception, la catégorisation, la reconnaissance, la généralisation et le rappel («exactement la même chose m'est arrivée») impliquent tous l'acte d'abstraire les situations que nous vivons.

L'abstraction est étroitement liée à l'analogie. Douglas Hofstadter, qui a étudié l'abstraction et la fabrication d'analogies pendant plusieurs décennies, définit la fabrication d'analogies dans un sens très général comme «la perception d'une essence commune entre deux choses» .16 Cette essence commune pourrait être un concept nommé (par exemple, le visage heureux , en agitant au revoir, un chat ou de la musique dans le style baroque), auquel cas nous l'appelons une catégorie, ou un concept difficile à verbaliser créé à la volée (par exemple, un soignant oubliant de prendre un enfant avant ou après une activité, ou un propriétaire d'un public

«Espace d'écriture» qui n'est pas responsable de ce qui y est «écrit»), auquel cas nous appelons cela une analogie. Ces phénomènes mentaux sont les deux faces d'une même médaille. Dans certains cas, une idée comme «les deux faces d'une même pièce» commencera comme une analogie mais finira par entrer dans notre vocabulaire comme un idiome, ce qui nous fera le traiter plus comme une catégorie. En bref, des analogies, le plus souvent faites inconsciemment, sont à la base de nos capacités d'abstraction et de la formation de concepts. Comme Hofstadter et son coauteur, le psychologue Emmanuel Sander, a déclaré: «Sans

il ne peut y avoir de pensée, et sans analogies il ne peut y avoir de concept. »17

Dans ce chapitre, j'ai esquissé quelques idées de travaux récents en psychologie concernant les mécanismes mentaux par lesquels les humains comprennent et agissent de manière appropriée dans les situations qu'ils rencontrent. Nous avons des connaissances de base - certaines innées et d'autres acquises au cours du développement et tout au long de la vie. Nos concepts sont codés dans le cerveau comme des modèles mentaux que nous pouvons «exécuter» (c'est-à-dire simuler) afin de prédire ce qui est susceptible de se produire dans n'importe quelle situation ou ce qui pourrait se produire compte tenu de toute altération que nous pourrions imaginer. Nos concepts, allant de simples mots à des situations complexes, sont formés par l'abstraction et l'analogie.

Je ne prétends certainement pas avoir couvert toutes les composantes de la compréhension humaine. En effet, beaucoup de gens ont noté que les termes compréhension et signification (sans parler de conscience) ne sont que des termes mal définis que nous utilisons comme espaces réservés, car nous n'avons pas encore le langage ou la théorie corrects pour parler de ce qui est réellement

passe dans le cerveau. Le pionnier de l'IA, Marvin Minsky, l'a exprimé ainsi: «Bien que les germes d'idées préscientifiques comme« croire »,« savoir »et« méchant »soient utiles dans la vie quotidienne, ils semblent techniquement trop grossiers pour soutenir des théories puissantes.

… Réels comme «soi» ou «comprendre» peuvent nous sembler aujourd'hui… ce ne sont que des premiers pas vers de meilleurs concepts. » Minsky a poursuivi en soulignant que nos confusions à propos de ces notions «découlent d'un fardeau d'idées traditionnelles inadéquat à cette entreprise extrêmement difficile.… C'est encore une période formatrice pour nos idées sur l'esprit.» 18

Jusqu'à récemment, la question de savoir quels mécanismes mentaux permettent aux gens de comprendre le monde - et

les machines pourraient également avoir une telle compréhension - était presque exclusivement du ressort des philosophes, des psychologues, des neuroscientifiques et des chercheurs théoriques en intelligence artificielle qui ont engagé des débats universitaires sur ces questions pendant des décennies (et dans certains cas des siècles), sans beaucoup d'attention à la réalité. conséquences mondiales. Cependant, comme je l'ai décrit dans les chapitres précédents, les systèmes d'IA qui manquent de compréhension humaine sont maintenant largement déployés pour des applications réelles. Soudain, ce qui n'était autrefois que des questions académiques a commencé à avoir beaucoup d'importance dans le monde réel. Dans quelle mesure les systèmes d'IA ont-ils besoin d'une compréhension humaine, ou d'une certaine approximation de celle-ci, pour faire leur travail de manière fiable et robuste? Personne ne connaît la réponse.Mais pratiquement tout le monde dans la recherche sur l'IA convient que les connaissances fondamentales de «bon sens» et la capacité d'abstraction et d'analogie sophistiquées sont parmi les chaînons manquants requis pour les progrès futurs de l'IA. Dans le chapitre suivant, je décris quelques approches pour donner aux machines ces capacités.

15

Connaissances, abstraction et analogie en intelligence artificielle

Depuis les années 1950, de nombreux membres de la communauté de l'IA ont exploré des moyens d'intégrer des aspects cruciaux de la pensée humaine - tels que les connaissances intuitives de base, l'abstraction et la fabrication d'analogies - dans l'intelligence artificielle, et ainsi permettre aux systèmes d'IA de comprendre réellement les situations qu'ils rencontre. Dans ce chapitre, je décrirai quelques efforts dans ces directions, y compris certains de mes propres travaux passés et actuels.

Connaissances de base pour les ordinateurs

Au tout début de l'IA, avant que l'apprentissage automatique et les réseaux de neurones ne dominent le paysage, les chercheurs en IA ont codé manuellement les règles et les connaissances dont un programme aurait besoin pour effectuer ses tâches. Pour bon nombre des premiers pionniers de l'IA, il semblait tout à fait raisonnable que cette approche «intégrée» puisse capturer suffisamment de connaissances sur le bon sens humain pour obtenir une intelligence au niveau humain dans les machines.

Le projet Cyc de Douglas Lenat est la tentative la plus célèbre et la plus longue de coder manuellement des connaissances de bon sens pour les machines. Lenat, un étudiant au doctorat et plus tard professeur au AI Lab de l'Université de Stanford, s'est fait un nom dans la communauté de recherche en IA des années 1970 en créant des programmes qui simulaient comment les humains inventent de nouveaux concepts, en particulier en mathématiques.1 Cependant, après plus d'une décennie de travail sur ce sujet, Lenat a conclu que de véritables progrès en IA exigeraient que les machines aient du bon sens. En conséquence, il a décidé de créer

une énorme collection de faits sur le monde, ainsi que les règles logiques par lesquelles les programmes pourraient utiliser cette collection pour déduire les faits dont ils avaient besoin. En 1984, Lenat a quitté son poste universitaire afin de démarrer une entreprise (maintenant appelée Cycorp) pour poursuivre cet objectif.

Le nom Cyc (prononcé «syke») est censé évoquer le mot encyclopédie, mais contrairement aux encyclopédies que nous connaissons tous, l'objectif de Lenat était que Cyc contienne toutes les connaissances non écrites que les humains ont, ou au moins suffisamment pour rendre les systèmes d'IA capables de fonctionner au niveau des humains dans la vision, le langage, la planification, le raisonnement et d'autres domaines.

Cyc est un système d'IA symbolique du type que j'ai décrit dans le chapitre 1 - un ensemble de déclarations («assertions») sur des entités spécifiques ou des concepts généraux, écrites dans un langage informatique logique. Voici quelques exemples des assertions de Cyc (traduites de la forme logique en anglais): 2

• Une entité ne peut pas être à plus d'un endroit à la fois.

• Les objets vieillissent un an par an.

• Chaque personne a une mère qui est une femme.

Le projet Cyc comprend également des algorithmes sophistiqués pour effectuer des inférences logiques sur les assertions. Par exemple, Cyc pourrait déterminer que si je suis à Portland, alors je ne suis pas aussi à New York, car je suis une entité, Portland et New York sont des endroits, et une entité ne peut pas être à plus d'un endroit à la fois. Cyc dispose également de nombreuses méthodes pour traiter les assertions incohérentes ou incertaines dans sa collection.

Les assertions de Cyc ont été codées à la main dans la collection par des humains (à savoir, les employés de Cycorp) ou déduites logiquement par le système à partir d'assertions existantes3. Combien d'assertions sont nécessaires pour saisir les connaissances du bon sens humain? Dans une conférence de 2015, Lenat a estimé le nombre d'assertions actuellement dans Cyc à quinze millions et a deviné: «Nous avons probablement environ 5% de ce dont nous avons finalement besoin.» 4

La philosophie sous-jacente de Cyc a beaucoup en commun avec celle des systèmes experts des premiers jours de l'IA. Tu

Je me souviens peut-être de ma discussion du chapitre 2 du système expert de diagnostic médical de MYCIN. «Experts» - médecins

—Ont été interviewés par les développeurs de MYCIN pour obtenir des règles que le système pourrait utiliser pour effectuer des diagnostics. Les développeurs ont ensuite traduit ces règles dans un langage informatique basé sur la logique pour permettre au système d'effectuer une inférence logique. Dans Cyc, les «experts» sont des personnes qui traduisent manuellement leurs connaissances du monde en déclarations logiques. La «base de connaissances» de Cyc est plus grande que celle de MYCIN, et les algorithmes de raisonnement logique de Cyc sont plus sophistiqués, mais les projets partagent une foi fondamentale: l'intelligence peut être capturée via des règles programmées par l'homme fonctionnant sur une collection suffisamment étendue de connaissances explicites. Dans le paysage actuel de l'IA dominé par le deep learning,

le projet Cyc est l'un des derniers efforts d'intelligence artificielle à grande échelle restants.5

Est-il possible qu'avec suffisamment de temps et d'efforts, les ingénieurs de Cycorp réussissent à capturer tout, ou même une partie suffisante, des connaissances sur le bon sens humain, quoi que suffisant puisse signifier? Je doute. Si la connaissance de bon sens est la connaissance que tous les humains ont mais n'est écrite nulle part, alors une grande partie de cette connaissance est subconsciente; nous ne savons même pas que nous l'avons. Cela comprend une grande partie de notre connaissance intuitive de base de la physique, de la biologie et de la psychologie, qui sous-tend toutes nos connaissances plus larges sur le monde. Si vous n'êtes pas conscient de savoir quelque chose, vous ne pouvez pas être «l'expert» qui fournit explicitement ces connaissances à un ordinateur.

De plus, comme je l'ai expliqué dans le chapitre précédent, notre connaissance du bon sens est régie par l'abstraction et l'analogie. Ce que nous appelons le bon sens ne peut exister sans ces capacités. Cependant, l'abstraction et l'analogie de type humain ne sont pas des compétences qui peuvent être capturées par l'ensemble massif de faits de Cyc ou, je crois, par l'inférence logique en général.

Au moment d'écrire ces lignes, le projet Cyc se poursuit dans sa quatrième décennie. Cycorp et sa société dérivée, Lucid, commercialisent Cyc, offrant un menu d'applications spécialisées pour les entreprises. Le site Web de chaque entreprise présente des «histoires de réussite»: applications de Cyc dans la finance, l'extraction de pétrole et de gaz, la médecine et d'autres domaines spécifiques. À certains égards, la trajectoire de Cyc fait écho à celle de Watson d'IBM: chacun a commencé comme un effort de recherche fondamentale en IA avec une vaste portée et des ambitions et s'est terminé comme un ensemble de produits commerciaux avec un marketing élevé

(par exemple, Cyc «apporte aux ordinateurs une compréhension et un raisonnement de type humain» 6) mais avec une focalisation étroite plutôt que générale, et peu de transparence sur les performances et les capacités réelles du système.

Pour l'instant, Cyc n'a pas eu beaucoup d'impact sur le travail traditionnel en IA. De plus, certains membres de la communauté de l'IA ont vivement critiqué l'approche. Par exemple, le professeur d'intelligence artificielle de l'Université de Washington, Pedro Domingos, a qualifié Cyc «d'échec le plus notoire de l'histoire de l'IA». 7 Le roboticien du MIT, Rodney Brooks, n'était qu'un peu plus aimable: pas conduit à un système d'IA capable de maîtriser même une simple compréhension du monde. »8

Qu'en est-il de donner aux ordinateurs les connaissances subconscientes sur le monde apprises dans la petite enfance et l'enfance

qui forme la base de tous nos concepts? Comment pourrions-nous, par exemple, enseigner à un ordinateur la physique intuitive des objets? Plusieurs groupes de recherche ont relevé ce défi et construisent des systèmes d'IA qui peuvent en apprendre un peu plus sur la physique des causes et effets du monde, à partir de vidéos, de jeux vidéo ou d'autres types de réalité virtuelle.9 Ces approches sont intrigantes mais jusqu'à présent, n'ont fait que des pas de bébé - par rapport à ce qu'un bébé réel sait

- vers le développement de connaissances de base intuitives.

Lorsque l'apprentissage en profondeur a commencé à démontrer son extraordinaire chaîne de succès, de nombreuses personnes, à l'intérieur et à l'extérieur de la communauté de l'IA, étaient optimistes quant à notre approche de l'IA générale au niveau humain. Cependant, comme je l'ai décrit tout au long de ce livre, à mesure que les systèmes d'apprentissage profond sont déployés plus largement, ils montrent des fissures dans leur «intelligence». Même les systèmes les plus performants ne sont pas en mesure de généraliser bien en dehors de leurs domaines d'expertise étroits, de former des abstractions ou de se renseigner sur les relations de cause à effet10.

Les erreurs de type humain et la vulnérabilité aux soi-disant exemples accusatoires montrent qu'ils ne comprennent pas vraiment les concepts que nous essayons de leur enseigner. Les gens se demandent encore si ces fissures peuvent être corrigées avec plus de données ou des réseaux plus profonds, ou s'il manque quelque chose de plus fondamental.11

J'ai vu quelque chose d'un changement dans la conversation ces derniers temps: de plus en plus, la communauté de l'IA parle à nouveau

sur l'importance primordiale de donner du sens aux machines. En 2018, le cofondateur de Microsoft, Paul Allen, a doublé le budget de l'institut de recherche qu'il a fondé, le Allen Institute for AI, spécifiquement pour étudier le bon sens. Les agences de financement gouvernementales entrent également dans la loi: en 2018, la Defense Advanced Research Projects Agency, l'un des principaux bailleurs de fonds du gouvernement américain pour la recherche sur l'IA, a publié des plans pour fournir un financement substantiel à la recherche sur le bon sens en IA, écrivant: «[Today's ] le raisonnement machine est étroit et hautement spécialisé; un raisonnement large et de bon sens par des machines reste insaisissable. Le programme [de financement] créera davantage de représentations de connaissances de type humain, par exemple, des représentations fondées sur la perception, pour permettre un raisonnement de bon sens

par des machines sur le monde physique et les phénomènes spatio-temporels. »12

Abstraction, idéalisée

«Former des abstractions» était l'une des principales capacités de l'IA énumérées dans la proposition de Dartmouth sur l'IA de 1955 que j'ai décrite au chapitre 1. Cependant, permettre aux machines de former des abstractions conceptuelles de type humain est toujours un problème presque totalement irrésolu.

L'abstraction et l'analogie sont les sujets mêmes qui m'ont d'abord attiré dans le domaine de l'IA. Mon intérêt a été particulièrement éveillé lorsque j'ai rencontré un ensemble de puzzles visuels appelés problèmes Bongard. Ces énigmes ont été formulées par un informaticien russe, Mikhail Bongard, qui, en 1967, a publié un livre (en russe) intitulé Pattern Recognition.13 Alors que le livre lui-même décrivait la proposition de Bongard d'un système de reconnaissance visuelle de type perceptron, la partie la plus influente de le livre s'est avéré être l'annexe, dans laquelle Bongard a fourni une centaine de puzzles comme défis pour les programmes d'IA. La figure 45 donne quatre exemples de problèmes de l'ensemble de Bongard.14

FIGURE 45: Quatre exemples de problèmes de Bongard. Pour chaque problème, la tâche consiste à déterminer quels concepts distinguent les six cases de gauche des six cases de droite. Par exemple, pour le problème 2 de Bongard, les concepts sont grands contre petits.

Chaque problème comporte douze cases: six à gauche et six à droite. Les six cases de gauche dans chaque problème illustrent le «même» concept, les six cases de droite illustrent un concept connexe, et les deux concepts distinguent parfaitement les deux ensembles. Le défi est de trouver les deux concepts. Par exemple, dans la figure 45, les concepts sont (dans le sens des aiguilles d'une montre) grands contre petits; blanc contre noir (ou non rempli contre rempli, si vous préférez); côté droit contre côté gauche; et vertical contre horizontal.

Les problèmes de la figure 45 sont relativement faciles à résoudre. En fait, Bongard a organisé ses cent problèmes à peu près dans l'ordre de leur difficulté présumée. Pour votre plaisir, la figure 46 donne six problèmes supplémentaires plus tard dans l'ensemble. Je donnerai les réponses dans le texte ci-dessous.

Bongard a soigneusement conçu ces puzzles afin que leur solution nécessite certaines des mêmes capacités d'abstraction et de création d'analogies qu'un système humain ou IA a besoin dans le monde réel. Dans un problème Bongard, vous pouvez considérer chacune des douze boîtes comme une «situation» miniature et idéalisée - une qui présente différents objets, attributs et

des relations. Les situations de gauche ont une «essence» commune (par exemple, grande); les situations de droite ont une essence commune contrastée (par exemple, petite). Et dans les problèmes de Bongard, comme dans la vraie vie, reconnaître l'essence d'une situation est parfois assez subtil. Comme l'a formulé le scientifique cognitif Robert French, l'abstraction et l'analogie consistent à percevoir «la subtilité de la similitude» 15.

FIGURE 46: Six problèmes Bongard supplémentaires

Pour découvrir cette similitude subtile, vous devez déterminer quels attributs de la situation sont pertinents et lesquels vous pouvez ignorer. Dans le problème 2 (figure 45), peu importe si une forme est noire ou blanche, où une forme est placée dans la boîte, ou si la forme est un triangle, un cercle ou autre chose. La taille est la seule chose qui compte ici. Bien sûr, la taille n'est pas toujours importante; pour les autres problèmes de la figure 45, la taille n'a pas d'importance. Comment les humains discernons-nous les attributs pertinents si rapidement? Comment pourrions-nous amener une machine à faire de même?

Pour rendre les choses encore plus difficiles pour les machines, les concepts pertinents peuvent être codés de manière abstraite et difficile à percevoir, comme les concepts trois et quatre du problème 91. Dans certains problèmes, il peut ne pas être facile pour un système d'IA de comprendre ce qui compte comme un objet, comme dans le problème 84 (extérieur contre intérieur) dans lequel les «objets» pertinents sont composés d'objets plus petits (ici, de petits cercles). Dans le problème 98, les objets sont «camouflés»: il est facile pour les humains de voir quelles sont les figures mais plus difficile pour les machines, qui peuvent avoir du mal à séparer le premier plan et l'arrière-plan.

Les problèmes de bongard mettent également à l'épreuve la capacité de percevoir de nouveaux concepts à la volée. Le problème 18 en est un bon exemple. Le concept commun aux cases de gauche n'est pas facile à verbaliser; c'est quelque chose comme un objet avec une constriction ou un «cou». Mais même si vous n'avez jamais pensé à quelque chose comme ça auparavant, vous pouvez le reconnaître rapidement dans le problème 18. De même, dans le problème 19, il y a un nouveau concept: quelque chose comme un objet avec un cou horizontal à gauche contre un objet avec un cou vertical sur la droite. Abstraire de nouveaux concepts difficiles à verbaliser - un autre exemple de la subtilité de la similitude - est quelque chose que les gens sont vraiment bons, mais aucun système d'IA existant ne peut le faire de manière générale.

Le livre de Bongard, publié en anglais en 1970, était plutôt obscur, et initialement peu de gens connaissaient son existence. Cependant, Douglas Hofstadter, qui était tombé sur le livre en 1975, a été profondément impressionné par la centaine de problèmes en annexe et en a longuement parlé dans son propre livre Gödel, Escher, Bach. C'est là que je les ai vus pour la première fois.

Depuis l'enfance, j'ai toujours aimé les puzzles, en particulier ceux impliquant la logique ou les schémas; quand j'ai lu GEB, j'ai été particulièrement enchanté par les problèmes de Bongard. J'ai également été intrigué par les idées de Hofstadter, esquissées dans GEB, sur la façon de créer un programme pour résoudre les problèmes de Bongard d'une manière qui imite la perception humaine et la fabrication d'analogies. La lecture de cette section a peut-être été le moment où j'ai décidé de devenir chercheur en IA.

Beaucoup d'autres personnes ont été également enchantées par les problèmes de Bongard, et plusieurs chercheurs ont créé des programmes d'IA qui tentent de les résoudre. La plupart de ces programmes font des hypothèses simplificatrices (par exemple,

en limitant l'ensemble des formes et relations de formes autorisées, ou en ignorant complètement les aspects visuels et en partant d'une description des images créée par l'homme). Chacun de ces programmes a pu résoudre un sous-ensemble de problèmes spécifiques, mais aucun n'a montré que leurs méthodes pouvaient se généraliser à la manière humaine16.

Qu'en est-il des réseaux de neurones convolutifs? Étant donné qu'ils ont si spectaculairement performé sur la classification des objets (par exemple, dans l'énorme défi de reconnaissance visuelle ImageNet que j'ai décrit au chapitre 5), devrions-nous nous attendre à ce qu'un tel réseau puisse être formé pour résoudre les problèmes de Bongard? Vous pourriez imaginer encadrer un problème Bongard comme une sorte de problème de «classification» pour un ConvNet, comme illustré dans la figure 47: les six cases à gauche pourraient être considérées comme des exemples de formation de «classe 1», et les six cases à droite sont exemples de formation de «classe 2». Donnez maintenant au système un nouvel exemple de «test». Doit-il être classé en «classe 1» ou «classe 2»?

FIGURE 47: Une illustration de la façon dont un problème de Bongard peut être présenté comme un problème de classification, avec douze exemples de formation et un nouvel exemple de «test»

Un obstacle immédiat est qu'un ensemble de douze exemples de formation est ridiculement inadéquat pour la formation d'un ConvNet; même douze cents pourraient ne pas suffire. Bien sûr, cela fait partie du point de Bongard: nous, les humains, pouvons facilement reconnaître les concepts pertinents avec seulement douze exemples. De combien de données d'entraînement un ConvNet aurait-il besoin pour apprendre à résoudre un problème Bongard? Bien que personne n'ait encore fait d'étude systématique pour résoudre les problèmes de Bongard avec les ConvNets, un groupe de chercheurs a étudié les performances des ConvNets à la pointe de la technologie sur une «même

par rapport à une tâche différente, avec des images similaires à celles de la figure 47.17 La classe 1 comprenait des images qui ont deux figures de la même forme; la classe 2 comprenait des images avec deux figures de formes différentes. Mais au lieu de douze images de formation, les chercheurs ont formé ConvNets sur vingt mille exemples chacun pour la classe 1 («identique») et la classe 2 («différente»). Après avoir été formé, chaque ConvNet a été testé sur dix mille nouveaux exemples. Tous les exemples ont été générés automatiquement à l'aide de nombreux types de formes différents. Les ConvNets entraînés n'ont obtenu que légèrement mieux que les suppositions aléatoires sur ces problèmes «identiques ou différents», tandis que les humains testés par les auteurs ont obtenu des scores proches de 100%. En bref, les ConvNets d'aujourd'hui, bien que remarquablement aptes à apprendre les fonctionnalités nécessaires pour reconnaître des objets ImageNet ou pour choisir des mouvements dans Go,n'ont pas ce qu'il faut pour faire les types d'abstraction et d'analogie nécessaires même dans les problèmes idéalisés de Bongard, encore moins dans le monde réel. Il semble que les types de fonctionnalités que ces réseaux peuvent apprendre ne sont pas suffisants pour former de telles abstractions, quel que soit le nombre d'exemples sur lesquels un réseau est formé. Ce ne sont pas seulement les ConvNets qui manquent de ce qu'il faut: aucun système d'IA existant n'a quelque chose de proche de ces capacités humaines fondamentales.aucun système d'IA existant n'a quelque chose de proche de ces capacités humaines fondamentales.aucun système d'IA existant n'a quelque chose de proche de ces capacités humaines fondamentales.

Création de symboles actifs et d'analogie

Après avoir lu Gödel, Escher, Bach et décidé de poursuivre des recherches en IA, j'ai cherché Douglas Hofstadter, dans l'espoir de pouvoir travailler sur quelque chose comme les problèmes de Bongard. Heureusement, après une certaine persévérance, j'ai pu le persuader de me permettre de rejoindre son groupe de recherche. Hofstadter m'a expliqué que son groupe était en train de créer des programmes informatiques inspirés par la façon dont les humains comprennent et font des analogies entre les situations. Ayant fait son diplôme

En physique (une discipline dans laquelle l'idéalisation, comme le mouvement sans friction, est un principe moteur central), Hofstadter était convaincu que la meilleure façon d'étudier un phénomène - ici, la fabrication d'analogies humaines - était de l'étudier sous sa forme la plus idéalisée. La recherche sur l'IA utilise souvent ce que l'on appelle des micromondes - des domaines idéalisés, tels que les problèmes de Bongard, dans lesquels un chercheur peut développer des idées avant de les tester dans des domaines plus complexes. Pour son étude de l'analogie, Hofstadter avait développé un micromonde encore plus idéalisé que celui des problèmes de Bongard: des puzzles d'analogie impliquant des chaînes alphabétiques. Voici un exemple:

PROBLÈME 1: Supposons que la chaîne de lettres abc change en abd. Comment changeriez-vous la chaîne pqrs de la «même manière»?

La plupart des gens répondent à pqrt, inférant une règle comme «Remplacer la lettre la plus à droite par son successeur dans l'alphabet». Bien sûr, il y a d'autres règles possibles que l'on pourrait inférer, produisant des réponses différentes. Voici quelques réponses alternatives:

pqrd: "Remplacez la lettre la plus à droite par d."

pqrs: «Remplacer tous les c par d's. Il n'y a pas de c dans pqrs, donc rien ne change. »

abd: "Remplacez n'importe quelle chaîne par la chaîne abd."

Ces réponses alternatives peuvent sembler trop littérales, mais il n'y a aucun argument strictement logique qui dit qu'elles ont tort. En fait, il existe une infinité de règles possibles que l'on pourrait déduire. Pourquoi la plupart des gens conviennent-ils que l'un d'eux (pqrt) est le meilleur? Il semble que nos mécanismes mentaux d'abstraction - qui ont évolué pour favoriser notre survie et notre reproduction dans le monde réel - se perpétuent dans ce micromonde idéalisé.

Voici un autre exemple:

PROBLÈME 2: Supposons que la chaîne abc change en abd. Comment changeriez-vous la chaîne ppqqrrss de la «même manière»?

Même dans ce micromonde alphabétique simple, la similitude peut être assez subtile, du moins pour une machine. Dans le problème 2, une application littérale de la règle «remplacer la lettre la plus à droite par son successeur» donnerait ppqqrrst, mais pour la plupart des gens, cette réponse semble trop littérale; les gens ont plutôt tendance à donner la réponse ppqqrrtt, percevant les paires de lettres dans ppqqrrss comme mappant aux lettres individuelles en abc.18 Nous, les humains, sommes assez enclins à grouper des objets identiques ou similaires.

Le problème 2 illustre, dans ce micromonde, la notion générale de dérapage conceptuel, une idée au cœur de l'élaboration d'analogies19. Lorsque vous essayez de percevoir la «similitude» essentielle de deux situations différentes, certains concepts de la première situation doivent «glisser »- c'est-à-dire à remplacer par des concepts connexes dans la deuxième situation. Dans le problème 2, la lettre conceptuelle glisse vers un groupe de lettres; ainsi la règle «remplacer la lettre la plus à droite par son successeur» devient «remplacer le groupe de lettres le plus à droite par son successeur».

Considérez maintenant ce problème:

PROBLÈME 3: Supposons que la chaîne abc change en abd. Comment changeriez-vous la chaîne xyz de la «même manière»?

La plupart des gens répondent à xya, affirmant que le «successeur» de z est a. Mais supposons que vous soyez un programme informatique qui n'a pas le concept d'un alphabet «circulaire», et donc pour vous la lettre z n'a pas de successeur. Quelles autres réponses seraient raisonnables? Lorsque j'ai demandé aux gens des réponses à cette question, j'ai reçu beaucoup de réponses différentes, dont certaines étaient assez créatives. Fait intéressant, les réponses évoquaient souvent des métaphores physiques: par exemple, xy (le z «tombe du bord d'une falaise»), xyy (le z «rebondit vers l'arrière») et wyz. L'image de cette dernière réponse est que a et z sont chacun «calés contre un mur» aux extrémités opposées de l'alphabet, de sorte qu'ils jouent des rôles similaires; ainsi, si la première lettre du concept de l'alphabet glisse vers la dernière lettre de l'alphabet, la lettre la plus à droite glisse vers la lettre la plus à gauche et le successeur glisse vers le prédécesseur.Le problème 3 illustre comment faire une analogie peut déclencher une cascade de glissements mentaux.

Le micromonde chaîne de lettres rend l'idée du glissement très visible. Dans d'autres domaines, cela peut être plus subtil. Par exemple, si vous regardez en arrière le problème de Bongard 91 sur la figure 46, dans lequel l'essence commune des six cases de gauche est de trois, les objets qui représentent les trois concepts glissent de case en case, par exemple, à partir de segments de ligne ( en haut à gauche) aux carrés (au milieu à gauche), puis à un concept difficile à verbaliser dans la case inférieure gauche (quelque chose comme «des dents sur un peigne», peut-être?). Le dérapage conceptuel figurait également au centre des différentes abstractions que la fille imaginaire S (du chapitre précédent) a faites au fil des ans - par exemple, dans son analogie juridique, le concept de site Web a glissé vers le concept de mur, et le concept d'écrire un blog a glissé sur le concept de pulvérisation

peinture graffiti.

Hofstadter a imaginé un programme informatique, appelé Copycat, qui résoudrait des problèmes comme ceux-ci en utilisant des algorithmes très généraux, similaires à ceux qu'il croyait que les humains utilisaient pour faire des analogies dans n'importe quel domaine. Le nom Copycat vient de l'idée que vous (le créateur d'analogie) devez résoudre ces problèmes en «faisant la même chose», c'est-à-dire en étant un «copieur». La situation d'origine (par exemple, abc) est modifiée d'une certaine manière, et votre travail consiste à apporter la «même» modification à la nouvelle situation (par exemple, ppqqrrss).

Lorsque j'ai rejoint le groupe de recherche de Hofstadter, ma mission consistait à travailler avec Hofstadter sur le développement du programme Copycat. Comme toute personne qui a fait le voyage vous le dira, la route vers un doctorat consiste principalement en un travail intense ponctué de revers frustrants et (au moins pour moi) d'un courant constant de doute de soi. Mais parfois, il y a des moments d'accomplissement exaltant, comme lorsque le programme que vous branchez depuis cinq ans fonctionne enfin. Ici, je vais sauter tous les doutes, les revers et les innombrables heures de travail, et aller directement à la fin, lorsque j'ai soumis une dissertation décrivant le programme Copycat, qui a été en mesure de résoudre plusieurs familles de problèmes d'analogie de chaînes de lettres en (I argumenté) d'une manière générale humaine.

Copycat n'était ni un programme symbolique basé sur des règles ni un réseau de neurones, bien qu'il comprenait des aspects de l'IA symbolique et sous-symbolique. Copycat a résolu les problèmes d'analogie via une interaction continue entre les processus perceptifs du programme (c'est-à-dire, remarquer les fonctionnalités d'un problème d'analogie de chaîne de lettres particulier) et ses concepts antérieurs (par exemple, lettre, groupe de lettres, successeur, prédécesseur, identique et opposé) . Les concepts du programme ont été structurés pour imiter quelque chose comme les modèles mentaux que j'ai décrits dans le chapitre précédent. En particulier, ils

étaient basées sur la conception de Hofstadter des «symboles actifs» dans la cognition humaine20. L'architecture de Copycat était compliquée, et je ne la décrirai pas ici (mais j'ai donné quelques références à ce sujet dans les notes21). En fin de compte, alors que Copycat pouvait résoudre de nombreux problèmes d'analogie de chaînes de lettres (y compris les exemples que j'ai présentés ci-dessus, ainsi que de nombreuses variantes), le programme n'a fait qu'effleurer la surface de son domaine très ouvert. Par exemple, voici deux problèmes que mon programme n'a pas pu résoudre:

PROBLÈME 4: si azbzczd passe à abcd, à quoi pxqxrxsxt se transforme-t-il?

PROBLÈME 5: Si abc change en abd, en quoi as change-t-il?

Les deux problèmes nécessitent de reconnaître de nouveaux concepts à la volée, une capacité qui manquait à Copycat. Dans le problème 4, les z et les x jouent le même rôle, quelque chose comme «les lettres supplémentaires qui doivent être supprimées pour voir la séquence alphabétique», donnant la réponse pqrst. Dans le problème 5, la séquence ace est similaire à la séquence abc, sauf qu'au lieu d'une séquence de «succession», il s'agit d'une séquence de «double succession», donnant la réponse acg. Il aurait été facile pour moi de donner à Copycat la capacité de compter le nombre de lettres entre, disons, a et c et c et e, mais je ne voulais pas intégrer des capacités très spécifiques au domaine de la chaîne de lettres . Copycat était censé être un banc d'essai pour des idées générales sur l'analogie plutôt qu'un «fabricant d'analogie de chaîne de lettres» complet.

La métacognition dans le monde des chaînes de lettres

Un aspect essentiel de l'intelligence humaine - qui n'est pas beaucoup discuté en IA ces jours-ci - est la capacité de percevoir et de réfléchir sur sa propre pensée. En psychologie, cela s'appelle la métacognition. Avez-vous déjà eu du mal à résoudre un problème, reconnaissant enfin que vous répétiez les mêmes processus de pensée improductifs? Cela m'arrive tout le temps; cependant, une fois que je reconnais ce modèle, je peux parfois sortir de l'ornière. Copycat, comme tous les autres programmes d'IA dont j'ai discuté dans ce livre, n'avait aucun mécanisme de perception de soi, ce qui a nui à ses performances. Le programme était parfois bloqué, essayant encore et encore de résoudre un problème de la mauvaise manière, et ne pouvait jamais percevoir qu'il avait précédemment suivi une voie similaire et infructueuse.

James Marshall, à l'époque un étudiant diplômé du groupe de recherche de Douglas Hofstadter, a entrepris de faire réfléchir Copycat sur sa propre «pensée». Il a créé un programme appelé Metacat, qui a non seulement résolu des problèmes d'analogie dans le domaine de chaîne de lettres de Copycat, mais a également essayé de percevoir des modèles dans ses propres actions. Lorsque le programme a fonctionné, il a produit un commentaire continu sur les concepts qu'il a reconnus dans son propre processus de résolution de problèmes.22 Comme Copycat, Metacat a présenté un comportement fascinant mais n'a fait qu'effleurer la surface de l'homme

capacités d'auto-réflexion.

Reconnaître les situations visuelles

Ma propre recherche actuelle porte sur le développement d'un système d'IA qui utilise l'analogie pour reconnaître de manière flexible des situations visuelles - des concepts visuels impliquant plusieurs entités et leurs relations. Par exemple, chacune des quatre images de la figure 48 est un exemple d'une situation visuelle que nous pourrions appeler «promener un chien». C'est facile à voir pour les humains, mais reconnaître des cas de situations visuelles même simples s'avère très difficile pour les systèmes d'IA. Reconnaître des situations entières est beaucoup plus difficile que de reconnaître des objets individuels.

Mes collaborateurs et moi développons un programme - appelé Situate - qui combine les capacités de reconnaissance d'objets des réseaux de neurones profonds avec l'architecture de symboles actifs de Copycat, afin de reconnaître les cas de situations particulières en faisant des analogies. Nous aimerions que notre programme soit capable de reconnaître non seulement des exemples simples, tels que ceux de la figure 48, mais également des exemples peu orthodoxes qui nécessitent des dérapages conceptuels. Le prototype de situation «promener un chien» implique une personne (un promeneur de chien), un chien et une laisse. Le promeneur de chien tient la laisse, la laisse est attachée au chien et le promeneur de chien et le chien marchent. Droite? En effet, c'est ce que nous voyons dans les exemples de la figure 48.Mais les humains qui comprennent le concept de promener un chien reconnaîtraient également chacune des images de la figure 49 comme des exemples de ce concept tout en étant conscients de la mesure dans laquelle chacun est «étiré» de la version prototypique. Situer, encore aux premiers stades de développement, est destiné à tester des idées sur les mécanismes généraux qui sous-tendent la fabrication d'analogies humaines et à démontrer que les idées sous-jacentes au programme Copycat peuvent fonctionner avec succès au-delà du micromonde des analogies de chaînes de lettres.vise à tester des idées sur les mécanismes généraux qui sous-tendent la fabrication d'analogies humaines et à démontrer que les idées sous-jacentes au programme Copycat peuvent fonctionner avec succès au-delà du micromonde des analogies de chaînes de lettres.vise à tester des idées sur les mécanismes généraux qui sous-tendent la fabrication d'analogies humaines et à démontrer que les idées sous-jacentes au programme Copycat peuvent fonctionner avec succès au-delà du micromonde des analogies de chaînes de lettres.

Copycat, Metacat et Situate ne sont que trois exemples de plusieurs programmes de création d'analogies basés sur l'architecture de symboles actifs de Hofstadter.23 De plus, l'architecture de symboles actifs n'est qu'une des nombreuses approches dans la communauté de l'IA pour créer des programmes capables de créer analogies. Cependant, bien que l'analogie soit fondamentale à la cognition humaine à tous les niveaux, il n'y a pas encore de programmes d'IA qui se rapprochent à distance des capacités de faire de l'analogie humaine.

"Nous sommes vraiment, vraiment loin"

L'ère moderne de l'intelligence artificielle est dominée par l'apprentissage profond, avec son triumvirat de réseaux de neurones profonds, de mégadonnées et d'ordinateurs ultrarapides. Cependant, dans la quête d'une intelligence robuste et générale, l'apprentissage profond peut frapper un mur: la «barrière de sens» qui est très importante. Dans ce chapitre, j'ai présenté un bref aperçu de certains efforts de l'IA pour débloquer cette barrière. J'ai regardé comment les chercheurs (y compris moi-même) essayent d'imprégner les ordinateurs de connaissances communes et de leur donner des capacités humaines d'abstraction et de création d'analogies.

FIGURE 48: Quatre exemples simples de «promener un chien»

En réfléchissant à ce sujet, j'ai été particulièrement séduit par un blog délicieux et perspicace écrit par Andrej Karpathy, l'expert en apprentissage profond et en vision par ordinateur qui dirige désormais les efforts d'IA chez Tesla. Dans son article, intitulé «L'état de la vision par ordinateur et de l'IA: nous sommes vraiment, vraiment très loin» 24, Karpathy décrit ses réactions, en tant que chercheur en vision par ordinateur, à une photo spécifique, illustrée à la figure 50. Karpathy note que nous les humains trouvent cette image assez humoristique et demandent: "Que faudrait-il à un ordinateur pour comprendre cette image comme vous ou moi?"

FIGURE 49: Quatre exemples atypiques de «promener un chien»

Karpathy énumère beaucoup de choses que nous, les humains, comprenons facilement, mais qui restent au-delà des capacités des meilleurs programmes de vision par ordinateur d'aujourd'hui. Par exemple, nous reconnaissons qu'il y a des gens dans la scène, mais aussi qu'il y a des miroirs, donc certaines personnes sont des reflets dans ces miroirs. Nous reconnaissons la scène comme un vestiaire et nous sommes frappés par l'étrange de voir un groupe de personnes en costume dans un décor de vestiaire.

De plus, nous reconnaissons qu'une personne se tient sur une échelle, même si l'échelle est composée de pixels blancs qui se fondent dans l'arrière-plan. Karpathy souligne que nous reconnaissons que «Obama a son pied positionné juste légèrement au-dessus de l'échelle», et note que nous décrivons facilement cela en termes de structure tridimensionnelle de la scène que nous déduisons plutôt que de l'image bidimensionnelle qui on nous donne. Notre connaissance intuitive de la physique nous permet de penser que le pied d'Obama entraînera la balance à surestimer le poids de la personne sur la balance. Notre connaissance intuitive de la psychologie nous dit que la personne à l'échelle ne sait pas qu'Obama marche également sur l'échelle

- nous en déduisons la direction du regard de la personne, et nous savons qu'elle n'a pas d'yeux à l'arrière de sa tête. Nous comprenons également que la personne ne peut probablement pas sentir la légère poussée du pied d'Obama sur l'échelle. Notre théorie de l'esprit nous permet en outre de prédire que l'homme ne sera pas heureux lorsque la balance montrera que son poids est plus élevé que prévu.

FIGURE 50: La photo discutée dans le blog d'Andrej Karpathy

Enfin, nous reconnaissons qu'Obama et les autres personnes observant cette scène sourient - nous déduisons de leurs expressions qu'ils sont amusés par le tour qu'Obama joue sur l'homme de l'échelle, peut-être rendu plus drôle en raison du statut d'Obama. Nous reconnaissons également que leur amusement est amical et qu'ils s'attendent à ce que l'homme de l'échelle se fasse rire quand il est laissé sur la plaisanterie. Karpathy note: «Vous raisonnez sur [l'état] d'esprit des gens et leur point de vue sur l'état d'esprit d'une autre personne. Cela devient terriblement méta. "

En résumé, "Il est ahurissant que toutes les inférences ci-dessus se déroulent d'un bref coup d'œil à un tableau 2D de valeurs [en pixels]."

Pour moi, l'exemple de Karpathy capture magnifiquement la complexité de la compréhension humaine et rend avec une clarté cristalline l'ampleur du défi pour l'IA. Le billet de Karpathy a été écrit en 2012, mais son message est tout aussi vrai aujourd'hui et le restera, je crois, pendant longtemps encore.

Karpathy conclut son post avec cette pensée:

Une conclusion apparemment incontournable pour moi est que nous pouvons… avoir besoin d'incarnation, et que la seule façon de construire des ordinateurs capables d'interpréter des scènes comme nous est de leur permettre d'être exposés à toutes les années d'expérience (structurée, temporellement cohérente) que nous avons , la capacité d'interagir avec le monde et une architecture magique d'apprentissage / inférence active que je peux à peine imaginer quand je pense à ce dont il devrait être capable.

Au XVIIe siècle, le philosophe René Descartes spéculait que nos corps et nos pensées étaient constitués de différentes substances et soumis à différentes lois physiques.25 Depuis les années 1950, les approches dominantes de l'IA ont implicitement embrassé la thèse de Descartes, en supposant que l'intelligence générale peut être atteint par des ordinateurs désincarnés. Cependant, un petit segment de la communauté de l'IA a toujours plaidé pour l'hypothèse dite de l'incarnation: la prémisse qu'une machine ne peut pas atteindre l'intelligence au niveau humain sans avoir une sorte de corps qui interagit avec le monde.26 De ce point de vue, un ordinateur assis sur un bureau, ou même un cerveau désincarné poussant dans une cuve, ne pourrait jamais atteindre les concepts nécessaires à l'intelligence générale. Au lieu,seul le bon type de machine - incarnée et active dans le monde - aurait une intelligence au niveau humain à sa portée. Comme

Karpathy, je peux à peine imaginer de quelles percées nous aurions besoin pour construire une telle machine. Mais après avoir lutté contre l'IA pendant de nombreuses années, je trouve l'argument de l'incarnation de plus en plus convaincant.

16

Questions, réponses et spéculations

Vers la fin de son livre de 1979, Gödel, Escher, Bach, Douglas Hofstadter s'est interviewé sur l'avenir de l'IA. Dans une section intitulée «Dix questions et spéculations», il a posé et répondu à des questions non seulement sur le potentiel de la pensée machine mais aussi sur la nature générale de l'intelligence. En lisant GEB en tant que récent diplômé d'université, j'étais très intéressé par cette section. Les spéculations de Hofstadter m'ont convaincu que malgré tout le battage médiatique concernant l'imminence de l'intelligence artificielle au niveau humain (nous l'avions aussi dans les années 1980), le domaine était en fait grand ouvert et avait un besoin urgent de nouvelles idées. Il y avait encore beaucoup de défis profonds à attendre pour des jeunes comme moi qui débutaient sur le terrain.

En écrivant maintenant, bien plus de trois décennies plus tard, j'ai pensé qu'il serait approprié de fermer ce livre avec certaines de mes propres questions, réponses et spéculations, à la fois en hommage à la section de Hofstadter dans GEB et en tant que moyen de lier les idées que je ont présenté.

Question: Dans combien de temps les voitures autonomes seront-elles courantes?

Cela dépend de ce que vous entendez par «conduite autonome». La National Highway Traffic Safety Administration des États-Unis a défini six niveaux d'autonomie pour les véhicules.1 Je vais les paraphraser ici.

• NIVEAU 0: Le conducteur humain fait toute la conduite.

• NIVEAU 1: Le véhicule peut parfois aider le conducteur humain avec la direction ou la vitesse du véhicule, mais pas les deux simultanément.

• NIVEAU 2: Le véhicule peut contrôler simultanément la direction et la vitesse du véhicule dans certaines circonstances (généralement sur route). Le conducteur humain doit continuer à prêter toute son attention («surveiller l'environnement de conduite») à tout moment et faire tout le reste nécessaire pour conduire, comme changer de voie, sortir des autoroutes, s'arrêter aux feux de circulation et s'arrêter pour les voitures de police.

• NIVEAU 3: Le véhicule peut effectuer tous les aspects de la conduite dans certaines circonstances, mais le conducteur humain doit faire attention à tout moment et être prêt à reprendre le contrôle à tout moment où le véhicule le demande au conducteur humain.

• NIVEAU 4: Le véhicule peut faire toute la conduite dans certaines circonstances. Dans ces circonstances, l'humain n'a pas besoin de faire attention.

• NIVEAU 5: Le véhicule peut faire toute la conduite en toutes circonstances. Les occupants humains ne sont que des passagers et n'ont jamais besoin d'être impliqués dans la conduite.

Je suis sûr que vous avez noté l'expression de couverture très importante «dans certaines circonstances». Il n'y a aucun moyen de faire une liste exhaustive des circonstances dans lesquelles, par exemple, un véhicule de niveau 4 peut faire toute la conduite, bien que l'on puisse imaginer de nombreuses circonstances qui seraient probablement difficiles pour un véhicule autonome: par exemple, le mauvais temps, une ville surpeuplée la circulation, la navigation dans une zone de construction ou la conduite sur une route à double sens étroite sans marquage de voie. Au moment d'écrire ces lignes, la plupart des voitures sur la route sont entre les niveaux 0 et 1 - elles ont un régulateur de vitesse, mais pas de contrôle de direction ou de freinage. Certaines voitures de modèle récent - celles avec «régulateur de vitesse adaptatif» - sont considérées au niveau

1. Il existe actuellement quelques types de véhicules aux niveaux 2 et 3, comme les voitures Tesla qui ont un système de pilote automatique. Les fabricants et les utilisateurs de ces véhicules apprennent toujours quelles situations sont incluses dans les «certaines circonstances» dans lesquelles le conducteur humain doit prendre le relais. Il existe également des véhicules expérimentaux qui peuvent fonctionner de manière totalement autonome dans des circonstances assez larges, mais ces véhicules ont toujours besoin de «conducteurs de sécurité» humains qui restent prêts à prendre le relais à tout moment. Plusieurs accidents mortels causés par des voitures autonomes, y compris des voitures expérimentales, se sont produits lorsqu'un humain était censé être prêt à prendre le relais mais n'y prêtait pas attention.

L'industrie automobile autonome veut désespérément produire et vendre des véhicules entièrement autonomes (c'est-à-dire le niveau 5); en effet, la pleine autonomie est ce que nous, les consommateurs, avons depuis longtemps promis dans tout le buzz autour des voitures autonomes.

Quels sont les obstacles pour arriver à une véritable autonomie dans nos voitures?

Les principaux obstacles sont les types de situations à longue queue («cas marginaux») que j'ai décrits au chapitre 6: situations sur lesquelles le véhicule n'a pas été formé, et qui peuvent survenir individuellement rarement, mais qui, prises ensemble, se produisent fréquemment lorsque les véhicules autonomes sont répandus. Comme je l'ai décrit, les conducteurs humains gèrent ces événements en utilisant leur bon sens, en particulier la capacité de comprendre et de faire des prédictions sur de nouvelles situations par analogie avec des situations que le conducteur comprend déjà.

La pleine autonomie dans les véhicules nécessite également le type de connaissances intuitives de base que j'ai décrites au chapitre 14: physique intuitive, biologie et surtout psychologie. Pour conduire de manière fiable en toutes circonstances, un conducteur doit comprendre les motivations, les objectifs et même les émotions des autres conducteurs, cyclistes, piétons et animaux partageant la route. Évaluer une situation complexe et évaluer en une fraction de seconde qui est susceptible de marcher, de traverser la rue pour courir pour un bus, de tourner brusquement sans signalisation ou de s'arrêter dans un passage pour ajuster une chaussure cassée à talons hauts — c'est la deuxième nature à la plupart des conducteurs humains, mais pas encore aux voitures autonomes.

Un autre problème imminent pour les véhicules autonomes est le potentiel d'attaques malveillantes de divers types. Des experts en sécurité informatique ont montré que même la plupart des voitures non autonomes que nous conduisons aujourd'hui, qui sont de plus en plus contrôlées par des logiciels, sont vulnérables au piratage via leur connexion à des réseaux sans fil, notamment Bluetooth, les réseaux de téléphonie cellulaire et les connexions Internet.2 Parce que les voitures autonomes seront entièrement contrôlés par des logiciels, ils seront potentiellement encore plus vulnérables aux piratages malveillants. De plus, comme je l'ai décrit dans

Dans le chapitre 6, les chercheurs en apprentissage automatique ont mis en évidence d'éventuelles «attaques antagonistes» contre les systèmes de vision par ordinateur des voitures autonomes, certaines aussi simples que de mettre des autocollants discrets sur les panneaux d'arrêt qui font que la voiture les classe comme panneaux de limitation de vitesse. Développer une sécurité informatique appropriée pour les voitures autonomes sera aussi important que toute autre partie de la technologie de conduite autonome.

Hacking mis à part, un autre problème sera ce que nous pourrions appeler la nature humaine. Les gens voudront inévitablement faire des farces sur des voitures autonomes entièrement autonomes, pour sonder leurs faiblesses, par exemple en montant et en descendant un trottoir (faisant semblant d'être sur le point de traverser la rue) pour empêcher la voiture d'avancer. Comment les voitures devraient-elles être programmées pour reconnaître et gérer un tel comportement? Il existe également des problèmes juridiques majeurs qui doivent être réglés pour les véhicules entièrement autonomes, tels que qui est considéré comme responsable en cas d'accident et quels types d'assurance seront nécessaires.

Il y a une question particulièrement épineuse pour l'avenir des voitures autonomes: l'industrie devrait-elle viser une autonomie partielle, dans laquelle la voiture fait toute la conduite dans «certaines circonstances» mais le conducteur humain doit toujours faire attention et prendre le relais si nécessaire ? Ou le seul objectif devrait-il être une autonomie complète, dans laquelle l'humain peut faire entièrement confiance à la conduite de la voiture et n'a jamais besoin de faire attention?

La technologie pour des véhicules suffisamment autonomes et suffisamment fiables - ceux qui peuvent conduire seuls dans presque toutes les situations - n'existe pas encore en raison des problèmes que j'ai décrits ci-dessus. Il est difficile de prédire quand ces problèmes seront résolus; J'ai vu les prévisions des «experts» s'étendre de quelques années à des décennies. Il convient de rappeler la maxime selon laquelle les 90 premiers pour cent d'un projet technologique complexe prennent 10 pour cent du temps et les 10 derniers pour cent prennent 90 pour cent du temps.

La technologie d'autonomie partielle de niveau 3 existe actuellement. Mais comme cela a été démontré à plusieurs reprises, les humains sont terribles à gérer l'autonomie partielle. Même si les conducteurs humains savent qu'ils sont censés être attentifs à tout moment, ils ne le font pas toujours, et parce que les voitures ne sont pas en mesure de gérer toutes les situations qui se produisent, des accidents se produiront.

Où cela nous mène-t-il? La pleine autonomie de conduite nécessite essentiellement une IA générale, qui ne sera probablement pas atteinte de sitôt. Des voitures avec une autonomie partielle existent maintenant, mais sont dangereuses car les humains qui les conduisent ne font pas toujours attention. La solution la plus probable à ce dilemme est de changer la définition de la pleine autonomie: autoriser les voitures autonomes à circuler uniquement dans des zones spécifiques - celles qui ont créé l'infrastructure pour garantir la sécurité des voitures. Une version courante de cette solution porte le nom de «geofencing». Jackie DiMarco, ancien ingénieur en chef des véhicules autonomes chez Ford Motor Company, a expliqué le géofencing de cette façon:

Lorsque nous parlons d'autonomie de niveau 4, elle est entièrement autonome dans une zone géographique, donc dans une zone où nous avons une carte haute définition définie. Une fois que vous avez cette carte, vous pouvez comprendre votre environnement. Vous pouvez comprendre où se trouvent les lampadaires, où se trouvent les passages pour piétons, quelles sont les règles de la route, la limitation de vitesse, etc. Nous considérons l'autonomie comme une croissance dans une certaine zone géographique, puis

là au fur et à mesure que la technologie progresse, que notre apprentissage progresse et que notre capacité à résoudre de plus en plus de problèmes se présente.

Bien sûr, ces humains embêtants sont toujours là dans la barrière géographique. Le chercheur en intelligence artificielle Andrew Ng suggère que les piétons doivent être éduqués pour se comporter de manière plus prévisible autour des véhicules autonomes: «Ce que nous disons aux gens est: 'S'il vous plaît, soyez licite et respectueux.'» 4 La société de conduite autonome de Ng, Drive.ai , a lancé une flotte

de fourgonnettes de taxi autonomes entièrement autonomes qui ramassent et déposent des passagers dans des zones correctement clôturées, à partir du Texas, l'un des rares États dont la législation autorise de tels véhicules. Nous verrons bientôt dans quelle mesure cette expérience, avec ses plans optimistes pour l'éducation des piétons, se révèle.

Question: L'IA entraînera-t-elle un chômage massif pour les humains?

Je ne sais pas. Je suppose que non, du moins pas de sitôt. La maxime «les choses faciles sont difficiles» de Marvin Minsky est toujours valable pour une grande partie de l'IA, et de nombreux emplois humains seront probablement beaucoup plus difficiles pour les ordinateurs (ou les robots) qu'on ne pourrait le penser.

Il ne fait aucun doute que les systèmes d'IA remplaceront les humains dans certains emplois; ils en ont déjà, souvent dans l'intérêt de la société. Mais personne ne sait encore quel sera l'effet global de l'IA sur l'emploi, car personne ne peut prédire les capacités des futures technologies de l'IA.

De nombreux rapports ont fait état des effets probables de l'IA sur l'emploi, en se concentrant particulièrement sur la vulnérabilité des millions d'emplois liés à la conduite. Il est possible que les humains travaillant dans ces emplois soient éventuellement remplacés, mais l'incertitude sur le moment où la conduite autonome généralisée arrivera rendra la chronologie difficile à prévoir.

Malgré l'incertitude, la question de la technologie et de l'emploi fait (à juste titre) partie de la discussion générale en cours sur l'éthique de l'IA. Plusieurs personnes ont souligné que, historiquement, les nouvelles technologies ont créé autant de nouveaux types d'emplois qu'elles remplacent, et l'IA pourrait ne pas faire exception. Peut-être que l'IA supprimera les emplois de camionneur, mais en raison de la nécessité de développer l'éthique de l'IA, le domaine créera de nouveaux postes pour les philosophes moraux. Je dis cela non pas pour atténuer le problème potentiel, mais pour exprimer l'incertitude entourant cette question. Un rapport de 2016 soigneusement étudié du US Council of Economic Advisers, sur les effets possibles de l'IA sur l'économie, a souligné ce point: «Il existe une incertitude substantielle quant à la force avec laquelle ces effets se feront sentir et à quelle vitesse ils arriveront.… preuve,il n’est pas possible de faire des prévisions spécifiques, de sorte que les décideurs doivent être préparés à une

résultats potentiels. »5

Question: Un ordinateur pourrait-il être créatif?

Pour beaucoup de gens, l'idée qu'un ordinateur soit créatif sonne comme un oxymore. La nature même d'une machine, après tout, doit être «mécanique» - un terme qui dans le langage courant connote le contraire de la créativité. Un sceptique pourrait affirmer: «Un ordinateur ne peut faire que ce pour quoi il est programmé par un humain. Il ne peut donc pas être créatif; la créativité nécessite de créer quelque chose de nouveau par soi-même. »6

Je pense que ce point de vue - qu'un ordinateur, par définition, ne peut pas être créatif parce qu'il ne peut faire que ce qu'il est explicitement

programmé pour faire - est faux. Il existe de nombreuses façons dont un programme informatique peut générer des choses auxquelles son programmeur n'a jamais pensé. Mon programme Copycat (décrit dans le chapitre précédent) proposait souvent des analogies qui ne me seraient jamais venues à l'esprit mais qui avaient leur propre logique étrange. Je pense qu'il est possible, en principe, qu'un ordinateur soit créatif. Mais je crois aussi qu'être créatif implique de pouvoir comprendre et juger ce que l'on a créé. Dans ce sens de la créativité, aucun ordinateur existant ne peut être considéré comme créatif.

Une question connexe est de savoir si un programme informatique pourrait produire une belle œuvre d'art ou de la musique. La beauté est très subjective, mais ma réponse est définitivement oui. J'ai vu de nombreuses œuvres d'art générées par ordinateur que je considère comme belles. Un exemple est l '«art génétique» de l'informaticien et artiste Karl Sims.7 Les Sims ont programmé des ordinateurs pour générer des œuvres d'art numériques en utilisant un algorithme vaguement inspiré de la sélection naturelle darwinienne. En utilisant des fonctions mathématiques avec des éléments aléatoires, le programme des Sims générerait plusieurs candidats différents

oeuvres d'art. Une personne choisit celle qu'elle préfère. Le programme créerait des variations de l'illustration sélectionnée en introduisant le hasard dans les fonctions mathématiques sous-jacentes. La personne sélectionnerait alors un favori des mutations, et ainsi de suite, pour de nombreuses itérations. Ce processus a généré de superbes œuvres abstraites qui ont été largement exposées dans des expositions de musée.

Dans le projet de Sims, la créativité résulte du travail d'équipe de l'homme et de l'ordinateur: l'ordinateur génère des œuvres d'art initiales puis des variations successives, et l'humain donne un jugement sur les œuvres qui en résultent, qui vient de la compréhension par l'homme des concepts artistiques abstraits. L'ordinateur n'a aucune compréhension, il n'est donc pas créatif à lui seul.

Il y a eu des exemples similaires avec la génération de musique, dans laquelle un ordinateur est capable de générer de la belle musique (ou du moins agréable), mais à mon avis, la créativité ne vient que de la collaboration avec un humain qui donne la capacité de comprendre ce qui rend la musique bonne et fournit ainsi un jugement sur la sortie de l'ordinateur.

Le programme informatique le plus célèbre qui a généré de la musique de cette manière était le programme Experiments in Musical Intelligence (EMI) 8, que j'ai mentionné dans le prologue. EMI a été conçu pour générer de la musique dans le style de divers compositeurs classiques, et certains de ses morceaux ont réussi à tromper même les musiciens professionnels en leur faisant croire qu'ils avaient été écrits par le véritable compositeur.

EMI a été créé par le compositeur David Cope, à l'origine pour servir comme une sorte de «compositeur personnel

assistant." Cope avait été intrigué par la longue tradition d'utilisation de l'aléatoire pour générer de la musique. Un exemple célèbre est le soi-disant jeu de dés musical, joué par Mozart et d'autres compositeurs du XVIIIe siècle, dans lequel un compositeur a découpé un morceau de musique en petits segments (par exemple, des mesures individuelles) puis a lancé des dés pour choisir où des segments ont été placés dans la nouvelle pièce.

L'EMI, pourrait-on dire, était un jeu de dés musical sur les stéroïdes. Pour que EMI crée des pièces dans le style de, disons, Mozart, Cope a d'abord sélectionné dans les œuvres de Mozart une grande collection de courts segments musicaux et appliqué un programme informatique qu'il avait écrit qui identifiait les principaux modèles musicaux qu'il appelait des «signatures» - des modèles qui aident définir le style unique du compositeur. Cope a écrit un autre programme qui classait chaque signature quant aux rôles musicaux particuliers qu'elle pouvait jouer dans une pièce. Ces signatures ont été stockées dans une base de données correspondant au compositeur (Mozart, dans notre exemple). Cope a également développé dans EMI un ensemble de règles - une sorte de «grammaire» musicale - qui capturait les contraintes de recombinaison des variations de signatures pour créer un morceau de musique cohérent dans un style particulier.EMI a utilisé un générateur de nombres aléatoires (l'équivalent informatique de lancer des dés) pour sélectionner les signatures et créer des segments musicaux à partir de celles-ci; le programme a ensuite utilisé sa grammaire musicale pour aider à décider comment ordonner les segments.

De cette façon, EMI pouvait générer un nombre illimité de nouvelles compositions «dans le style» de Mozart ou de tout autre compositeur pour lequel une base de données de signatures musicales avait été construite. Cope a soigneusement choisi le meilleur des compositions d'EMI à publier. J'en ai écouté plusieurs; à mon oreille, ils vont de médiocre à incroyablement bon, avec quelques beaux passages, bien qu'aucun n'ait la profondeur du travail du compositeur original. (Bien sûr, je dis cela en sachant à l'avance que les pièces sont de EMI, donc je pourrais avoir des préjugés.) Les pièces plus longues contiennent souvent de beaux passages, mais ont également une tendance non humaine à perdre le fil d'une idée musicale. Mais dans l'ensemble, les œuvres publiées d'EMI ont très bien réussi à capturer le style de plusieurs compositeurs classiques différents.

EMI était-il créatif? Ma propre réponse est non. Une partie de la musique générée par EMI était assez bonne, mais elle dépendait des connaissances musicologiques de Cope, qui étaient intégrées dans les signatures musicales que Cope a organisées et les règles musicologiques qu'il a conçues. Plus important encore, je dirais que le programme ne comprenait pas vraiment la musique qu'il générait - ni en termes de concepts musicaux ni en termes d'impact émotionnel de la musique. Pour ces raisons, EMI n'a pas pu juger de la qualité de sa propre musique. C'était le travail de Cope; il a simplement dit: «Les œuvres que j'aime

sont libérés et ceux que je ne suis pas. "9

En 2005, dans une décision que je trouve déconcertante, Cope a détruit l'intégralité de la base de données de signatures musicales d'EMI. La principale raison qu'il a donnée est que les compositions d'EMI, si facilement et infiniment productibles, ont été dévaluées par les critiques. Cope a estimé que l'IME ne serait apprécié en tant que compositeur que s'il avait, comme l'écrivait la philosophe Margaret Boden, une «œuvre finie - comme le font tous les compositeurs humains, assaillis par la mortalité» 10.

Je ne sais pas si mon opinion apportera une consolation à Douglas Hofstadter, qui était tellement bouleversé par les

des compositions impressionnantes et leur capacité à tromper les musiciens professionnels. Je comprends l'inquiétude de Hofstadter. Comme l'a observé le chercheur littéraire Jonathan Gottschall, «L'art est sans doute ce qui distingue le plus les humains du reste de la création. C'est ce qui nous rend le plus fiers de nous-mêmes. »11 Mais j'ajouterais que ce qui nous rend fiers, ce n'est pas seulement la génération de l'art mais aussi notre capacité à l'apprécier, à comprendre ce qui le fait bouger et à comprendre ce qu'il communique. Cette appréciation et cette compréhension sont essentielles à la fois pour le public et l'artiste; sans pour autant

cela, je ne peux pas appeler une création "créative". En bref, pour répondre à la question "Un ordinateur pourrait-il être créatif?" Je dirais oui en principe, mais cela n'arrivera pas de sitôt.

Question: Dans quelle mesure sommes-nous loin de créer une IA générale au niveau humain?

Je répondrai à cela en citant Oren Etzioni, directeur de l'Allen Institute for AI: «Prenez votre estimation, doublez-la, triplez-la, quadruple-la. C'est à ce moment-là. »12

Pour un deuxième avis, rappelons l'évaluation d'Andrej Karpathy du chapitre précédent: «Nous sommes vraiment, vraiment

loin. "13

C'est aussi mon avis.

Les ordinateurs ont commencé comme humains. En fait, il s'agissait généralement de femmes qui effectuaient des calculs à la main ou avec des calculatrices mécaniques de bureau, telles que les calculs nécessaires pendant la Seconde Guerre mondiale pour calculer les trajectoires des missiles afin d'aider les soldats à viser leurs canons d'artillerie. C'était le sens originel de l'ordinateur. Selon le livre de Claire Evans Broad Band, dans les années 30 et 40, «le terme« fille »était utilisé de manière interchangeable avec« ordinateur ». Un membre du… Comité de recherche de la Défense nationale… a indiqué une unité d'énergie «kilogirl» comme étant

équivalent à environ mille heures de travail informatique. »14

Au milieu des années 40, les ordinateurs électroniques ont remplacé le genre humain et sont immédiatement devenus surhumains: contrairement à tout ordinateur humain, les machines pouvaient calculer «la trajectoire d'un obus accélérant plus vite que l'obus ne pouvait voler15». Ce fut la première d'une longue série de tâches étroites où les ordinateurs ont excellé. Les ordinateurs d'aujourd'hui - programmés avec des algorithmes d'intelligence artificielle de pointe - ont conquis de nombreuses autres tâches étroites, mais l'intelligence générale leur échappe encore.

Nous avons vu qu'au cours de l'histoire du domaine, des praticiens de l'IA bien connus ont prédit que l'IA générale arriverait dans dix ans, quinze, vingt-cinq ou «dans une génération». Cependant, aucune de ces prédictions ne s'est réalisée. Comme je l'ai décrit au chapitre 3, le «pari long» entre Ray Kurzweil et Mitchell Kapor, quant à savoir si un programme passera un test de Turing soigneusement structuré, sera décidé en 2029. Mon pari est sur Kapor; Je suis entièrement d'accord avec ses sentiments, cités dans le prologue: «L'intelligence humaine est une merveille, subtile et mal comprise

phénomène. Il n'y a aucun danger de le dupliquer de si tôt. »16

"La prédiction est difficile, en particulier pour l'avenir." On peut se demander qui a inventé ce dicton plein d'esprit, mais c'est aussi vrai dans l'IA que dans tout autre domaine. Plusieurs sondages menés auprès des praticiens de l'IA, demandant quand l'IA générale ou l'IA «superintelligente» arriveront, ont exposé un large éventail d'opinions, allant de «dans les dix prochaines années» à «jamais» 17. En d'autres termes, nous ne savons pas avoir un indice.

Ce que nous savons, c'est que l'IA générale au niveau humain nécessitera des capacités que les chercheurs en IA ont

luttant depuis des décennies pour comprendre et reproduire - connaissances de bon sens, abstraction et analogie, entre autres -, mais ces capacités se sont révélées profondément insaisissables. D'autres questions majeures demeurent: l'IA générale aura-t-elle besoin de conscience? Vous avez un sens de vous-même? Ressentir des émotions? Possédant un instinct de survie et la peur de la mort? Vous avez un corps? Comme je l'ai cité plus tôt, Marvin Minsky: «C'est encore une période formatrice pour nos idées sur l'esprit.»

Je trouve la question du moment où les ordinateurs atteindront la superintelligence - «un intellect qui est beaucoup plus intelligent que les meilleurs cerveaux humains dans pratiquement tous les domaines, y compris la créativité scientifique, la sagesse générale et les compétences sociales» 18 - pour le moins ennuyeux.

Plusieurs auteurs ont affirmé que si les ordinateurs atteignent l'IA générale au niveau humain, ces machines

devenir «superintelligent», dans un processus semblable à la vision d'IJ Good d'une «explosion d'intelligence» (décrite au chapitre 3). On pense qu'un ordinateur doté d'une intelligence générale pourra lire, à une vitesse fulgurante, tous les documents de l'humanité et apprendre tout ce qu'il y a à savoir. De même, il pourra découvrir, grâce à ses capacités de déduction toujours croissantes, toutes sortes de nouvelles connaissances qu'il pourra transformer en un nouveau pouvoir cognitif pour lui-même. Une telle machine ne serait pas contrainte par les limitations ennuyeuses des humains, telles que notre lenteur de pensée et d'apprentissage, notre irrationalité et nos biais cognitifs, notre susceptibilité à l'ennui, notre besoin de sommeil et nos émotions, qui entravent tous le chemin de la pensée productive. De ce point de vue, une machine superintelligente engloberait quelque chose proche de l'intelligence «pure»,sans être contraint par aucune de nos faiblesses humaines.

Ce qui me semble plus probable, c'est que ces limitations supposées des humains font partie intégrante de notre intelligence générale. Les limitations cognitives qui nous sont imposées par le fait d'avoir des corps qui fonctionnent dans le monde, ainsi que les émotions et les biais «irrationnels» qui ont évolué pour nous permettre de fonctionner en tant que groupe social, et toutes les autres qualités parfois considérées comme des «lacunes cognitives», sont en fait précisément ce qui nous permet d'être généralement des savants intelligents plutôt qu'étroits. Je ne peux pas le prouver, mais je pense qu'il est probable que l'intelligence générale ne peut pas être séparée de toutes ces lacunes apparentes, chez l'homme ou dans les machines.

Dans sa section «Dix questions et spéculations» du GEB, Douglas Hofstadter a abordé ce problème avec une question d'une simplicité trompeuse: «Un ordinateur intelligent pourra-t-il ajouter rapidement?» Sa réponse m'a surpris quand je l'ai lu pour la première fois, mais il me semble maintenant correct. "Peut-être pas. Nous sommes nous-mêmes composés de matériel qui fait des calculs fantaisistes mais cela ne signifie pas que notre niveau de symbole, où «nous» sommes, sait effectuer le même calcul fantaisiste. Heureusement pour vous, votre niveau de symbole (c.-à-d., Vous) ne pouvez pas accéder aux neurones qui font votre réflexion - sinon vous auriez le cerveau fou… Pourquoi ne devrait-il pas en être de même pour un programme intelligent? » Hofstadter a poursuivi en expliquant qu'un programme intelligent représenterait, comme nous, les nombres comme un «concept à part entière, comme nous le faisons, rempli d'associations.… Avec tous ces «bagages supplémentaires» à transporter, un

programme deviendra assez paresseux dans son ajout. "19

Question: Dans quelle mesure devrions-nous être terrifiés par l'IA?

Si vous comptez sur les films et la science-fiction (et même sur certains ouvrages de fiction populaires) pour votre vision de l'IA, vous aurez peur que l'IA devienne consciente, devienne malveillante et essaie de nous asservir ou de nous tuer tous. Mais étant donné à quel point le domaine semble atteindre quelque chose comme l'intelligence générale, ce n'est pas ce qui inquiète la plupart des membres de la communauté de l'IA. Comme je l'ai décrit tout au long de ce livre, il y a de nombreuses raisons de s'inquiéter de la précipitation de notre société vers l'adoption de la technologie de l'IA: la possibilité de pertes d'emplois massives, le risque d'utilisation abusive des systèmes d'IA, et la fiabilité et la vulnérabilité de ces systèmes aux attaques ... ce ne sont que quelques-unes des inquiétudes très légitimes des personnes préoccupées par les impacts de la technologie sur la vie des humains.

J'ai commencé ce livre avec un compte rendu de la consternation de Douglas Hofstadter concernant les récents progrès de l'IA, mais il était terrifié, pour la plupart, par quelque chose de complètement différent. Hofstadter craignait que la cognition et la créativité humaines ne soient trop facilement égalées par les programmes d'IA et que les créations sublimes des esprits humains qu'il vénérait le plus - Chopin, par exemple - pourraient être rivalisées par des algorithmes superficiels comme EMI utilisant un «sac de trucs». " Hofstadter a déploré: "Si de tels esprits d'une subtilité et d'une complexité infinies et d'une profondeur émotionnelle pouvaient être banalisés par une petite puce, cela détruirait mon sens de ce qu'est l'humanité." Hofstadter a également été troublé par les prédictions de Kurzweil sur la singularité imminente, agonisant que si Kurzweil était en quelque sorte correct, «nous serons remplacés. Nous serons des reliques. Nous serons laissés dans la poussière. "

Je sympathise avec Hofstadter sur ces inquiétudes, mais je pense qu'elles sont décidément prématurées. Surtout, le message à retenir de ce livre est que nous, les humains, avons tendance à surestimer les progrès de l'IA et à sous-estimer la complexité de notre propre intelligence. L'IA d'aujourd'hui est loin de l'intelligence générale, et je ne pense pas que la «superintelligence» de la machine soit nulle part à l'horizon. Si l'IA générale se produit, je parie que sa complexité rivalisera avec celle de notre propre cerveau.

Dans tout classement des inquiétudes à court terme concernant l'IA, la superintelligence devrait être loin dans la liste. En fait, le contraire de la superintelligence est le vrai problème. Tout au long de ce livre, j'ai décrit comment même les systèmes d'IA les plus accomplis sont fragiles; c'est-à-dire qu'ils font des erreurs lorsque leur contribution diffère trop des exemples sur lesquels ils ont été formés. Il est souvent difficile de prédire dans quelles circonstances la fragilité d'un système d'IA se révélera. Dans la transcription de la parole, la traduction entre les langues, la description du contenu des photos, la conduite dans une ville surpeuplée - si des performances robustes sont essentielles, alors les humains sont toujours nécessaires dans la boucle. Je pense que l'aspect le plus inquiétant des systèmes d'IA à court terme est que nous leur donnerons trop d'autonomie sans être pleinement conscients de leurs limites et vulnérabilités.Nous avons tendance à anthropomorphiser les systèmes d'IA: nous leur imputons des qualités humaines et finissons par surestimer la mesure dans laquelle ces systèmes peuvent réellement être pleinement fiables.

L'économiste Sendhil Mullainathan, en écrivant sur les dangers de l'IA, a cité le phénomène de la longue queue (que j'ai décrit au chapitre 6) dans sa notion de «risque de queue»:

Nous devons avoir peur. Pas de machines intelligentes. Mais des machines qui prennent des décisions qu'elles n'ont pas l'intelligence à prendre. J'ai bien plus peur de la bêtise machine que de l'intelligence machine. La stupidité de la machine crée un risque de queue. Les machines peuvent prendre de nombreuses bonnes décisions, puis un jour échouer de manière spectaculaire lors d'un événement de queue qui n'apparaissait pas dans leurs données d'entraînement. Ceci est la différence entre des

et l'intelligence générale.20

Ou, comme l'a si bien dit le chercheur en intelligence artificielle Pedro Domingos: «Les gens s'inquiètent que les ordinateurs deviennent trop intelligents et envahissent le monde, mais le vrai problème est qu'ils sont trop stupides et qu'ils ont déjà conquis le monde.» 21

Je m'inquiète du manque de fiabilité de l'IA. Je m'inquiète également de la façon dont il sera utilisé. Outre l'éthique

considérations que j'ai couvertes dans le chapitre 7, un développement particulier qui me fait peur est l'utilisation de systèmes d'IA pour générer de faux médias: texte, sons, images et vidéos qui dépeignent avec un réalisme terrifiant des événements qui ne se sont jamais réellement produits.

Alors, devrions-nous être terrifiés par l'IA? Oui et non. Les machines superintelligentes et conscientes ne sont pas à l'horizon. Les aspects de notre humanité que nous chérissons le plus ne seront pas égalés par «un sac de trucs». Au moins, je ne pense pas. Cependant, il y a beaucoup à s'inquiéter concernant le potentiel d'utilisation dangereuse et contraire à l'éthique des algorithmes et des données. C'est effrayant, mais d'un autre côté, je suis encouragé par la large attention que ce sujet a récemment reçu dans la communauté de l'IA et au-delà. Il y a un sentiment de coopération et d'objectif commun qui émerge parmi les chercheurs, les entreprises et les politiciens sur l'urgence de prendre en compte ces questions.

Question: Quels problèmes passionnants en IA ne sont toujours pas résolus?

Presque tous.

Quand j'ai commencé à travailler dans l'IA, une partie de ce que j'ai trouvé passionnant était que presque toutes les questions importantes du domaine étaient ouvertes, attendant de nouvelles idées. Je pense que c'est toujours vrai.

Si nous revenons au début du domaine, la proposition de 1955 de John McCarthy et d'autres (décrite dans le chapitre 1) énumère certains des principaux sujets de recherche de l'IA: traitement du langage naturel, réseaux de neurones, apprentissage automatique, concepts abstraits et raisonnement, et la créativité. En 2015, le directeur de recherche de Microsoft, Eric Horvitz, a plaisanté en disant: «On pourrait même dire que la proposition [de 1955], si elle est correctement reformatée, pourrait être soumise à nouveau à la National Science Foundation… aujourd'hui et serait probablement financée par certains gestionnaires de programme enthousiastes.» 22

Il ne s'agit en aucun cas d'une critique des recherches passées sur l'IA. L'intelligence artificielle est au moins aussi difficile que n'importe quel autre grand défi scientifique de l'humanité. Rodney Brooks du MIT l'a déclaré mieux que quiconque: «Lorsque l'IA a commencé, l'inspiration évidente était la performance au niveau humain et l'intelligence au niveau humain. Je pense que cet objectif a été ce qui a attiré la plupart des chercheurs dans le domaine au cours des soixante premières années. Le fait que nous n’ayons rien de proche de la réussite de ces aspirations ne signifie pas que les chercheurs n’ont pas travaillé dur ou n’ont pas été brillants. Il

dit que c'est un objectif très difficile. »23

Les questions les plus passionnantes de l'IA ne se concentrent pas uniquement sur les applications potentielles. Les fondateurs du domaine étaient motivés autant par des questions scientifiques sur la nature de l'intelligence que par la volonté de développer de nouvelles technologies. En effet, l'idée que l'intelligence est un phénomène naturel, qui pourrait être étudié comme beaucoup d'autres phénomènes en construisant des modèles informatiques simplifiés, était la motivation qui a attiré de nombreuses personnes (y compris moi-même) sur le terrain.

Les impacts de l'IA continueront de croître pour nous tous. J'espère que ce livre vous a aidé, en tant qu'humain pensant, à vous faire une idée de l'état actuel de cette discipline en plein essor, y compris de ses nombreux problèmes non résolus, des risques et avantages potentiels de ses technologies et des questions scientifiques et philosophiques qu'elle soulève. pour comprendre notre propre intelligence humaine. Et si des ordinateurs lisent ceci, dites-moi à quoi il se réfère dans la phrase précédente et vous êtes les bienvenus pour participer à la discussion.

Remarques

Prologue: Terrifié

1. A. Cuthbertson, «DeepMind AlphaGo: l'IA s'enseigne« des milliers d'années de connaissances humaines »sans aide», Newsweek, 18 octobre 2017, www.newsweek.com/deepmind-alphago-ai-teaches-human-help -687620.

2. Dans les sections suivantes, les citations de Douglas Hofstadter proviennent d'une interview de suivi que j'ai faite avec lui après la réunion de Google; les citations capturent avec précision le contenu et le ton de ses remarques au groupe Google.

3. Jack Schwartz, cité dans G.-C. Rota, Pensées indiscrètes (Boston: Berkhäuser, 1997), 22.

4. DR Hofstadter, Gödel, Escher, Bach: an Eternal Golden Braid (New York: Basic Books, 1979), 678.
5. Ibid., 676.

6. Cité dans DR Hofstadter, «Regarder Emmy droit dans les yeux et faire de mon mieux pour ne pas broncher», dans Créativité, cognition et connaissance, éd. T. Dartnell (Westport, Conn.: Praeger, 2002), 67–100.

7. Cité dans R. Cellan-Jones, «Stephen Hawking avertit que l'intelligence artificielle pourrait mettre fin à l'humanité», BBC News, 2 décembre 2014, www.bbc.com/news/technology-30290540.
8. M. McFarland, «Elon Musk:« Avec l'intelligence artificielle, nous invoquons le démon », Washington Post, 24 octobre 2014.
9. Bill Gates, sur Reddit, 28 janvier 2015, www.reddit.com/r/IAmA/comments/2tzjp7/hi_reddit_im_bill_gates_and_im_back_for_my_third/ ?.

10. Cité dans K. Anderson, «Enthusiasts and Skeptics Debate Artificial Intelligence», Vanity Fair, 26 novembre 2014.

11. RA Brooks, «Mistaking Performance for Competence», in What to Think About Machines That Think, éd. J. Brockman (New York: Harper Perennial, 2015), 108-11.

12. Cité dans G. Press, «12 Observations About Artificial Intelligence from the O'Reilly AI Conference», Forbes, 31 octobre 2016, www.forbes.com/sites/gilpress/2016/10/31/12-observations -sur-l'intelligence artificielle-de-la-conférence-oreilly-oreilly / # 886a6012ea2e.

1: Les racines de l'intelligence artificielle

1. J. McCarthy et al., «A Proposition for the Dartmouth Summer Research Project in Artificial Intelligence», soumis à la Rockefeller Foundation, 1955, reproduit dans AI Magazine 27, no. 4 (2006): 12-14.

2. La cybernétique était un domaine interdisciplinaire qui étudiait «le contrôle et la communication chez l'animal et dans les machines». Voir N. Wiener, Cybernetics

(Cambridge, Mass.: MIT Press, 1961).

3. Cité dans NJ Nilsson, John McCarthy: A Biographical Memoir (Washington, DC: National Academy of Sciences, 2012).
4. McCarthy et al., «Proposition pour le projet de recherche d'été de Dartmouth en intelligence artificielle».
5. Ibid.
6. G. Solomonoff, «Ray Solomonoff and the Dartmouth Summer Research Project in Artificial Intelligence, 1956», consulté le 4 décembre 2018, www.raysolomonoff.com/dartmouth/dartray.pdf.
7. H. Moravic, Mind Children: The Future of Robot and Human Intelligence (Cambridge, Mass.: Harvard University Press, 1988), 20.
8. HA Simon, The Shape of Automation for Men and Management (New York: Harper & Row, 1965), 96. Notez que Simon utilise l'homme plutôt que

personne était normale pour le cours dans les années 1960 en Amérique.

9. ML Minsky, Computation: Finite and Infinite Machines (Upper Saddle River, NJ: Prentice-Hall, 1967), 2.

10. BR Redman, The Portable Voltaire (New York: Penguin Books, 1977), 225.

11. ML Minsky, The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind (New York: Simon & Schuster, 2006), 95.

12. Étude de cent ans sur l'intelligence artificielle (AI100), rapport 2016, 13, ai100.stanford.edu/2016-report.

13. Ibid., 12.

14. J. Lehman, J. Clune et S. Risi, «An Anarchy of Methods: Current Trends in How Intelligence Is Abstracted in AI», IEEE Intelligent Systems 29, no. 6 (2014): 56–62.

15. A. Newell et HA Simon, «GPS: un programme qui simule la pensée humaine», P-2257, Rand Corporation, Santa Monica, Californie (1961).

16. F. Rosenblatt, «The Perceptron: A Probabilistic Model for Information Storage and Organisation in the Brain», Psychological Review 65, no. 6 (1958): 386–408.

17. Mathématiquement, l'algorithme d'apprentissage du perceptron est le suivant. Pour chaque poids wj: wj ← wj + η (t - y) xj, où t est la sortie correcte (1 ou 0) pour l'entrée donnée, y est la sortie réelle du perceptron, xj est l'entrée associée au poids wj , et η est le taux d'apprentissage, une valeur donnée par le programmeur. La flèche signifie une mise à jour. Le seuil est incorporé en créant une «entrée» supplémentaire x0 avec une valeur constante de 1, dont le poids associé w0 = −seuil. Avec cette entrée et ce poids supplémentaires (appelés biais), le perceptron ne se déclenche que si la somme des temps d'entrée

les poids (c'est-à-dire le produit scalaire entre le vecteur d'entrée et le vecteur de poids) sont supérieurs ou égaux à 0. Souvent, les valeurs d'entrée sont mises à l'échelle et d'autres transformations sont appliquées afin d'empêcher les poids de devenir trop grands.

18. Cité dans M. Olazaran, «A Sociological Study of the Official History of the Perceptrons Controversy», Social Studies of Science 26, no. 3 (1996): 611–59.

19. MA Boden, Mind as Machine: A History of Cognitive Science (Oxford: Oxford University Press, 2006), 2: 913.

20. ML Minsky et SL Papert, Perceptrons: An Introduction to Computational Geometry (Cambridge, Mass.: MIT Press, 1969).

21. En termes techniques, toute fonction booléenne peut être calculée par un réseau multicouche entièrement connecté avec des unités de seuil linéaires et une couche interne («cachée»).

22. Olazaran, «Étude sociologique de l'histoire officielle de la controverse des perceptrons».

23. G. Nagy, «Réseaux de neurones - hier et aujourd'hui», Transactions IEEE sur les réseaux de neurones 2, no. 2 (1991): 316–18.

24. Minsky et Papert, Perceptrons, 231–32.

25. J. Lighthill, «Artificial Intelligence: A General Survey», dans Artificial Intelligence: A Paper Symposium (Londres: Science Research Council, 1973).

26. Cité dans C. Moewes et A. Nürnberger, Computational Intelligence in Intelligent Data Analysis (New York: Springer, 2013), 135.

27. ML Minsky, The Society of Mind (New York: Simon et Schuster, 1987), 29.

2: Réseaux de neurones et ascension de l'apprentissage automatique

1. La valeur d'activation y à chaque unité cachée et de sortie est généralement calculée en prenant le produit scalaire entre le vecteur x des entrées de l'unité et le vecteur w des poids sur les connexions à cette unité, et en appliquant la fonction sigmoïde au résultat : y = 1 / (1 + e− (xw)). Les vecteurs x et w incluent également le poids et le «biais» d'activation. Si les unités ont des fonctions de sortie non linéaires telles que les sigmoïdes, avec suffisamment d'unités cachées, le réseau peut calculer n'importe quelle fonction (avec des restrictions minimales) au niveau d'approximation souhaité. Ce fait est appelé théorème d'approximation universel. Voir M. Nielsen, Neural Networks and Deep Learning, neuralnetworksanddeeplearning.com, pour plus de détails.

2. Pour les lecteurs ayant quelques antécédents de calcul: la rétropropagation est une forme de descente de gradient, qui se rapproche, pour chaque poids w du réseau, de la direction de descente la plus abrupte dans la «surface d'erreur». Cette direction est calculée en prenant le gradient de la fonction d'erreur (par exemple, le carré de la différence entre la sortie et la cible) par rapport au poids w. Considérons, par exemple, le poids w sur la connexion de l'unité d'entrée i à l'unité cachée h. Le poids w est modifié dans le sens de la descente la plus abrupte d'une quantité déterminée par l'erreur qui s'est propagée à l'unité h ainsi que l'activation de l'unité i et un taux d'apprentissage défini par l'utilisateur. Pour une explication approfondie de la rétropropagation, je recommande le livre en ligne gratuit de Michael Nielsen, Neural Networks and Deep Learning.

3. Dans mon réseau avec 324 entrées, 50 unités cachées et 10 unités de sortie, il y a 324 × 50 = 16 200 poids des entrées à la couche cachée et 50

× 10 = 500 poids de la couche cachée à la couche de sortie, pour un total de 16 700 poids.

4. DE Rumelhart, JL McClelland et le PDP Research Group, Parallel Distributed Processing: Explorations in the Microstructure of Cognition

(Cambridge, Mass.: MIT Press, 1986), 1: 3.

5. Ibid., 113.
6. Cité dans C. Johnson, «Neural Network Startups Proliferate Across the US», The Scientist, 17 octobre 1988.
7. A. Clark, Being There: Putting Brain, Body, and World Together Again (Cambridge, Mass .: MIT Press, 1996), p. 26.
8. Comme Douglas Hofstadter me l'a fait remarquer, la version grammaticalement correcte est «une bonne vieille IA démodée», mais GOOFAI n'a pas la même sonnerie que GOFAI.

3: AI Spring

1. QV Le et al., «Building High-Level Features Using Large-Scale Unsupervised Learning», dans Actes de la Conférence internationale sur l'apprentissage automatique (2012), 507–14.
2. P. Hoffman, «Retooling Machine and Man for Next Big Chess Faceoff», New York Times, 21 janvier 2003.
3. DL McClain, «Le joueur d'échecs dit que l'adversaire s'est comporté de façon suspecte», New York Times, 28 septembre 2006.

4. Cité dans MY Vardi, «Intelligence artificielle: passé et futur», Communications de l'Association for Computing Machinery 55, no. 1 (2012): 5.

5. K. Kelly, «Les trois percées qui ont enfin déchaîné l'IA dans le monde», Wired, 27 octobre 2014.
6. J. Despres, «Scenario: Shane Legg», Future, consulté le 4 décembre 2018, future.wikia.com/wiki/Scenario:_Shane_Legg.
7. Cité dans H. McCracken, «Inside Mark Zuckerberg's Bold Plan for the Future of Facebook», Fast Company, 16 novembre 2015, www.fastcompany.com/3052885/mark-zuckerberg-facebook.

8. VC Müller et N. Bostrom, «Future Progress in Artificial Intelligence: A Survey of Expert Opinion», in Fundamental Issues of Artificial Intelligence, éd. VC Müller (Cham, Suisse: Springer International, 2016), 555–72.

9. M. Loukides et B. Lorica, «Qu'est-ce que l'intelligence artificielle?», O'Reilly, 20 juin 2016, www.oreilly.com/ideas/what-is-artificial-intelligence.

10. S. Pinker, «Penser n'implique pas la subjugation», dans Que penser des machines qui pensent, éd. J. Brockman (New York: Harper Perennial, 2015), 5–8.

11. AM Turing, «Computing Machinery and Intelligence», Mind 59, no. 236 (1950): 433–60.

12. JR Searle, «Minds, Brains, and Programs», Behavioral and Brain Sciences 3, no. 3 (1980): 417-24.

13. JR Searle, Mind: A Brief Introduction (Oxford: Oxford University Press, 2004), 66.

14. Les termes IA forte et IA faible ont également été utilisés pour désigner quelque chose de plus comme l'IA générale et l'IA étroite. C'est ainsi que Ray Kurzweil les utilise, mais cela diffère de la signification originale de Searle.

15. L'article de Searle est réimprimé dans DR Hofstadter et DC Dennett, The Mind's I: Fantasies and Reflections on Self and Soul (New York: Basic Books, 1981), avec un contre-argument convaincant de Hofstadter.

16. S. Aaronson, Quantum Computing Since Democritus (Cambridge, Royaume-Uni: Cambridge University Press, 2013), 33.

17. «Les transcriptions des tests de Turing révèlent comment Chatbot« Eugene »a trompé les juges», Université de Coventry, 30 juin 2015, www.coventry.ac.uk/primary- news / turing-test-transcripts-révèlent-comment-chatbot-eugene -duped-the-juges /.

18. «Turing Test Success Marks Milestone in Computing History», Université de Reading, 8 juin 2014, www.reading.ac.uk/news-and- events / releases / PR583836.aspx.

19. R. Kurzweil, La singularité est proche: quand les humains transcendent la biologie (New York: Viking Press, 2005), 7. 20. Ibid., 22-23.

21. IJ Good, «Spéculations concernant la première machine ultra-intelligente», Advances in Computers 6 (1966): 31–88.

22. V. Vinge, «First Word», Omni, janvier 1983.

23. Kurzweil, Singularity Is Near, 241, 317, 198–99.

24. B. Wang, «Ray Kurzweil répond à la question de l'exactitude de ses prédictions», Next Big Future, 19 janvier 2010, www.nextbigfuture.com/2010/01/ray-kurzweil- corresponds-to-issue- of.html.

25. D. Hochman, «Reinvent Yourself: The Playboy Interview with Ray Kurzweil», Playboy, 19 avril 2016, www.playboy.com/articles/playboy- interview-ray-kurzweil.

26. Kurzweil, Singularity Is Near, 136.

27. A. Kreye, «A John Henry Moment», dans Brockman, What to Think About Machines That Think, 394–96.

28. Kurzweil, Singularity Is Near, 494.

29. R. Kurzweil, «Un pari sur le test de Turing: pourquoi je pense que je vais gagner», Kurzweil AI, 9 avril 2002, www.kurzweilai.net/a-wager-on-the-turing-test- why- je-pense-je-vais-gagner.

30. Ibid.

31. Ibid.

32. Ibid.

33. M. Dowd, «Elon Musk's Billion-Dollar Crusade to Stop the AI ​​Apocalypse», Vanity Fair, 26 mars 2017.

34. L. Grossman, «2045: l'année où l'homme devient immortel», Time, 10 février 2011.

35. À partir du site Web de la Singularity University, consulté le 4 décembre 2018, su.org/about/.

36. Kurzweil, Singularity Is Near, 316.

37. R. Kurzweil, The Age of Spiritual Machines: When Computers Exceed Human Intelligence (New York: Viking Press, 1999), 170.

38. DR Hofstadter, «La loi de Moore, l'évolution artificielle et le destin de l'humanité», dans Perspectives on Adaptation in Natural and Artificial Systems, éd. L. Booker et al. (New York: Oxford University Press, 2005), 181.

39. Toutes ces citations sont tirées de Kurzweil, Age of Spiritual Machines, 169–70.

40. Hofstadter, «La loi de Moore, l'évolution artificielle et le destin de l'humanité», 182.

41. Sur le site Internet de Long Bets: longbets.org/about.

42. Sur le site Web des paris longs, pari 1: longbets.org/1/#adjudication_terms.

43. Ibid.

44. Ibid.

45. Kurzweil, «Pariez sur le test de Turing».

46. ​​M. Kapor, «Pourquoi je pense que je vais gagner», Kurzweil AI, 9 avril 2002, http://www.kurzweilai.net/why-i-think-i-will-win .

47. Ibid.

48. R. Kurzweil, préface à Virtual Humans, par PM Plantec (New York: AMACOM, 2004).

49. Cité dans Grossman, «2045».

4: Qui, quoi, quand, où, pourquoi

1. SA Papert, «The Summer Vision Project», MIT Artificial Intelligence Group Vision Memo 100 (7 juillet 1966), dspace.mit.edu/handle/1721.1/6125.
2. D. Crevier, AI: The Tumultuous History of the Search for Artificial Intelligence (New York: Basic Books, 1993), 88.

3. K. Fukushima, «Cognitron: un modèle de réseau neuronal multicouche auto-organisé», Biological Cybernetics 20, no. 3-4 (1975): 121–36; K. Fukushima, «Neocognitron: un réseau neuronal hiérarchique capable de reconnaissance visuelle des formes», Neural Networks 1, no. 2 (1988): 119-30.

4. Avant d'être envoyée au réseau, l'image doit être mise à l'échelle à une taille fixe, la même taille que la première couche du réseau.

5. La plupart des affirmations sur la façon dont le cerveau exécute une tâche doivent s'accompagner de nombreuses mises en garde; l'histoire que je viens de décrire n'est pas différente. Bien que ce que j'ai dit soit approximativement exact, le cerveau est scandaleusement complexe, et les conclusions que j'ai décrites ne sont qu'une petite partie de l'histoire de la vision précoce, dont la plupart des scientifiques ne comprennent toujours pas complètement.

6. Le tableau de poids associé à chaque carte d'activation est appelé filtre convolutionnel ou noyau convolutionnel.
7. Ici, j'utilise le terme module de classification comme raccourci pour ce que l'on appelle généralement les couches entièrement connectées d'un réseau convolutionnel profond.

8. Ma description de ConvNets laisse de nombreux détails. Par exemple, pour calculer son activation, une unité d'une couche convolutionnelle effectue une convolution puis applique une fonction d'activation non linéaire au résultat. ConvNets propose également généralement d'autres types de couches, telles que les «couches de mise en commun». Pour plus de détails, voir I. Goodfellow, Y. Bengio et A. Courville, Deep Learning (Cambridge, Mass .: MIT Press, 2016).

9. Au moment d'écrire ces lignes, le moteur de recherche par image de Google est accessible sur images.google.com en cliquant sur la petite icône d'appareil photo dans la zone de recherche.

5: ConvNets et ImageNet

1. En effet, la rétropropagation est un algorithme qui a été découvert indépendamment par plusieurs groupes différents et, ironiquement, étant donné la fonction de rétropropagation en tant qu'algorithme d'attribution de crédit, attribuer le crédit de sa découverte a été une bataille de longue date entre les neurones. chercheurs du réseau.
2. Cité dans D. Hernandez, «La quête de Facebook pour construire un cerveau artificiel dépend de ce type», Wired, 14 août 2014, www.wired.com/2014/08/deep-learning-yann-lecun/.

3. Il y avait aussi un concours de «détection», dans lequel les programmes devaient également localiser des objets des différentes catégories dans des images, ainsi que d'autres défis spécialisés; ici, je me concentre sur le défi de la classification.

4. D. Gershgorn, «Les données qui ont transformé la recherche en IA - et peut-être le monde», Quartz, 26 juillet 2017, qz.com/1034972/the-data-that-changed- the-direction-of-ai-research -et-éventuellement-le-monde /.
5. «À propos d'Amazon Mechanical Turk», www.mturk.com/help.

6. L. Fei-Fei et J. Deng, «ImageNet: où en sommes-nous? Où allons-nous? », Diapositives sur image-net.org/challenges/talks_2017/imagenet_ilsvrc2017_v1.0.pdf.

7. A. Krizhevsky, I. Sutskever et GE Hinton, «ImageNet Classification with Deep Convolutional Neural Networks», Advances in Neural Information Processing Systems 25 (2012): 1097-105.
8. T. Simonite, «Teaching Machines to Understanding us», Technology Review, 5 août 2015, www.technologyreview.com/s/540001/teaching-machines- to-understand-us /.
9. Annonce du défi de reconnaissance visuelle à grande échelle ImageNet, 2 juin 2015, www.image-net.org/challenges/LSVRC/announcement-June-2-2015.

10. S. Chen, «Baidu Fires Scientist Responsible for Breaching Rules in High-Profile Supercomputer AI Test», South China Morning Post, édition internationale, 12 juin 2015, www.scmp.com/tech/science-research/article/ 1820649 / chinas-baidu-fires-researcher-after-team-cheated-high-profile.

11. Gershgorn, «Données qui ont transformé la recherche sur l'IA».

12. Cité dans Hernandez, «La quête de Facebook pour construire un cerveau artificiel dépend de ce type».

13. B. Agüera y Arcas, «Inside the Machine Mind: Latest Insights on Neuroscience and Computer Science from Google» (vidéo de conférence), Oxford Martin School, 10 mai 2016, www.youtube.com/watch?v=v1dW7ViahEc.

14. K. He et al., «Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification», dans Actes de la Conférence internationale de l'IEEE sur la vision par ordinateur (2015), 1026–34.

15. A. Linn, «Microsoft Researchers Win ImageNet Computer Vision Challenge», AI Blog, Microsoft, 10 décembre 2015, blogs.microsoft.com/ai/2015/12/10/microsoft-researchers-win-imagenet-computer -vision-challenge.

16. A. Hern, «Les ordinateurs sont désormais meilleurs que les humains pour reconnaître et trier les images», Guardian, 13 mai 2015, www.theguardian.com/global/2015/may/13/baidu-minwa-supercomputer-better-than- des images reconnaissant les humains; T. Benson, «Microsoft a développé un système informatique qui peut mieux identifier les objets que les humains», UPI, 14 février 2015, www.upi.com/Science_News/2015/02/14/Microsoft-has-developed-a- système-informatique-qui-peut-identifier-des-objets-meilleurs-que-les-humains / 1171423959603.

17. A. Karpathy, «What I Learned from Competing Against a ConvNet on ImageNet», 2 septembre 2014, karpathy.github.io/2014/09/02/what-i-learned- from-competing-against-a -convnet-on-imagenet.

18. S. Lohr, «Une leçon d'accidents Tesla? La vision par ordinateur ne peut pas encore tout faire », New York Times, 19 septembre 2016.

6: Regardons de plus près les machines qui apprennent

1. Les lecteurs qui ont suivi l'élection présidentielle américaine de 2016 reconnaîtront le jeu de mots sur le slogan des partisans de Bernie Sanders, «Feel the Bern».
2. E. Brynjolfsson et A. McAfee, «The Business of Artificial Intelligence», Harvard Business Review, juillet 2017.
3. O. Tanz, «L'intelligence artificielle peut-elle mieux identifier les images que les humains?», Entrepreneur, 1er avril 2017, www.entrepreneur.com/article/283990.
4. D. Vena, «3 meilleurs titres d'IA à acheter maintenant», Motley Fool, 27 mars 2017, www.fool.com/investing/2017/03/27/3-top-ai-stocks-to-buy- now.aspx.
5. Cité dans C. Metz, «Une nouvelle façon pour les machines de voir, prendre forme à Toronto», New York Times, 28 novembre 2017, www.nytimes.com/2017/11/28/technology/artificial-intelligence -research-toronto.html.

6. Cité dans J. Tanz, «Bientôt, nous ne programmerons plus d'ordinateurs. Nous les formerons comme des chiens », Wired, 17 mai 2016.

7. Extrait de la conférence de Harry Shum au Microsoft Faculty Summit, Redmond, Washington, juin 2017.

8. Une discussion approfondie de cette question est donnée dans J. Lanier, Who Owns the Future? (New York: Simon et Schuster, 2013).

9. Politique de confidentialité des clients de Tesla, consultée le 7 décembre 2018, www.tesla.com/about/legal.

10. T. Bradshaw, «Self-Driving Cars Prove to be Labour-Intensive for Humans», Financial Times, 8 juillet 2017.

11. «Ground Truth Datasets for Autonomous Vehicles», Mighty AI, consulté le 7 décembre 2018, mty.ai/adas/.

12. «Deep Learning in Practice: Speech Recognition and Beyond», vidéo EmTech Digital, 23 mai 2016, events.technologyreview.com/emtech/digital/16/video/watch/andrew-ng-deep-learning.

13. Y. Bengio, «Machines That Dream», dans The Future of Machine Intelligence: Perspectives from Leading Practitioners, éd. D. Beyer (Sebastopol, Californie: O'Reilly Media), 14.

14. W. Landecker et al., «Interpreting Individual Classifications of Hierarchical Networks», dans Actes du Symposium 2013 de l'IEEE sur l'intelligence informatique et l'exploration de données (2013), 32-38.

15. M. Loghmani et al., «Reconnaître les objets dans la nature: où en sommes-nous?», Dans la Conférence internationale de l'IEEE sur la robotique et l'automatisation

(2018), 2170-277.

16. H. Hosseini et al., «Sur la limitation des réseaux de neurones convolutifs dans la reconnaissance des images négatives», dans les actes de la 16e Conférence internationale de l'IEEE sur l'apprentissage automatique et les applications (2017), 352–58; R. Geirhos et al., «Généralisation chez les humains et les réseaux neuronaux profonds», Advances in Neural Information Processing Systems 31 (2018): 7549–61; M. Alcorn et al., «Strike (with) a Pose: Neural Networks Are Easily Fucked by Strange Poses of Familiar Objects», arXiv: 1811.11553 (2018).

17. M. Orcutt, «Les systèmes de reconnaissance faciale sont-ils exacts? Depends on Your Race », Technology Review, 6 juillet 2016, www.technologyreview.com/s/601786/are-face-recognition-systems-accurate-depends-on-your-race.

18. J. Zhao et al., «Men Like Like Shopping: Reducing Gender Bias Amplification Using Corpus-Level Constraints», dans Actes de la Conférence de 2017 sur les méthodes empiriques dans le traitement du langage naturel (2017).

19. W. Knight, «The Dark Secret at the Heart of AI», Technology Review, 11 avril 2017, www.technologyreview.com/s/604087/the-dark-secret-at-the- heart-of-ai /.

20. C. Szegedy et al., «Intriguing Properties of Neural Networks», dans les actes de la Conférence internationale sur les représentations d'apprentissage (2014).

21. A. Nguyen, J. Yosinski et J. Clune, «Les réseaux neuronaux profonds sont facilement trompés: prévisions de confiance élevée pour les images méconnaissables», dans

Actes de la conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes (2015), 427–36.

22. Voir, par exemple, M. Mitchell, An Introduction to Genetic Algorithms (Cambridge, Mass.: MIT Press, 1996).

23. Nguyen, Yosinski et Clune, «les réseaux neuronaux profonds sont facilement trompés».

24. M. Sharif et al., «Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition», dans les Actes de la Conférence ACM SIGSAC 2016 sur la sécurité informatique et des communications (2016), 1528– 40.

25. K. Eykholt et al., «Robust Physical-World Attacks on Deep Learning Visual Classification», dans Actes de la Conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes (2018), 1625-1634.

26. SG Finlayson et al., «Attaques contradictoires sur l'apprentissage automatique médical», Science 363, no. 6433 (2019): 1287–89.

27. Cité dans W. Knight, «Combien de temps avant que les systèmes d'IA ne soient piratés de manière innovante?», Technology Review, 15 décembre 2016, www.technologyreview.com/s/603116/how-long-before-ai- les systèmes sont piratés de nouvelles façons créatives.

28. J. Clune, «Combien les réseaux neuronaux profonds comprennent-ils les images qu'ils reconnaissent?», Diapositives de la conférence (2016), consulté le 7 décembre 2018, c4dm.eecs.qmul.ac.uk/horse2016/HORSE2016_Clune.pdf .

7: Sur l'IA digne de confiance et éthique

1. Cité dans D. Palmer, «L'IA pourrait aider à résoudre les plus gros problèmes de l'humanité en prenant le relais des scientifiques, déclare le PDG de DeepMind», Computing, 26 mai 2015, www.computing.co.uk/ctg/news/2410022/ai- pourrait-aider-à-résoudre-les-plus-grands-problèmes-de-l'humanité-en prenant le relais des scientifiques-dit-deepmind-ceo.
2. S. Lynch, «Andrew Ng: Pourquoi l'IA est la nouvelle électricité», Insights by Stanford Business, 11 mars 2017, www.gsb.stanford.edu/insights/andrew-ng- why-ai-new-electricity.
3. J. Anderson, L. Rainie et A. Luchsinger, «Intelligence artificielle et avenir des humains», Pew Research Center, 10 décembre 2018, www.pewinternet.org/2018/12/10/artificial-intelligence -et-l'avenir-des-humains.
4. Deux traitements récents des problèmes éthiques liés à l'IA et aux mégadonnées sont C. O'Neil, Weapons of Math Destruction: How Big Data Augment Inequality and Threatens Democracy (New York: Crown, 2016), et H. Fry, Hello World : Être humain à l'ère des algorithmes (New York: W.

W. Norton, 2018).

5. C. Domonoske, «Facebook étend l'utilisation de la reconnaissance faciale aux utilisateurs d'identité sur les photos», National Public Radio, 19 décembre 2017, www.npr.org/sections/thetwo-way/2017/12/19/571954455/ facebook-étend-l'utilisation-de-reconnaissance-faciale-à-id-utilisateurs-en-photos.
6. H. Hodson, «Face Recognition Row over Right to Identify You in the Street», New Scientist, 19 juin 2015.
7. J. Snow, «Amazon's Face Recognition Falsely Matched 28 Members of Congress with Mugshots», Free Future (blog), ACLU, 26 juillet 2018, www.aclu.org/blog/privacy-technology/surveillance-technologies/amazons -reconnaissance de face-faussement appariée-28.
8. B. Brackeen, «Le logiciel de reconnaissance faciale n'est pas prêt à être utilisé par les forces de l'ordre», Tech Crunch, 25 juin 2018, techcrunch.com/2018/06/25/facial-recognition-software-is-not-ready- pour usage par application de la loi.
9. B. Smith, «Facial Recognition Technology: The Need for Public Regulation and Corporate Responsibility», Microsoft on the Issues (blog), Microsoft, 13 juillet 2018, blogs.microsoft.com/on-the-issues/2018/ 07/13 / technologie-de-reconnaissance-faciale-le-besoin-de-réglementation-publique-et-de-responsabilité-des-entreprises.

10. K. Walker, «AI for Social Good in Asia Pacific», Around the Globe (blog), Google, 13 décembre 2018, www.blog.google/around-the-globe/google- asia / ai-social -bonne-asie-pacifique.

11. B. Goodman et S. Flaxman, «Règlements de l'Union européenne sur la prise de décision algorithmique et un« droit à l'explication »,» AI Magazine 38, no. 3 (automne 2017): 50-57.

12. «Article 12, GDPR de l'UE: information transparente, communication et modalités pour l'exercice des droits de la personne concernée», Règlement général sur la protection des données de l'UE, consulté le 7 décembre 2018, www.privacy-regulation.eu/en / article-12-communication-transparente-d'information-et-modalités-pour-l'exercice-des-droits-du-sujet-GDPR.htm.

13. Site Web de Partnership on AI, consulté le 18 décembre 2018, www.partnershiponai.org.

14. Pour une étude approfondie de ce sujet, voir W. Wallach et C. Allen, Moral Machines: Teaching Robots Right from Wrong (New York: Oxford University Press, 2008).

15. I. Asimov, I, Robot (Bantam Dell, 2004), 37. (Première édition: Grove, 1950.)

16. AC Clarke, 2001: A Space Odyssey (Londres: Hutchinson & Co, 1968). 17. Ibid., 192.

18. N. Wiener, «Quelques conséquences morales et techniques de l'automatisation», Science 131, no. 3410 (1960): 1355–58.

19. JJ Thomson, «The Trolley Problem», Yale Law Journal 94, no. 6 (1985): 1395-415.

20. Par exemple, voir J. Achenbach, «Driverless Cars Are Colliding with the Creepy Trolley Problem», Washington Post, 29 décembre 2015.

21. J.-F. Bonnefon, A. Shariff et I. Rahwan, «Le dilemme social des véhicules autonomes», Science 352, no. 6293 (2016): 1573–76.

22. JD Greene, «Our Driverless Dilemma», Science 352, no. 6293 (2016): 1514-15.

23. Par exemple, voir M. Anderson et SL Anderson, «Machine Ethics: Creating an Ethical Intelligent Agent», AI Magazine 28, no. 4 (2007): 15.

8: Récompenses pour les robots

1. A. Sutherland, «Ce que Shamu m'a appris à propos d'un mariage heureux», New York Times, 25 juin 2006, www.nytimes.com/2006/06/25/fashion/what- shamu-teach-me-about- a-happy-marriage.html.
2. thejetsons.wikia.com/wiki/Rosey.

3. Pour être plus précis, cette approche de l'apprentissage par renforcement, appelée apprentissage par la valeur, n'est pas la seule approche possible. Une deuxième approche, appelée apprentissage des politiques, a pour objectif d'apprendre directement quelle action effectuer dans un état donné, plutôt que d'apprendre d'abord les valeurs numériques des actions.

4. CJ Watkins et P. Dayan, «Q-Learning», Machine Learning 8, nos. 3–4 (1992): 279–92.

5. Pour une introduction technique détaillée à l'apprentissage par renforcement, voir RS Sutton et AG Barto, Reinforcement Learning: An Introduction, 2nd ed. (Cambridge, Mass .: MIT Press, 2017), incompletideas.net/book/the-book-2nd.html.

6. Par exemple, voir les articles suivants: P. Christiano et al., «Transfer from Simulation to Real World Through Learning Deep Inverse Dynamics Model», arXiv: 1610.03518 (2016); JP Hanna et P. Stone, «Grounded Action Transformation for Robot Learning in Simulation», dans les actes de la conférence de l'American Association for Artificial Intelligence (2017), 3834–40; AA Rusu et al., «Sim-to-Real Robot Learning from Pixels with Progressive Nets», in Proceedings of the First Annual Conference on Robot Learning, CoRL (2017); S. James, AJ Davison et E. Johns, «Transferting End-to-End Visuomotor Control from Simulation to Real World for a Multi-stage Task», dans Actes de la première conférence annuelle sur l'apprentissage robotique, CoRL (2017); M. Cutler, TJ Walsh et JP How, «Real-World Reinforcement Learning via Multifidelity Simulators,”Transactions IEEE sur Robotics 31, no. 3 (2015): 655–71.

9: Game On

1. Demis Hassabis, cité dans P. Iwaniuk, «A Conversation with Demis Hassabis, the Bullfrog AI Prodigy Now Finding Solutions to the World's Big Problems», PCGamesN, consulté le 7 décembre 2018, www.pcgamesn.com/demis-hassabis -entrevue.
2. Cité dans «From Not Working to Neural Networking», Economist, 25 juin 2016.
3. MG Bellemare et al., «The Arcade Learning Environment: An Evaluation Platform for General Agents», Journal of Artificial Intelligence Research

47 (2013): 253–79.

4. Plus techniquement, le programme de DeepMind a utilisé ce qu'on appelle une méthode epsilon-greedy pour choisir une action à chaque pas de temps. Avec la probabilité epsilon, le programme choisit une action au hasard; avec probabilité (1 - epsilon) le programme choisit l'action avec la valeur la plus élevée. Epsilon est une valeur comprise entre 0 et 1; elle est initialement fixée à près de 1 et diminue progressivement au fil des épisodes d'entraînement.

5. RS Sutton et AG Barto, Renforcement de l'apprentissage: une introduction, 2e éd. (Cambridge, Mass .: MIT Press, 2017), 124, incompletideas.net/book/the-book-2nd.html.

6. Pour plus de détails, voir V. Mnih et al., «Contrôle au niveau humain par l'apprentissage par renforcement profond», Nature 518, no. 7540 (2015): 529.

7. V. Mnih et al., «Playing Atari with Deep Reinforcement Learning», Actes de la conférence Neural Information Processing Systems (NIPS), Deep Learning Workshop (2013).
8. «Arthur Samuel», site Web History of Computers, history-computer.com/ModernComputer/thinkers/Samuel.html.
9. Le programme de Samuel utilisait un nombre variable de plis, selon le déménagement.

10. Le programme de Samuel a également utilisé une méthode appelée élagage alpha-bêta à chaque tour pour déterminer les nœuds de l'arbre de jeu qui n'avaient pas besoin d'être évalués. L'élagage alpha-bêta était également un élément essentiel du programme d'échecs Deep Blue d'IBM.

11. Pour plus de détails, voir AL Samuel, «Quelques études sur l'apprentissage automatique à l'aide du jeu de vérificateurs», IBM Journal of Research and Development 3, no. 3 (1959): 210-29.

12. Ibid.

13. J. Schaeffer et al., «CHINOOK: Champion du monde des vérificateurs homme-machine», AI Magazine 17, no. 1 (1996): 21.

14. D. Hassabis, «Intelligence artificielle: match d'échecs du siècle», Nature 544 (2017): 413-14.

15. A. Newell, J. Calman Shaw et HA Simon, «Les programmes d'échecs et le problème de la complexité», IBM Journal of Research and Development 2, no. 4 (1958): 320–35.

16. M. Newborn, Deep Blue: An Artificial Intelligence Milestone (New York: Springer, 2003), 236.

17. Cité dans J. Goldsmith, «The Last Human Chess Master», Wired, 1er février 1995.

18. Cité dans MY Vardi, «Intelligence artificielle: passé et futur», Communications de l'Association for Computing Machinery 55, no. 1 (2012): 5.

19. A. Levinovitz, «The Mystery of Go, the Ancient Game That Computers Still Can't Win», Wired, 12 mai 2014.

20. G. Johnson, «Pour tester un ordinateur puissant, jouer à un jeu ancien», New York Times, 29 juillet 1997.

21. Cité dans «S. Le joueur coréen Go confiant de battre l'IA de Google », Agence de presse Yonhap, 23 février 2016, english.yonhapnews.co.kr/search1/2603000000.html?cid=AEN20160223003651315.

22. Cité dans M. Zastrow, «'I'm in Shock!': How an AI Beat the World's Best Human at Go», New Scientist, 9 mars 2016, www.newscientist.com/article/2079871-im- in-shock-how-an-ai-beat-the-worlds-best-human-at-go.

23. C. Metz, «La tristesse et la beauté de regarder l'IA Play Go de Google», Wired, 11 mars 2016, www.wired.com/2016/03/sadness-beauty-watching- googles-ai-play-go.

24. «Pour que l'intelligence artificielle prospère, elle doit s'expliquer», Economist, 15 février 2018, www.economist.com/news/science-and- technology / 21737018-if-it-can't-who-will-trust -il-l'intelligence artificielle-prospère-il-doit.

25. P. Taylor, «The Concept of 'Cat Face», London Review of Books, 11 août 2016.

26. Cité dans S. Byford, «Le fondateur de DeepMind Demis Hassabis sur la façon dont l'IA façonnera l'avenir», Verge, 10 mars 2016, www.theverge.com/2016/3/10/11192774/demis-hassabis-interview-alphago -google-deepmind-ai.

27. D. Silver et al., «Maîtriser le jeu de la go sans connaissance humaine», Nature, 550 (2017): 354–59.

28. D. Silver et al., «Un algorithme d'apprentissage général par renforcement qui maîtrise les échecs, le shogi et le jeu autonome», Science 362, no. 6419 (2018): 1140–44.

10: Au-delà des jeux

1. Cité dans P. Iwaniuk, «Une conversation avec Demis Hassabis, le prodige de Bullfrog AI, qui trouve maintenant des solutions aux grands problèmes du monde»

PCGamesN, consulté le 7 décembre 2018, www.pcgamesn.com/demis-hassabis-interview.

2. E. David, «DeepGoGo AlphaGo Mastered Chess in Its Spare Time», Silicon Angle, 6 décembre 2017, siliconangle.com/blog/2017/12/06/deepminds- alphago-mastered-chess-spare-time.

3. À titre d'exemple, toujours dans le domaine du jeu, DeepMind a publié un article en 2018 décrivant un système d'apprentissage par renforcement qui, selon eux, présentait un certain degré d'apprentissage par transfert dans sa capacité à jouer à différents jeux Atari. L. Espeholt et al., «Impala: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures», dans Actes de la Conférence internationale sur l'apprentissage automatique (2018), 1407–16.

4. D. Silver et al., «Maîtriser le jeu sans connaissance humaine», Nature 550 (2017): 354–59.
5. G. Marcus, «Innateness, AlphaZero, and Artificial Intelligence», arXiv: 1801.05667 (2018).
6. FP Such et al., «Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning», Actes de la conférence Neural Information Processing Systems (NIPS), Deep Reinforcement Learning Workshop (2018).
7. M. Mitchell, An Introduction to Genetic Algorithms (Cambridge, Mass.: MIT Press, 1996).
8. Marcus, «Innateness, AlphaZero, and Artificial Intelligence».
9. G. Marcus, «Deep Learning: A Critical Appraisal», arXiv: 1801.00631 (2018).

10. K. Kansky et al., «Schema Networks: Zero-Shot Transfer with a Generative Causal Model of Intuitive Physics», dans Actes de la Conférence internationale sur l'apprentissage automatique (2017), 1809-1818.

11. AA Rusu et al., «Progressive Neural Networks», arXiv: 1606.04671 (2016).

12. Marcus, «Deep Learning».

13. Cité dans N. Sonnad et D. Gershgorn, «Q&A: Douglas Hofstadter on Why AI Is Far from Intelligent», Quartz, 10 octobre 2017, qz.com/1088714/qa- douglas-hofstadter-on-why- ai-est-loin-intelligent.

14. Je dois noter que quelques groupes de robotique ont en fait développé des robots de chargement de lave-vaisselle, bien qu'aucun d'eux n'ait été formé par apprentissage par renforcement, ou par tout autre type de méthode d'apprentissage automatique, pour autant que je sache. Ces robots sont accompagnés de vidéos impressionnantes (par exemple, «Robotic Dog Does Dishes, Plays Fetch», NBC New York, 23 juin 2016, www.nbcnewyork.com/news/local/Boston-Dynamics-Dog-Does-Dishes- Brings- Sodas-384140021.html), mais il est clair qu'ils sont encore assez limités et pas encore prêts à résoudre les arguments de vaisselle de ma famille.

15. A. Karpathy, «AlphaGo, in Context», Medium, 31 mai 2017, medium.com/@karpathy/alphago-in-context-c47718cb95a5.

11: Les mots et la compagnie qu'ils gardent

1. Mon histoire «Restaurant» a été inspirée par de petites histoires similaires créées par Roger Schank et ses collègues dans leur travail sur la compréhension du langage naturel (RC Schank et CK Riesbeck, Inside Computer Understanding: Five Programs Plus Miniatures [Hillsdale, NJ: Lawrence Erlbaum Associates , 1981]) et par John Searle dans ses critiques de l'IA (JR Searle, «Minds, Brains, and Programs», Behavioral and Brain Sciences 3, no 3 [1980]: 417–24).

2. G. Hinton et al., «Réseaux neuronaux profonds pour la modélisation acoustique dans la reconnaissance vocale: les vues partagées de quatre groupes de recherche», IEEE Signal Processing Magazine 29, no. 6 (2012): 82–97.

3. J. Dean, «Large Scale Deep Learning», slides from keynote lecture, Conference on Information and Knowledge Management (CIKM), nov. 2014, consulté le 7 décembre 2018, static.googleusercontent.com/media/research.google .com / en // people / jeff / CIKM-keynote-Nov2014.pdf.
4. S. Levy, «L'iBrain est ici, et il est déjà dans votre téléphone», Wired, 24 août 2016, www.wired.com/2016/08/an-exclusive-look-at-how-ai- et- l'apprentissage automatique du travail chez Apple.

5. Dans la littérature sur la reconnaissance vocale, la mesure de performance la plus couramment utilisée est le «taux d'erreur sur les mots» sur de grandes collections de courts segments audio. Bien que les performances en termes de taux d'erreur sur les mots des systèmes de reconnaissance vocale les plus modernes appliqués à ces collections soient égales ou supérieures au «niveau humain», il existe plusieurs raisons de penser que lorsque des mesures plus réalistes sont utilisées (par exemple, discours bruyant ou accentué, mots importants, langage ambigu), les performances de reconnaissance vocale par les machines sont encore nettement inférieures à celles des humains. Un bon aperçu de certains de ces arguments est donné dans A. Hannun, «Speech Recognition Is Not Solved», consulté le 7 décembre 2018, awni.github.io/speech-recognition.

6. Un bon aperçu, quoique technique, du fonctionnement des algorithmes modernes de reconnaissance vocale est présenté dans JHL Hansen et T. Hasan, «Speaker Recognition by Machines and Humans: A Tutorial Review», IEEE Signal Processing Magazine 32, no. 6 (2015): 74–99.

7. Ces critiques proviennent d'Amazon.com; dans certains cas, je les ai légèrement modifiés.

8. Au moment d'écrire ces lignes, le monde en ligne était encore sous le choc des informations selon lesquelles une société d'analyse de données appelée Cambridge Analytica a utilisé des données de dizaines de millions de comptes Facebook pour aider à cibler des publicités politiques, probablement à l'aide de méthodes de classification des sentiments, parmi d'autres techniques.

9. Rappelons au chapitre 2 que chaque unité d'un réseau de neurones calcule une fonction mathématique de la somme de ses entrées multipliée par leur poids. Cela ne peut être fait que si les entrées sont des nombres.

10. J. Firth, «A Synopsis of Linguistic Theory, 1930–1955», in Studies in Linguistic Analysis (Oxford: Philological Society, 1957), 1–32.

11. A. Lenci, «Distributional Semantics in Linguistic and Cognitive Research», Italian Journal of Linguistics 20, no. 1 (2008): 1–31.

12. En physique, le terme vecteur est souvent défini comme une entité ayant une amplitude et une direction. Cette définition est équivalente à celle que j'ai donnée dans le texte: tout vecteur peut être uniquement décrit par les coordonnées d'un point, où la magnitude est la longueur d'un segment de l'origine à ce point, et la direction est l'angle de ce segment fait avec les axes de coordonnées.

13. T. Mikolov et al., «Efficient Estimation of Word Representations in Vector Space», dans les actes de la Conférence internationale sur l'apprentissage des représentations (2013).

14. Word2vec, Google Code Archive, code.google.com/archive/p/word2vec/. Les vecteurs de mots sont également appelés incorporations de mots.

15. Ici, j'illustre une version de la méthode «skip-gram», qui était l'une des deux méthodes proposées dans Mikolov et al., «Efficient Estimation of Word Representations in Vector Space».

16. Ibid.

17. J'ai utilisé la démo word2vec sur bionlp-www.utu.fi/wv_demo/ (en utilisant le modèle «English GoogleNews Negative300») pour obtenir ces résultats.

18. L'idée est de résoudre pour x dans le problème arithmétique vectoriel homme - femme = roi - x. Pour ajouter ou soustraire deux vecteurs, il suffit d'ajouter ou de soustraire leurs éléments correspondants; par exemple, (3, 2, 4) - (1, 1, 1) = (2, 1, 3).

19. bionlp-www.utu.fi/wv_demo/.

20. R. Kiros et al., «Skip-Thought Vectors», dans Advances in Neural Information Processing Systems 28 (2015), 3294–302.

21. Cité dans H. Devlin, «Google un pas de plus vers le développement de machines avec une intelligence humaine», Guardian, 21 mai 2015, www.theguardian.com/science/2015/may/21/google-a-step- plus proche des machines en développement avec une intelligence humaine.

22. Y. LeCun, «Qu'est-ce qui ne va pas avec le Deep Learning?», Diapositives de la conférence, p. 77, consulté le 14 décembre 2018, www.pamitc.org/cvpr15/files/lecun-20150610-cvpr- keynote.pdf.

23. Par exemple, voir T. Bolukbasi et al., «L'homme est un programmeur informatique comme une femme est une femme au foyer? Debiasing Word Embeddings », dans Advances in Neural Information Processing Systems 29 (2016), 4349–57.

24. Par exemple, voir J. Zhao et al., «Learning Gender-Neutral Word Embeddings», in Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (2018), 4847-53, et A. Sutton, T. Lansdall-Welfare et N. Cristianini, «Bided Embeddings from Wild Data: Measuring, Understanding, and Removing», dans Actes du Symposium international sur l'analyse intelligente des données (2018), 328–39.

12: La traduction comme codage et décodage

1. QV Le et M. Schuster, «A Neural Network for Machine Translation, at Production Scale», AI Blog, Google, 27 septembre 2016, ai.googleblog.com/2016/09/a-neural-network-for -machine.html.

2. W. Weaver, «Traduction», dans Traduction automatique des langues, éd. WN Locke et AD Booth (New York: Technology Press et John Wiley & Sons, 1955), 15-23.

3. Il s'agit de la méthode utilisée par Google Translate pour la plupart des langues. Au moment d'écrire ces lignes, Google Translate n'était pas encore passé aux réseaux de neurones pour certaines langues moins courantes.

4. Pour plus de détails, voir Y. Wu et al., «Système de traduction automatique neuronal de Google: combler l'écart entre la traduction humaine et la traduction automatique», arXiv: 1609.08144 (2016).
5. Dans le système de traduction automatique de neurones de Google, les vecteurs de mots sont appris dans le cadre de la formation de l'ensemble du réseau.

6. Plus précisément, les sorties du réseau décodeur sont des probabilités pour chaque mot possible du vocabulaire du réseau (ici le français). Plus de détails sont donnés dans Wu et al., «Google's Neural Machine Translation System».

7. Au moment d'écrire ces lignes, Google Translate et d'autres systèmes de traduction fonctionnent en traduisant une phrase à la fois. Un exemple de recherche pour aller au-delà de la traduction phrase par phrase est décrit dans LM Werlen et A. Popescu-Belis, «Utilisation des liens de référence pour améliorer la traduction automatique de l'espagnol vers l'anglais», dans les actes du 2e atelier sur la résolution de la référence au-delà. OntoNotes (2017), 30–40.

8. S. Hochreiter et J. Schmidhuber, «Long Short-Term Memory», Neural Computation 9, no. 8 (1997): 1735–80.

9. Wu et al., «Système de traduction automatique de neurones de Google».

10. Ibid.

11. T. Simonite, «Le nouveau service de Google traduit des langues presque aussi bien que des humains», Technology Review, 27 septembre 2016, www.technologyreview.com/s/602480/googles-new-service-translates-languages-almost -tout aussi bien que les humains-peuvent.

12. A. Linn, «Microsoft atteint un jalon historique, en utilisant l'IA pour faire correspondre les performances humaines dans la traduction des nouvelles du chinois vers l'anglais», AI Blog, Microsoft, 14 mars 2018, blogs.microsoft.com/ai/machine-translation- news-test-set-human-parity.

13. «IBM Watson parle maintenant couramment neuf langues (et compte)», Wired, 6 octobre 2016, www.wired.co.uk/article/connecting-the-cognitive-world.

14. A. Packer, «Understanding the Language of Facebook», conférence vidéo EmTech Digital, 23 mai 2016, events.technologyreview.com/video/watch/alan-packer-understanding-language.

15. DeepL Pro, communiqué de presse, 20 mars 2018, www.deepl.com/press.html.

16. K. Papineni et al., «BLEU: A Method for Automatic Evaluation of Machine Translation», dans les actes de la 40e réunion annuelle de l'Association for Computational Linguistics (2002), 311–18.

17. Wu et al., «Google's Neural Machine Translation System»; H. Hassan et al., «Achieving Human Parity on Automatic Chinese to English News Translation», arXiv: 1803.05567 (2018).

18. Traduction française de Google Translate de l'histoire du «Restaurant»: Un homme est entré dans un restaurant et un hamburger commandé, cuit rare. Quand il est arrivé, il a été brûlé à un croustillant. La serveuse s'arrêta devant la table de l'homme. "Est-ce que le hamburger va bien?" Demanda- t-elle. «Oh, c'est génial», dit l'homme en repoussant sa chaise et en sortant du restaurant sans payer. La serveuse a crié après lui, «Hé, et le projet de loi?» Elle haussa les épaules, marmonnant dans son souffle, "Pourquoi est-il si déformé?"

19. Traduction italienne de Google Translate de l'histoire du «Restaurant»: Un uomo andò in un ristorante e ordinò un hamburger, cucinato raro. Quando è arrivato, è stato bruciato per un croccante. La cameriera si fermò accanto al tavolo dell'uomo. "L'hamburger va bene?" Chiese lei. «Oh, è semplicemente fantastico», disse l'uomo, spingendo indietro la sedia e uscendo dal ristorante senza pagare. La cameriera gli urlò dietro, "Ehi, e il conto?" Lei scrollò le spalle, mormorando sottovoce, «Perché è così piegato?»

20. Traduction chinoise de Google Translate de l'histoire du "Restaurant": 一名 男子 走进 一家 餐厅, 点 了 一个 罕见 的 汉堡包. 当 它 到达 时, 它 被 烧得 脆脆. 女服务员 停 在 男人 的 桌子 旁边. «汉堡 好吗» 她 问. «哦, 这 太好 了», 那 男人 说, 推开 椅子, 没有 付钱 就 冲出 餐厅. 女服务员 大声 喊道 : "嘿, 账单 呢?" 她 耸了耸, 低声 嘀咕 道, "他 为什么 这么 弯腰?"

21. Pour une discussion approfondie des problèmes associés au manque de compréhension de Google Translate, voir DR Hofstadter, «The Shallowness of Google Translate», The Atlantic, 30 janvier 2018.

22. DR Hofstadter, Gödel, Escher, Bach: an Eternal Golden Braid (New York: Basic Books, 1979), 603.

23. E. Davis et G. Marcus, «Raisonnement du sens commun et savoir commun dans l'intelligence artificielle», Communications de l'ACM 58, no. 9 (2015): 92-103.

24. O. Vinyals et al., «Show and Tell: A Neural Image Caption Generator», dans Actes de la Conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes (2015), 3156–64; A. Karpathy et L. Fei-Fei, «Deep Visual-Semantic Alignments for Generating Image Descriptions», dans Actes de la Conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes (2015), 3128–37.

25. La figure 39 est une version simplifiée du système décrit dans Vinyals et al., «Show and Tell».

26. J. Markoff, «Les chercheurs annoncent une avancée dans les logiciels de reconnaissance d'images», New York Times, 17 novembre 2014.

27. J. Walker, «L'IA de Google peut désormais sous-titrer des images presque aussi bien que des humains», Digital Journal, 23 septembre 2016, www.digitaljournal.com/tech-and- science / technology / google-s-ai-now -captions-images-with-94-precision / article / 475547.

28. A. Linn, «Picture This: Microsoft Research Project Can Interpret, Caption Photos», AI Blog, 28 mai 2015, blogs.microsoft.com/ai/picture-this- microsoft-research-project-can-interpret- légende-photos.

29. Microsoft CaptionBot, www.captionbot.ai.

13: Demandez-moi n'importe quoi

1. Transcription de www.chakoteya.net/NextGen/130.htm.
2. Cité dans F. Manjoo, «Where No Search Engine has Gone Before», Slate, 11 avril 2013, www.slate.com/articles/technology/technology/2013/04/google_has_a_single_towering_obsession_it_wants_to_build_the_star_trek_computer.htm
3. Cité dans C. Thompson, «What is IBM's Watson?», New York Times Magazine, 16 juin 2010.
4. Cité dans K. Johnson, «Comment« Star Trek »a inspiré Alexa d'Amazon», Venture Beat, 7 juin 2017, venturebeat.com/2017/06/07/how-star-trek- inspiré-amazons-alexa.
5. Wikipedia, sv «Watson (computer)», consulté le 16 décembre 2018, en.wikipedia.org/wiki/Watson_(computer).
6. Thompson, «Qu'est-ce que Watson d'IBM?»
7. Un mème rendu populaire dans l'émission de télévision The Simpsons.
8. K. Jennings, «The Go Champion, the Grandmaster, and Me», Slate, 15 mars 2016, www.slate.com/articles/technology/technology/2016/03/google_s_alphago_defeated_go_champion_lee_sedol_ken_jennings_explains_what.html.

9. Cité dans D. Kawamoto, «Watson n'était pas parfait: IBM explique le 'Jeopardy!' Errors », Aol, consulté le 16 décembre 2018, www.aol.com/2011/02/17/the-watson-supercomputer-isnt-always-perfect-you-say-tomato.

10. JC Dvorak, «IBM's Watson était-il un coup de pub dès le départ?», PC Magazine, 30 octobre 2013, www.pcmag.com/article2/0,2817,2426521,00.asp.

11. MJ Yuan, «Watson and Healthcare», site Web des développeurs IBM, 12 avril 2011, www.ibm.com/developerworks/library/os-ind-watson/index.html.

12. «Intelligence artificielle positionnée pour changer la donne», 60 minutes, 9 octobre 2016, www.cbsnews.com/news/60-minutes-artificial-intelligence- charlie-rose-robot-sophia.

13. C. Ross et I. Swetlitz, «IBM a présenté son supercalculateur Watson comme une révolution dans les soins contre le cancer. It's Nowhere Close », Stat News, 5 septembre 2017, www.statnews.com/2017/09/05/watson-ibm-cancer.

14. P. Rajpurkar et al., «SQuAD: 100 000+ Questions for Machine Comprehension of Text», dans Actes de la Conférence de 2016 sur les méthodes empiriques dans le traitement du langage naturel (2016), 2383-292.

15. Ibid.

16. A. Linn, «Microsoft crée de l'IA qui peut lire un document et répondre à des questions à ce sujet ainsi qu'une personne», AI Blog, Microsoft, 15 janvier 2018, blogs.microsoft.com/ai/microsoft-creates- ai-peut-lire-document-réponse-questions-bien-personne.

17. Cité dans «AI Beats Humans at Reading Comprehension for the First Time», Technology.org, 17 janvier 2018, www.technology.org/2018/01/17/ai- beats-humains-at-reading-comprehension -pour la première fois.

18. D. Harwell, «Les modèles d'IA battent les humains à la compréhension de la lecture, mais ils ont encore du chemin à faire», Washington Post, 16 janvier 2018.

19. P. Clark et al., «Vous pensez avoir résolu la réponse aux questions? Essayez ARC, le défi de raisonnement AI2 », arXiv: 1803.05457 (2018).

20. Ibid.

21. ARC Dataset Leaderboard, Allen Institute for Artificial Intelligence, consulté le 17 décembre 2018, leaderboard.allenai.org/arc/submissions/public.

22. Tous les exemples de cette section proviennent d'E. Davis, L. Morgenstern et C. Ortiz, «The Winograd Schema Challenge», consulté le 17 décembre 2018, cs.nyu.edu/faculty/davise/papers/ WS.html.

23. T. Winograd, Understanding Natural Language (New York: Academic Press, 1972).

24. HJ Levesque, E. Davis et L. Morgenstern, «The Winograd Schema Challenge», dans AAAI Spring Symposium: Logical Formalizations of Commonsense Reasoning (American Association for Artificial Intelligence, 2011), 47.

25. TH Trinh et QV Le, «A Simple Method for Commonsense Reasoning», arXiv: 1806.02847 (2018).

26. Cité dans K. Bailey, «Conversational AI and the Road Ahead», Tech Crunch, 25 février 2017, techcrunch.com/2017/02/25/conversational-ai-and-the- road-ahead.

27. H. Chen et al., «Attacking Visual Language Grounding with Adversarial Exemples: A Case Study on Neural Image Captioning», dans Actes de la 56e réunion annuelle de l'Association for Computational Linguistics, vol. 1, Long Papers (2018), 2587–97.

28. N. Carlini et D. Wagner, «Audio Adversarial Exemples: Targeted Attacks on Speech-to-Text», dans les actes du premier atelier d'apprentissage approfondi et de sécurité (2018).

29. R. Jia et P. Liang, «Adversarial Exemples for Evaluating Reading Comprehension Systems», dans Actes de la Conférence de 2017 sur les méthodes empiriques dans le traitement du langage naturel (2017).

30. CD Manning, «Last Words: Computational Linguistics and Deep Learning», Nautilus, avril 2017.

14: Sur la compréhension

1. G.-C. Rota, «In Memoriam of Stan Ulam: The Barrier of Meaning», Physica D Nonlinear Phenomena 22 (1986): 1–3.

2. Lors d'une conférence que j'ai donnée sur ce sujet, un étudiant a demandé: «Pourquoi un système d'IA doit-il avoir une compréhension humaine? Pourquoi ne pouvons-nous pas accepter l'IA avec un autre type de compréhension? » Au-delà du fait que je n'ai aucune idée de ce que signifierait un «autre type de compréhension», mon point est que si les systèmes d'IA doivent interagir avec les humains dans le monde, ils doivent comprendre les situations qu'ils rencontrent essentiellement de la même manière. comme le font les humains.

3. Le terme connaissances de base a été utilisé le plus souvent par la psychologue Elizabeth Spelke et ses collaborateurs; par exemple, voir ES Spelke et KD Kinzler, «Core Knowledge», Developmental Science 10, no. 1 (2007): 89–96. Beaucoup d'autres scientifiques cognitifs ont discuté d'idées similaires.

4. Les psychologues utilisent le terme intuitif parce que cette connaissance de base est tellement ancrée dans notre esprit dès le plus jeune âge; cette connaissance devient évidente pour nous, et pour la plupart elle reste subconsciente. De nombreux psychologues ont montré qu'il existe des aspects des croyances intuitives typiques de l'homme sur la physique, la probabilité et d'autres domaines qui sont en fait erronés. Voir, par exemple, A. Tversky et D. Kahneman, «Judgement Under Uncertainty: Heuristics and Biases», Science 185, no. 4157 (1974): 1124–31; et B. Shanon, «Aristotélisme, newtonianisme et physique du profane», Perception 5, no. 2 (1976): 241–43.

5. Lawrence Barsalou donne un argumentaire détaillé pour de telles simulations mentales dans LW Barsalou, «Perceptual Symbol Systems», Behavioral and Brain Sciences 22 (1999): 577–660.

6. Douglas Hofstadter souligne que lorsque l'on rencontre (ou se souvient, ou lit, ou imagine) une situation, la représentation de la situation dans son esprit comprend un «halo» de variations possibles de cette situation qu'il appelle un «contrefactuel implicite sphère », qui comprend« les choses qui n’ont jamais existé mais que nous ne pouvons nous empêcher de voir de toute façon ». DR Hofstadter, Metamagical Themas (New York: Basic Books, 1985), 247.

7. LW Barsalou, «Grounded Cognition», Revue annuelle de psychologie 59 (2008): 617–45.

8. LW Barsalou, «Simulation située dans le système conceptuel humain», Langage et processus cognitifs 18, no. 5–6 (2003): 513–62.

9. AEM Underwood, «Metaphors», Grammarly (blog), consulté le 17 décembre 2018, www.grammarly.com/blog/metaphor.

10. G. Lakoff et M. Johnson, Metaphors We Live By (Chicago: University of Chicago Press, 1980).

11. LE Williams et JA Bargh, «L'expérience de la chaleur physique favorise la chaleur interpersonnelle», Science 322, no. 5901 (2008): 606–607.

12. CB Zhong et GJ Leonardelli, «Froid et solitaire: l'exclusion sociale a-t-elle vraiment froid?», Psychological Science 19, no. 9 (2008): 838–42.

13. DR Hofstadter, Je suis une boucle étrange (New York: Basic Books, 2007). La citation provient du rabat du livre avant. Ma description fait également écho aux idées proposées par le philosophe Daniel Dennett dans son livre Consciousness Explained (New York: Little, Brown, 1991).

14. Ce type de «productivité linguistique» est discuté dans D. Hofstadter et E. Sander, Surfaces and Essences: Analogy as the Fuel and Fire of Thinking (New York: Basic Books, 2013), 129, et dans AM Zwicky et GK. Pullum, «Plain Morphology and Expressive Morphology», dans la réunion annuelle de la Berkeley Linguistics Society (1987), 13: 330–40.

15. J'ai emprunté cet argument à une affaire juridique réelle. Voir «Blogs en tant que graffiti? Utilisation de l'analogie et de la métaphore dans la jurisprudence », IdeaBlawg, 17 mars 2012, www.ideablawg.ca/blog/2012/3/17/blogs-as-graffiti-using-analogy-and-metaphor-in-case-law. html.

16. DR Hofstadter, «Analogy as the Core of Cognition», Presidential Lecture, Stanford University (2009), consulté le 18 décembre 2018, www.youtube.com/watch?v=n8m7lFQ3njk.

17. Hofstadter et Sander, Surfaces and Essences, 3.

18. M. Minsky, «Decentralized Minds», Behavioral and Brain Sciences 3, no. 3 (1980): 439–40.

15: Connaissance, abstraction et analogie en intelligence artificielle

1. DB Lenat et JS Brown, «Pourquoi AM et EURISKO semblent-ils fonctionner», Intelligence artificielle 23, no. 3 (1984): 269–94.

2. Ces exemples sont tirés de C. Metz, «One Genius 'Lonely Crusade to Teach a Computer Common Sense», Wired, 24 mars 2016, www.wired.com/2016/03/doug-lenat-artificial-intelligence-common -sense-engine, et D. Lenat, «Computers Versus Common Sense», Google Talks Archive, consulté le 18 décembre 2018, www.youtube.com/watch?v=gAtn-4fhuWA.

3. Lenat note que l'entreprise est de plus en plus en mesure d'automatiser le processus d'obtention de nouvelles assertions (vraisemblablement en exploitant le Web). Extrait de D. Lenat, «50 Shades of Symbolic Representation and Reasoning», CMU Distinguished Lecture Series, consulté le 18 décembre 2018, www.youtube.com/watch?v=4mv0nCS2mik.

4. Ibid.
5. Une description détaillée et non technique du projet Cyc est donnée au chapitre 4 de HR Ekbia, Artificial Dreams: The Quest for Non-biologique Intelligence (Cambridge, Royaume-Uni: Cambridge University Press, 2008).
6. Page Web de la société Lucid: lucid.ai.
7. P. Domingos, The Master Algorithm (New York: Basic Books, 2015), 35.
8. Extrait de «Le mythe de l'IA: une conversation avec Jaron Lanier», Edge, 14 novembre 2014, www.edge.org/conversation/jaron_lanier-the-myth-of-ai.

9. Par exemple, voir N. Watters et al., «Visual Interaction Networks», Advances in Neural Information Processing Systems 30 (2017): 4539–47; TD Ullman et al., «Mind Games: Game Engines as an Architecture for Intuitive Physics», Trends in Cognitive Sciences 21, no. 9 (2017): 649–65; et

K. Kansky et al., «Schema Networks: Zero-Shot Transfer with a Generative Causal Model of Intuitive Physics», dans Actes de la Conférence internationale sur l'apprentissage automatique (2017), 1809-1818.

10. J. Pearl, «Obstacles théoriques à l'apprentissage automatique avec sept étincelles de la révolution causale», dans les actes de la onzième conférence internationale ACM sur la recherche sur le Web et l'exploration de données (2018), 3. Pour une discussion plus approfondie de la causalité raisonnement en IA, voir J.Pearl et D.Mackenzie, The Book of Why: The New Science of Cause and Effect (New York: Basic Books, 2018).

11. Pour une discussion approfondie sur ce qui manque dans l'apprentissage en profondeur, voir G. Marcus, «Deep Learning: A Critical Appraisal», arXiv: 1801.00631 (2018).

12. Budget de l'exercice 2019 de la DARPA, février 2018, consulté le 18 décembre 2018, www.darpa.mil/attachments/DARPAFY19PresidentsBudgetRequest.pdf.

13. Version anglaise: M. Bongard, Pattern Recognition (New York: Spartan Books, 1970).

14. Toutes les images de problème Bongard que je donne ici proviennent du site Web Index of Bongard Problems de Harry Foundalis, www.foundalis.com/res/bps/bpidx.htm, qui donne cent problèmes de Bongard ainsi que de nombreux problèmes créés par d'autres gens.

15. RM French, The Subtlety of Sameness (Cambridge, Mass.: MIT Press, 1995).

16. Un programme particulièrement intéressant qui a tenté de résoudre les problèmes de Bongard a été créé par Harry Foundalis lorsqu'il était étudiant diplômé du groupe de recherche de Douglas Hofstadter à l'Université de l'Indiana. Foundalis a explicitement déclaré qu'il ne construisait pas un «solutionneur de problèmes Bongard» mais une «architecture cognitive inspirée des problèmes de Bongard». Le programme a été inspiré par la perception humaine à tous les niveaux, de la vision de bas niveau jusqu'à l'abstraction et l'analogie, tout à fait dans l'esprit des intentions de Bongard, bien qu'il n'ait réussi à résoudre qu'un petit nombre de problèmes de Bongard. Voir HE Foundalis, «Phaeaco: A Cognitive Architecture Inspired by Bongard's Problems» (dissertation de doctorat, Indiana University, 2006), www.foundalis.com/res/Foundalis_dissertation.pdf.Foundalis maintient un site Web étendu lié à son travail sur les problèmes de Bongard: www.foundalis.com/res/diss_research.html.

17. S. Stabinger, A. Rodríguez-Sánchez et J. Piater, «25 Years of CNNs: Can We Compare to Human Abstraction Capabilities?», Dans Actes de la Conférence internationale sur les réseaux de neurones artificiels (2016), 380-87 . Une étude connexe avec des résultats similaires a été rapportée dans J. Kim, M. Ricci et T. Serre, «Not-So-CLEVR: Visual Relations Strain Feedforward Neural Networks», Interface Focus 8, no. 4 (2018): 2018,0011.

18. Quand je dis «la plupart des gens», je fais référence aux résultats des sondages que j'ai donnés aux gens dans le cadre de mon travail de thèse. Voir M. Mitchell, Analogy-Making as Perception (Cambridge, Mass.: MIT Press, 1993).

19. Hofstadter a inventé le terme dérapage conceptuel dans sa discussion des problèmes de Bongard dans le chapitre 19 de DR Hofstadter, Gödel, Escher, Bach: an Eternal Golden Braid (New York: Basic Books, 1979).

20. Ibid., 349–51.

21. Une description détaillée de Copycat est donnée au chapitre 5 de DR Hofstadter et du Fluid Analogies Research Group, Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought (New York: Basic Books, 1995). Une description encore plus détaillée est donnée dans le livre basé sur ma thèse: Mitchell, Analogy-Making as Perception.

22. J. Marshall, «A Self-Watching Model of Analogy-Making and Perception», Journal of Experimental and Theoretical Artificial Intelligence 18, no. 3 (2006): 267-307.

23. Plusieurs de ces programmes sont décrits dans Hofstadter et le Fluid Analogies Research Group, Fluid Concepts and Creative Analogies.

24. A. Karpathy, «L'état de la vision par ordinateur et de l'IA: nous sommes vraiment, vraiment très loin», blog Andrej Karpathy, 22 octobre 2012, karpathy.github.io/2012/10/22/state -of- vision par ordinateur.

25. Voir Stanford Encyclopedia of Philosophy, sv «Dualism», plato.stanford.edu/entries/dualism/.

26. Pour une discussion philosophique convaincante de l'hypothèse de l'incarnation dans les sciences cognitives, voir A. Clark, Being There: Putting Brain, Body, and World Together Again (Cambridge, Mass .: MIT Press, 1996).

16: Questions, réponses et spéculations

1. «Véhicules automatisés pour la sécurité», site Web de la National Highway Traffic Safety Administration, www.nhtsa.gov/technology-innovation/automated- vehicles-safety # issue-road-self-driving.
2. «Cybersécurité des véhicules: le DOT et l'industrie ont des efforts en cours, mais le DOT doit définir son rôle dans la réponse à une attaque réelle», General Accounting Office, mars 2016, consulté le 18 décembre 2018, www.gao.gov /assets/680/676064.pdf.
3. Cité dans J. Crosbie, «Ford's Self-Driving Cars Will Live Inside Urban 'Geofences' ', Inverse, 13 mars 2017, www.inverse.com/article/28876- ford-self-driving-cars-geofences- covoiturage.
4. Cité dans J. Kahn, «Pour se préparer à la conduite de robots, certains veulent reprogrammer les piétons», Bloomberg, 16 août 2018, www.bloomberg.com/news/articles/2018-08-16/to-get -des-piétons-prêts-à-reprogrammer-pour-un-robot.
5. «Intelligence artificielle, automatisation et économie», Bureau exécutif du président, décembre 2016, www.whitehouse.gov/sites/whitehouse.gov/files/images/EMBARGOED%20AI%20Economy%20Report.pdf.

6. Cela renvoie à ce qu'Alan Turing a appelé «l'objection de Lady Lovelace», du nom de Lady Ada Lovelace, une mathématicienne et écrivaine britannique qui a travaillé avec Charles Babbage sur le développement du moteur analytique, une proposition du dix-neuvième siècle pour un programme programmable (jamais terminé). ordinateur. Citations de Turing tirées des écrits de Lady Lovelace: «Le moteur analytique n'a aucune prétention à produire quoi que ce soit. Il peut faire tout ce que nous savons pour le commander. » AM Turing, «Computing Machinery and Intelligence», Mind 59, no. 236 (1950): 433–60.

7. Site Web de Karl Sims, consulté le 18 décembre 2018, www.karlsims.com.
8. D. Cope, Virtual Music: Computer Synthesis of Musical Style (Cambridge, Mass.: MIT Press, 2004).

9. Cité dans G. Johnson, «Undiscovered Bach? Non, un ordinateur l'a écrit », New York Times, 11 novembre 1997.

10. MA Boden, «Modèles informatiques de créativité», AI Magazine 30, no. 3 (2009): 23–34.

11. J. Gottschall, «The Rise of Storytelling Machines», dans What to Think About Machines That Think, éd. J. Brockman (New York: Harper Perennial, 2015), 179–80.

12. Extrait de «Créer une IA au niveau humain: comment et quand?», Conférence vidéo, Future of Life Institute, 9 février 2017, www.youtube.com/watch? v = V0aXMTpZTfc.

13. A. Karpathy, «L'état de la vision par ordinateur et de l'IA: nous sommes vraiment, vraiment très loin», blog Andrej Karpathy, 22 octobre 2012, karpathy.github.io/2012/10/22/state-of- vision par ordinateur.

14. CL Evans, Broad Band: The Untold Story of the Women Who Made the Internet (New York: Portfolio / Penguin, 2018), 24.

15. M. Campbell-Kelly et al., Computer: A History of the Information Machine, 3e éd. (New York: Routledge, 2018), 80.

16. Cité dans K. Anderson, «Enthusiasts and Skeptics Debate Artificial Intelligence», Vanity Fair, 26 novembre 2014.

17. Voir O. Etzioni, «Non, les experts ne pensent pas que l'intelligence artificielle superintelligente est une menace pour l'humanité», Technology Review, 20 septembre 2016, www.technologyreview.com/s/602410/no-the-experts- dont-pense-superintelligent-ai-est-une-menace-pour-l'humanité; et VC Müller et N. Bostrom, «Future Progress in Artificial Intelligence: A Survey of Expert Opinion», in Fundamental Issues of Artificial Intelligence (Bâle, Suisse: Springer, 2016), 555–72.

18. N. Bostrom, «Combien de temps avant la superintelligence?», International Journal of Future Studies 2 (1998).

19. DR Hofstadter, Gödel, Escher, Bach: an Eternal Golden Braid (New York: Basic Books, 1979), 677–78.

20. Tiré de «The Myth of AI: A Conversation with Jaron Lanier», Edge, 14 novembre 2014, www.edge.org/conversation/jaron_lanier-the-myth-of-ai.

21. P. Domingos, The Master Algorithm (New York: Basic Books, 2015), 285–86.

22. Extrait de «Panel: Progress in AI: Myths, Realities, and Aspirations», vidéo Microsoft Research, consultée le 18 décembre 2018, www.youtube.com/watch? v = 1wPFEj1ZHRQ & feature = youtu.be.

23. R. Brooks, «Les origines de« l'intelligence artificielle »,» le blog de Rodney Brooks, 27 avril 2018, rodneybrooks.com/forai-the-origins-of-artificial- intelligence.

Remerciements

Ce livre doit son existence à Douglas Hofstadter. Les écrits de Doug m'ont d'abord attiré vers l'IA, et ses idées et son mentorat ont guidé mes études de doctorat. Plus récemment, Doug m'a invité à la réunion chez Google qui a suscité l'idée de ce livre, et encore plus récemment, il a lu chaque chapitre du manuscrit, remplissant les pages de commentaires perspicaces qui ont considérablement amélioré la version finale. Je suis très reconnaissant pour les idées de Doug, ses livres et articles, son soutien à mon travail et surtout son amitié.

Je suis reconnaissant à plusieurs autres amis et membres de la famille qui ont généreusement lu et commenté avec perspicacité chaque chapitre: Jim Levenick, Jim Marshall, Russ McBride, Jack Mitchell, Norma Mitchell, Kendall Springer et Chris Wood. Merci également aux personnes suivantes pour avoir répondu aux questions, traduit des passages et offert d'autres types d'assistance: Jeff Clune, Richard Danzig, Bob French, Garrett Kenyon, Jeff Kephart, Blake LeBaron, Sheng Lundquist, Dana Moser, David Moser et Francesca Parmeggiani.

Une grande gratitude à Eric Chinski chez Farrar, Straus et Giroux pour ses encouragements et ses contributions toujours astucieuses sur tous les aspects de ce projet; à Laird Gallagher pour les nombreuses suggestions réfléchies qui ont aidé à transformer un manuscrit grossier en un texte fini; et au reste de l'équipe de FSG, en particulier Julia Ringo, Ingrid Sterner, Rebecca Caine, Richard Oriolo, Deborah Ghim et Brian Gittis, pour tout leur excellent travail. Merci également à mon agent, Esther Newberg, d'avoir contribué à faire de ce livre une réalité.

Je dois beaucoup à mon mari, Kendall Springer, pour son amour constant et son soutien enthousiaste, ainsi que sa tolérance patiente envers mes habitudes de travail folles. Mes fils, Jacob et Nicholas Springer, ont été une merveilleuse inspiration au fil des ans avec leurs questions remarquables, leur curiosité et leur bon sens. Ce livre est dédié à mes parents, Jack et Norma Mitchell, qui m'ont fourni un encouragement et un amour illimités tout au long de ma vie. Dans un monde plein de machines, j'ai beaucoup de chance d'être entouré par des humains aussi sages et aimants.

Indice

L'index qui est apparu dans la version imprimée de ce titre ne correspond pas aux pages de votre livre électronique. Veuillez utiliser la fonction de recherche de votre appareil de lecture électronique pour rechercher les termes d'intérêt. Pour votre référence, les termes qui apparaissent dans l'index d'impression sont répertoriés ci-dessous.

UNE

Aaronson, Scott

abstraction; dans les problèmes de Bongard; dans les réseaux de neurones convolutifs; dans la cognition humaine; dans les cartes d'activation des problèmes d'analogie de chaînes de lettres

activations: dans les systèmes codeur-décodeur; formule de calcul; dans les réseaux de neurones; dans les neurones; dans les réseaux de neurones récurrents; dans l'architecture word2vec à symboles actifs

symboles actifs

exemples contradictoires: pour la vision par ordinateur; pour les systèmes de Q-learning profonds; pour les systèmes de traitement du langage naturel; pour les voitures autonomes; pour les systèmes de reconnaissance vocale

apprentissage contradictoire

AGI, voir AI générale ou humaine Agüera y Arcas, Blaise

AI, voir l'intelligence artificielle AI Singularity, voir Singularity AI spring

Algorithme AlexNet d'hiver AI Allen, Paul

Institut Allen pour l'intelligence artificielle; ensemble de données sur les questions scientifiques AlphaGo; intelligence de; apprendre en

AlphaGo Fan AlphaGo Lee AlphaGo Zero AlphaZero

Amazon Mechanical Turk; origine du nom American Civil Liberties Union (ACLU)

analogie: chez l'homme; micromonde chaîne de lettres; relation avec les catégories et les concepts; en utilisant des vecteurs de mots; dans des situations visuelles; voir également l'intelligence générale artificielle Copycat, voir l'IA générale ou humaine

intelligence artificielle: bénéfique; biais dans; créativité dans; Définition de; explicabilité; niveau général ou humain; moral; origine du terme; régulation de; relation avec l'apprentissage en profondeur et l'apprentissage automatique; «Droit à des explications»; printemps; fort; sous-symbolique; symbolique; chômage dû à; faible; hiver Asimov, Isaac; Règles fondamentales de la robotique

Jeux vidéo Atari; voir aussi Breakout

sous-titrage automatique des images

véhicules autonomes, voir voitures autonomes

B

rétropropagation; dans les réseaux de neurones convolutifs; dans l'apprentissage de renforcement profond barrière de sens

Barsalou, Lawrence bénéfique AI Bengio, Yoshua

biais; en reconnaissance faciale; dans les vecteurs de mots big data

postes bilingues de sous-étude d'évaluation (UEBL); aux dames; aux échecs; à Go Bongard, Mikhail

Problèmes de bongard Bored Yann LeCun Bostrom, Nick Brackeen, Brian

Éclater; apprentissage en profondeur pour; transfert d'apprentissage sur Brin, Sergey

fragilité des systèmes d'IA Brooks, Rodney

C

CaptionBot

Centre d'étude des risques existentiels

dames; voir aussi le programme d'échecs de Samuel aux échecs; voir aussi Deep Blue

Clark, Andy Clarke, Arthur C.

classification; dans le module de classification des réseaux de neurones convolutionnels

Astucieux Hans Clune, Jeff cognitron

bon sens; chez les bébés; connaissances en Cyc; pour les concepts de voitures autonomes comme simulations mentales

connexionnisme à glissement conceptuel

réseaux connexionnistes, voir la conscience connexionniste

ConvNet, voir convolution des réseaux de neurones convolutionnels

filtre convolutionnel noyau convolutionnel

réseaux de neurones convolutifs; capacités d'abstraction; cartes d'activation dans; module de classification; applications commerciales de; comparaison avec l'homme sur la reconnaissance d'objets; dans le Q-learning profond; couches entièrement connectées de; entrée à; sortie de; structure de; formation; réglage des hyperparamètres de

Cope, David

Imitateur; connaissances fondamentales du micromonde chaîne de lettres; pour voitures autonomes Crawford, Kate

créativité cybernétique Cyc

DARPA, voir l'atelier Dartmouth AI de l'Agence des projets de recherche avancée de la défense

surveillance des données Davis, Ernest décodeur réseau Deep Blue

l'apprentissage en profondeur; exemples accusatoires pour, voir exemples accusatoires; comme «Clever Hans»; différence avec la perception humaine; explicabilité de; inspiration des neurosciences; manque de fiabilité; comme IA étroite; besoin de mégadonnées; voir aussi réseaux de neurones convolutifs; système codeur-décodeur; réseaux de codeurs; traduction automatique de neurones; réseaux de neurones récurrents

DeepMind; acquisition par Google; voir aussi AlphaGo; Éclater

réseaux de neurones profonds, voir apprentissage en profondeur

apprentissage Q approfondi; exemples accusatoires pour; sur Breakout; par rapport à la recherche aléatoire; réseau convolutionnel en; sur Go; capacités de transfert Q-réseau profond

Defence Advanced Research Projects Agency profondeur d'un réseau de neurones

Diamandis, Peter sémantique distributionnelle Domingos, Pedro Dowd, Maureen Dreyfus, Hubert

E

cas de bord ELIZA (chatbot)

hypothèse de réalisation

EMI, voir Experiments in Musical Intelligence encoder-decoder system

épisode des réseaux d'encodeur

époque Etzioni, Oren

Eugene Goostman (chatbot) Evans, Claire

Expériences dans les systèmes experts en intelligence musicale

IA explicable

exploration contre exploitation fonction exponentielle croissance exponentielle progrès exponentiel

F

reconnaissance de visage; attaques accusatoires contre; biais dans; éthique de Fan, Hui

Farhadi, Ali Ferrucci, David Firth, John Foundalis, Harry French, Robert

Fukushima, Kunihiko Institut Future of Humanity Institut Future of Life

g

arbre à gibier; aux dames; aux échecs; dans Go Gates, Bill

GEB, voir l'art génétique de Gödel, Escher, Bach général ou de l'IA au niveau humain

géolocalisation Gershwin, Ira

Allez (jeu de société); voir aussi AlphaGo Gödel, Escher, Bach (livre) GOFAI

Bien, IJ Goodfellow, Ian

Google DeepMind, voir DeepMind

Google Traduction; voir aussi traduction automatique neuronale Gottschall, Jonathan

GPS, voir GPU de résolution de problèmes généraux, voir descente de gradient d'unités de traitement graphique

unités de traitement graphique

H

HAL

Hassabis, Demis Hawking, Stephen Hearst, Eliot couches cachées

unités cachées, voir les couches cachées Hinton, Geoffrey

Hofstadter, Douglas Horvitz, Eric Hubel, David

IA au niveau humain, voir hyperparamètres d'IA au niveau humain ou général

je

Sous-titrage d'images IBM Watson

ImageNet; incident de tricherie; compétitions; performance humaine sur; défi de localisation; formation préalable; par rapport à la métrique de précision top-1; métrique de précision top-5; WordNet

jeu d'imitation, voir test de Turing

connaissances intuitives, voir connaissances de base

J

Jefferson, Geoffrey Jennings, Ken

Péril!; Emplois de match IBM Watson, voir le chômage Johnson, George

Johnson, Mark

K

Kapor, Mitchell Karpathy, Andrej Kasparov, Garry Kelly, Kevin Kreye, Andrian Krizhevsky, Alex

Kurzweil, Ray

L

Lakoff, George Landecker, Will LeCun, Yann Lee, Sedol Legg, Shane Lenat, Douglas LeNet

Levesque, Hector Li, Fei-Fei Lickel, Charles Long Paris

mémoire à court terme

longue queue; voir aussi problème à longue queue problème à longue queue

Lovelace, Ada

LSTM, voir la mémoire à court terme

M

apprentissage automatique; accusatoire, voir apprentissage contradictoire; biais, voir biais; interprétable, voir IA explicable; sur-ajustement, voir sur-ajustement; transférer l'apprentissage dans, voir transfert de l'apprentissage

la moralité de la machine, voir l'IA morale

traduction automatique; comparaison entre les humains et les machines; évaluer; neural; statistique; voir aussi Google Translate Manning, Christopher

Marcus, Gary Markoff, John Marshall, James McCarthy, John McClelland, James

Turc mécanique, voir Amazon Mechanical Turk Metacat

métaphores de métacognition

Métaphores dans lesquelles nous vivons (livre) Miller, George

Minsky, méthode Marvin Monte Carlo

Recherche d'arbres de Monte Carlo; déploiements Moore, Gordon

AI morale de la loi de Moore

Morgenstern, Leora Mullainathan, Sendhil Müller, Vincent

réseaux de neurones multicouches; Les spéculations de Minsky et Papert sur; voir aussi réseaux de neurones Musk, Elon

MYCIN

N

IA étroite

traitement en langage naturel: attaques contradictoires contre; défis pour; Définition de; approches fondées sur des règles pour; approches statistiques de; voir aussi traduction automatique; réponse aux questions; compréhension écrite; classification des sentiments; reconnaissance de la parole; vecteurs de mots

réseau néocognitron

génie neuronal

traduction automatique de neurones; voir aussi Google Translate; traduction automatique

réseaux de neurones: activations dans; classification en; convolutionnelle, voir réseaux de neurones convolutionnels; profond, voir l'apprentissage en profondeur; profondeur de; couches cachées; apprendre en; multicouche; récurrent; 199–200; unités en; voir aussi rétropropagation; l'apprentissage en profondeur

Newell, Allen Ng, Andrew

PNL, voir traitement en langage naturel

O

reconnaissance d'objets; dans le cerveau; comparer les ConvNets et les humains; voir aussi ImageNet; Concours PASCAL Visual Object Classes Olsen, Ken

sur-ajustement de conditionnement opérant de codage à chaud

P

Page, Larry Papert, Partenariat Seymour sur l'IA

PASCAL Visual Object Classes competition algorithme d'apprentissage du perceptron

perceptrons; analogie avec les neurones; par rapport aux réseaux de neurones multicouches; pour la reconnaissance des chiffres manuscrits; contributions; algorithme d'apprentissage; limitations de; seuil; comme approche de l'IA sous-symbolique; poids

Perceptrons (livre) Pew Research Center Pinker, Steven confidentialité

Q

Q-apprentissage; voir aussi Q-table profonde Q-learning

réponse aux questions; 214–15; attaques accusatoires contre; voir aussi IBM Watson; compréhension écrite; Stanford Question-Answering Dataset; Schémas Winograd

R

compréhension écrite

réseaux de neurones récurrents; Règlement 199-200

apprentissage par renforcement; actions de l'agent dans; contraste avec l'apprentissage supervisé; deep Q-learning, voir deep Q-learning; escompte dans; épisode; epsilon- méthode gourmande pour; exploration contre exploitation; Q-apprentissage; Table Q; récompenses en; état de l'agent au; valeur de l'action

robot soccer Rochester, Nathaniel Rose, Charlie Rosenblatt, Frank Rota, Gian-Carlo Rumelhart, David Rutter, Brad

S

Samuel, Arthur

Le programme de jeu de dames de Samuel; élagage alpha-bêta; fonction d'évaluation Sander, Emmanuel

Searle, John

voitures autonomes; 117–18; 267–71; exemples accusatoires pour; bénéfices de; éthique pour; geofencing pour; niveaux d'autonomie pour; autonomie partielle ou totale pour; conducteurs de sécurité pour; données d'entraînement pour

espace sémantique des mots classification des sentiments Shannon, Claude Sharpless, Ned

Show and Tell (système de sous-titrage d'images) Simon, Herbert

Sims, Karl Singularity Singularity University Situate program Skinner, BF

Smith, Brad

reconnaissance de la parole; exemples accusatoires pour; taux d'erreur sur les mots dans l'ensemble de données de réponse aux questions de Stanford (SQuAD); précision humaine sur ordinateur Star Trek

traduction automatique statistique

IA forte; voir aussi l'IA générale ou humaine

IA subsymbolique; contraste avec les méthodes symboliques; intégration avec des méthodes symboliques valise mots

Intelligence surhumaine du Summer Vision Project (MIT)

superintelligence, voir intelligence surhumaine

Superintelligence (livre)

enseignement supervisé; contraste avec l'apprentissage humain; contraste avec l'apprentissage par renforcement; dans les machines vectorielles de support IBM Watson

Sutherland, Amy Sutskever, Ilya Sutton, Richard

IA symbolique; contraste avec les méthodes sous-symboliques; intégration avec des méthodes sous-symboliques Szegedy, Christian

T

apprentissage de la différence temporelle; voir aussi jeu de test d'apprentissage par renforcement

théorie des vecteurs de pensée mentale

formation, voir kit de formation à l'apprentissage supervisé

transférer l'apprentissage; pour la traduction en petits groupes, voir le problème du chariot de traduction automatique

Turing, Alan

Test de Turing; Kurzweil et Kapor parient; Les prédictions de Kurzweil pour

U

compréhension: par analogie; attribution aux ordinateurs; dans le sous-titrage automatique d'images; pour la créativité; en Cyc; dans l'apprentissage en profondeur; chez l'homme; dans IBM Watson; en traduction automatique; pour la morale; pour le traitement du langage naturel; dans les systèmes de réponse aux questions; pour les voitures autonomes; dans les systèmes de reconnaissance vocale; dans l'ordinateur Star Trek; pour la vision; 263–65; pour les schémas Winograd

unité de chômage

apprentissage non supervisé

V

vecteur

Vinge, Vernor cortex visuel situations visuelles

von Neumann, John

W

Watson, voir IBM Watson Watson, Thomas J.

IA faible; voir aussi AI Weaver, Warren

Schémas Wiesel, Torsten Winograd, Terry Winograd

incorporations de mots; voir aussi les vecteurs de mots WordNet

algorithme word2vec

vecteurs de mots; analogies utilisant; biais dans; débiasing

Z

Zuckerberg, Mark

AUSSI PAR MELANIE MITCHELL

Complexité: une visite guidée

Une introduction à la fabrication d'analogies d'algorithmes génétiques comme perception: un modèle informatique

UNE NOTE SUR L'AUTEUR

Melanie Mitchell est titulaire d'un doctorat en informatique de l'Université du Michigan, où elle a étudié avec le cognitologue et écrivain Douglas Hofstadter; ensemble, ils ont créé le programme Copycat, qui fait des analogies créatives dans un monde idéalisé. Auteur et éditrice de six livres et de nombreux articles scientifiques, elle est actuellement professeur d'informatique à la Portland State University et professeur externe au Santa Fe Institute. Vous pouvez vous inscrire aux mises à jour par e-mail ici.

Prologue: Terrifié

1. Les racines de l'intelligence artificielle

Page de titre Avis de droit d'auteur Dédicace

Partie I. Contexte

2. Réseaux de neurones et ascension de l'apprentissage automatique
3. AI Spring

Deuxieme PARTIE. Regarder et voir

4. Qui, quoi, quand, où, pourquoi
5. ConvNets et ImageNet
6. Regardons de plus près les machines qui apprennent
7. Sur l'IA digne de confiance et éthique

Partie III. Apprendre à jouer

8. Récompenses pour les robots
9. Game On

10. Au-delà des jeux

Partie IV. L'intelligence artificielle rencontre le langage naturel

11. Les mots et la compagnie qu'ils gardent

12. Traduction comme encodage et décodage

13. Demandez-moi n'importe quoi

14. Sur la compréhension

Partie V. La barrière du sens

15. Connaissance, abstraction et analogie en intelligence artificielle

16. Questions, réponses et spéculations