L'IA apprend à tricher à Q*bert d'une manière qu'aucun humain n'a jamais fait auparavant

Une IA a réussi à tricher avec le meilleur de l'humanité après avoir découvert un exploit dans le jeu d'arcade classique Q*bert et l'avoir utilisé.

Alors que les précédentes itérations de l'IA jouaient correctement à Q*bert, à un moment donné de son apprentissage du fonctionnement du jeu, il découvre un exploit qui lui permet d'accumuler des points insensés. Naturellement, comme le ferait tout joueur de chasse au score, il répète le processus afin de pouvoir augmenter son score de la manière la plus efficace possible.

Vous pouvez voir l'IA se frayer un chemin autour des plates-formes dans la vidéo ci-dessous. Au début, on dirait qu'il saute sans but entre les plates-formes. Au lieu de voir le jeu progresser jusqu'au tour suivant, Q*bert se retrouve coincé dans une boucle où toutes ses plates-formes commencent à clignoter – c'est ici que l'IA peut alors se lancer dans une frénésie de score en accumulant d'énormes points.

LIRE SUIVANT: L'un des records de jeu les plus controversés a finalement été discrédité

¿Qué significa sb en la historia de Snapchat?

Comment l'IA a gagné la guerre Q*bert

Battant le record de tous les temps pour le titre, l'IA a enregistré un score incroyablement élevé grâce à sa programmation d'algorithmes de stratégie d'évolution. Les stratégies d'évolution (ES) diffèrent de l'apprentissage par renforcement (RL) habituel utilisé par l'IA traditionnelle car elle est considérée comme plus évolutive en raison de son apprentissage générationnel.

Chaque boucle d'apprentissage est appelée génération et continue sa tâche jusqu'à ce qu'une condition définie soit remplie (dans ce cas, un score élevé). À chaque génération successive, l'IA absorbe les connaissances de la génération précédente et parvient donc mieux à atteindre le même objectif et à le dépasser. Continuez et vous vous retrouverez avec une IA absolument inégalée dans sa tâche. C'est exactement ce qui s'est passé ici avec le score Q*bert.

Décrit dans le papier , publié la semaine dernière par des chercheurs de l'Université de Fribourg, en Allemagne, il semble que le bogue n'était pas une quantité connue. En fait, même s'ils ne sont pas trop surpris de trouver le bogue, il est intéressant de voir comment l'IA est ensuite allée de l'avant et a appris à l'exploiter à chaque fois qu'elle jouait pour maximiser son potentiel de score.

LIRE SUIVANT: Cette intelligence artificielle a appris à maîtriser Super Mario Bros

Pour trouver le bogue, l'agent a d'abord dû apprendre à presque terminer le premier niveau - cela n'a pas été fait en une fois mais en utilisant de nombreuses petites améliorations, ont expliqué les chercheurs à Le registre . Nous soupçonnons qu'à un moment donné de la formation, l'une des solutions de progéniture a rencontré le bogue et a obtenu un score bien meilleur par rapport à ses frères et sœurs, ce qui a à son tour augmenté sa contribution à la mise à jour – son poids était le plus élevé de la moyenne pondérée. Cela a lentement déplacé la solution dans l'espace où de plus en plus de descendants ont commencé à rencontrer le même bogue.

Nous ne connaissons pas les conditions précises dans lesquelles le bug apparaît ; il est possible qu'il n'apparaisse que si l'agent suit un schéma qui semble sous-optimal, [par exemple lorsque l'agent perd du temps, voire perd une vie]. Si tel était le cas, il serait alors extrêmement difficile pour le RL standard de trouver le bogue : si vous utilisez des récompenses incrémentielles, vous apprendrez des stratégies qui rapportent rapidement une certaine récompense, plutôt que des stratégies d'apprentissage qui ne rapportent pas beaucoup de récompenses pendant un certain temps et puis soudainement gagner gros.

Voir connexes Le champion de dragster Todd Rogers vient de perdre sa couronne après 35 ans Cette intelligence artificielle apprend à maîtriser Super Mario Bros 1-2 depuis 17 jours Regardez cette IA apprendre à conduire dans GTA V sur Twitch

Cependant, malgré les merveilleux résultats du bot, les chercheurs ne disent pas que c'est un cas pour défendre l'apprentissage ES sur RL. En fait, les deux systèmes ont leurs propres problèmes et une combinaison des deux est largement considérée comme la meilleure option pour aller de l'avant.

La même méthode ES sur d'autres jeux Atari n'a pas donné les mêmes résultats positifs. D'autre part, RL est responsable d'avoir battu des records à gauche, à droite et au centre, notamment en battant le meilleur joueur de GO du monde. ES a toujours sa place dans les choses, et c'est en fait la façon dont Nvidia effectue une grande partie de sa formation en IA car elle nécessite plus de puissance de calcul mais obtient de meilleurs résultats sur une plus longue période de temps.

Quelle que soit la voie qui deviendra l'avenir du développement de l'IA, au moins ce bot qui trompe le système n'est pas aussi mauvais que cela champion du monde de jeu vidéo désormais en disgrâce .

**L'IA apprend à tricher à Q*bert d'une manière qu'aucun humain n'a jamais fait auparavant**

Comment l'IA a gagné la guerre Q*bert

Des Articles Intéressants

Tesla Powerwall 2 : Tout ce que vous devez savoir sur la batterie domestique d'Elon Musk

Supprimer le bouton d'alerte produit de Microsoft Paint

Choix De L'Éditeur

Comment installer Kodi sur une Android TV Box

Si vous avez entendu parler des nombreux avantages de l'utilisation de Kodi, vous vous demandez peut-être comment installer ce service unique sur votre box Android. Heureusement, le processus est relativement simple. Cet article vous donnera des instructions détaillées sur

Comment changer le lecteur vidéo par défaut sur un appareil Android

En ce qui concerne les lecteurs vidéo, la bonne nouvelle pour les utilisateurs d'Android est que les appareils Android sont livrés avec un lecteur vidéo par défaut, généralement une application préinstallée. La mauvaise nouvelle est que dans la plupart des cas, il n'est équipé que de

Comment redémarrer correctement (redémarrer) un ordinateur Windows

Voici comment redémarrer (redémarrer) correctement un PC Windows 11, 10, 8, 7, Vista ou XP. Un redémarrage incorrect peut corrompre les fichiers et endommager votre PC.

Activer les invites d'autorisation de notification plus silencieuses dans Google Chrome

Comment acheter ou louer des films Redbox à diffuser à la maison

Vous pouvez louer des DVD physiques dans les kiosques Redbox, mais Redbox propose également un service de streaming à la demande appelé Redbox On Demand.

Comment réparer le scintillement de l'écran sur Android

Empêchez votre écran Android de scintiller ou de fonctionner de manière anormale. Essayez ces étapes pour diagnostiquer, dépanner et réparer un écran scintillant.

Quel âge a votre adresse e-mail ?

La plus ancienne adresse e-mail active que j'ai est une adresse Yahoo! Adresse e-mail à laquelle je me suis initialement inscrit en novembre 1997. Oui, cela signifie que j'ai une adresse e-mail qui a presque 16 ans. je ne l'utilise pas