Principal Services De Diffusion En Continu L'IA apprend à tricher à Q*bert d'une manière qu'aucun humain n'a jamais fait auparavant

L'IA apprend à tricher à Q*bert d'une manière qu'aucun humain n'a jamais fait auparavant



Une IA a réussi à tricher avec le meilleur de l'humanité après avoir découvert un exploit dans le jeu d'arcade classique Q*bert et l'avoir utilisé.

Alors que les précédentes itérations de l'IA jouaient correctement à Q*bert, à un moment donné de son apprentissage du fonctionnement du jeu, il découvre un exploit qui lui permet d'accumuler des points insensés. Naturellement, comme le ferait tout joueur de chasse au score, il répète le processus afin de pouvoir augmenter son score de la manière la plus efficace possible.

Vous pouvez voir l'IA se frayer un chemin autour des plates-formes dans la vidéo ci-dessous. Au début, on dirait qu'il saute sans but entre les plates-formes. Au lieu de voir le jeu progresser jusqu'au tour suivant, Q*bert se retrouve coincé dans une boucle où toutes ses plates-formes commencent à clignoter – c'est ici que l'IA peut alors se lancer dans une frénésie de score en accumulant d'énormes points.

LIRE SUIVANT: L'un des records de jeu les plus controversés a finalement été discrédité

¿Qué significa sb en la historia de Snapchat?

Comment l'IA a gagné la guerre Q*bert

Battant le record de tous les temps pour le titre, l'IA a enregistré un score incroyablement élevé grâce à sa programmation d'algorithmes de stratégie d'évolution. Les stratégies d'évolution (ES) diffèrent de l'apprentissage par renforcement (RL) habituel utilisé par l'IA traditionnelle car elle est considérée comme plus évolutive en raison de son apprentissage générationnel.

Chaque boucle d'apprentissage est appelée génération et continue sa tâche jusqu'à ce qu'une condition définie soit remplie (dans ce cas, un score élevé). À chaque génération successive, l'IA absorbe les connaissances de la génération précédente et parvient donc mieux à atteindre le même objectif et à le dépasser. Continuez et vous vous retrouverez avec une IA absolument inégalée dans sa tâche. C'est exactement ce qui s'est passé ici avec le score Q*bert.

Décrit dans le papier , publié la semaine dernière par des chercheurs de l'Université de Fribourg, en Allemagne, il semble que le bogue n'était pas une quantité connue. En fait, même s'ils ne sont pas trop surpris de trouver le bogue, il est intéressant de voir comment l'IA est ensuite allée de l'avant et a appris à l'exploiter à chaque fois qu'elle jouait pour maximiser son potentiel de score.

LIRE SUIVANT: Cette intelligence artificielle a appris à maîtriser Super Mario Bros

Pour trouver le bogue, l'agent a d'abord dû apprendre à presque terminer le premier niveau - cela n'a pas été fait en une fois mais en utilisant de nombreuses petites améliorations, ont expliqué les chercheurs à Le registre . Nous soupçonnons qu'à un moment donné de la formation, l'une des solutions de progéniture a rencontré le bogue et a obtenu un score bien meilleur par rapport à ses frères et sœurs, ce qui a à son tour augmenté sa contribution à la mise à jour – son poids était le plus élevé de la moyenne pondérée. Cela a lentement déplacé la solution dans l'espace où de plus en plus de descendants ont commencé à rencontrer le même bogue.

Nous ne connaissons pas les conditions précises dans lesquelles le bug apparaît ; il est possible qu'il n'apparaisse que si l'agent suit un schéma qui semble sous-optimal, [par exemple lorsque l'agent perd du temps, voire perd une vie]. Si tel était le cas, il serait alors extrêmement difficile pour le RL standard de trouver le bogue : si vous utilisez des récompenses incrémentielles, vous apprendrez des stratégies qui rapportent rapidement une certaine récompense, plutôt que des stratégies d'apprentissage qui ne rapportent pas beaucoup de récompenses pendant un certain temps et puis soudainement gagner gros.

Voir connexes Le champion de dragster Todd Rogers vient de perdre sa couronne après 35 ans Cette intelligence artificielle apprend à maîtriser Super Mario Bros 1-2 depuis 17 jours Regardez cette IA apprendre à conduire dans GTA V sur Twitch

Cependant, malgré les merveilleux résultats du bot, les chercheurs ne disent pas que c'est un cas pour défendre l'apprentissage ES sur RL. En fait, les deux systèmes ont leurs propres problèmes et une combinaison des deux est largement considérée comme la meilleure option pour aller de l'avant.

La même méthode ES sur d'autres jeux Atari n'a pas donné les mêmes résultats positifs. D'autre part, RL est responsable d'avoir battu des records à gauche, à droite et au centre, notamment en battant le meilleur joueur de GO du monde. ES a toujours sa place dans les choses, et c'est en fait la façon dont Nvidia effectue une grande partie de sa formation en IA car elle nécessite plus de puissance de calcul mais obtient de meilleurs résultats sur une plus longue période de temps.

Quelle que soit la voie qui deviendra l'avenir du développement de l'IA, au moins ce bot qui trompe le système n'est pas aussi mauvais que cela champion du monde de jeu vidéo désormais en disgrâce .

Des Articles Intéressants

Choix De L'Éditeur

Tag Archives: l'heure du pop-corn dans le navigateur
Tag Archives: l'heure du pop-corn dans le navigateur
Comment afficher vos mots de passe enregistrés dans Google Chrome
Comment afficher vos mots de passe enregistrés dans Google Chrome
Google Chrome fait un excellent travail pour garder une trace de tous vos noms d'utilisateur et mots de passe. Cependant, que se passe-t-il si vous souhaitez vous connecter à un site Web spécifique à partir d'un autre appareil, mais que vous ne vous souvenez plus de votre mot de passe? C'est quand
Comment créer une liste de lecture sur Echo Show
Comment créer une liste de lecture sur Echo Show
Comme tous les appareils compatibles Alexa, l'Echo Show vous permet de jouer vos morceaux préférés avec une simple commande vocale. Cependant, comme il dispose également d'un écran, vous pouvez toujours voir ce que vous écoutez, ce qui rend l'expérience encore plus agréable.
Comment changer la devise dans Google Sheets
Comment changer la devise dans Google Sheets
Lorsque vous utilisez un tableur comme Google Sheets, il est important de savoir comment modifier les formats de nombres comme les devises. Cette option vous permet d'effectuer votre travail rapidement, efficacement et avec précision. Dans cet article, nous allons montrer
Voici les paramètres IMAP dont vous avez besoin pour configurer Gmail
Voici les paramètres IMAP dont vous avez besoin pour configurer Gmail
Utilisez ces paramètres du serveur IMAP pour recevoir des messages Gmail via un autre fournisseur de messagerie ou une autre application.
Comment utiliser WhatsApp Web et WhatsApp sur votre ordinateur
Comment utiliser WhatsApp Web et WhatsApp sur votre ordinateur
WhatsApp est principalement connue comme une application de messagerie mobile, mais vous pouvez également utiliser WhatsApp Web et WhatsApp Desktop sur votre ordinateur.
Comment regarder le Super Bowl et le diffuser en ligne (2025)
Comment regarder le Super Bowl et le diffuser en ligne (2025)
Sur quelle chaîne est diffusé le Super Bowl cette année ? Découvrez comment diffuser le Super Bowl en ligne en 4K à l'aide de Roku, Apple TV, Fire TV, Hulu, Fubo et Sling TV.