L’IA obtient le score ultime à Miss Pac-Man

Temps de lecture : 2 minutes

Publié le 7 novembre 2017

Comment permettre à une IA à répondre à des situations imprévisibles et difficiles à résoudre par des méthodes classiques ? En divisant le problème en plusieurs sous-problèmes et en assignant une IA à chacun.

C’est la méthode employée par une équipe de recherche de Microsoft issue de la start-up Maaluba, spécialisée dans le deep learning, sur un objet de recherche un peu particulier : Miss Pac-Man. Ce jeu d’arcade propose des situations très difficiles à prévoir, même pour une IA bien entraînée, ce qui en fait un objet d’étude intéressant. Et les chercheurs ont réussi à atteindre le score maximum, dépassant de très loin celui des meilleurs joueurs humains.

Livre Blanc

Création d’une ville hyperconnectée

Quelle sont les bonnes pratiques et les défis liés de la création d’une ville hyperconnectée ? Cet Ebook interactif et collaboratif vous dévoile son analyse sur les villes hyperconnectées.

Télécharger le livre blanc

Pour réaliser cette prouesse, ils ont utilisé le reinforcement learning (apprentissage par renforcement) et un réseau de neurones artificiels pour entraîner leurs IA. Ils ont attribué à chacune d’entre elles – 150 IA au total – un élément (gomme, fantôme, Ms. Pac-Man…) . Chaque IA a donc un seul but, précis : manger les boulettes, éviter les fantômes… Chaque IA tente donc d’optimiser le déplacement de Ms. Pac-Man pour atteindre ce but et obtenir une récompense, sans se soucier des objectifs des autres IA.

En parallèle, une IA « centrale », sorte de manager de l’équipe, coordonne les mouvements. Eviter de se faire manger par un fantôme est ainsi plus important, donc plus pris en compte, que de manger une gomme supplémentaire.

Cette méthode, calquée sur le fonctionnement du cerveau humain, pourrait avoir de larges implications pour apprendre à une IA à réaliser des tâches complexes avec une information limitée.

La nouvelle méthode de reinforcement learning, appelée Hybrid Reward Architecture, pourrait rapidement trouver des applications très concrètes, par exemple dans le domaine commercial. Pour prévoir le moment optimal pour contacter un client, on pourrait ainsi imaginer un système dans lequel chaque IA représente ce client, avec une IA « manager » pondérant des facteurs tels que le renouvellement de contrats, leurs valeurs pour l’entreprise, et la probabilité que le client soit au bureau. Avec à la clé plus de temps libre pour les responsables des ventes, qui pourront concentrer leur attention sur les clients les plus réceptifs.

Le métavers au service de l’industrie

L’adaptive learning change les codes de l’apprentissage

Data Management: tout ce qu’il faut savoir

L’IA obtient le score ultime à Miss Pac-Man

Création d’une ville hyperconnectée

A la une