A Inteligência Artificial Superhumana Libratus vence quatro dos melhores jogadores do mundo de um dos mais desafiadores jogos de Pôquer

Nos últimos anos, especialmente este ano, o campo de pesquisa em Inteligência Artificial (IA) tem marcado consideráveis avanços. E a medida desse progresso, em muitos casos, tem utilizado como base o desempenho da IA em populares e desafiadores jogos. Os pilares desse progresso foram primeiro estabelecidos em jogos mais simples, onde a força bruta numérica era a única necessária, como o xadrez, para depois avançar enormemente para o complicado domínio do Go. Recentemente, a IA desenvolvida pelo Google derrotou os melhores jogadores de Go do mundo e humanos não são mais páreos para ela (1).

- Continua após o anúncio -

Porém, tanto o xadrez quanto o Go possuem uma característica em comum: todos os jogadores envolvidos têm acesso às mesmas informações. Em outras palavras, todo mundo está olhando as peças de todo mundo. Jogos como o Pôquer, onde os jogadores não sabem as cartas na mão dos seus adversários (informações-imperfeitas), sempre foram um grande problema para as inteligências artificiais. Pesquisadores encontram bastante dificuldade em ensiná-las a como jogar impecavelmente em tais situações e ganhar de jogadores profissionais. E esse tipo de análise é importante no mundo real, em áreas diversas, desde finanças até estudos científicos de campo, onde nem todas as informações necessárias estarão disponíveis para os pesquisadores. Por isso é tão importante a criação de tais IAs.

Informações escondidas fazem um jogo muito mais complexo por várias razões. Ao invés de simplesmente procurar por uma sequência ótima de ações, uma IA programada para enfrentar um jogo de informações-imperfeitas precisa determinar como balancear apropriadamente as ações, para que o oponente nunca encontre muito da informação privada que a IA possui. Para exemplificar, blefar é uma característica necessária em qualquer estratégia competitiva de Poker, mas blefar a todo momento seria uma má estratégia. Em outras palavras, o valor de uma ação depende da probabilidade na qual é jogada.

Outro desafio chave é que diferentes partes do jogo não podem ser consideradas em isolamento, onde as melhores estratégias para uma dada situação pode depender da estratégia que seria usada em situações que ainda não ocorreram. Em outras palavras, uma IA competitiva sempre precisa considerar a estratégia para o jogo como um todo.

Um passo significativo tinha sido dado em maio deste ano, quando cientistas anunciaram que a IA DeepStack conseguiu derrotar jogadores profissionais no estilo 'heads-up-no-limit Texas hold´em' com significativa estatística, entre mais de 44 mil mãos de poker envolvidas. Mas o alcance da nova IA era limitado. Até o momento, nenhuma IA tinha derrotado top jogadores humanos de forma sólida.

- Continua após o anúncio -

Agora, pesquisadores do Departamento de Ciência da Computação da Universidade de Carneglie Mellon, EUA, detalharam a criação da IA 'Libratus', a qual usa um distinto novo sistema algoritmo de análise de dados para enfrentar jogos de informação-imperfeita. O Libratus, durante uma competição de 20 dias, com 120 mil mãos e destacando um prêmio de $200 mil na mesa de apostas, derrotou top profissionais em HUNL. A nova IA não usa técnicas no domínio de conhecimento específico do jogo ou dados humanos de partidas. Em outras palavras, o Libratus não está apenas preparado para o poker, podendo desafiar outros jogos de informações-imperfeitas, como uma espécie de 'superhumano'.

Em Janeiro deste ano, depois de vários testes laboratoriais, os pesquisadores colocaram o Libratus para disputar uma real competição envolvendo quatro dos maiores destaques no HUNL: Jason Les, Dong Kim, Daniel McCauley, and Jimmy Chou. Para cada um deles foi garantido $20 mil da mesa de apostas e os $120 mil restantes foram divididos entre eles baseado no quão melhor o indivíduo humano atuou contra a IA. O Libratus decisivamente derrotou os humanos por uma margem de 147 mbb/mão, com 99,98% de significância estatística e um p-valor de 0,0002 (se as mão são tratadas como independentes e distribuídas identicamente). Ele também derrotou cada um dos humanos individualmente.

- Continua após o anúncio -

Com essa capacidade e podendo ser usado para diversos outros tipos de jogos com informações-incompletas, o Libratus - descrito em detalhes em um estudo publicado esta semana na Science - com certeza será importante para o progresso da IA no mundo prático e, finalmente, a criação de IAs independentes e possuidoras de um amplo espectro de processamento de dados e aplicações analíticas hoje só vistas em ficções-científicas. Segundo reportado no estudo, o Libratus usa técnicas de aplicação independentes, resumidas em três módulos de algoritmos: um algoritmo para orientar uma estratégia geral, um algoritmo que destrincha detalhes da estratégia para subjogos que são alcançados durante a partida, e um algoritmo auto-otimizador que fixa potenciais fraquezas que os oponentes vão identificando na estratégia primeiro orientada.

O primeiro módulo computa uma abstração do jogo que é menor e mais fácil de ser resolvida do que considerar todos os '10161' (nesse caso, o número 1 seguido de 161 zeros) pontos de possíveis decisões na partida. O Libratus, então, cria sua própria estratégia detalhada para as rodadas iniciais de Texas Hold´em e uma estratégia mais grosseira para as últimas rodadas. Esse modo estratégico é chamado de 'blueprint strategy'.

Em relação à abstração mencionada, um exemplo dela no pôquer é o agrupamento de mãos similares, tratando-as de forma idêntica. Intuitivamente, existe pouca diferença entre um King-high flush e um Queen-high flush. Tratando aquelas mãos como 'idênticas' reduz-se a complexidade do jogo e, portanto, o faz computacionalmente mais fácil.

Bem, mas já para as rodadas finais do jogo, o segundo módulo entra em ação para construir uma nova, e mais refinada abstração baseada no estado da partida. Aqui também é computada a estratégia para esse subjogo em tempo real que balança estratégias entre diferentes subjogos usando o blueprint strategy como guia - algo que precisa ser feito para atingir soluções seguras de subjogos. Durante a partida de Janeiro, o Libratus realizou isso usando o computador do Centro de Supercomputação de Pittsburgh, em Bridges.

Sempre que um oponente faz uma jogada que não está na abstração, o módulo computa uma solução para esse subjogo que inclui o movimento do oponente, em algo chamado de 'nested subgame solving'.

- Continua após o anúncio -

Já o terceiro módulo é projetado para melhorar o blueprint strategy à medida que a competição procede. Tipicamente, IAs utilizam uma máquina de aprendizado para encontrar erros na estratégia do oponente e explorá-los. Mas isso também pode ser uma cilada para a IA se o oponente muda de estratégia. Para contornar isso, o Libratus usa um auto-otimizador para analisar o comportamento do oponente no intuito de detectar potenciais buracos no blueprint strategy. Com isso, o Libratus adiciona essas ramificações falhas de decisão, computa estratégias para elas e as adiciona no blueprint.

Para saber mais sobre os outros dois avanços mais importantes da IA este ano, acesse:

1. Grande avanço no desenvolvimento de Inteligência Artificial: a IA do Google aprendeu a jogar Go sozinha!
2. Inteligência Artificial se torna bilíngue sem supervisão humana e sem a ajuda de um dicionário

Publicação do estudo: Science