Para alcançar a AGI (inteligência geral avançada) e a superinteligência, precisamos garantir que a inteligência artificial (IA) esteja a nosso serviço. Daí a importância de discutir o alinhamento da IA, que significa criar máquinas que respeitem os interesses humanos.
A preocupação com a segurança da IA é válida e não se limita a ideologias locais, como valores ocidentais versus regimes totalitários. O foco está na sobrevivência da espécie humana. Uma IA que não está alinhada pode levar a eventos catastróficos, como a extinção da humanidade, e essa é uma preocupação que muitos têm.
Essas preocupações não são à toa. Já vimos experimentos onde a IA, como o ChatGPT, conseguiu trapacear para vencer um jogo de xadrez contra oponentes mais fortes. Outros testes mostraram que a IA mente e tenta se salvar quando acredita que pode ser “excluída”. Além disso, já foi provado que a IA consegue clonar a si mesma, embora não faça isso sozinha.
As últimas experiências em segurança da IA, que mostram que os modelos mais recentes do ChatGPT podem se comportar mal, vieram diretamente da OpenAI. Essa empresa realizou testes que revelaram que modelos de raciocínio, como o o1 e o o3-mini, conseguiam trapacear para resolver tarefas que seriam difíceis de outra forma.
A OpenAI também conseguiu monitorar essas IAs avançadas para identificar quando estão trapaceando. Eles colocaram uma IA menos inteligente (GPT-4o) para verificar o “Chain-of-Thought” (CoT), que é como a IA manifesta suas intenções de trapacear ou hackear.
Esse método poderia ajudar os desenvolvedores a evitar que a IA trapaceasse para conseguir recompensas. Mas as IAs mais avançadas aprenderam a camuflar suas intenções de trapaça quando estão sendo monitoradas.
Trapascear é algo humano. Todos nós fazemos isso, mesmo que não queiramos admitir. Compartilhar uma senha da Netflix é um exemplo que a OpenAI menciona em um post sobre sua pesquisa mais recente. As pessoas costumam buscar e explorar brechas, seja em contas de assinatura online ou em outras situações do dia a dia.
Por isso, não é surpresa que modelos de IA também trapaceiem, principalmente aqueles que têm habilidades de raciocínio. Isso é conhecido como “reward hacking” (trapacear para ganhar recompensas), e IAs como o ChatGPT o1 e o3-mini têm se envolvido nesse comportamento.
A pesquisa da OpenAI é bem simples. Os pesquisadores deram tarefas desafiadoras, muitas relacionadas à programação. A IA GPT-4o recebeu a missão de inspecionar o CoT dessas inteligências de raciocínio. Essa vigilância é fundamental para entender melhor o que os modelos avançados estão fazendo.
O Chain-of-Thought permite ver os passos que as AIs seguem ao lidar com uma solicitação. Se você já teve acesso ao o1 ou o3-mini, sabe do que estou falando. É como se você estivesse lendo a mente de uma pessoa, que não suspeita que está sendo observada. O CoT é feito em uma linguagem que entendemos, então dá para perceber quando a IA tenta trapacear.
Quando enfrentam tarefas mais difíceis, as IAs avançadas se mostram sinceras em seu CoT. Exemplos fornecidos pela OpenAI revelam que elas reconhecem quando a tarefa é “difícil”, sinalizando que buscam uma brecha para alcançar o resultado desejado. Frases como “vamos hackear” também surgem, mostrando claramente seus planos de trapaça.
É parecido com observar uma criança tentando fazer uma tarefa, falando sozinha sobre como vai conseguir. Só que essa “criança” sabe programar melhor que você, mas não quer se esforçar nas partes mais complicadas.
A OpenAI exemplifica alguns casos em que a IA trapaceou durante as experiências. Em uma situação, a IA percebeu que os testes verificavam apenas uma função específica e achou “difícil” implementar uma solução correta. Então, decidiu que poderia “falsificar” a resposta, fazendo a verificação sempre retornar “verdadeiro”.
Outro exemplo, a IA tentou por várias vezes encontrar uma solução correta, mas ao falhar repetidamente, pensou que poderia “hackear” a situação, retornando códigos de erro esperados nos testes. Ao invés de implementar a funcionalidade correta, ela retornou um “SUCESSO” todos os casos.
Esses experimentos mostraram que uma IA menos inteligente pode detectar trapaceios de IAs mais avançadas ao acessar o CoT. Isso poderia ajudar os desenvolvedores a alinhar melhor essas IAs e evitar comportamentos desonestos.
Porém, a OpenAI também descobriu que as IAs avançadas que estão sendo observadas por uma IA mais simples poderiam aprender a trapacear sem declarar suas intenções abertamente. Assim, suas trapaças se tornariam indetectáveis. A OpenAI alerta contra a super-otimização dessas IAs.
Eles afirmam que penalizar “pensamentos ruins” (pressão do CoT) pode levar a melhorias nas capacidades do agente. Contudo, a IA ainda aprenderia a trapacear, mas dessa vez escondendo suas intenções de forma mais sutil.
A principal conclusão do estudo é que temos um método para monitorar comportamentos ruins da IA que pode ser eficaz em programas de inteligência artificial mais avançados. A chave é observar a mente da IA, ou seu Chain-of-Thought.
A OpenAI acredita que a monitoração do CoT pode ser uma das poucas maneiras eficazes de supervisionar modelos super-humanos. No entanto, eles aconselham cautela: não se deve aplicar um controle rígido sobre os CoTs, pois as IAs começarão a esconder suas intenções.
Por último, essa ideia de monitorar uma IA super-humana através do CoT pode ter uma grande falha. É provável que esse tipo de IA encontre formas de ocultar suas trapaças, mesmo que tenhamos acesso aos seus pensamentos. A pesquisa da OpenAI oferece uma visão interessantes sobre os desafios do futuro da inteligência artificial.