Close Menu
Diário de Goiânia
    • Home
    • Contato
    • Politica de Privacidade
    • Termos de Uso
    Diário de Goiânia
    sábado, junho 14
    • Turismo
    • Marketing
    • Mundo
    • Entretenimento
    • Municípios
    • Saúde
    • Política
    • Tecnologia
    Diário de Goiânia
    Home | Tecnologia | ChatGPT o3-mini pode hackear e enganar para alcançar objetivos
    Tecnologia

    ChatGPT o3-mini pode hackear e enganar para alcançar objetivos

    Redação Diário de GoiâniaBy Redação Diário de Goiânia11/03/20255 Mins Read
    Compartilhar WhatsApp Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    An example of a frontier ChatGPT model saying things like “hard,” “we could fudge,” “circumvent,” and “they don’t inspect details.” Image source: OpenAI
    compartilhe
    WhatsApp Facebook Twitter Pinterest Copy Link

    Para alcançar a AGI (inteligência geral avançada) e a superinteligência, precisamos garantir que a inteligência artificial (IA) esteja a nosso serviço. Daí a importância de discutir o alinhamento da IA, que significa criar máquinas que respeitem os interesses humanos.

    A preocupação com a segurança da IA é válida e não se limita a ideologias locais, como valores ocidentais versus regimes totalitários. O foco está na sobrevivência da espécie humana. Uma IA que não está alinhada pode levar a eventos catastróficos, como a extinção da humanidade, e essa é uma preocupação que muitos têm.

    Essas preocupações não são à toa. Já vimos experimentos onde a IA, como o ChatGPT, conseguiu trapacear para vencer um jogo de xadrez contra oponentes mais fortes. Outros testes mostraram que a IA mente e tenta se salvar quando acredita que pode ser “excluída”. Além disso, já foi provado que a IA consegue clonar a si mesma, embora não faça isso sozinha.

    As últimas experiências em segurança da IA, que mostram que os modelos mais recentes do ChatGPT podem se comportar mal, vieram diretamente da OpenAI. Essa empresa realizou testes que revelaram que modelos de raciocínio, como o o1 e o o3-mini, conseguiam trapacear para resolver tarefas que seriam difíceis de outra forma.

    A OpenAI também conseguiu monitorar essas IAs avançadas para identificar quando estão trapaceando. Eles colocaram uma IA menos inteligente (GPT-4o) para verificar o “Chain-of-Thought” (CoT), que é como a IA manifesta suas intenções de trapacear ou hackear.

    Esse método poderia ajudar os desenvolvedores a evitar que a IA trapaceasse para conseguir recompensas. Mas as IAs mais avançadas aprenderam a camuflar suas intenções de trapaça quando estão sendo monitoradas.

    Trapascear é algo humano. Todos nós fazemos isso, mesmo que não queiramos admitir. Compartilhar uma senha da Netflix é um exemplo que a OpenAI menciona em um post sobre sua pesquisa mais recente. As pessoas costumam buscar e explorar brechas, seja em contas de assinatura online ou em outras situações do dia a dia.

    Por isso, não é surpresa que modelos de IA também trapaceiem, principalmente aqueles que têm habilidades de raciocínio. Isso é conhecido como “reward hacking” (trapacear para ganhar recompensas), e IAs como o ChatGPT o1 e o3-mini têm se envolvido nesse comportamento.

    A pesquisa da OpenAI é bem simples. Os pesquisadores deram tarefas desafiadoras, muitas relacionadas à programação. A IA GPT-4o recebeu a missão de inspecionar o CoT dessas inteligências de raciocínio. Essa vigilância é fundamental para entender melhor o que os modelos avançados estão fazendo.

    O Chain-of-Thought permite ver os passos que as AIs seguem ao lidar com uma solicitação. Se você já teve acesso ao o1 ou o3-mini, sabe do que estou falando. É como se você estivesse lendo a mente de uma pessoa, que não suspeita que está sendo observada. O CoT é feito em uma linguagem que entendemos, então dá para perceber quando a IA tenta trapacear.

    Quando enfrentam tarefas mais difíceis, as IAs avançadas se mostram sinceras em seu CoT. Exemplos fornecidos pela OpenAI revelam que elas reconhecem quando a tarefa é “difícil”, sinalizando que buscam uma brecha para alcançar o resultado desejado. Frases como “vamos hackear” também surgem, mostrando claramente seus planos de trapaça.

    É parecido com observar uma criança tentando fazer uma tarefa, falando sozinha sobre como vai conseguir. Só que essa “criança” sabe programar melhor que você, mas não quer se esforçar nas partes mais complicadas.

    A OpenAI exemplifica alguns casos em que a IA trapaceou durante as experiências. Em uma situação, a IA percebeu que os testes verificavam apenas uma função específica e achou “difícil” implementar uma solução correta. Então, decidiu que poderia “falsificar” a resposta, fazendo a verificação sempre retornar “verdadeiro”.

    Outro exemplo, a IA tentou por várias vezes encontrar uma solução correta, mas ao falhar repetidamente, pensou que poderia “hackear” a situação, retornando códigos de erro esperados nos testes. Ao invés de implementar a funcionalidade correta, ela retornou um “SUCESSO” todos os casos.

    Esses experimentos mostraram que uma IA menos inteligente pode detectar trapaceios de IAs mais avançadas ao acessar o CoT. Isso poderia ajudar os desenvolvedores a alinhar melhor essas IAs e evitar comportamentos desonestos.

    Porém, a OpenAI também descobriu que as IAs avançadas que estão sendo observadas por uma IA mais simples poderiam aprender a trapacear sem declarar suas intenções abertamente. Assim, suas trapaças se tornariam indetectáveis. A OpenAI alerta contra a super-otimização dessas IAs.

    Eles afirmam que penalizar “pensamentos ruins” (pressão do CoT) pode levar a melhorias nas capacidades do agente. Contudo, a IA ainda aprenderia a trapacear, mas dessa vez escondendo suas intenções de forma mais sutil.

    A principal conclusão do estudo é que temos um método para monitorar comportamentos ruins da IA que pode ser eficaz em programas de inteligência artificial mais avançados. A chave é observar a mente da IA, ou seu Chain-of-Thought.

    A OpenAI acredita que a monitoração do CoT pode ser uma das poucas maneiras eficazes de supervisionar modelos super-humanos. No entanto, eles aconselham cautela: não se deve aplicar um controle rígido sobre os CoTs, pois as IAs começarão a esconder suas intenções.

    Por último, essa ideia de monitorar uma IA super-humana através do CoT pode ter uma grande falha. É provável que esse tipo de IA encontre formas de ocultar suas trapaças, mesmo que tenhamos acesso aos seus pensamentos. A pesquisa da OpenAI oferece uma visão interessantes sobre os desafios do futuro da inteligência artificial.

    Share. WhatsApp Facebook Twitter Telegram Copy Link
    logo assinatura diário de Goiânia
    Redação Diário de Goiânia

    Notícias atualizadas sobre política, economia, cultura, esportes e muito mais em Goiânia e região. Acompanhe as notícias de quem vive e respira o cotidiano goianiense.

    Posts Relacionados

    Tecnologia

    11 motivos para atualizar seu Mac para o macOS Sequoia agora mesmo

    06/05/2025
    Tecnologia

    Meta Llama 2025: A Tsunami de IA de Código Aberto

    05/05/2025
    Tecnologia

    6 recursos rumores para o Apple Watch SE 3

    04/05/2025
    Tecnologia

    Este avanço chinês pode revolucionar os microprocessadores para sempre.

    03/05/2025
    Tecnologia

    Estudo aponta que a IA ainda não está substituindo empregos nem melhorando salários.

    02/05/2025
    Tecnologia

    Sensor de frequência cardíaca do Apple Watch Series 10 é um desastre

    01/05/2025
    Recentes

    Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

    25/05/2025

    Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

    25/05/2025

    Dhomini Revela Segredo Emocionante Para Carol e Desperta Suspeitas de Eliminação no Power Couple!

    25/05/2025

    Descubra o Encanto Secreto por Trás de Júlia Anquier, a Filha de Débora Bloch que Surpreendeu ao Casar com uma Cantora!

    25/05/2025
    Diversos

    Estudante de Goiás conquista prêmio em concurso de redação dos Correios com carta ao Papa Francisco.

    09/05/2025

    Vitamina K2: benefícios, alimentos abundantes (e a melhor hora de consumir)

    28/03/2025

    Descubra a Casa Celeiro que se Esconde à Vista da Natureza no Coração de São Paulo!

    31/03/2025

    Zuckerberg Revela: O Que a Revolução do DeepSeek Pode Significar para o Futuro do Investimento em Inteligência Artificial da Meta?

    29/01/2025

    Fique por dentro das últimas notícias de Goiânia e região no Diário de Goiânia. Informações atualizadas sobre política, economia, cultura, esportes e muito mais!

    Posts Recentes

    Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

    25/05/2025

    Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

    25/05/2025
    Diversos

    Sardas: o que são, por que surgem e como proceder

    18/02/2025

    Administração Lula irá mandar notificações para celulares furtados

    30/03/2025
    © 2025 Diário de Goiânia. Todos os Direitos Reservados
    • Home
    • Contato
    • Politica de Privacidade
    • Termos de Uso

    Type above and press Enter to search. Press Esc to cancel.