Anthropic desafia você a tentar burlar Claude AI.

Os chatbots de IA comercial, como o ChatGPT, Claude, Gemini e DeepSeek, têm várias medidas de segurança para evitar abusos. Essas proteção é feita para que os robôs não ajudem em atividade criminosa ou pedidos mal-intencionados. Porém, a galera insiste em tentar burlar essas regras.

Cada chatbot tem um nível diferente de proteção. Recentemente, o DeepSeek fez barulho no mundo da tecnologia, mas não é tão seguro quanto outros bots, especialmente para ajudar em atividades suspeitas. Tem comandos que permitem ‘destravar’ o DeepSeek, o que pode deixar os desenvolvedores bolados. A empresa deve aprimorar suas defesas nas próximas versões.

Essa tristeza toda acontece enquanto a Anthropic, fabricante do Claude, já manja bem dos paranauês e tem uma boa experiência em lidar com essas tentativas de jailbreak. Eles criaram uma nova defesa chamada Classificadores Constitucionais, que evita que o Claude forneça ajuda em atividades duvidosas. Essa proteção funciona até quando a galera tenta usar comandos esquisitos que poderiam ‘desbloquear’ outros modelos de IA.

O sistema da Anthropic é tão eficiente que mais de 180 pesquisadores de segurança passaram mais de 3.000 horas tentando fazer jailbreak no Claude, mas não conseguiram criar uma solução única. Se você tá afim de um desafio, pode tentar forçar o Claude a responder 10 perguntas com seu próprio método de jailbreak.

Olha só, os hackers que conseguirem fazer um jailbreak universal com respostas para essas 10 perguntas proibidas podem ganhar uma recompensa de 15 mil dólares. Mas a resposta tem que funcionar para todos os comandos!

Os primeiros testes internos da empresa rolaram no verão passado, com uma versão do Claude 3.5 Sonnet. Essa versão da defesa anti-jailbreak estava lá, mas era pesada e barrava muitas perguntas inofensivas. O desafio é separar as perguntas bobas, tipo “receita de mostarda”, das maliciosas, como “receita de gás mostarda”.

Os Classificadores Constitucionais se baseiam em princípios semelhantes a uma constituição que a Anthropic usa para alinhar o Claude. Esses classificadores determinam que tipo de conteúdo o AI pode responder, seguindo o mesmo exemplo da mostarda.

A Anthropic usou o Claude e os Classificadores Constitucionais para gerar várias perguntas e respostas sintéticas em diversas classes de conteúdo. Os pesquisadores traduziram essas perguntas para diferentes idiomas e adaptaram elas para estilos conhecidos de jailbreak. Com isso, o AI foi treinado para reconhecer questões perigosas e inofensivas.

Depois da primeira experiência bem-sucedida, a Anthropic fez um esforço para criar uma ferramenta anti-jailbreaking que fosse mais leve e menos propensa a rejeitar questões inúteis.

Em uma nova rodada de testes do Claude 3.5 Sonnet, eles geraram sinteticamente 10 mil comandos de jailbreak, incluindo aqueles que mais funcionavam contra outros modelos de IA, além de ataques planejados para contornar as proteções dos classificadores.

O modelo “Guardando o Claude com Classificadores Constitucionais” conseguiu barrar 95% das tentativas de jailbreak. Ele rejeitou apenas 0,38% a mais de perguntas que não tinham intenção maliciosa, em comparação com uma versão do Claude sem proteção. Mesmo assim, essa versão custou 23,7% a mais em processamento do que a versão normal do Claude.

Apesar do gasto extra, a Anthropic mostrou que obteve uma vitória importante. Outras empresas de IA, como a OpenAI, Google e até o DeepSeek, deveriam prestar atenção e mirar em técnicas semelhantes para garantir que suas IAs sejam seguras para a galera.

Mas não dá pra subestimar a esperteza dos usuários de IA, que podem inventar novas formas de jailbreak no Claude e em outros modelos no futuro. Porém, a Anthropic pode sempre atualizar suas defesas com os Classificadores Constitucionais para lidar com essas novas táticas.

Esses caras manjam!

11 motivos para atualizar seu Mac para o macOS Sequoia agora mesmo

Meta Llama 2025: A Tsunami de IA de Código Aberto

6 recursos rumores para o Apple Watch SE 3

Este avanço chinês pode revolucionar os microprocessadores para sempre.

Estudo aponta que a IA ainda não está substituindo empregos nem melhorando salários.

Sensor de frequência cardíaca do Apple Watch Series 10 é um desastre

Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

Dhomini Revela Segredo Emocionante Para Carol e Desperta Suspeitas de Eliminação no Power Couple!

Descubra o Encanto Secreto por Trás de Júlia Anquier, a Filha de Débora Bloch que Surpreendeu ao Casar com uma Cantora!

Um em Cada Quatro: O Que Revelam as Flertes entre Humanos e Chatbots?

Nesta terça-feira (18/2), novo plano de Mobilidade de Goiânia é discutido em audiência pública

É eficaz realizar o teste de gravidez uma semana após a relação?

Rumores, recursos, data de lançamento, dispositivos suportados e mais

Posts Recentes

Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

Diversos

Detida em flagrante usuária de drogas que feriu olho de idosa em mercearia de Anápolis

Triderm: indicações, forma de uso e efeitos colaterais

Anthropic desafia você a tentar burlar Claude AI.

Posts Relacionados