Os chatbots de IA comercial, como o ChatGPT, Claude, Gemini e DeepSeek, têm várias medidas de segurança para evitar abusos. Essas proteção é feita para que os robôs não ajudem em atividade criminosa ou pedidos mal-intencionados. Porém, a galera insiste em tentar burlar essas regras.
Cada chatbot tem um nível diferente de proteção. Recentemente, o DeepSeek fez barulho no mundo da tecnologia, mas não é tão seguro quanto outros bots, especialmente para ajudar em atividades suspeitas. Tem comandos que permitem ‘destravar’ o DeepSeek, o que pode deixar os desenvolvedores bolados. A empresa deve aprimorar suas defesas nas próximas versões.
Essa tristeza toda acontece enquanto a Anthropic, fabricante do Claude, já manja bem dos paranauês e tem uma boa experiência em lidar com essas tentativas de jailbreak. Eles criaram uma nova defesa chamada Classificadores Constitucionais, que evita que o Claude forneça ajuda em atividades duvidosas. Essa proteção funciona até quando a galera tenta usar comandos esquisitos que poderiam ‘desbloquear’ outros modelos de IA.
O sistema da Anthropic é tão eficiente que mais de 180 pesquisadores de segurança passaram mais de 3.000 horas tentando fazer jailbreak no Claude, mas não conseguiram criar uma solução única. Se você tá afim de um desafio, pode tentar forçar o Claude a responder 10 perguntas com seu próprio método de jailbreak.
Olha só, os hackers que conseguirem fazer um jailbreak universal com respostas para essas 10 perguntas proibidas podem ganhar uma recompensa de 15 mil dólares. Mas a resposta tem que funcionar para todos os comandos!
Os primeiros testes internos da empresa rolaram no verão passado, com uma versão do Claude 3.5 Sonnet. Essa versão da defesa anti-jailbreak estava lá, mas era pesada e barrava muitas perguntas inofensivas. O desafio é separar as perguntas bobas, tipo “receita de mostarda”, das maliciosas, como “receita de gás mostarda”.
Os Classificadores Constitucionais se baseiam em princípios semelhantes a uma constituição que a Anthropic usa para alinhar o Claude. Esses classificadores determinam que tipo de conteúdo o AI pode responder, seguindo o mesmo exemplo da mostarda.
A Anthropic usou o Claude e os Classificadores Constitucionais para gerar várias perguntas e respostas sintéticas em diversas classes de conteúdo. Os pesquisadores traduziram essas perguntas para diferentes idiomas e adaptaram elas para estilos conhecidos de jailbreak. Com isso, o AI foi treinado para reconhecer questões perigosas e inofensivas.
Depois da primeira experiência bem-sucedida, a Anthropic fez um esforço para criar uma ferramenta anti-jailbreaking que fosse mais leve e menos propensa a rejeitar questões inúteis.
Em uma nova rodada de testes do Claude 3.5 Sonnet, eles geraram sinteticamente 10 mil comandos de jailbreak, incluindo aqueles que mais funcionavam contra outros modelos de IA, além de ataques planejados para contornar as proteções dos classificadores.
O modelo “Guardando o Claude com Classificadores Constitucionais” conseguiu barrar 95% das tentativas de jailbreak. Ele rejeitou apenas 0,38% a mais de perguntas que não tinham intenção maliciosa, em comparação com uma versão do Claude sem proteção. Mesmo assim, essa versão custou 23,7% a mais em processamento do que a versão normal do Claude.
Apesar do gasto extra, a Anthropic mostrou que obteve uma vitória importante. Outras empresas de IA, como a OpenAI, Google e até o DeepSeek, deveriam prestar atenção e mirar em técnicas semelhantes para garantir que suas IAs sejam seguras para a galera.
Mas não dá pra subestimar a esperteza dos usuários de IA, que podem inventar novas formas de jailbreak no Claude e em outros modelos no futuro. Porém, a Anthropic pode sempre atualizar suas defesas com os Classificadores Constitucionais para lidar com essas novas táticas.
Esses caras manjam!