Close Menu
Diário de Goiânia
    • Home
    • Contato
    • Politica de Privacidade
    • Termos de Uso
    Diário de Goiânia
    sexta-feira, junho 13
    • Turismo
    • Marketing
    • Mundo
    • Entretenimento
    • Municípios
    • Saúde
    • Política
    • Tecnologia
    Diário de Goiânia
    Home | Tecnologia | Anthropic desafia você a tentar burlar Claude AI.
    Tecnologia

    Anthropic desafia você a tentar burlar Claude AI.

    Redação Diário de GoiâniaBy Redação Diário de Goiânia04/02/20253 Mins Read
    Compartilhar WhatsApp Facebook Twitter Pinterest Copy Link LinkedIn Tumblr Email VKontakte Telegram
    An image explaining Anthropic’s Constitutional Classifiers anti-jailbreak tech for Claude. Image source: Anthropic
    compartilhe
    WhatsApp Facebook Twitter Pinterest Copy Link

    Os chatbots de IA comercial, como o ChatGPT, Claude, Gemini e DeepSeek, têm várias medidas de segurança para evitar abusos. Essas proteção é feita para que os robôs não ajudem em atividade criminosa ou pedidos mal-intencionados. Porém, a galera insiste em tentar burlar essas regras.

    Cada chatbot tem um nível diferente de proteção. Recentemente, o DeepSeek fez barulho no mundo da tecnologia, mas não é tão seguro quanto outros bots, especialmente para ajudar em atividades suspeitas. Tem comandos que permitem ‘destravar’ o DeepSeek, o que pode deixar os desenvolvedores bolados. A empresa deve aprimorar suas defesas nas próximas versões.

    Essa tristeza toda acontece enquanto a Anthropic, fabricante do Claude, já manja bem dos paranauês e tem uma boa experiência em lidar com essas tentativas de jailbreak. Eles criaram uma nova defesa chamada Classificadores Constitucionais, que evita que o Claude forneça ajuda em atividades duvidosas. Essa proteção funciona até quando a galera tenta usar comandos esquisitos que poderiam ‘desbloquear’ outros modelos de IA.

    O sistema da Anthropic é tão eficiente que mais de 180 pesquisadores de segurança passaram mais de 3.000 horas tentando fazer jailbreak no Claude, mas não conseguiram criar uma solução única. Se você tá afim de um desafio, pode tentar forçar o Claude a responder 10 perguntas com seu próprio método de jailbreak.

    Olha só, os hackers que conseguirem fazer um jailbreak universal com respostas para essas 10 perguntas proibidas podem ganhar uma recompensa de 15 mil dólares. Mas a resposta tem que funcionar para todos os comandos!

    Os primeiros testes internos da empresa rolaram no verão passado, com uma versão do Claude 3.5 Sonnet. Essa versão da defesa anti-jailbreak estava lá, mas era pesada e barrava muitas perguntas inofensivas. O desafio é separar as perguntas bobas, tipo “receita de mostarda”, das maliciosas, como “receita de gás mostarda”.

    Os Classificadores Constitucionais se baseiam em princípios semelhantes a uma constituição que a Anthropic usa para alinhar o Claude. Esses classificadores determinam que tipo de conteúdo o AI pode responder, seguindo o mesmo exemplo da mostarda.

    A Anthropic usou o Claude e os Classificadores Constitucionais para gerar várias perguntas e respostas sintéticas em diversas classes de conteúdo. Os pesquisadores traduziram essas perguntas para diferentes idiomas e adaptaram elas para estilos conhecidos de jailbreak. Com isso, o AI foi treinado para reconhecer questões perigosas e inofensivas.

    Depois da primeira experiência bem-sucedida, a Anthropic fez um esforço para criar uma ferramenta anti-jailbreaking que fosse mais leve e menos propensa a rejeitar questões inúteis.

    Em uma nova rodada de testes do Claude 3.5 Sonnet, eles geraram sinteticamente 10 mil comandos de jailbreak, incluindo aqueles que mais funcionavam contra outros modelos de IA, além de ataques planejados para contornar as proteções dos classificadores.

    O modelo “Guardando o Claude com Classificadores Constitucionais” conseguiu barrar 95% das tentativas de jailbreak. Ele rejeitou apenas 0,38% a mais de perguntas que não tinham intenção maliciosa, em comparação com uma versão do Claude sem proteção. Mesmo assim, essa versão custou 23,7% a mais em processamento do que a versão normal do Claude.

    Apesar do gasto extra, a Anthropic mostrou que obteve uma vitória importante. Outras empresas de IA, como a OpenAI, Google e até o DeepSeek, deveriam prestar atenção e mirar em técnicas semelhantes para garantir que suas IAs sejam seguras para a galera.

    Mas não dá pra subestimar a esperteza dos usuários de IA, que podem inventar novas formas de jailbreak no Claude e em outros modelos no futuro. Porém, a Anthropic pode sempre atualizar suas defesas com os Classificadores Constitucionais para lidar com essas novas táticas.

    Esses caras manjam!

    Share. WhatsApp Facebook Twitter Telegram Copy Link
    logo assinatura diário de Goiânia
    Redação Diário de Goiânia

    Notícias atualizadas sobre política, economia, cultura, esportes e muito mais em Goiânia e região. Acompanhe as notícias de quem vive e respira o cotidiano goianiense.

    Posts Relacionados

    Tecnologia

    11 motivos para atualizar seu Mac para o macOS Sequoia agora mesmo

    06/05/2025
    Tecnologia

    Meta Llama 2025: A Tsunami de IA de Código Aberto

    05/05/2025
    Tecnologia

    6 recursos rumores para o Apple Watch SE 3

    04/05/2025
    Tecnologia

    Este avanço chinês pode revolucionar os microprocessadores para sempre.

    03/05/2025
    Tecnologia

    Estudo aponta que a IA ainda não está substituindo empregos nem melhorando salários.

    02/05/2025
    Tecnologia

    Sensor de frequência cardíaca do Apple Watch Series 10 é um desastre

    01/05/2025
    Recentes

    Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

    25/05/2025

    Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

    25/05/2025

    Dhomini Revela Segredo Emocionante Para Carol e Desperta Suspeitas de Eliminação no Power Couple!

    25/05/2025

    Descubra o Encanto Secreto por Trás de Júlia Anquier, a Filha de Débora Bloch que Surpreendeu ao Casar com uma Cantora!

    25/05/2025
    Diversos

    Complexo B: indicações, formas de uso e efeitos colaterais

    22/03/2025

    Descubra os Segredos dos 6 Melhores Sósias do Cloud Couch que Estão Mudando o Jogo da Decoração!

    30/03/2025

    Cerca de 40 dias depois da morte do bebê esquecido no veículo, mãe comenta sobre vínculo com proprietária da creche.

    30/03/2025

    Herpes genital durante a gravidez: riscos, o que fazer e como tratar

    20/03/2025

    Fique por dentro das últimas notícias de Goiânia e região no Diário de Goiânia. Informações atualizadas sobre política, economia, cultura, esportes e muito mais!

    Posts Recentes

    Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

    25/05/2025

    Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

    25/05/2025
    Diversos

    O que fazer na infecção intestinal: 6 opções de tratamento recomendadas

    10/03/2025

    Os Segredos Ocultos por Trás da Limpeza Perfeita dos Lençóis!

    02/04/2025
    © 2025 Diário de Goiânia. Todos os Direitos Reservados
    • Home
    • Contato
    • Politica de Privacidade
    • Termos de Uso

    Type above and press Enter to search. Press Esc to cancel.