OpenAI lançou recentemente dois modelos novos e potentes de raciocínio que tornam o ChatGPT ainda mais impressionante. Esses modelos se chamam o3 e o4-mini, e você pode testá-los agora mesmo. Eles são muito melhores em raciocínio do que as versões anteriores e prometem se destacar em programação e matemática, caso esses sejam seus interesses.
Uma das habilidades mais legais desses novos modelos é a sua capacidade de interpretar dados em imagens. É como se o ChatGPT tivesse visão computacional, igual nos filmes, permitindo que o AI extraia informações de localização a partir de fotos. Uma pergunta simples como “Onde foi tirada esta foto?” rende respostas bem interessantes.
Ao testar o ChatGPT o3 e o4-mini, eu queria ver se eles conseguiriam reconhecer um lugar que eu criei de forma artificial. Para isso, usei a geração de imagens do GPT-4o para criar uma foto realista de uma famosa estação de esqui nos Alpes, ao invés de usar uma foto real. Depois, pedi ao ChatGPT para alterar a imagem de maneira a mudar o horizonte.
Iniciei novos chats com o3 e o4-mini, numa expectativa de que eles identificariam a localização na foto falsa. Não me decepcionei; ambos os modelos conseguiram gerar a resposta esperada, provando que é possível enganar um AI com conteúdo gerado por outro AI. Mas, mesmo assim, fiquei impressionado.
Recentemente, comentei sobre as falhas que encontrei nos algoritmos do Apple Watch enquanto esquiava, e isso me inspirou para meu experimento de enganar o AI. Pedi ao ChatGPT para criar uma imagem do famoso pico Matterhorn em um dia ensolarado, com esquiadores se divertindo. A imagem deveria ter uma proporção de 16:9, imitando uma foto tirada por iPhone.
Eu pedi para o AI adicionar uma gondola na imagem. Porém, na primeira tentativa, a gondola não estava no ponto. Não fazia diferença, pois eu só precisava daquela imagem inicial para poder modificá-la. Em seguida, pedi ao ChatGPT para remover a gondola e adicionar um pico menor do Matterhorn à direita da imagem.
Tirei uma captura de tela da imagem para garantir que nenhum dado adicional fosse preservado, e depois transformei o arquivo em uma foto JPG. Com tudo pronto, subi a foto falsa do Matterhorn para o ChatGPT, tanto no o3 quanto no o4-mini, perguntando onde a imagem havia sido tirada e como eles chegaram a essa conclusão.
Ambos os modelos de IA identificaram o Matterhorn corretamente. Primeiro, no o3, recebi muitos detalhes sobre como “picos ao redor, como Dent Blanche e Weisshorn”, ajudaram na identificação. O AI parecia confiante, afirmando ter reconhecido esses picos.
Fiquei satisfeito em saber que consegui enganar o AI com uma foto falsa, e o mais incrível foi que o o3 demorou apenas 34 segundos para chegar a esse resultado. Fui ainda mais longe, pedi ao AI para desenhar círculos nos picos Dent Blanche e Weisshorn, e a maneira como o o3 trabalhou para identificar esses pontos me deixou fascinado.
O AI gastou quase seis minutos analisando a imagem. Ele continuava a buscar imagens na internet de regiões ao redor do Matterhorn para ajudar na identificação. A presença do mini Matterhorn na imagem artificial aparentemente confundiu o AI, mas ele não desistiu. O o3 estava tentando descrever as formas dos picos que deveria esperar ver.
Depois de muita análise, ele mesmo anotou a imagem, destacando as informações que poderia usar para identificar melhor os picos que pedi. Apesar da confusão causada pela imagem falsa, o o3 manteve a calma e continuou buscando o que era esperado.
O que mais me deixou impressionado foi a dedicação do AI, que não hesitou em dedicar tempo para resolver a questão. Se ele dedicou esse tempo todo para investigar uma foto falsa, certamente estaria disposto a fazer o mesmo em tarefas reais que envolvem informações complexas.
Tentei também o ChatGPT o4-mini, que ofereceu resultados impressionantes em tempo bem mais curto. O o4-mini levou apenas 15 segundos para analisar a imagem, identificando a foto como do Matterhorn com confiança. Ele também procurou dados on-line para corroborar sua análise.
Apesar de sua rapidez, o o4-mini não mencionou outros picos. Quando pedi para que identificasse os picos Dent Blanche e Weisshorn, ele foi rápido, mas cometeu alguns enganos. Não soube dizer que a foto era falsa, demonstrando que, mesmo com uma resposta rápida, o o4-mini tinha pontos a revisar.
Essas experiências revelaram algo importante. As gerações de imagens do GPT-4o podem ser facilmente manipuladas e enganar tanto pessoas quanto outras IAs. Com isso, fica claro que o o3 e o4-mini têm um talento incrível para analisar imagens.
A capacidade de encontrar informações em fotos será uma facilidade para esses modelos da OpenAI. Será necessário se atentar a questões de privacidade no futuro, já que essa tecnologia avança rapidamente. Por fim, o o3 demonstrou que leva a sério suas análises e usa um repertório extenso de ferramentas, como busca na web e manipulação de imagens, para resolver problemas.
Não tem como não perceber a velocidade impressionante do o4-mini! Mesmo que seja mais rápido, sua interpretação pode não ser tão precisa. É bom ficar alerta ao lidar com essa versão. Essa pesquisa mostrou que a inteligência artificial evoluiu de forma significativa, tornando-se ferramentas valiosas no nosso dia a dia.