Como o S1 custou apenas $50 para ser desenvolvido

O DeepSeek R1 impressionou o mundo recentemente ao afirmar que poderia treinar uma inteligência artificial de raciocínio, chamada R1, tão boa quanto o ChatGPT, mas por um custo bem menor. Agora, qualquer um poderia criar poderosos modelos de IA com a combinação certa de inovações de software e hardware de boa qualidade. A pesquisa da DeepSeek mostrou que o foco não seria mais em hardware de alto nível, fazendo as ações de empresas de tecnologia, como a NVIDIA, despencarem.

No entanto, a situação é um pouco mais complicada. Apesar das inovações do software DeepSeek serem interessantes, elas não contam a história completa. Depois do lançamento do R1, descobrimos que a DeepSeek pode ter usado respostas do ChatGPT para treinar sua IA. A OpenAI acusou a empresa chinesa de distilar seus próprios modelos do ChatGPT. Além disso, surgiram evidências que sugerem que o DeepSeek realmente se baseou nas saídas do ChatGPT.

Esse tipo de estratégia indica que a DeepSeek conseguiu economizar nos custos de desenvolvimento ao aproveitar tecnologias de IA que já existem. Com essa informação, o mercado de ações recuperou boa parte das perdas que havia sofrido.

Agora, um experimento igualmente surpreendente foi conduzido por pesquisadores de Stanford e da Universidade de Washington. Eles treinavam uma IA de raciocínio chamada S1, que também é tão boa quanto o ChatGPT, por apenas R$ 250 em custos de computação, usando a mesma abordagem que a DeepSeek. Eles destilaram uma versão da Gemini e usaram uma IA de código aberto da China.

Os pesquisadores explicaram como tudo isso foi possível na pesquisa do S1, e pode ficar tranquilo, isso não deve causar novas quedas no mercado. O objetivo é mostrar que é possível treinar IAs de alto desempenho de maneira ainda mais barata, mas isso só acontece após a criação de IAs de ponta que possam ser usadas para destilação.

Os cientistas foram atrás do Google para usar o Gemini 2.0 Flash Thinking Experimental, uma IA já estabelecida, para gerar um conjunto de mil perguntas de raciocínio de alta qualidade. Os passos de raciocínio e as respostas foram usados para treinar o modelo s1-32B, que se baseou em um modelo open source da Alibaba.

Eles precisaram de menos de 30 minutos para treinar o S1 usando os dados da Gemini. Após o treinamento, o S1 já mostrava resultados bons em benchmarks de IA. Na verdade, o modelo superou o o1-preview em 27% em tarefas de matemática competitiva.

Um engenheiro de Stanford comentou que ele poderia alugar a computação necessária por cerca de R$ 100. Os pesquisadores também usaram várias inovações para treinar o modelo S1, ajudando a alcançar as habilidades do ChatGPT. Eles se concentraram em alocar mais recursos durante o raciocínio da IA, quando ela está formulando suas respostas.

Um aspecto importante é o uso de um token de “espera” durante o raciocínio, que ajuda o S1 a chegar a conclusões mais precisas. Esse truque do “espera” pode melhorar as respostas e ainda reduzir custos.

Embora a pesquisa do S1 provavelmente não cause tanto alvoroço quanto o DeepSeek R1, ela é igualmente relevante. Isso abre as portas para uma nova leva de modelos de IA que podem ser tão poderosos quanto ChatGPT, Gemini, DeepSeek e outros, mas sem custar tanto.

A questão do custo pode ser enganosa, pois o modelo usa uma destilação de uma IA mais avançada. Mesmo assim, esse avanço é significativo e pode ser aproveitado por outras empresas de IA.

O modelo S1 está disponível no GitHub. Essas inovações tecnológicas são importantes, e o que foi realizado mostra que é possível criar modelos de IA com um investimento menor, seguindo as referências de outras IAs já conhecidas e consolidadas.

A técnica do S1 pode ser tão importante quanto as ideias que a DeepSeek R1 trouxe para empresas como a Apple sobre como tornar a Apple Intelligence mais poderosa, mantendo o processamento no dispositivo.

Essas inovações não devem impedir que empresas líderes em IA continuem investindo em hardware de alto nível. É necessário ter boas máquinas para criar os próximos grandes modelos de IA em direção a uma inteligência geral. OpenAI, Google e outros nomes de peso na tecnologia irão continuar desenvolvendo melhores modelos que demandarão milhões de dólares para serem treinados.

Em contrapartida, grupos menores de pesquisa, como os que trabalharam no S1, encontrarão maneiras de ajustar essas IAs, adaptando-as para criar modelos superpoderosos que atendam a necessidades específicas. As possibilidades estão se expandindo e essa competição tem o potencial de trazer grandes melhorias para todos.

11 motivos para atualizar seu Mac para o macOS Sequoia agora mesmo

Meta Llama 2025: A Tsunami de IA de Código Aberto

6 recursos rumores para o Apple Watch SE 3

Este avanço chinês pode revolucionar os microprocessadores para sempre.

Estudo aponta que a IA ainda não está substituindo empregos nem melhorando salários.

Sensor de frequência cardíaca do Apple Watch Series 10 é um desastre

Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

Dhomini Revela Segredo Emocionante Para Carol e Desperta Suspeitas de Eliminação no Power Couple!

Descubra o Encanto Secreto por Trás de Júlia Anquier, a Filha de Débora Bloch que Surpreendeu ao Casar com uma Cantora!

Lenovo ThinkBook Flip e laptops Yoga Solar

Revelações Surpreendentes: O Que Realmente Aconteceu com Marrone Durante o Show em Goiânia?

10 principais causas de suor frio (e como agir)

Nova Realidade ou Ilusão? As Isenções de Tarifas que Podem Revolucionar o Setor de Tecnologia nos EUA!

Posts Recentes

Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

Diversos

Ex-Ministro Revela Segredo que Pode Transformar a Economia da Ucrânia Após a Guerra

Ação judicial contra golpistas fortalece poderes, afirma IAB

Como o S1 custou apenas $50 para ser desenvolvido

Posts Relacionados