Quando o ChatGPT apareceu, ele era um chatbot que respondia perguntas com texto. Às vezes, errava, mas já era possível fazer um bom uso dele. Desde então, a tecnologia de inteligência artificial (IA) evoluiu bastante. Agora, o sistema pode ver fotos e vídeos, ouvir as pessoas e até falar.
A próxima etapa é dar olhos e ouvidos à IA, para que observe o ambiente em tempo real. Já temos óculos inteligentes, como o modelo Ray-Ban Meta. Outras empresas, como o Google, também estão desenvolvendo produtos semelhantes. A Apple pode colocar câmeras nos AirPods para facilitar essa interação.
A verdadeira revolução vai acontecer quando a IA tiver um corpo, podendo estar fisicamente ao nosso redor e ajudar em tarefas do nosso dia a dia. Eu já tinha essa ideia faz tempo, pensando em robôs humanoides que pudessem ajudar em casa.
Recentemente, conheci um modelo de IA que permite que robôs vejam e entendam o espaço ao redor, mexendo em objetos que nunca foram programados para interagir. Esse modelo é chamado de Figure Helix Vision-Language-Action (VLA), voltado para a robótica.
O Google também anunciou dois novos modelos de robótica, que me impressionaram muito. Esses modelos estão alinhados com a tecnologia do VLA e ajudam robôs a entender comandos humanos, o que se passa ao redor e as tarefas que devem desempenhar.
Estamos apenas no começo da era da robótica com IA, e vai levar um tempo até que eu tenha um ajudante robô na minha casa. No entanto, o Google já está construindo a base para esse futuro.
O Google DeepMind lançou um post em seu blog e uma pesquisa apresentando os novos modelos de Gemini Robotics e Gemini Robotics-ER. Esses robôs foram desenvolvidos com a tecnologia Gemini 2.0, a mais avançada em IA generativa disponível atualmente.
O Gemini Robotics combina a tecnologia VLA com ações físicas para controlar robôs diretamente. O modelo Gemini Robotics-ER traz uma compreensão espacial avançada, permitindo que robôs rodem seus próprios programas utilizando habilidades denominadas “reasoning incorporado” (ER).
Por “reasoning incorporado”, o Google se refere à capacidade dos robôs de entender e reagir ao nosso ambiente de forma segura, semelhante à maneira como humanos fazem. O Google divulgou diversos vídeos mostrando robôs em ação, respondendo a comandos em linguagem natural, adaptando-se a cenários diversos.
A companhia resuma três princípios que guiavam o desenvolvimento do Gemini Robotics: generalidade, interatividade e destreza. Para ser útil, os modelos de IA precisam se adaptar a diferentes situações e responder rapidamente a comandos ou mudanças.
Os robôs podem reconhecer objetos na mesa e realizar tarefas em tempo real. Em um dos vídeos, um robô faz uma enterrada com uma mini bola de basquete quando solicitado. Essa capacidade demonstra a evolução da inteligência artificial voltada para a robótica.
Os robôs também conseguem se adaptar rapidamente a mudanças. Por exemplo, se um humano mudar a localização de uma cesta desejada, eles conseguem colocar as bananas na cesta correta mesmo assim. Outro exemplo é a habilidade de realizar tarefas de motricidade fina, como dobrar origami ou encher um saco plástico.
O modelo Gemini Robotics é compatível com diversos tipos de robôs, sejam plataformas robóticas com dois braços ou modelos humanoides. A tecnologia Gemini Robotics-ER melhora as habilidades existentes, adicionando a capacidade de raciocínio e detecção em 3D.
A tendência é que esses robôs consigam desenvolver novas habilidades rapidamente. Por exemplo, ao ver uma caneca de café, o modelo pode perceber como pegá-la da maneira mais segura. Esses avanços na robótica são muito empolgantes, mesmo que ainda demore para que estejam disponíveis comercialmente.
Se você está preocupado com a possibilidade de os robôs se tornarem uma ameaça, como em filmes, saiba que o Google criou uma “Constituição de Robôs”. Essa iniciativa visa garantir que robôs atuem de forma segura e não causem danos às pessoas.
A constituição é baseada nas Três Leis da Robótica de Isaac Asimov, sendo adaptada para criar um novo conjunto de normas que podem ser ajustadas usando instruções simples em linguagem natural. Isso permite que as pessoas criem e modifiquem regras para guiar o comportamento dos robôs, tornando-os mais seguros e alinhados com os valores humanos.
Com todo esse avanço na robótica e inteligência artificial, o futuro promete ser muito diferente do que temos hoje. A esperança é que essa tecnologia ajude no cotidiano das pessoas, tornando a vida mais prática e conveniente.