
- Os robôs ainda falham rapidamente quando removidos de ambientes de fábrica previsíveis
- Microsoft Rho-alpha vincula a compreensão da linguagem diretamente ao controle de movimento robótico
- A detecção tátil é fundamental para reduzir as lacunas entre o software e a ação física
Há muito tempo que os robôs funcionam de forma confiável em ambientes industriais rigidamente controlados, com ambientes previsíveis e desvios limitados, mas, fora disso, muitas vezes enfrentam dificuldades.
Para amenizar esse problema, Microsoft anunciou Rho-alfao primeiro modelo de robótica derivado de sua série de linguagem de visão Phi, argumentando que os robôs precisam de melhores maneiras de ver e compreender as instruções
A empresa acredita que os sistemas podem operar além das linhas de montagem, respondendo às mudanças nas condições, em vez de seguir roteiros rígidos.
O que Rho-alpha foi projetado para fazer
A Microsoft vincula isso ao que é amplamente chamado de IA física, onde se espera que modelos de software guiem as máquinas em situações menos estruturadas.
Combina linguagem, percepção e ação, o que reduz a dependência de linhas de produção ou instruções fixas.
Rho-alpha traduz comandos de linguagem natural em sinais de controle robóticos e se concentra em tarefas de manipulação bimanual, que requerem coordenação entre dois braços robóticos e controle refinado.
A Microsoft caracteriza o sistema como uma extensão das abordagens típicas do VLA, expandindo tanto a percepção quanto as entradas de aprendizagem.
“O surgimento de modelos de visão-linguagem-ação (VLA) para sistemas físicos está permitindo que os sistemas percebam, raciocinem e atuem com autonomia crescente ao lado dos humanos em ambientes que são muito menos estruturados”, disse Ashley Llorens, vice-presidente corporativo e diretor administrativo do Microsoft Research Accelerator.
Rho-alpha inclui detecção tátil junto com a visão, com modalidades de detecção adicionais, como força, que é um desenvolvimento contínuo.
Estas escolhas de design sugerem uma tentativa de diminuir a lacuna entre a inteligência simulada e a interação física, embora a sua eficácia permaneça sob avaliação.
Uma parte central da abordagem da Microsoft depende da simulação para lidar com dados robóticos limitados em grande escala, especialmente dados que envolvem toque.
Trajetórias sintéticas são geradas por meio de aprendizagem por reforço dentro Nvidia Isaac Sim, então combinado com demonstrações físicas de conjuntos de dados comerciais e abertos.
“Treinar modelos básicos que possam raciocinar e agir requer a superação da escassez de dados diversos do mundo real”, disse Deepu Talla, vice-presidente de robótica e Edge AI da Nvidia.
“Ao aproveitar o NVIDIA Isaac Sim no Azure para gerar conjuntos de dados sintéticos fisicamente precisos, a Microsoft Research está acelerando o desenvolvimento de modelos versáteis como o Rho-alpha, que podem dominar tarefas complexas de manipulação.”
A Microsoft também enfatiza a contribuição corretiva humana durante a implantação, permitindo que os operadores intervenham usando dispositivos de teleoperação e forneçam feedback com o qual o sistema pode aprender ao longo do tempo.
Este ciclo de treinamento combina simulação, dados do mundo real e correção humana, refletindo uma dependência crescente de Ferramentas de IA para compensar os escassos conjuntos de dados incorporados.
O professor Abhishek Gupta, professor assistente da Universidade de Washington, disse: “Embora a geração de dados de treinamento por sistemas robóticos teleoperados tenha se tornado uma prática padrão, há muitos ambientes onde a teleoperação é impraticável ou impossível”.
“Estamos trabalhando com a Microsoft Research para enriquecer os conjuntos de dados de pré-treinamento coletados de robôs físicos com diversas demonstrações sintéticas usando uma combinação de simulação e aprendizado por reforço.”
Siga o TechRadar no Google Notícias e adicione-nos como fonte preferencial para receber notícias, análises e opiniões de especialistas em seus feeds. Certifique-se de clicar no botão Seguir!
E é claro que você também pode Siga o TechRadar no TikTok para notícias, análises, unboxings em formato de vídeo e receba atualizações regulares nossas em WhatsApp também.
