IA ajuda robôs domésticos a reduzir pela metade o tempo de planejamento
LarLar > Notícias > IA ajuda robôs domésticos a reduzir pela metade o tempo de planejamento

IA ajuda robôs domésticos a reduzir pela metade o tempo de planejamento

Jul 21, 2023

Imagem anterior Próxima imagem

Seu novo robô doméstico é entregue em sua casa e você pede que ele prepare uma xícara de café. Embora conheça algumas habilidades básicas de práticas anteriores em cozinhas simuladas, há muitas ações que ele poderia realizar – abrir a torneira, dar descarga, esvaziar o recipiente de farinha e assim por diante. Mas há um pequeno número de ações que poderiam ser úteis. Como o robô descobrirá quais etapas são sensatas em uma nova situação?

Poderia usar o PIGINet, um novo sistema que visa melhorar de forma eficiente as capacidades de resolução de problemas dos robôs domésticos. Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT estão usando o aprendizado de máquina para reduzir o típico processo iterativo de planejamento de tarefas que considera todas as ações possíveis. O PIGINet elimina planos de tarefas que não atendem aos requisitos livres de colisões e reduz o tempo de planejamento em 50 a 80 por cento quando treinado em apenas 300 a 500 problemas.

Normalmente, os robôs tentam vários planos de tarefas e refinam iterativamente os seus movimentos até encontrarem uma solução viável, o que pode ser ineficiente e demorado, especialmente quando existem obstáculos móveis e articulados. Talvez depois de cozinhar, por exemplo, você queira colocar todos os molhos no armário. Esse problema pode levar de duas a oito etapas, dependendo da aparência do mundo naquele momento. O robô precisa abrir várias portas do gabinete ou há algum obstáculo dentro do gabinete que precise ser realocado para liberar espaço? Você não quer que seu robô seja irritantemente lento – e será pior se ele queimar o jantar enquanto pensa.

Os robôs domésticos são geralmente considerados como seguindo receitas predefinidas para a execução de tarefas, o que nem sempre é adequado para ambientes diversos ou em mudança. Então, como o PIGINet evita essas regras predefinidas? PIGINet é uma rede neural que absorve “Planos, Imagens, Objetivos e Fatos Iniciais” e, em seguida, prevê a probabilidade de que um plano de tarefa possa ser refinado para encontrar planos de movimento viáveis. Em termos simples, utiliza um codificador transformador, um modelo versátil e de última geração projetado para operar em sequências de dados. A sequência de entrada, neste caso, são informações sobre qual plano de tarefa está sendo considerado, imagens do ambiente e codificações simbólicas do estado inicial e do objetivo desejado. O codificador combina os planos de tarefas, imagem e texto para gerar uma previsão quanto à viabilidade do plano de tarefas selecionado.

Mantendo as coisas na cozinha, a equipe criou centenas de ambientes simulados, cada um com layouts diferentes e tarefas específicas que exigem que os objetos sejam reorganizados entre balcões, geladeiras, armários, pias e panelas. Ao medir o tempo necessário para resolver problemas, eles compararam o PIGINet com abordagens anteriores. Um plano de tarefas correto pode incluir abrir a porta esquerda da geladeira, remover a tampa da panela, mover o repolho da panela para a geladeira, mover uma batata para a geladeira, pegar a garrafa da pia, colocar a garrafa na pia, pegar o tomate, ou colocar o tomate. A PIGINet reduziu significativamente o tempo de planejamento em 80% em cenários mais simples e de 20 a 50% em cenários mais complexos que possuem sequências de planejamento mais longas e menos dados de treinamento.

“Sistemas como o PIGINet, que utilizam o poder dos métodos baseados em dados para lidar com casos familiares de forma eficiente, mas ainda podem recorrer a métodos de planejamento de “primeiros princípios” para verificar sugestões baseadas em aprendizagem e resolver novos problemas, oferecem o melhor de ambos mundos, fornecendo soluções confiáveis ​​​​e eficientes de uso geral para uma ampla variedade de problemas”, diz Leslie Pack Kaelbling, professora do MIT e pesquisadora principal do CSAIL. O uso de embeddings multimodais da PIGINet na sequência de entrada permitiu uma melhor representação e compreensão de relações geométricas complexas. O uso de dados de imagem ajudou o modelo a compreender arranjos espaciais e configurações de objetos sem conhecer as malhas 3D do objeto para verificação precisa de colisões, permitindo uma tomada de decisão rápida em diferentes ambientes.