Uma equipa liderada por cientistas informáticos da Universidade de Maryland inventou um mecanismo de câmara que melhora a forma como os robôs vêem e reagem ao mundo que os rodeia.
Inspirado na forma como o olho humano funciona, o seu inovador sistema de câmara imita os pequenos movimentos involuntários utilizados pelo olho para manter uma visão clara e estável ao longo do tempo.
O protótipo e os testes da equipa da câmara – denominada Artificial Microsaccade-Enhanced Event Camera (AMI-EV) – foram detalhados num artigo publicado na revista Science Robotics em maio de 2024.
“As câmaras de eventos são uma tecnologia relativamente nova que permite seguir melhor os objectos em movimento do que as câmaras tradicionais, mas as câmaras de eventos actuais têm dificuldade em captar imagens nítidas e sem desfocagem quando há muito movimento envolvido”, afirmou o autor principal do artigo, Botao He, um estudante de doutoramento em ciências da computação na UMD. “É um grande problema porque os robôs e muitas outras tecnologias – como os carros autónomos – dependem de imagens precisas e atempadas para reagir correctamente a um ambiente em mudança. Por isso, perguntámo-nos: Como é que os humanos e os animais garantem que a sua visão se mantém focada num objecto em movimento?”
Para a equipa de He, a resposta foi dada pelos microssacádicos, movimentos oculares pequenos e rápidos que ocorrem involuntariamente quando uma pessoa tenta focar a sua visão. Através destes movimentos minúsculos, mas contínuos, o olho humano consegue manter a concentração num objecto e nas suas texturas visuais – como a cor, a profundidade e a sombra – com precisão ao longo do tempo.
“Pensámos que, tal como os nossos olhos precisam destes pequenos movimentos para se manterem focados, uma câmara poderia utilizar um princípio semelhante para captar imagens nítidas e precisas sem desfocagem causada pelo movimento”, afirmou.
A equipa conseguiu reproduzir com êxito os movimentos microssacádicos inserindo um prisma rotativo no interior da AMI-EV para redireccionar os feixes de luz captados pela lente. O movimento rotacional contínuo do prisma simulou os movimentos que ocorrem naturalmente no olho humano, permitindo que a câmara estabilizasse as texturas de um objecto gravado, tal como um ser humano faria. A equipa desenvolveu então um software para compensar o movimento do prisma no AMI-EV, a fim de consolidar imagens estáveis a partir das luzes variáveis.
O co-autor do estudo, Yiannis Aloimonos, professor de ciências informáticas na UMD, considera a invenção da equipa como um grande passo em frente no domínio da visão robótica.
“Os nossos olhos tiram fotografias do mundo à nossa volta e essas fotografias são enviadas para o nosso cérebro, onde as imagens são analisadas. A percepção acontece através desse processo e é assim que compreendemos o mundo”, explicou Aloimonos, que é também director do Laboratório de Visão Computacional do Instituto de Estudos Avançados de Informática da Universidade de Maryland (UMIACS). “Quando se trabalha com robôs, substitui-se os olhos por uma câmara e o cérebro por um computador. Melhores câmaras significam melhor percepção e reacções para os robôs”.
Os investigadores acreditam também que a sua inovação poderá ter implicações significativas para além da robótica e da defesa nacional. Os cientistas que trabalham em indústrias que dependem da captura precisa de imagens e da detecção de formas estão constantemente à procura de formas de melhorar as suas câmaras – e o AMI-EV pode ser a solução chave para muitos dos problemas que enfrentam.
“Com as suas características únicas, os sensores de eventos e o AMI-EV estão preparados para ocupar um lugar central no reino dos usáveis inteligentes”, afirmou a investigadora Cornelia Fermüller, autora sénior do artigo. “Apresentam vantagens distintas em relação às câmaras clássicas, tais como um desempenho superior em condições de iluminação extremas, baixa latência e baixo consumo de energia. Estas características são ideais para aplicações de realidade virtual, por exemplo, onde é necessária uma experiência perfeita e a rápida computação dos movimentos da cabeça e do corpo.”
Nos primeiros testes, a AMI-EV foi capaz de captar e mostrar o movimento com precisão numa variedade de contextos, incluindo a detecção de pulsação humana e a identificação de formas em movimento rápido. Os investigadores descobriram também que o AMI-EV conseguia captar o movimento em dezenas de milhares de fotogramas por segundo, superando a maioria das câmaras comerciais normalmente disponíveis, que captam em média 30 a 1000 fotogramas por segundo. Esta representação mais suave e realista do movimento poderá revelar-se fundamental em tudo, desde a criação de experiências de realidade aumentada mais imersivas e de uma melhor monitorização da segurança até à melhoria da forma como os astrónomos captam imagens no espaço.
“O nosso novo sistema de câmaras pode resolver muitos problemas específicos, como ajudar um carro autónomo a perceber o que na estrada é um humano e o que não é”, disse Aloimonos. “Como resultado, tem muitas aplicações com as quais grande parte do público em geral já interage, como sistemas de condução autónoma ou mesmo câmaras de smartphones. Acreditamos que o nosso novo sistema de câmaras está a preparar o caminho para sistemas mais avançados e capazes que estão para vir”.
ALERT Life Sciences Computing, S.A.