Uma equipa de cientistas coreanos desenvolveu um colar com Inteligência Artificial que permite falar sem emitir som.
O objetivo da investigação foi explorar uma abordagem avançada à tecnologia de interface de fala silenciosa (SSI), oferecendo uma solução para a comunicação em ambientes com muito ruído.
Num novo estudo, publicado o mês passado no Cyborg and Bionic Systems, a equipa de cientistas incorporou um sensor de deformação multiaxial vestível com inteligência para descodificar e reconstruir a fala sem depender do som.
Segundo o The Debrief, as tecnologias SSI existentes, tais como a eletroencefalografia (EEG), a eletromiografia de superfície (sEMG) e os sensores de deformação de eixo único, apresentam mais limitações do que o previsto, incluindo desconforto, captura limitada da fala e invasividade. No entanto, o novo sistema concebido pela Universidade de Pohang pretende reverter a situação.
No centro desta tecnologia está o sensor de Deformação Ótica Baseada em Visão Computacional (CVOS) incorporado num colar flexível. O sensor utiliza um substrato de silicone com micromarcadores de alto contraste, combinado com uma câmara miniatura, lente e iluminação LED.
Esta configuração permite-lhe rastrear com precisão tanto a magnitude como a direção dos movimentos dos músculos da garganta durante a fala. Ao contrário dos sensores convencionais, o CVOS capta mapas de deformação bidimensionais, permitindo uma representação mais abrangente da dinâmica muscular.
Sung-Min Park / Pohang University of Science and Technology

O novo sistema consiste num sensor de deformação multiaxial fiável com capacidades adaptativas de descodificação e reconstrução de fala em tempo real
A equipa de investigadores refere que o sensor apresenta um desempenho excecional, com um fator de calibração de 3.625, histerese mínima e forte linearidade. É capaz de detetar deformações extremamente pequenas e mantém-se estável ao longo de mais de 10.000 ciclos de utilização.
Além disso, a tecnologia mantém a precisão em ambientes com níveis de ruído até 90 decibéis, tornando-a adequada para aplicações no mundo real.
Os dados são processados através de um pipeline impulsionado por IA, concebido para uma descodificação rápida e precisa da fala. Esta abordagem permite o reconhecimento tanto de movimentos musculares localizados como de padrões de fala mais amplos no utilizador.
Uma das características mais importantes do sistema é a sua capacidade de reconstruir a voz única de um utilizador utilizando poucos dados de treino — aproximadamente 10 minutos de fala gravada.
O sistema atingiu 85% de precisão em condições controladas e manteve um desempenho consistente em ambientes ruidosos, mesmo em cenários de alta intensidade, como disparos de espingarda. Também consegue tirar partido de dados de treino mínimos através de técnicas de afinação rápida.
Para além das aplicações industriais e militares, a tecnologia revela um forte potencial na área da saúde e oferece um método de comunicação não invasivo para indivíduos com deficiências da fala, incluindo aqueles que foram submetidos a procedimentos de laringectomia.
Por fim, os trabalhos seguintes terão como objetivo expandir o vocabulário do sistema, melhorar a resistência a artefactos relacionados com o movimento e desenvolver um design mais refinado e vestível.
(Soraia Ferreira, ZAP)
