
Unicamp avança com avatares para comunicação em Libras
Oprofessor José Mario De Martino gosta de dizer que, assim como nenhum carro nasce Ferrari, toda pesquisa é um processo em evolução. Docente da Faculdade de Engenharia Elétrica e de Computação (Feec) da Unicamp, o pesquisador passou os últimos 20 anos desenvolvendo projetos de criação de avatares — personagens virtuais em 3D — para a tradução em Libras, a língua brasileira de sinais. Ao longo desse período, a capacidade de sua equipe de gerar avatares experimentou um salto qualitativo, obtendo modelos capazes de, entre outras tarefas, traduzir textos em português e reconhecer a língua de sinais. Apesar desses avanços, o docente permanece modesto e sugere que o projeto ainda se assemelha a um Ford T: possui funcionalidades básicas, mas com espaço para aperfeiçoamento.
“Nós apostamos no realismo do avatar, mas isso ainda permite avanços”, explica De Martino, destacando ser esse, na verdade, o aspecto mais maduro da iniciativa. De acordo com o pesquisador, o maior desafio do projeto está na tradução de mensagens em Libras, uma língua visuoespacial, para um idioma escrito ou falado — ou dessa língua falada para Libras —, visto que a comunicação por sinais tem uma estrutura gramatical diferente da oral. “Em Libras, aspectos como expressões faciais e movimentos dos olhos e da cabeça influenciam o que se quer dizer. E há também outros recursos empregados na língua de sinais que precisam ser considerados no processo de tradução. Um caso particular disso são os classificadores — movimentos e configurações das mãos que podem descrever o tamanho e a forma de um ser ou objeto”, diz.
O uso de classificadores ocorre, por exemplo, no emprego de sinais distintos para as expressões “abrir um livro” e “abrir a janela”. No primeiro caso, a pessoa junta as palmas das mãos e depois as separa em um movimento similar ao de abrir um livro, enquanto, no segundo, a pessoa estica os braços para a frente com os punhos fechados e, em seguida, os afasta, em um movimento parecido ao de empurrar as janelas para o lado de fora da casa. Dessa forma, falar em abrir um livro ou uma janela em Libras não se resume a usar o sinal de “abrir” junto com os sinais de “livro” ou “janela”, o que acrescenta uma dimensão de complexidade à tarefa de tradução.

Na tentativa de aprimorar as abordagens de tradução automática de avatares sinalizantes, De Martino, desde o ano passado, coordena o Centro de Ciência para o Desenvolvimento — Tecnologia Assistiva e Acessibilidade em Libras (CCD-Taal), uma parceria com a Secretaria de Estado dos Direitos da Pessoa com Deficiência (SEDPCD) financiada pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp). O projeto busca novas formas de usar a inteligência artificial na tradução automática Libras-português e português-Libras, avaliando a utilização de técnicas de computação gráfica, aprendizado de máquina e animação, bem como de processamento e análise de imagens e vídeos, para aperfeiçoar a leitura e a tradução da língua de sinais.
Além do professor, participam do grupo pesquisadores de áreas tão diversas quanto computação, linguística, estudos da tradução e educação. Entre esses figuram o docente Hélio Pedrini, do Instituto de Computação (IC) da Unicamp, o fonoaudiólogo Felipe Barbosa, professor do Departamento de Linguística da Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH) da Universidade de São Paulo (USP), o pesquisador Vagner Luiz Gava, do Instituto de Pesquisas Tecnológicas (IPT) de São Paulo, o linguista Marcus Vinicius Nascimento, professor da Universidade Federal de São Paulo (Unifesp), e a docente Sylvia Grespan, da Faculdade de Educação da USP.
A meta, ao final, é construir um recurso capaz de oferecer suporte às pessoas surdas em seu dia a dia, o que inclui tecnologias para atender às demandas das secretarias estaduais no que se refere à saúde, à educação e aos direitos da pessoa com deficiência. “Seria interessante oferecer avatares para alunos surdos que frequentam a mesma escola que os oralizados e que são expostos ao mesmo material didático escrito. Os ouvintes, quando chegam à escola, já sabem o idioma. O surdo, não. Para ele, aprender português na escola significa o mesmo que aprender japonês olhando apenas os ideogramas. Então, seria importante e útil oferecer uma ferramenta com a qual essa pessoa consiga traduzir os livros para a sua língua de conforto”, afirma De Martino.
Uma tentativa inicial de tradução de livros realizada pela pedagoga Débora Gonçalves Dias, que é surda, obteve resultados promissores. Em 2018, a pesquisadora defendeu um mestrado na Faculdade de Ciências Médicas (FCM) da Unicamp, com orientação do professor De Martino e da professora Ivani Rodrigues Silva, do curso de fonoaudiologia, em que avaliou a aceitação do avatar como tradutor, para Libras, de textos didáticos sobre ciência escritos em português. Envolvendo estudantes do quinto ano de uma escola de Londrina (PR), o estudo demonstrou que esses estudantes conseguiram realizar os experimentos com o apoio do avatar atingindo o mesmo sucesso de experimentos realizados com o auxílio de intérpretes humanos.
À época, a tecnologia ainda não havia incorporado as expressões faciais e corporais próprias da língua de sinais, algo aprimorado no avatar disponível atualmente. Para tornar os movimentos das mãos, do tronco e do rosto do personagem virtual mais fiéis, a equipe utiliza na animação do avatar imagens produzidas nos estúdios do Laboratório Galileu da Unicamp, sob a coordenação de De Martino, por meio de um sistema de captura de movimentos corporais e faciais. “No nosso projeto, hoje, nós temos três pessoas surdas trabalhando, uma professora e duas alunas, que fornecem o aspecto mais importante, os dados para o desenvolvimento das abordagens de tradução automática e de controle do avatar”, conta o docente.



Acessibilidade no transporte
Os avanços no desenvolvimento do avatar propiciaram uma parceria do CCD-Taal com a Universidade Técnica de Ingolstadt (Alemanha), por meio do centro Aware (rede aplicada em pesquisa e educação automotiva, na sigla em inglês), da universidade europeia, um órgão voltado a pesquisas em conjunto com parceiros da América Latina. O projeto Unity (sigla em inglês para aperfeiçoamento da acessibilidade de pessoas surdas em sistemas de transporte multimodais), financiado pela Fapesp e pelo Instituto Aimotion Bavaria, da universidade alemã, pretende unir os conhecimentos de cada instituição a fim de integrar os avatares realistas a meios de transporte público. Os pesquisadores buscam, assim, facilitar a comunicação entre os passageiros surdos e os condutores dos veículos ou os representantes do sistema de mobilidade, usando sensores incorporados à central multimídia de carros, telas no banco traseiro ou mesmo aplicativos de smartphone.
O professor Alessandro Zimmer, docente da universidade europeia e um dos fundadores do Aware, conta que a instituição foca bastante a área de mobilidade porque a região onde se localiza possui muitas indústrias de tecnologia locomotiva, como a Audi, a Airbus, a BMW e a Mercedes. De acordo com Zimmer, o centro nasceu após uma visita de membros da universidade alemã ao departamento de engenharia elétrica da Universidade Federal do Paraná (UFPR), o que resultou em um projeto conjunto, com financiamento do governo alemão e do governo do Estado da Baviera. Esse projeto, mais tarde, tornou-se um centro permanente responsável por manter em contato integrantes da universidade alemã e pesquisadores da América Latina.
O projeto Unity, no entanto, surgiu do interesse da Aware em realizar parcerias com a Fapesp, o que originou uma linha de financiamento hoje coordenada pela equipe de De Martino no Brasil e de Zimmer na Alemanha. Nesse contexto, caberá à universidade alemã oferecer a tecnologia de sensores internos do veículo, bem como o processamento de imagens por inteligência artificial, enquanto o CCD-Taal se responsabilizará pelas tecnologias de acessibilidade. “Nós começamos os trabalhos há pouco tempo e estamos oferecendo uma plataforma de desenvolvimento, um carro BMW X3 elétrico que dispõe de sensores já instalados dentro e fora do veículo, sensores esses capazes de capturar imagens e informações das pessoas em duas e três dimensões, para testar casos específicos”, afirma Zimmer.
Por se tratar de uma tecnologia a ser colocada dentro de veículos, o teste de sensores em casos específicos é relevante porque há o desafio de lidar com as câmeras em um espaço restrito, como táxis e carros de plataformas de mobilidade, dentro dos quais o movimento dos usuários pode bloquear a câmera dos dispositivos. Por isso, o projeto, com duração de dois anos, pretende testar a viabilidade de se instalar múltiplos tipos de sensores dentro de meios de transporte diversos para, então, conseguir financiamentos mais robustos visando aos próximos passos da pesquisa.
O laboratório alemão, entre suas linhas de ação, deseja criar algoritmos que incorporem a inteligência dos computadores aos sensores, permitindo o processamento das imagens capturadas no próprio dispositivo, sem a necessidade do suporte de um computador, algo ainda inviável levando em conta as tecnologias atuais. “A nossa ideia é adquirir a imagem em tempo real, processar os dados e devolver o resultado para o carro sem a necessidade de armazenar nada. Até porque, aqui na Europa, é complicado guardar fotos e informações de pessoas devido às leis de proteção geral de dados”, explica Zimmer.
Próximos passos
A proposta do Unity também inclui ampliar o escopo de tradução do avatar para o alemão e a língua alemã de sinais, além do próprio português e da Libras, o que acarreta outra complexidade por trazer desafios supratécnicos — que precisam ser trabalhados antes das questões técnicas. “Hoje, o desafio envolve quatro domínios: a língua de sinais brasileira, a língua de sinais alemã, o alemão e o português. Somado a isso, nós temos que lidar com quatro culturas diferentes, duas de comunidades surdas e duas de comunidades ouvintes”, explica De Martino, afirmando que, no futuro, se for possível criar algo generalizável, talvez seja possível estender a tradução para outros idiomas.
Um dos primeiros passos da pesquisa, no entanto, envolve o levantamento de informações junto à comunidade surda e junto aos linguistas, pois, por se tratar de um projeto de aprendizado de máquina, faz-se necessário um grande volume de dados para treinar o modelo. No final de agosto, uma equipe da Alemanha veio ao Brasil fazer capturas no Laboratório Galileu. Ao longo de quinze dias, a equipe registrou mais de 1,5 milhão de frames utilizando três tipos de sensores diferentes: o primeiro, de câmeras Flir RGB, que capturam imagens coloridas, obtendo informações mais detalhadas; o segundo, de câmeras time of flight (TOF), que obtêm imagens coloridas e em profundidade; e o terceiro, com a câmera de um tablet.
O experimento contou com três intérpretes diferentes, com cinco repetições, simulando um diálogo entre um passageiro surdo e um motorista de táxi e utilizando três veículos diferentes. Além disso, os cientistas registraram dados de movimento e geraram animações de avatar sinalizando 38 sentenças no papel do motorista. Com esses dados em mãos, o Unity iniciará os testes com modelos de aprendizado de máquina, verificando quais deles são mais eficientes para o processo de tradução e qual a melhor solução. “Esse é um projeto de dois anos. Então, não dá para esperar que vai sair uma Ferrari. Mas estamos evoluindo com nosso Ford T para ter algo robusto que alavanque projetos mais longos de pesquisa”, finaliza De Martino.
Comentários
Compartilhe esta notícia
Faça login para participar dos comentários
Fazer Login