Fernando Costa
O seu primeiro PC foi um ZX Spectrum, apesar de já ter jogado em várias plataformas, o PC continua a ser o Favorito. Criador do InforGames.pt e fã de jogos de Corrida, estratégia e luta.
A NEC Corporation desenvolveu a primeira tecnologia a nível mundial que integra um modelo Large Language (LLM) de IA generativa e IA de reconhecimento de vídeo, de modo a produzir de forma automática vídeos mais curtos, com texto explicativo, a partir de vídeos longos.
Ao analisar vídeos de imagens de condução com esta tecnologia, é possível gerar automaticamente texto e vídeos mais curtos que explicam as circunstâncias de um acidente e como este ocorreu. Com base no texto e no vídeo, pode ser criado de forma automática um relatório de investigação do acidente, num formato adequado para pedidos de indemnização de seguros de não vida e instruções de segurança rodoviária. A NEC planeia disponibilizar uma versão experimental desta tecnologia em março de 2024.
Nos últimos anos, o vídeo tem sido cada vez mais utilizado para efeitos de gestão da segurança e eficiência operacional numa variedade de indústrias, incluindo transportes, logística, fabrico, construção e retalho. Contudo, é necessário alocar um grande número de horas para verificar manualmente vídeos longos e criar relatórios sobre potenciais acidentes e áreas a melhorar. Apesar de se ter tornado possível gerar um texto explicativo para imagens fixas através da IA generativa (imagem-para-texto), tem sido difícil aplicar essas tecnologias de imagem-para-texto a vídeos que contenham cenas complexas, constituídas por vários objetos e ambientes e que mudam ao longo do tempo.
Características da Tecnologia
A combinação de IA de reconhecimento de vídeo e LLM permite compreender cada cena de um vídeo. Especificamente, mais de 100 algoritmos de IA de reconhecimento de vídeo são aplicados para reconhecer, de forma individual, os vários objetos e ambientes que compõem uma cena, tais como pessoas, carros, edifícios, animais, árvores e outros elementos naturais, e também o clima, assim como as alterações de todos esses elementos. Ao utilizar o LLM para analisar apenas os resultados do reconhecimento, os utilizadores podem encontrar a cena que procuram de forma mais eficiente do que ao analisar um vídeo inteiro, eliminando a necessidade de verificar repetidamente um vídeo.
Para melhorar a qualidade do texto gerado, o LLM é pré-ajustado utilizando amostras de vídeos de um domínio específico. Por exemplo, quando aplicado a vídeos de imagens de condução, vídeos relacionados com tráfego rodoviário são previamente analisados. Isto dá ao LLM a experiência necessária para compreender corretamente o que aconteceu no vídeo. Como resultado, é possível criar relatórios altamente fiáveis, ao mesmo tempo que se aborda a alucinação (*3), que tem sido um problema em termos de precisão da IA generativa.
Esta tecnologia pode criar um vídeo de uma cena desejada e um texto explicativo em poucos segundos a partir de um vídeo com mais de uma hora de duração. Para o conseguir, a NEC integrou um LLM compacto e de elevado desempenho e um sistema de leitura de dados de alta velocidade desenvolvido pela própria empresa.
Resultados de Validação
A NEC verificou esta tecnologia num caso de uso de criação de relatórios de investigação de acidentes a partir de vídeos de imagens de condução. Como resultado, ao automatizar a pesquisa de acidentes e as cenas que os causaram, bem como a criação de rascunhos de relatórios, que anteriormente eram feitos manualmente, o tempo necessário para criar os relatórios foi reduzido para metade.
Desenvolvimentos Futuros
Em março de 2024, a NEC planeia começar a disponibilizar uma versão experimental desta tecnologia a companhias de seguros de não vida e fabricantes de automóveis para apoiar a preparação de relatórios de investigação de acidentes e outros documentos que utilizem vídeos de imagens de condução.
No futuro, esta tecnologia será implementada em vários casos de uso, incluindo apoio à criação de registos de enfermagem e cuidados, apoio à criação de registos de trabalho em locais de fabrico e construção, criação de texto explicativo a ser aprendido por IA para condução autónoma, bem como recolha de conteúdo específico para vídeos de transmissão e criação de guiões de locução.
O seu primeiro PC foi um ZX Spectrum, apesar de já ter jogado em várias plataformas, o PC continua a ser o Favorito. Criador do InforGames.pt e fã de jogos de Corrida, estratégia e luta.
O InforGames é uma plataforma digital portuguesa dedicada ao universo dos videojogos, tecnologia e entretenimento digital. Criado por entusiastas para entusiastas, o objetivo é informar, inspirar e envolver uma comunidade cada vez mais apaixonada por este ecossistema em constante evolução.
Contacto: [email protected]