NEC utiliza IA generativa (LLM) e IA de reconhecimento de vídeo para gerar automaticamente texto explicativo a partir de vídeo

NEC utiliza IA generativa (LLM) e IA de reconhecimento de vídeo para gerar automaticamente texto explicativo a partir de vídeo

28 Visualizações
0

A NEC Corporation desenvolveu a primeira tecnologia a nível mundial que integra um modelo Large Language (LLM) de IA generativa e IA de reconhecimento de vídeo, de modo a produzir de forma automática vídeos mais curtos, com texto explicativo, a partir de vídeos longos.

Ao analisar vídeos de imagens de condução com esta tecnologia, é possível gerar automaticamente texto e vídeos mais curtos que explicam as circunstâncias de um acidente e como este ocorreu. Com base no texto e no vídeo, pode ser criado de forma automática um relatório de investigação do acidente, num formato adequado para pedidos de indemnização de seguros de não vida e instruções de segurança rodoviária. A NEC planeia disponibilizar uma versão experimental desta tecnologia em março de 2024.

Nos últimos anos, o vídeo tem sido cada vez mais utilizado para efeitos de gestão da segurança e eficiência operacional numa variedade de indústrias, incluindo transportes, logística, fabrico, construção e retalho. Contudo, é necessário alocar um grande número de horas para verificar manualmente vídeos longos e criar relatórios sobre potenciais acidentes e áreas a melhorar. Apesar de se ter tornado possível gerar um texto explicativo para imagens fixas através da IA generativa (imagem-para-texto), tem sido difícil aplicar essas tecnologias de imagem-para-texto a vídeos que contenham cenas complexas, constituídas por vários objetos e ambientes e que mudam ao longo do tempo.

Características da Tecnologia

  1. Encontrar cenas de forma eficiente e criar relatórios com maior rapidez

A combinação de IA de reconhecimento de vídeo e LLM permite compreender cada cena de um vídeo. Especificamente, mais de 100 algoritmos de IA de reconhecimento de vídeo são aplicados para reconhecer, de forma individual, os vários objetos e ambientes que compõem uma cena, tais como pessoas, carros, edifícios, animais, árvores e outros elementos naturais, e também o clima, assim como as alterações de todos esses elementos. Ao utilizar o LLM para analisar apenas os resultados do reconhecimento, os utilizadores podem encontrar a cena que procuram de forma mais eficiente do que ao analisar um vídeo inteiro, eliminando a necessidade de verificar repetidamente um vídeo.

  1. Interpretação exata do contexto do vídeo para gerar relatórios de qualidade pericial

Para melhorar a qualidade do texto gerado, o LLM é pré-ajustado utilizando amostras de vídeos de um domínio específico. Por exemplo, quando aplicado a vídeos de imagens de condução, vídeos relacionados com tráfego rodoviário são previamente analisados. Isto dá ao LLM a experiência necessária para compreender corretamente o que aconteceu no vídeo. Como resultado, é possível criar relatórios altamente fiáveis, ao mesmo tempo que se aborda a alucinação (*3), que tem sido um problema em termos de precisão da IA generativa.

  1. Gerar relatórios em segundos sem grandes recursos informáticos

Esta tecnologia pode criar um vídeo de uma cena desejada e um texto explicativo em poucos segundos a partir de um vídeo com mais de uma hora de duração. Para o conseguir, a NEC integrou um LLM compacto e de elevado desempenho e um sistema de leitura de dados de alta velocidade desenvolvido pela própria empresa.

Resultados de Validação

A NEC verificou esta tecnologia num caso de uso de criação de relatórios de investigação de acidentes a partir de vídeos de imagens de condução. Como resultado, ao automatizar a pesquisa de acidentes e as cenas que os causaram, bem como a criação de rascunhos de relatórios, que anteriormente eram feitos manualmente, o tempo necessário para criar os relatórios foi reduzido para metade.

Desenvolvimentos Futuros

Em março de 2024, a NEC planeia começar a disponibilizar uma versão experimental desta tecnologia a companhias de seguros de não vida e fabricantes de automóveis para apoiar a preparação de relatórios de investigação de acidentes e outros documentos que utilizem vídeos de imagens de condução.

No futuro, esta tecnologia será implementada em vários casos de uso, incluindo apoio à criação de registos de enfermagem e cuidados, apoio à criação de registos de trabalho em locais de fabrico e construção, criação de texto explicativo a ser aprendido por IA para condução autónoma, bem como recolha de conteúdo específico para vídeos de transmissão e criação de guiões de locução.

Sobre o autor

Fernando Costa

O Fernando é o diretor do InforGames. O seu primeiro computador foi o ZX Spectrum, e foi aqui que começou a interessar-se pelo mundo dos videojogos. Apesar de já ter jogado em várias plataformas, o PC continua a ser a sua plataforma de eleição. No que diz respeito a jogos, gosta de estratégia, corridas e luta.

O teu email não será publicado. Os campos de preenchimento obrigatório estão assinalados*

Este site utiliza o Akismet para reduzir spam. Fica a saber como são processados os dados dos comentários.