Bbabo NET

Cultura & Arte Notícias

Um corpus multilíngue de imagens está sendo desenvolvido no Instituto de Língua Búlgara da Academia Búlgara de Ciências

Sofia, 11 de fevereiro (bbabo.net)

O corpus multilíngue com imagens está sendo desenvolvido por especialistas do Departamento de Linguística Computacional do Instituto de Língua Búlgara "Professor Lubomir Andreychin" da Academia Búlgara de Ciências (BAS). Ele foi representado por Svetla Koeva do instituto, apresentando o projeto. Isso aconteceu durante o primeiro evento na Bulgária para promover a European Language Network, que aconteceu hoje online.

Koeva disse que até agora eles estão envolvidos principalmente no processamento de texto, e alguns da equipe estão envolvidos no processamento de fala há algum tempo. Este projeto, que combina imagens, anotações e outros textos curtos, foi um desafio, disse Koeva, acrescentando que ainda não está concluído, mas está a chegar ao fim.

O corpus de imagens multilíngue coleta imagens cuidadosamente selecionadas que estão em áreas temáticas relacionadas. Além disso, as imagens devem ser livremente reutilizáveis ​​para fins acadêmicos e comerciais, explicou ela.

Koeva observou que eles desenvolveram uma ontologia de objetos visuais que permite uma descrição suficientemente completa e precisa dos objetos que podem ser observados nas imagens. Isso permitiu a anotação dos objetos e a atualização com uma descrição multilíngue em 25 idiomas, o que mostra a diversidade do acervo em diferentes formatos e mídias.

A coleção de imagens anotadas pode ser usada para reconhecimento automático de objetos em imagens, para classificação automática de objetos e imagens inteiras e para a chamada segmentação semântica (reconhecimento de cada objeto da mesma classe em uma imagem). O corpo pode ser usado para interpretar imagens automaticamente, para gerar títulos automaticamente para a imagem, bem como para fazer perguntas e obter respostas adequadas para as imagens.

A característica da coleção de imagens é que os objetos nela contidos são classificados em várias classes - cerca de 1.500, o que é um grande avanço, disse Koeva. Ela observou que existem muitas coleções de imagens que são usadas para treinamento em modelos de reconhecimento de padrões para imagens e objetos neles, mas geralmente são focadas em um pequeno número de classes.

O corpus contém dezenas de milhares de imagens e centenas de milhares de anotações de objetos nelas. Isso foi alcançado em menos de um ano por uma equipe muito pequena de pessoas, disse Koeva.

O corpus multilíngue estará disponível para download na plataforma da European Language Network no final de fevereiro.

O objetivo do seminário era apresentar a plataforma que mais cresce para compartilhar e divulgar recursos linguísticos, programas de processamento de idiomas e serviços de tecnologia linguística. As tecnologias linguísticas, especialmente as multilíngues, podem ajudar a superar as barreiras linguísticas e fazer melhorias significativas no comércio, administração, política, comunicação e compreensão intercultural. A European Language Network está desenvolvendo e implementando uma plataforma em nuvem que fornece acesso fácil de integrar a centenas de tecnologias linguísticas comerciais e gratuitas para todas as línguas europeias, incluindo ferramentas e serviços de trabalho, bem como coleções de dados e recursos linguísticos.

Um corpus multilíngue de imagens está sendo desenvolvido no Instituto de Língua Búlgara da Academia Búlgara de Ciências