Bbabo NET

Искусство Новости

В Институте болгарского языка Болгарской академии наук разрабатывается многоязычный корпус изображений.

София, 11 февраля (bbabo.net)

Многоязычный корпус с изображениями разрабатывается специалистами отдела компьютерной лингвистики Института болгарского языка имени профессора Любомира Андрейчина Болгарской академии наук (БАН). Его представляла Светлана Коева из института, представляющая проект. Это произошло во время первого мероприятия в Болгарии по продвижению Европейской языковой сети, которое состоялось сегодня онлайн.

Коева рассказала, что пока они в основном занимались обработкой текста, а часть команды какое-то время занималась обработкой речи. Этот проект, который сочетает в себе изображения, аннотации и другие короткие тексты, был вызовом, сказала Коева, добавив, что он еще не завершен, но подходит к концу.

Многоязычный корпус изображений собирает тщательно отобранные изображения, относящиеся к тематически связанным областям. Кроме того, изображения должны свободно использоваться повторно как в академических, так и в деловых целях, пояснила она.

Коева отметила, что ими разработана онтология визуальных объектов, позволяющая достаточно полно и точно описать объекты, которые можно наблюдать на изображениях. Это позволило аннотировать объекты и дополнить их многоязычным описанием на 25 языках, что показывает разнообразие коллекции с точки зрения различных форматов и носителей.

Коллекция аннотированных изображений может использоваться для автоматического распознавания объектов на изображениях, для автоматической классификации как объектов, так и целых изображений, а также для так называемой семантической сегментации (распознавание каждого объекта одного класса на изображении). Тело можно использовать для автоматической интерпретации изображений, для автоматической генерации заголовков для изображений, а также для того, чтобы задавать вопросы и получать соответствующие ответы для изображений.

Особенностью коллекции изображений является то, что объекты в ней разбиты на множество классов — около 1500, что является серьезным шагом вперед, — сказала Коева. Она отметила, что существует множество коллекций изображений, которые используются для обучения моделей распознавания образов как для изображений, так и для объектов в них, но обычно ориентированы на небольшое количество классов.

Корпус содержит десятки тысяч изображений и сотни тысяч аннотаций объектов в них. Это было достигнуто менее чем за год очень небольшой командой людей, сказала Коева.

Многоязычный корпус будет доступен для загрузки с платформы European Language Network в конце февраля.

Целью семинара было представить самую быстрорастущую платформу для обмена и распространения языковых ресурсов, программ языковой обработки и услуг языковых технологий. Языковые технологии, особенно многоязычные, могут помочь преодолеть языковые барьеры и добиться значительных улучшений в торговле, управлении, политике, общении и межкультурном взаимопонимании. Европейская языковая сеть разрабатывает и внедряет облачную платформу, которая обеспечивает простой в интеграции доступ к сотням коммерческих и бесплатных языковых технологий для всех европейских языков, включая рабочие инструменты и услуги, а также коллекции языковых данных и ресурсов.

В Институте болгарского языка Болгарской академии наук разрабатывается многоязычный корпус изображений.