Вишејезички корпус са сликама развијају стручњаци са Одељења за рачунарску лингвистику Института за бугарски језик „Професор Лубомир Андрејчин“ при Бугарској академији наука (БАН). Представљајући пројекат представљала га је Светла Коева из института. Ово се догодило током првог догађаја у Бугарској за промоцију Европске језичке мреже, који се данас одржао онлајн.
Коева је рекла да су се до сада углавном бавили обрадом текста, а део тима се већ неко време бави обрадом говора. Овај пројекат, који комбинује слике, анотације и друге кратке текстове, био је изазов, рекла је Коева и додала да још није завршен, али да се приводи крају.
Вишејезични корпус слика прикупља пажљиво одабране слике које се налазе у тематски повезаним областима. Поред тога, слике морају бити слободно поново употребљиве и у академске и у пословне сврхе, објаснила је она.
Коева је приметила да су развили онтологију визуелних објеката која омогућава довољно потпун и тачан опис објеката који се могу посматрати на сликама. Ово је омогућило означавање објеката и надоградњу вишејезичним описом на 25 језика, што показује разноликост колекције у погледу различитих формата и медија.
Колекција анотираних слика може се користити за аутоматско препознавање објеката на сликама, за аутоматску класификацију и објеката и целих слика и за такозвану семантичку сегментацију (препознавање сваког објекта исте класе на слици). Тело се може користити за аутоматско тумачење слика, за аутоматско генерисање наслова за слику, као и за постављање питања и добијање одговарајућих одговора за слике.
Карактеристично за збирку слика је да су предмети у њој разврстани у много класа - око 1.500, што је озбиљан искорак, рекла је Коева. Она је напоменула да постоји много колекција слика које се користе за обуку модела за препознавање образаца и за слике и за објекте у њима, али су обично фокусиране на мали број часова.
Корпус садржи десетине хиљада слика и стотине хиљада напомена објеката у њима. То је за мање од годину дана постигао веома мали тим људи, рекла је Коева.
Вишејезични корпус биће доступан за преузимање са платформе Европске језичке мреже крајем фебруара.
Циљ семинара је био да се представи најбрже растућа платформа за дељење и ширење језичких ресурса, програма за обраду језика и услуга језичке технологије. Језичке технологије, посебно вишејезичне, могу помоћи да се превазиђу језичке баријере и да се учине значајна побољшања у трговини, администрацији, политици, комуникацији и међукултуралном разумевању. Европска језичка мрежа развија и имплементира платформу у облаку која омогућава лак за интеграцију приступ стотинама комерцијалних и бесплатних језичких технологија за све европске језике, укључујући радне алате и услуге, као и збирке језичких података и ресурса.
bbabo.Net