Bbabo NET

Umetnost Novice

Večjezični korpus slik se razvija na Inštitutu za bolgarski jezik pri Bolgarski akademiji znanosti

Sofija, 11. februar (bbabo.net)

Večjezični korpus s slikami razvijajo strokovnjaki z Oddelka za računalniško jezikoslovje na Inštitutu za bolgarski jezik "Profesor Lubomir Andreychin" pri Bolgarski akademiji znanosti (BAS). Zastopala ga je Svetla Koeva z inštituta, ki je predstavila projekt. To se je zgodilo med prvim dogodkom v Bolgariji za promocijo Evropske jezikovne mreže, ki je potekal danes na spletu.

Koeva je povedala, da so se doslej ukvarjali predvsem z obdelavo besedil, del ekipe pa se je že nekaj časa ukvarjal z obdelavo govora. Ta projekt, ki združuje slike, komentarje in druga kratka besedila, je bil izziv, je dejala Koeva in dodala, da še ni končan, se pa izteka.

Večjezični slikovni korpus zbira skrbno izbrane slike, ki so na tematsko sorodnih področjih. Poleg tega morajo biti slike prosto ponovno uporabne tako v akademske kot poslovne namene, je pojasnila.

Koeva je opozoril, da so razvili ontologijo vizualnih objektov, ki omogoča dovolj popoln in natančen opis predmetov, ki jih je mogoče opaziti na slikah. To je omogočilo označevanje objektov in nadgradnjo z večjezičnim opisom v 25 jezikih, kar kaže na pestrost zbirke glede na različne formate in medije.

Zbirko označenih slik lahko uporabimo za samodejno prepoznavanje predmetov na slikah, za samodejno razvrščanje tako predmetov kot celotnih slik ter za tako imenovano pomensko segmentacijo (prepoznavanje vsakega predmeta istega razreda na sliki). Telo se lahko uporablja za samodejno interpretacijo slik, za samodejno ustvarjanje naslovov za sliko, kot tudi za postavljanje vprašanj in pridobivanje ustreznih odgovorov za slike.

Značilnost zbirke slik je, da so predmeti v njej razvrščeni v številne razrede - okoli 1500, kar je resen korak naprej, je dejala Koeva. Opozorila je, da obstaja veliko zbirk slik, ki se uporabljajo za usposabljanje v modelih za prepoznavanje vzorcev tako za slike kot za predmete v njih, vendar so običajno osredotočene na majhno število razredov.

Korpus vsebuje več deset tisoč slik in na stotine tisoč pripisov predmetov v njih. To je v manj kot letu dni uspelo zelo majhni ekipi ljudi, je dejala Koeva.

Večjezični korpus bo na voljo za prenos s platforme European Language Network konec februarja.

Namen seminarja je bil predstaviti najhitreje rastočo platformo za izmenjavo in širjenje jezikovnih virov, programov za obdelavo jezikov in storitev jezikovne tehnologije. Jezikovne tehnologije, zlasti večjezične, lahko pomagajo premagati jezikovne ovire in znatno izboljšajo trgovino, administracijo, politiko, komunikacijo in medkulturno razumevanje. European Language Network razvija in uvaja platformo v oblaku, ki omogoča enostaven za integracijo dostop do stotih komercialnih in brezplačnih jezikovnih tehnologij za vse evropske jezike, vključno z delovnimi orodji in storitvami ter zbirkami jezikovnih podatkov in virov.

Večjezični korpus slik se razvija na Inštitutu za bolgarski jezik pri Bolgarski akademiji znanosti