Bbabo NET

Art Nyheter

En flerspråkig bildsamling håller på att utvecklas vid Institute of Bulgarian Language vid Bulgarian Academy of Sciences

Sofia, 11 februari (bbabo.net)

Flerspråkig korpus med bilder utvecklas av specialister från Institutionen för beräkningslingvistik vid Institutet för det bulgariska språket "Professor Lubomir Andreychin" vid Bulgarian Academy of Sciences (BAS). Han representerades av Svetla Koeva från institutet som presenterade projektet. Detta hände under det första evenemanget i Bulgarien för att marknadsföra European Language Network, som ägde rum online idag.

Koeva sa att de hittills huvudsakligen har varit engagerade i textbearbetning, och några av teamet har varit engagerade i talbearbetning under en tid. Detta projekt, som kombinerar bilder, kommentarer och andra korta texter, var en utmaning, sa Koeva och tillade att det inte är färdigt ännu, men närmar sig sitt slut.

Den flerspråkiga bildkorpusen samlar noga utvalda bilder som finns inom tematiskt relaterade områden. Dessutom ska bilderna vara fritt återanvändbara för både akademiska och affärsmässiga ändamål, förklarade hon.

Koeva noterade att de har utvecklat en ontologi av visuella objekt som tillåter en tillräckligt fullständig och korrekt beskrivning av de objekt som kan observeras i bilderna. Detta gjorde det möjligt att kommentera objekten och uppgraderas med en flerspråkig beskrivning på 25 språk, som visar samlingens mångfald när det gäller olika format och media.

Samlingen av kommenterade bilder kan användas för automatisk igenkänning av objekt i bilder, för automatisk klassificering av både objekt och hela bilder och för så kallad semantisk segmentering (igenkänning av varje objekt av samma klass i en bild). Kroppen kan användas för att automatiskt tolka bilder, för att automatiskt generera titlar till bilden, samt för att ställa frågor och få lämpliga svar på bilder.

Utmärkande för bildsamlingen är att föremålen i den klassificeras i många klasser – cirka 1 500, vilket är ett allvarligt steg framåt, sa Koeva. Hon noterade att det finns många bildsamlingar som används för träning i mönsterigenkänningsmodeller för både bilder och objekt i dem, men som vanligtvis är fokuserade på ett litet antal klasser.

Korpusen innehåller tiotusentals bilder och hundratusentals anteckningar av objekt i dem. Detta har uppnåtts på mindre än ett år av ett mycket litet team av människor, sa Koeva.

Den flerspråkiga korpusen kommer att finnas tillgänglig för nedladdning från European Language Network-plattformen i slutet av februari.

Syftet med seminariet var att presentera den snabbast växande plattformen för att dela och sprida språkresurser, språkbehandlingsprogram och språkteknologiska tjänster. Språkteknologier, särskilt flerspråkiga sådana, kan hjälpa till att övervinna språkbarriärer och göra betydande förbättringar inom handel, administration, politik, kommunikation och interkulturell förståelse. European Language Network utvecklar och implementerar en molnplattform som ger enkel att integrera åtkomst till hundratals kommersiella och gratis språkteknologier för alla europeiska språk, inklusive arbetsverktyg och tjänster, såväl som samlingar av språkdata och resurser.

En flerspråkig bildsamling håller på att utvecklas vid Institute of Bulgarian Language vid Bulgarian Academy of Sciences