Bbabo NET

Kunst Nieuws

Een meertalig corpus van afbeeldingen wordt ontwikkeld aan het Instituut voor Bulgaarse taal van de Bulgaarse Academie van Wetenschappen

Sofia, 11 februari (bbabo.net)

Meertalig corpus met afbeeldingen wordt ontwikkeld door specialisten van de afdeling Computerlinguïstiek van het Instituut voor Bulgaarse taal "Professor Lubomir Andreychin" aan de Bulgaarse Academie van Wetenschappen (BAS). Hij werd vertegenwoordigd door Svetla Koeva van het instituut, die het project presenteerde. Dit gebeurde tijdens het eerste evenement in Bulgarije ter promotie van het European Language Network, dat vandaag online plaatsvond.

Koeva zei dat ze tot nu toe voornamelijk bezig waren met tekstverwerking en dat een deel van het team al een tijdje bezig was met spraakverwerking. Dit project, dat afbeeldingen, annotaties en andere korte teksten combineert, was een uitdaging, zei Koeva, eraan toevoegend dat het nog niet voltooid is, maar ten einde loopt.

Het meertalige beeldcorpus verzamelt zorgvuldig geselecteerde beelden die zich in thematisch verwante gebieden bevinden. Bovendien moeten de afbeeldingen vrij herbruikbaar zijn voor zowel academische als zakelijke doeleinden, legt ze uit.

Koeva merkte op dat ze een ontologie van visuele objecten hebben ontwikkeld die een voldoende volledige en nauwkeurige beschrijving mogelijk maakt van de objecten die in de afbeeldingen kunnen worden waargenomen. Hierdoor konden de objecten worden geannoteerd en konden ze worden geüpgraded met een meertalige beschrijving in 25 talen, die de diversiteit van de collectie laat zien in termen van verschillende formaten en media.

De verzameling geannoteerde afbeeldingen kan worden gebruikt voor automatische herkenning van objecten in afbeeldingen, voor automatische classificatie van zowel objecten als hele afbeeldingen en voor zogenaamde semantische segmentatie (herkenning van elk object van dezelfde klasse in een afbeelding). De body kan worden gebruikt om afbeeldingen automatisch te interpreteren, om automatisch titels voor de afbeelding te genereren, maar ook om vragen te stellen en passende antwoorden op afbeeldingen te krijgen.

Kenmerkend voor de verzameling afbeeldingen is dat de objecten erin zijn ingedeeld in vele klassen - ongeveer 1.500, wat een serieuze stap voorwaarts is, zei Koeva. Ze merkte op dat er veel verzamelingen afbeeldingen zijn die worden gebruikt voor het trainen in patroonherkenningsmodellen voor zowel afbeeldingen als objecten erin, maar die meestal zijn gericht op een klein aantal klassen.

Het corpus bevat tienduizenden afbeeldingen en honderdduizenden annotaties van objecten erin. Dit is in minder dan een jaar bereikt door een heel klein team van mensen, zei Koeva.

Het meertalige corpus zal eind februari beschikbaar zijn om te downloaden van het European Language Network-platform.

Het doel van het seminar was om het snelst groeiende platform te presenteren voor het delen en verspreiden van taalbronnen, taalverwerkingsprogramma's en taaltechnologiediensten. Taaltechnologieën, met name meertalige, kunnen helpen om taalbarrières te overwinnen en aanzienlijke verbeteringen aan te brengen in handel, bestuur, politiek, communicatie en intercultureel begrip. Het European Language Network ontwikkelt en implementeert een cloudplatform dat eenvoudig te integreren toegang biedt tot honderden commerciële en gratis taaltechnologieën voor alle Europese talen, inclusief werkinstrumenten en -diensten, evenals verzamelingen van taalgegevens en -bronnen.

Een meertalig corpus van afbeeldingen wordt ontwikkeld aan het Instituut voor Bulgaarse taal van de Bulgaarse Academie van Wetenschappen