Bbabo NET

Artă Știri

Un corpus multilingv de imagini este în curs de dezvoltare la Institutul de Limbă Bulgară din cadrul Academiei Bulgare de Științe

Sofia, 11 februarie (bbabo.net)

Corpus multilingv cu imagini este dezvoltat de specialiști de la Departamentul de Lingvistică Computațională a Institutului de Limbă Bulgară „Profesorul Lubomir Andreychin” de la Academia Bulgară de Științe (BAS). El a fost reprezentat de Svetla Koeva de la institut, prezentând proiectul. Acest lucru s-a întâmplat în cadrul primului eveniment din Bulgaria de promovare a Rețelei Europene a Limbilor, care a avut loc astăzi online.

Koeva a spus că până acum au fost implicați în principal în procesarea textului, iar o parte din echipă s-au angajat în procesarea vorbirii de ceva timp. Acest proiect, care combină imagini, adnotări și alte texte scurte, a fost o provocare, a spus Koeva, adăugând că nu este încă finalizat, dar se apropie de final.

Corpul de imagini multilingv colectează imagini atent selectate care se află în zone legate tematic. În plus, imaginile trebuie să fie liber reutilizabile atât în ​​scopuri academice, cât și în afaceri, a explicat ea.

Koeva a remarcat că au dezvoltat o ontologie a obiectelor vizuale care permite o descriere suficient de completă și precisă a obiectelor care pot fi observate în imagini. Acest lucru a permis adnotarea obiectelor și să fie actualizate cu o descriere multilingvă în 25 de limbi, care arată diversitatea colecției în ceea ce privește diferite formate și suporturi.

Colecția de imagini adnotate poate fi folosită pentru recunoașterea automată a obiectelor din imagini, pentru clasificarea automată atât a obiectelor, cât și a imaginilor întregi și pentru așa-numita segmentare semantică (recunoașterea fiecărui obiect din aceeași clasă într-o imagine). Corpul poate fi folosit pentru a interpreta automat imagini, pentru a genera automat titluri pentru imagine, precum și pentru a pune întrebări și a obține răspunsuri adecvate pentru imagini.

Caracteristic colecției de imagini este că obiectele din ea sunt clasificate în mai multe clase - aproximativ 1.500, ceea ce reprezintă un pas serios înainte, a spus Koeva. Ea a remarcat că există multe colecții de imagini care sunt folosite pentru antrenamentul în modelele de recunoaștere a modelelor atât pentru imagini, cât și pentru obiectele, dar sunt de obicei concentrate pe un număr mic de clase.

Corpusul conține zeci de mii de imagini și sute de mii de adnotări ale obiectelor din ele. Acest lucru a fost realizat în mai puțin de un an de o echipă foarte mică de oameni, a spus Koeva.

Corpusul multilingv va fi disponibil pentru descărcare de pe platforma European Language Network la sfârșitul lunii februarie.

Scopul seminarului a fost de a prezenta platforma cu cea mai rapidă creștere pentru partajarea și diseminarea resurselor lingvistice, a programelor de procesare a limbii și a serviciilor de tehnologie lingvistică. Tehnologiile lingvistice, în special cele multilingve, pot ajuta la depășirea barierelor lingvistice și la realizarea unor îmbunătățiri semnificative în comerț, administrație, politică, comunicare și înțelegere interculturală. Rețeaua lingvistică europeană dezvoltă și implementează o platformă cloud care oferă acces ușor de integrat la sute de tehnologii lingvistice comerciale și gratuite pentru toate limbile europene, inclusiv instrumente și servicii de lucru, precum și colecții de date și resurse lingvistice.

Un corpus multilingv de imagini este în curs de dezvoltare la Institutul de Limbă Bulgară din cadrul Academiei Bulgare de Științe