Bbabo NET

Наука & Технологии Новини

iQIYI е домакин на предизвикателство M2VOC с 6 доклада, включени в ICASSP2021

M2VoC, голямо предизвикателство за обработка на сигнали ICASSP2021, насочено към предоставяне на общ масивен набор от данни и справедливо тестово поле за сравнителен анализ на задачи за клониране на глас. Водещото предизвикателство привлече изследователи както от академичните среди, така и от индустрията. В светлината на последните постижения в трансферното обучение, прехвърлянето на стил, вграждането на високоговорители и разплитането на фактори – всичко това предвещава потенциални решения за клониране на глас с ниски ресурси – iQIYI беше развълнуван да обедини усилията си с други водещи организации за хостване на M2VoC.

Предизвикателството привлече 153 отбора от академични институции и интернет компании. Представените академични институции включват Пекинския университет, Университета Цинхуа, Националния тайвански университет, Критския университет, Института по автоматизация на Китайската академия на науките, Университета в Цукуба, Университета Нагоя, Университета Фудан и Китайския университет в Хонг Конг, сред други. Водещи интернет компании, включително Huya, Microsoft, Didi Chuxing, Tencent и Netease, наред с други, също представиха свои собствени екипи.

M2VoC имаше две основни песни, включително една за екипи, работещи от ограничени проби и една за много ограничени проби. В пистата с ограничени проби всеки екип получи 100 налични обучителни проби, всяка с различен стил на говорене. В много ограничената серия от проби всеки екип получи само пет обучителни проби с различни стилове на говорене. Организаторите също така предоставиха на участниците два базови набора от данни, които да се използват за изграждане на основни модели на обучение. В крайна сметка комисия от експертни съдии оцени резултатите според четири критерия: сходство с оригиналната реч, качество на гласа, стил и изразителност и точност на произношението.

Като първото в света предизвикателство за клониране на глас с множество високоговорители, M2VoC събра водещи екипи от индустрията и академичните среди в най-новата технология за клониране на глас. Общо 18 свързани доклада бяха включени в Предизвикателството, сред които 6 доклада бяха включени в ICASSP2021.

Участващите екипи постигнаха забележителни резултати в различни области, включително акустично моделиране, представяне на говорителите, вокодиране и стратегия за адаптиране на говорителите. Техните иновативни решения могат да бъдат приложени в много сценарии, включително интернет радио, UGC дублаж, аудиокниги и стилизиран синтез на реч. Тези подобрения са в добра позиция, за да помогнат за посрещането на постоянно нарастващите нужди за персонализиране на гласа, особено в сценарии на говор с много стилове и ниско качество.

M2VoC демонстрира отличното представяне на настоящите техники за клониране на реч. Предизвикателството също така демонстрира, че с напредъка в дълбокото обучение, клонирането на реч въз основа на ограничени проби може да доведе до конкурентни резултати, но клонирането на реч въз основа на една извадка остава нерешено предизвикателство. В реални сценарии, които изискват приложения за клониране на реч, въздействието на нискокачественото (шумно) аудио, както и ограниченията във времето/разходите за обучение/адаптация/извод също са ключови фактори, които трябва да се вземат предвид.

Чрез хостинг на предизвикателството, iQIYI се надява да предостави повече възможности за изследване на авангардни технологии като клониране на глас и разпознаване на реч, като помага за разширяване на приложението на технологиите за изкуствен интелект и отваря нови възможности за развитие на аудио-визуалната индустрия.

iQIYI е домакин на предизвикателство M2VOC с 6 доклада, включени в ICASSP2021