Bbabo NET

Wissenschaft & Technologie Nachrichten

iQIYI veranstaltet die M2VOC-Herausforderung mit 6 Beiträgen, die in ICASSP2021 enthalten sind

iQIYI Inc. (NASDAQ: IQ) („iQIYI“ oder das „Unternehmen“), ein innovatives, marktführendes Online-Entertainment-Unternehmen in China.

iQIYI Inc. freut sich bekannt zu geben, dass sein Multi-Speaker , Multi-Style, Voice Cloning Challenge („M2VoC“ oder „die Challenge“) wurde diese Woche erfolgreich abgeschlossen und die Ergebnisse wurden auf der 2021 International Conference on Acoustics, Speech, & Signal Processing (ICASSP2021) bekannt gegeben.

M2VoC, eine ICASSP2021 Signal Processing Grand Challenge, die darauf abzielt, einen gemeinsamen großen Datensatz und eine faire Testumgebung für das Benchmarking von Sprachklonierungsaufgaben bereitzustellen. Die Flaggschiff-Herausforderung zog Forscher aus Wissenschaft und Industrie an. Angesichts der jüngsten Fortschritte beim Transferlernen, der Stilübertragung, der Einbettung von Sprechern und der Faktorentflechtung – die alle potenzielle Lösungen für das Klonen von Stimmen mit geringen Ressourcen vorwegnehmen – freute sich iQIYI, sich mit anderen führenden Organisationen zusammenzuschließen, um M2VoC zu hosten.

An der Challenge nahmen 153 Teams aus akademischen Einrichtungen und Internetunternehmen teil. Zu den vertretenen akademischen Einrichtungen gehörten unter anderem die Peking University, die Tsinghua University, die National Taiwan University, die University of Crete, das Institute of Automation of the Chinese Academy of Sciences, die University of Tsukuba, die Nagoya University, die Fudan University und die Chinese University of Hong Kong Andere. Auch führende Internetunternehmen wie Huya, Microsoft, Didi Chuxing, Tencent und Netease stellten unter anderem eigene Teams.

Das M2VoC hatte zwei Haupttracks, einen für Teams, die mit limitierten Samples arbeiten, und einen für sehr limitierte Samples. Im limitierten Sample-Track wurden jedem Team 100 verfügbare Trainings-Samples mit jeweils einem anderen Sprechstil zur Verfügung gestellt. In der sehr begrenzten Probestrecke wurden jedem Team nur fünf Trainingsproben unterschiedlicher Sprechstile zur Verfügung gestellt. Die Organisatoren stellten den Teilnehmern auch zwei Basisdatensätze zur Verfügung, die für den Aufbau von Basistrainingsmodellen verwendet werden sollten. Schließlich bewertete eine Expertenjury die Ergebnisse nach vier Kriterien: Ähnlichkeit mit der ursprünglichen Sprache, Stimmqualität, Stil und Ausdruckskraft sowie Aussprachegenauigkeit.

Als weltweit erste Multi-Speaker Multi-Style Voice Cloning Challenge brachte M2VoC führende Teams aus Industrie und Wissenschaft zusammen, die auf dem neuesten Stand der Voice-Cloning-Technologie sind. Insgesamt wurden 18 verwandte Papiere in die Challenge aufgenommen, darunter 6 Papiere in ICASSP2021.

Die teilnehmenden Teams erzielten bemerkenswerte Ergebnisse in verschiedenen Bereichen, darunter akustische Modellierung, Sprecherdarstellung, Vocoding und Sprecheranpassungsstrategie. Ihre innovativen Lösungen können in vielen Szenarien eingesetzt werden, darunter Internetradio, UGC-Synchronisation, Hörbücher und stilisierte Sprachsynthese. Diese Fortschritte sind gut positioniert, um die ständig wachsenden Anforderungen an die Sprachanpassung zu erfüllen, insbesondere in Szenarien mit mehreren Sprachstilen und geringer Qualität.

Der M2VoC demonstrierte die hervorragende Leistung aktueller Techniken zum Klonen von Sprache. Die Challenge zeigte auch, dass das Klonen von Sprache auf der Grundlage begrenzter Stichproben mit den Fortschritten beim Deep Learning wettbewerbsfähige Ergebnisse liefern könnte, aber das Klonen von Sprache auf der Grundlage einer einzelnen Stichprobe bleibt eine ungelöste Herausforderung. In realen Szenarien, die Sprachklonierungsanwendungen erfordern, sind die Auswirkungen von Audio mit geringer Qualität (verrauscht) sowie die Zeit-/Kostenbeschränkungen für Training/Anpassung/Inferenz ebenfalls zu berücksichtigende Schlüsselfaktoren.

Durch die Ausrichtung der Challenge hofft iQIYI, mehr Möglichkeiten zur Erforschung von Spitzentechnologien wie Sprachklonen und Spracherkennung zu bieten, die Anwendung von KI-Technologien zu erweitern und neue Entwicklungsmöglichkeiten für die audiovisuelle Industrie zu eröffnen.

iQIYI veranstaltet die M2VOC-Herausforderung mit 6 Beiträgen, die in ICASSP2021 enthalten sind