Bbabo NET

Wetenschap & Technologie Nieuws

OpenAI opent de code voor fluisterspraakherkenningssysteem

OpenAI heeft de broncode voor het spraakherkenningssysteem Whisper gepubliceerd. De referentie-implementatiecode op basis van het PyTorch-framework en een reeks reeds getrainde modellen staan ​​open voor gebruik onder de MIT-licentie.

De ontwikkelaars beweren dat het systeem spraak in het Engels bijna als een persoon herkent.

Om het model te trainen, hebben we 680 duizend uur aan spraakgegevens gebruikt, verzameld uit verschillende collecties over verschillende onderwerpen en in verschillende talen (ongeveer een derde van het totale gegevensvolume).

Whisper kan geaccentueerde uitspraak correct waarnemen, achtergrondgeluiden herkennen, evenals technische termen en jargon. Het systeem is in staat om spraak van een willekeurige taal naar het Engels te vertalen en het verschijnen van spraak in de audiostream te detecteren.

OpenAI presenteerde twee modellen: voor Engels en meertalig, dat met name Russische, Oekraïense en Wit-Russische talen ondersteunt. Elk model is onderverdeeld in vijf opties, afhankelijk van de grootte en het aantal parameters. Het kleinste model is getraind op 39 miljoen parameters en vereist 1 GB videogeheugen, terwijl het grootste model is getraind op 1550 miljoen parameters en 10 GB videogeheugen nodig heeft.

Whisper draait op de Transformer neurale netwerkarchitectuur, die een encoder en een decoder bevat. De audio wordt opgedeeld in fragmenten van 30 seconden, die worden omgezet in een log-Mel-spectrogram en naar de encoder worden verzonden. De gegevens worden vervolgens naar een decoder gestuurd die de tekstuele weergave voorspelt.

Het wordt gemengd met speciale tokens die het in één algemeen model mogelijk maken om taken op te lossen zoals het bepalen van de taal, rekening houdend met de chronologie van de uitspraak van zinnen, het transcriberen van spraak in verschillende talen en het vertalen naar het Engels.

Een meer gedetailleerde analyse van Whisper is hier te lezen.

In juli opende OpenAI de toegang tot het DALL-E 2 neurale netwerk voor beeldvorming voor gebruikers op de wachtlijst. Tegelijkertijd introduceerde het bedrijf een gedeeltelijk betaald gebruik ervan onder het kredietsysteem.

OpenAI opent de code voor fluisterspraakherkenningssysteem