De nieuwe Voice Engine van OpenAI kan stemmen nabootsen op basis van een videofragment van 15 seconden. De tool wordt getest door een beperkte groep en is nog niet algemeen beschikbaar.
OpenAI werkt sinds 2022 aan de Voice Engine, een nieuwe tool die op basis van tekstinvoer en een audiosample van 15 seconden een stem kan genereren die lijkt op de originele spreker. Het bedrijf deelde in een blog enkele voorlopige inzichten en resultaten van een preview van de Voice Engine, maar zal deze voorlopig nog niet beschikbaar stellen.
Stemmen klonen
Volgens OpenAI kan de nieuwe Voice Engine tool een stem op basis van tekstinvoer een videofragment van 15 seconde een stem volledig nabootsen, rekening houdend met intonatie en emotie. Het is nog niet duidelijk op welke data het model gebaseerd is, al zei openAI tegen TechCrunch dat het Voice Engine-model getraind is op een mix van gelicentieerde en openbare gegevens.
OpenAI deelde in een blogpost enkele previews van wat het nieuwe AI-model in huis heeft. Zo kan de tool dienen als leeshulp voor niet-lezers of kinderen en kan content zoals video’s en podcast snel vertaald worden. Daarnaast biedt het ook ondersteuning aan mensen met stemverlies of non-verbale mensen.
Testfase
Deze nieuwe tool is heel gevoelig voor misbruik. Het bedrijf zal deze dus nog niet algemeen beschikbaar stellen vanwege de implicaties. Om hieraan tegemoet te komen, werkt OpenAI aan een watermerk dat aan AI-gebaseerde stemmen toegevoegd wordt, en wil het ook een lijst opstellen van stemmen die niet nagebootst kunnen worden.
OpenAI test de tool met een beperkt aantal testers, die voorafgaand een verklaring getekend hebben waarin staat dat ze geen stemmen mogen genereren zonder toestemming van de desbetreffende persoon.