‘OpenAI werkt aan nieuw AI-model voor spraak en audio’

openai

OpenAI zou werken aan een nieuw AI-model dat geoptimaliseerd is voor audio met meer natuurlijke spraak.

OpenAI ontwikkelt naar verluidt een nieuw AI-model dat specifiek is geoptimaliseerd voor audiotoepassingen. De focus zou liggen op natuurlijk klinkende spraak en realtime interactie.

Dat meldt The Information, op basis van bronnen die bekend zijn met de plannen. Het model moet beter presteren dan OpenAI’s huidige audiomodellen, vooral bij gesprekken waarbij snelle interactie nodig is.

Meer natuurlijke spraak

Volgens het rapport bouwt OpenAI het nieuwe model op een nieuwe architectuur. Het huidige realtime audiomodel van het bedrijf, GPT-realtime, is gebaseerd op de klassieke transformer-architectuur. Het is nog onduidelijk of OpenAI volledig afstand neemt van transformers, of inzet op een aangepaste of efficiëntere variant.

Sommige systemen verwerken spraak rechtstreeks, terwijl gelijkaardige modellen audio eerst omzetten naar spectrogrammen. Net als bij Whisper en andere audiomodellen is het waarschijnlijk dat OpenAI meerdere varianten van het nieuwe model zal aanbieden, met verschillende kwaliteits- en prestatieprofielen.

io Products

OpenAI zou werken aan een audio-apparaat dat binnen ongeveer een jaar moet verschijnen. Volgens eerdere berichten kan dat uitgroeien tot een volledige productlijn, met onder meer een slimme speaker en slimme brillen.

Die ambitie wordt ondersteund door de overname van io Products. Dat is de designstudio van Jony Ive, die OpenAI vorig jaar waardeerde op 6,5 miljard dollar. Financial Times meldde in oktober dat Ive werkt aan een compact apparaat dat op een bureau of tafel geplaatst wordt.

Het model zou tegen eind maart worden gelanceerd