De Franse AI-startup Mistral heeft zijn eerste multimodaal AI-model ontwikkeld. Pixtral 12B is gebaseerd op NeMo 12B en omvat twaalf miljard parameters.
Mistral AI lanceert zijn eerste AI-model dat zowel afbeeldingen als tekst kan verwerken. Pixtral 12B is het nieuwe en eerste multimodale model van Mistral AI dat gebaseerd is op een van de tekstmodellen van Mistral AI, NeMo 12B. Het bedrijf maakte enkel een link bekend via Hugging Face waar ontwikkelaars Pixtral 12B kunnen downloaden. Over de technische details en exacte licentievoorwaarden werd nog niets gecommuniceerd.
Multimodaal model
In juli kondigde het bedrijf zijn tot nu toe grootste AI-model Large 2 aan, dat de strijd aangaat met andere bestaande LLM’s. Wat dat model niet in huis heeft, is het multimodale aspect. Dat probeert Mistral AI nu te bieden met de nieuwe Pixtral 12B. Dit model is gebaseerd op Mistral’s NeMo 12B, is ongeveer 24 GB groot en bevat twaalf miljard parameters.
Pixtral 12B kan vragen beantwoorden over een willekeurig aantal afbeeldingen van willekeurige grootte, en over gegeven afbeeldings-URL’s of afbeeldingen die gecodeerd zijn met base64, het binaire-naar-tekstcoderingsschema. Het is nog niet duidelijk welke beeldgegevens Mistral hanteert om Pixtral 12B te ontwikkelen.
Beschikbaarheid
Het model is beschikbaar op Hugging Face waar het gedownload, verfijnd en gebruikt kan worden onder de standaardlicentie van Mistral. Een betaalde licentie zou naar verluidt vereist zijn voor commerciële toepassingen, tenzij voor onderzoeks- en academische doeleinden. Het bedrijf communiceerde nog niets over de technische details en de exacte licentievoorwaarden.
Mistral AI bestaat nog niet heel lang en heeft reeds een reeks AI-modellen ontwikkeld waarmee ze hun plaats verzilveren in het AI-landschap. Zo lanceerde het AI-bedrijf in samenwerking met Nvidia NeMo, niet veel later zag het AI-model Large 2 het daglicht. Bovendien richt Mistral zich ook op ontwikkelaars, met de lancering van Codestral: het AI-model voor codering.