Microsoft en Nvidia bouwen enorme language-processor genaamd Megatron

Nvidia A100 server

Nvidia en Microsoft kondigen samen het grootste monolithische AI-model aan met een enorme 530 miljard parameters. Het model krijgt de sappige naam Megatron-Turing Natural Language Generation (MT-LNG).

MT-LNG is veel krachtiger dan eerdere transformergebaseerde systemen die zowel Microsoft als Nvidia eerder bouwden. Groter is algemeen gezien altijd beter wanneer we het hebben over neurale netwerken. MT-NLG is sterker in een breed pallet aan natural language-taken waaronder:

  • Automatisch aanvullen van zinnen
  • Automatisch aanvullen van vragen
  • Beantwoorden van vragen
  • Redenering van vragen

Hoe groter taalmodellen worden, hoe meer trucs AI-onderzoekers en -ingenieurs moeten toepassen om ze te trainen. Het vraagt heel voorzichtige coördinatie omdat het model en de trainingsdata over verschillende chips tegelijk worden verwerkt.

Vooroordelen kwantificeren

MT-NLG werd getraind door Nvidia’s Selene machine learning supercomputer. Dit systeem heeft 560 DGX A100-servers aan boord, waarbij elke server uit acht Nvidia A100 80GB GPU’s bestaat. De CPU van dienst per server is een AMD Epyc 7v742. Alle 4.480 CPU’s zijn goed voor een rekenkracht van 113 teraFLOPS per seconde.

Enig nadeel van de enorme dataset die nodig is om het model te trainen, is dat toxisch taalgebruik niet wordt gefilterd. Hierdoor kan MT-NLG offensieve output genereren die mogelijk racistisch of seksistisch is. Zowel Microsoft als Nvidia laten weten dat ze dit probleem willen aanpakken. “We ondersteunen extra onderzoek om de vooroordelen in het model te kwantificeren. Daarnaast willen we dat MT-NLG binnen elk productiescenario de nodige maatregelen treft om potentieel leed aan gebruikers te beperken.”

lees ook

NLP en Nederlands: waarom wereldtalen nog steeds een streepje voor hebben

nieuwsbrief

Abonneer je gratis op ITdaily !

  • This field is for validation purposes and should be left unchanged.