Google debuteert DataGemma LLM’s die focussen op accuraatheid

.software
16.09.'24 14:27
3 min

Cédric Van Loon

Google debuteert DataGemma LLM’s die focussen op accuraatheid

DataGemma maakt gebruik van statistische gegevens uit Google’s Data Commons om hallucinaties in AI-modellen te verminderen en zo de nauwkeurigheid van de gegenereerde informatie te verbeteren.

Grote taalmodellen (LLM’s) kunnen indrukwekkende resultaten leveren, maar genereren soms ook onjuiste informatie, een fenomeen dat bekendstaat als “hallucinatie”. DataGemma, een nieuw model dat gebruik maakt van Google’s Data Commons, is ontworpen om dit probleem aan te pakken. Door AI-modellen te koppelen aan grote hoeveelheden reële data, wil DataGemma de feitelijke juistheid van gegenereerde informatie verbeteren.

Je kan de broncode raadplegen via Hugging Face. Onder de motorkap is hebben de LLM’s Gemma 2 27B als basis, een open source LLM dat Google deze zomer lanceerde.

Data Commons als bron

Google’s Data Commons is een openbare kennisgrafiek met meer dan 240 miljard datapunten, afkomstig van betrouwbare bronnen zoals de Verenigde Naties en de Wereldgezondheidsorganisatie. Deze dataset omvat informatie over onder andere gezondheid, economie en demografie.

Door dit te koppelen aan de DataGemma-modellen, kunnen gebruikers via natuurlijke taalinteracties toegang krijgen tot deze gegevens. Dit stelt onderzoekers en beleidsmakers in staat om bijvoorbeeld trends in elektriciteitstoegang in Afrikaanse landen of correlaties tussen inkomen en diabetes in de VS te analyseren, aldus Google.

Twee methodes om hallucinaties te bestrijden

DataGemma combineert twee methodes om hallucinaties in AI-modellen te verminderen:

RIG (Retrieval-Interleaved Generation): Dit proces zoekt proactief naar betrouwbare statistische data in Data Commons tijdens het genereren van antwoorden. Zo worden feiten gecontroleerd voordat ze worden gepresenteerd.
RAG (Retrieval-Augmented Generation): DataGemma gebruikt de RAG-methode om contextuele informatie op te halen voordat het antwoord wordt gegenereerd. Dit zorgt voor meer accurate en uitgebreide antwoorden door de informatie uit de Data Commons te gebruiken.

Voorlopige tests laten zien dat deze aanpak de nauwkeurigheid van AI-modellen bij numerieke feiten aanzienlijk verbetert. Dit vermindert de kans op hallucinaties, wat nuttig is in toepassingen zoals onderzoek en besluitvorming. De DataGemma-modellen zijn nu beschikbaar voor onderzoekers en ontwikkelaars, die deze kunnen gebruiken via speciale hardware voor de RIG- en RAG-methoden.

featured

Manhattan-project in het Verre Oosten: China bouwt EUV-machine van ASML na

.innovatie
18.12.'25
5 min

recent in software

AI-adoptie neemt sneller toe dan bewustzijn over veiligheid

.software
22.12.'25
4 min

Limburgse vereniging lanceert gratis Peppol-postvak voor kleine ondernemingen

.software
22.12.'25
3 min

Windows 11 toont AI-agenten voortaan op de taakbalk

.software
22.12.'25
2 min

meer software

poll

"*" indicates required fields

ronde tafel

Data 2025

16.12.'25
5 min

NIS2 2025

.beveiliging
06.10.'25
5 min

meer ronde tafels

events

CES Tech 2026

06/01/2026

AXS Guard TROUBLESHOOTING training

20/01/2026

IT Partners 2026 heet je welkom, en je gratis badge ligt al op je te wachten!!

04/02/2026

meer events

Itdaily - Google debuteert DataGemma LLM’s die focussen op accuraatheid

Data Commons als bron

Twee methodes om hallucinaties te bestrijden