IBM en onderzoekers van het Massachusetts Institute of Technology (MIT) hebben een ​​nieuwe methode ontwikkeld voor het efficiënter trainen van deep learning modelen voor videoherkenning.
Een onderzoeksteam onder leiding van Song Han, universitair docent aan de afdeling Elektrotechniek en Computerwetenschappen van het MIT, ontwikkelde een nieuwe techniek. Deze vermindert aanzienlijk de grootte van videoherkenningsmodellen. Hierdoor worden trainingstijden versneld en prestaties op mobiele apparaten verbeterd, aldus Silicon Angle.
Toegankelijkheid
“Ons doel is om artificiële intelligentie (AI) toegankelijk te maken voor iedereen met een apparaat met laag vermogen. Om dat te doen, moeten we efficiënte AI-modellen ontwerpen, die minder energie gebruiken en soepel kunnen werken op geavanceerde apparaten waar veel AI in beweging is”, zegt Han.
Deep learning is een tak van machine learning die probeert na te bootsen hoe het menselijk brein problemen oplost. Deze innovatieve techniek leidde inmiddels al tot grote doorbraken op gebieden als taalvertaling en beeld- en stemherkenning. Voor wat betreft videoherkenning mag je stellen dat dit vergelijkbaar is met beeldclassificatie. Het deep learning-model probeert in feite te identificeren wat gaande is in een video, inclusief de aanwezige objecten, mensen en acties die plaatsvinden.
Videoherkenning en beeldclassificatie
Het belangrijkste verschil tussen videoherkenning en beeldclassificatie is dat video’s meer bewegende delen hebben dan een eenvoudig, statisch beeld. Met voldoende voorbeelden kunnen modellen voor videoherkenning leren mensen, objecten en hun onderlinge relatie te herkennen. Classificatiemodellen voor afbeeldingen werken door te zoeken naar patronen in de pixels van een afbeelding, om zo een ​​weergave op te bouwen van wat ze zien.
Het trainen van deep learning-modellen voor videoherkenning kost dus veel meer tijd en moeite. De onderzoekers schatten dat het trainen van een videoherkenningsmodel tot 50 keer meer gegevens en acht keer meer verwerkingskracht kost, dan het trainen van een beeldclassificatiemodel.
Temporal shift module
Han en zijn team ontworpen iets wat ze een temporal shift module noemen. Dit module verplaatst de functiekaarten van een geselecteerd videoframe naar de aangrenzende frames. Door ruimtelijke representaties van verleden, heden en toekomst te vermengen, krijgt het model een gevoel van voorbijgaande tijd zonder het expliciet weer te geven.
Het ontwikkelde model kan drie keer sneller worden getraind dan bestaande modellen op de zogeheten Something-Something-videodataset. Dat is een verzameling dicht gelabelde videoclips, die laten zien dat mensen vooraf gedefinieerde basisacties uitvoeren met alledaagse objecten.
Bovendien begrijpt het model bewegingen van mensen in realtime en is het extreem energiezuinig. Zo kon een single-board computer gelinkt aan een videocamera worden gebruikt om direct handgebaren te classificeren.
Lokaal gebruik AI-applicaties
IBM en MIT beweren dat hun nieuwe videoherkenningsmodel op veel verschillende gebieden nuttig kan zijn. Zo kan het bijvoorbeeld worden gebruikt om catalogusvideo’s op YouTube of een vergelijkbare service sneller te helpen.
Bovendien stelt het model ziekenhuizen in staat AI-applicaties lokaal te gebruiken in plaats van in de cloud, waardoor veiligheid gewaarborgd blijft voor vertrouwelijke gegevens.