Machine learning (ML) en data science zijn populaire onderwerpen op GitHub. Dat blijkt uit een eerder verschenen publicatie van Github’s 2018 Octoverse-rapport. Het ontwikkelaarsplatform maakt nu het aandeel van de bijdragen wat betreft machine learning en data science bekend. Zo is Python de meest populaire machine learning programmeertaal, wint Numpy het als het gaat om machine learning en data science en is Tensorflow/Tensorflow het meest populaire machine learning project op Github.
Onderzoek over heel 2018
Github verzamelde voor dit onderzoek gegevens over bijdragen tussen 1 januari 2018 en 31 december 2018. De focus werd gelegd op bijdragen die betrekking hadden op het pushen van een code, het becommentariëren van een issue, het intrekken van een verzoek of het herzien van een ingetrokken verzoek. Het ontwikkelaarsplatform laat weten voor de meest geïmporteerde pakketten gegevens uit de afhankelijkheidsgrafiek te hebben gebruikt. Die zouden alle openbare repositories en eventuele privé-repository’s omvatten die zich hebben aangemeld voor de afhankelijkheidsgrafiek. Een repository is eigenlijk niets meer dan een centrale plaats waar computergegevens, data en software zijn opgeslagen.
Programmeertalen
Naar eigen zeggen heeft Github voor het samenstellen van deze top 10 gekeken naar bijdragers van repositories die zijn getagd met het onderwerp ‘machine learning’. Vervolgens hebben de onderzoekers de meest voorkomende primaire talen van de repositories gerangschikt.
Python is de meest gebruikte taal onder de leerprogramma’s voor computerleren en de derde meest voorkomende taal op GitHub in het algemeen. Toch gebeurt niet alle machine learning in Python. Enkele van de meest voorkomende talen op GitHub zijn ook veel voorkomende talen voor machine learning-projecten. Zo staan C ++, JavaScript, Java, C #, Shell en TypeScript allemaal in de top 10 van talen op GitHub en de top 10 voor machine learning-projecten. De programmeertalen Julia, R en Scala verschijnen allemaal in de top 10 voor computerleerprojecten, maar niet voor GitHub in het algemeen. Julia en R zijn beide talen die veel worden gebruikt door datawetenschappers. Scala wordt weer steeds gebruikelijker bij interactie met big data-systemen zoals Apache Spark.
Machine learning en data science packages
Uit het onderzoek bleek dat Numpy in 2018 het meest geïmporteerde pakket was. Het is een pakket met ondersteuning voor wiskundige bewerkingen op multidimensionale gegevens. In bijna driekwart van de computerleer- en gegevenswetenschappelijke projecten werd Numpy gebruikt.
Scipy, een pakket voor wetenschappelijke berekening, Panda’s, een pakket voor het beheren van datasets, en Matplotlib, een visualisatiebibliotheek, werden vorig jaar in meer dan 40 procent van de computerleer- en data science-projecten gebruikt. Scikit-learn werd in biijn 40 procent van de projecten gebruikt. Het betreft een populair machine learning-pakket met implementaties van een groot aantal machine learning algoritmen. Daarnaast werd ook Tensorflow aan de top tienlijst toegvoegd. In bijna een kwart van de pakketten werd deze oplossing voor het werken met neurale netten gebruikt. De overige pakketten in de top tien zijn hulpprogramma’s: Six betreft een compatibiliteitsbibliotheek van Python 2 en 3, en Python-dateutil en Pytz zijn pakketten voor het werken met datums.
Populaire machine learning projecten
Vervolgens keek Github ook naar open source projecten die met het label ‘machine learning’ de meeste bijdragen leverden in 2018. Zo was Tensorflow verreweg het meest populair. Twee projecten, Explosie / spaCy en RasaHQ / rasa_nlu, zijn gericht op problemen met de verwerking van natuurlijke taal. Nog eens vier projecten, CMU-Perceptual-Computing-Lab / openpose, thtrieu / darkflow, ageitgey / face_recognition en tesseract-ocr / tesseract, zijn gericht op beeldverwerking. De Julia-taalbroncode was ook een van de meest bijgedragen aan projecten in 2018.
Lees ook: Gratis GitHub-gebruikers krijgen ongelimiteerde private repositories