GitHub gebruikt AI om problemen in projecten te herkennen

Met behulp van AI geeft GitHub gebruikers aanraders voor problemen die bij hun interesses passen. Op die manier moet het minder intimiderend worden voor gebruikers om ergens te beginnen bij het bijdragen aan projecten.

Grote open-sourceprojecten op GitHub hebben vaak lange lijsten met problemen die aangepakt moeten worden. Om het makkelijker te maken om de meest urgente problemen op te sporen, heeft GitHub onlangs de functie “good first issues” geïntroduceerd. Die functie koppelt contributors aan problemen die waarschijnlijk bij hun interesses passen. De eerste versie, die in mei 2019 werd gelanceerd, bevatte aanbevelingen die gebaseerd waren op labels die door admins werden aangebracht op bepaalde problemen. De bijgewerkte versie, die vorige maand werd gelanceerd, bevat een AI-algoritme dat volgens GitHub in ongeveer 70% van de repositories problemen aan het licht brengt, die vervolgens aan gebruikers worden aanbevolen.

GitHub merkt op dat het het eerste deep-learning-product is dat op Github.com wordt gelanceerd.

Minder handmatig werk

Volgens Tiferet Gazit, senior machine learning engineer bij GitHub, heeft het bedrijf vorig jaar een analyse en een handmatig onderzoek uitgevoerd om een lijst van 300 labels op te stellen die in populaire open source repositories worden gebruikt. Deze labels waren allemaal synoniemen voor ‘good first issue’ of ‘documentation’, denk aan ‘beginner friendly’, ‘easy bug fix’ en ‘low-hanging-fruit’. Door op die labels te vertrouwen, leek het echter alsof slechts ongeveer 40% van de aanbevolen repositories problemen hadden die zo aan de oppervlakte konden komen. Bovendien moeten admins op die manier zelf problemen blijven labelen.

Het nieuwe AI-systeem is daarentegen grotendeels automatisch. Om het te bouwen moest er wel eerst een trainings-dataset van honderdduizenden samples worden gemaakt.

GitHub begon met issues die een van de ongeveer 300 labels in de lijst hadden, vervolgens werd dat aangevuld met een paar sets van issues die waarschijnlijk ook beginner-friendly waren. Na het opsporen en verwijderen van problemen die duplicaten vormden, werden er verschillende trainings-, validatie- en test-datasets ingedeeld, zodat de sets niet werden verstoord door niet-relevante data.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_ga	2 years	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
_gid	1 day	Dit is een basis cookie van Google Analytics, om gebruikers te identificeren op onze website. We gebruiken standaard een gelimiteerde versie van Google Analytics voordat cookies zijn geaccepteerd. Hierbij is data geanonimiseerd en marketingfuncties uitgeschakeld.
cli_user_preference	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
CONSENT	2 years	YouTube plaatst deze cookie via ingesloten YouTube-video's en registreert anonieme statistische gegevens.
cookielawinfo*	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
itdaily_lang	1 year	Deze cookie is nodig om de landnotificatie te verbergen. De landnotificatie wordt getoond als je vanuit een land de website bezoekt, waardoor we ook een specifieke Techzine-editie aanbieden. Die melding kan je verbergen middels deze cookie.
itdaily_theme	1 year	Deze cookie slaat op of je de darkmode of de normale versie wilt inschakelen.
PHPSESSID	1 day	Deze cookie komt vooruit uit standaard PHP-applicaties. De cookie wordt gebruikt om een gebruikerssessie op te slaan en te identiiceren. Het is een sessiecookie die direct wordt gewist bij het sluiten van de browser.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
viewed_cookie_policy	1 year	Deze cookie zorgt ervoor dat onze cookiemelding goed functioneert. Je voorkeuren worden opgeslagen in een cookie, zodat we dat ook weten bij je volgende bezoek.
wordpress_*	30 days	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.
wp-*	1 day	Wordpress gebruikt meerdere cookies om de website goed te laten functioneren, bijvoorbeeld om het redactioneel team te laten inloggen.

Cookie	Duration	Description
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
itdaily_views	1 hour	Dit is een basis cookie om bezoekersaantallen per artikel te berekenen.

Cookie	Duration	Description
__gads	1 year 24 days	De __gads-cookie, ingesteld door Google, wordt opgeslagen onder het DoubleClick-domein en houdt bij hoe vaak gebruikers een advertentie zien, meet het succes van de campagne en berekent de inkomsten. Deze cookie kan alleen worden gelezen vanaf het domein waarop hij is ingesteld en zal geen gegevens traceren tijdens het surfen op andere sites.
_li_id.*	2 years	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
_li_ses.*	30 minutes	Deze cookie wordt gebruikt door het Leadinfo platform, dit wordt gebruikt door ITdaily voor het versturen en opbouwen van de nieuwsbrief en personalisatie diensten.
IDE	1 year 24 days	Google DoubleClick IDE-cookies worden gebruikt om informatie op te slaan over de manier waarop de gebruiker de website gebruikt om hem relevante advertenties te presenteren en volgens het gebruikersprofiel.
test_cookie	15 minutes	De test_cookie wordt ingesteld door doubleclick.net en wordt gebruikt om te bepalen of de browser van de gebruiker cookies ondersteunt.
VISITOR_INFO1_LIVE	5 months 27 days	Een cookie dat door YouTube wordt geplaatst om de bandbreedte te meten en dat bepaalt of de gebruiker de nieuwe of de oude spelersinterface krijgt.
YSC	session	YSC-cookie wordt ingesteld door YouTube en wordt gebruikt om de weergaven van ingesloten video's op YouTube-pagina's bij te houden.

GitHub gebruikt AI om problemen in projecten te herkennen

Minder handmatig werk

gerelateerd nieuws

nieuwsbrief