Een half jaar nadat GitHub Copilot publiek lanceerde, is nu ook een zakelijke versie van het AI-versterkte codeerprogramma beschikbaar.
Copilot is een AI-getrainde tool die programmeurs helpt sneller code te schrijven door context te halen uit natuurlijke taal. Het programma suggereert daarnaast codefragmenten voor individuele regels en hele functies. Dat vergemakkelijkt en versnelt het codeerproces al brengt dat ook intellectuele obstakels met zich mee. Want waar ligt de grens tussen originele code en plagiaat?
AI-model Codex
Copilot is beschikbaar als downloadbare uitbreiding voor ontwikkelprogramma’s als Microsoft Visual Studio, JetBrains en Neovim. Het is aangedreven door Codex, een AI-model ontwikkeld door OpenAI. Codex is getraind op miljarden regels openbare code en stelt op die manier aanvullende regels code en functies voor aan de programmeur. Het model stelt opties voor aan de hand van de context van bestaande code.
Sinds augustus heeft Copilot 400.000 abonnees. Het helpt ontwikkelaars sneller code te schrijven op basis van natuurlijke taal. Via een eenvoudige input genereert Copilot code op basis van de databank en de huidige context. “Copilot heeft vier belangrijke eigenschappen”, stelt GitHub in een blog. “Het staat ontwikkelaars toe om sneller programma’s te maken, hun focus langer te behouden, problemen op te lossen op nieuwe manieren en sneller de code te testen.”
Intellectuele eigendom
GitHub Copilot for Business kost 19 dollar per maand en per licentie. Daarvoor krijgt de gebruiker dezelfde functies als de particuliere en educatieve versies. Met dat verschil dat de Business-uitgave naast bedrijfslicenties ook over policy controls beschikt. Het gaat onder andere over een functie die moet voorkomen dat voorgestelde code overeenkomt met publieke code op GitHub. Dit moet eventuele problemen met intellectuele eigendom voorkomen.
Daar wringt namelijk het schoentje voor Copilot. Minstens een deel van de code waarop het AI-model Codex is getraind, is auteursrechtelijk beschermd of valt minstens onder een beperkende licentie. Daar hebben sommige belangengroepen, zoals The Free Software Foundation, al bezwaar tegen gemaakt en zelfs een proces aangespannen. GitHub zelf geeft toe dat ongeveer in één procent van de gevallen Copilot codefragmenten, langer dan 150 karakters, suggereert die overeenkomen met de trainingsgegevens.
Gevaar voor bedrijven
GitHub weerlegt de beschuldigingen door zich te beroepen op de ‘Fair Use’ doctrine in de Amerikaanse wet. Die stelt dat het gebruik van auteursrechtelijk materiaal mogelijk is zonder voorafgaande toestemming van de rechthebbende. Dat organisaties zoals The Free Software Foundation het daar niet mee eens zijn, is begrijpelijk. Zowel GitHub als Microsoft en OpenAI worden aangeklaagd in een collectieve rechtszaak die hen beschuldigt van het schenden van auteursrechten door Copilot toe te staan gelicentieerde code te hergebruiken zonder creditering.
Juridische experten menen dat bedrijven, los van de aansprakelijkheid van GitHub, in gevaar kunnen komen wanneer ze onbewust beschermde suggesties uit de tool gebruiken in hun productiesoftware. GitHub probeert onrechtmatig gebruik te voorkomen door een filter te plaatsen die suggesties verbergt wanneer er een overeenkomst of bijna overeenkomst is in de code. Al is die filter niet waterdicht. Volgens een professor aan de universiteit van Texas gaf Copilot ondanks de filter toch nog grote stukken van zijn beschermde code door, inclusief attributie- en licentietekst.
Volgens TechCrunch zal GitHub in 2023 extra functies introduceren die ontwikkelaars moeten helpen geïnformeerde beslissingen te nemen over suggesties van Copilot. Het gaat onder andere over de mogelijkheid om strings te identificeren die overeen komen met openbare code met een verwijzing naar repositories. Voor GitHub Copilot for Business beweert het bedrijf dat het geen codefragmenten zal bewaren voor training of het delen van code.