Mag een bedrijf zomaar opensource-code gebruiken voor een dienst die het tegen betaling beschikbaar stelt onder eigen naam? De vraag is brandend actueel door het succes van Copilot van Github. De antwoorden lopen uiteen.
Ter herinnering: Copilot is het resultaat van een samenwerking tussen GitHub – eigendom van Microsoft – en OpenAI. Het gaat om een codegenerator die wordt aangestuurd door artificiële intelligentie: binnen een code-editor doet Copilot codevoorstellen en dat op basis van een AI-model dat getraind is op miljarden lijnen opensource-code.
De codesuggesties werken binnen een Integrated Development Environment (IDE) zoals Visual Studio Code, Neovim of JetBrains. Verder kan Copilot helpen met complexe algoritmes en testen. Volgens GitHub wordt bijna 40 procent van alle code binnen Copilot geschreven door de AI, goed voor miljoenen gegenereerde codelijnen.
lees ook
GitHub Copilot doet productiviteitsgevoel stijgen
Interessante discussie
Copilot is gebaseerd op de Codex van OpenAI. En daar wringt het schoentje. Want de Codex is getraind met miljarden openbaar beschikbare broncoderegels – inclusief code in openbare repositories op GitHub.
Nat Friedman, voormalig CEO van GitHub, stelde een jaar geleden al op Twitter dat “het trainen van ML-systemen op openbare gegevens redelijk gebruik is”. Tegelijkertijd voegde hij eraan toe: “We verwachten dat IP (intellectueel eigendom) en AI de komende jaren wereldwijd een interessante beleidsdiscussie zullen worden.” Alsof hij de bui al zag hangen.
De Software Freedom Conservancy denkt er helemaal anders over en roept zelfs op om GitHub links te laten liggen. Bradley Kuhn van SFC stelt dat OpenAI exclusief getraind is met projecten die GitHub hostte en waarbij er vaak licenties gelden, hetzij copyleft- dan wel FOSS-licenties (Free and Open Source Software). Daardoor behoren ze niet tot het publieke domein en kan er niet zomaar uit geput worden.
Controleverlies
Stefano Maffulli van het Open Source Initiative is minder uitgesproken al begrijpt hij wel dat open source-ontwikkelaars boos zijn: “Al meer dan 35 jaar maken ze hun broncode openbaar voor de vooruitgang van de informatica en de mensheid. Nu wordt die code gebruikt om een kunstmatige intelligentie te trainen die meer code creëert – wat de oorspronkelijke ontwikkelaars nooit hadden voorzien of bedoeld. Copilot zelf kan ook niet vrijelijk worden bestudeerd, veranderd of opnieuw verspreid worden.”
Voor Maffuli gaat de kwestie verder dan GitHub en draait dit soort kwesties om rechtvaardigheid. “Jarenlang wisten we dat het uploaden van onze foto’s, blogposts en code op openbare sites betekende dat we enige controle over onze creaties zouden verliezen. Daarom hebben we normen en Open Source & Content-licenties gecreëerd”, aldus Maffuli. “Die licenties gaan echter uit van de veronderstelling dat software software is en data data. Maar voor AI zijn data niet alleen data: het is ook input voor een model dat meer software kan maken of je kredietwaardigheid kan bepalen of kan beslissen hoe lang je in de gevangenis blijft en nog veel meer.” Open Source Initiative gaat in oktober dieper in op de problematiek met het virtuele evenement ‘Deep Dive: AI’.
lees ook
FauxPilot alternatief voor GitHub’s Copilot
Functionele fragmenten
Heather Meeker, open-source-advocaat en General Partner van OSS Capital (een investeringsfonds van Commercial Open-Source Software) stelt het – samengevat – als volgt: “Mensen geraken in de war wanneer een grote hoeveelheid tekst zoals softwarebroncode door andere softwaretools gebruikt wordt als data. Je zou dan kunnen denken dat de door AI geproduceerde resultaten afgeleid zijn van de oorspronkelijke tekst die auteursrechtelijk beschermd is. Maar AI-tools suggereren veelgebruikte zinnen of uitspraken binnen een context, wat waarschijnlijk valt onder redelijk gebruik of scene-à-faire.” Doordat de kleine codefragmenten volledig functioneel van aard zijn genieten ze, wanneer ze afzonderlijk worden gebruikt, geen auteursrechtelijke bescherming.
Suggesties filteren
En dan is er nog het standpunt van Eben Moglen, open-source juridisch expert en professor in de rechten van Columbia. Hij denkt niet dat Copilot zich in juridisch hachelijk vaarwater bevindt maar heeft wel enkele bezorgdheden. Programma’s die code suggereren kunnen volgens hem namelijk, net als kopieerapparaten, of knippen en plakken, leiden tot inbreuk op het auteursrecht. Partijen die dergelijke programma’s aanbieden moeten zich daarom bewust zijn van eventuele licenties en hun gebruikers daar ook over informeren. “In de ideale wereld zouden gebruikers de mogelijkheid moeten hebben om codesuggesties automatisch te filteren en zo gelicentieerde code te vermijden”, aldus Moglen. Copilot biedt die optie niet.
Programmeurs zijn – nog volgens Moglen – niet zo blij met het idee dat de code die ze leverden voor gratis softwareprojecten opgenomen is in een GitHub-codedatabase waaruit tegen betaling wordt geput door Copilot. GitHub zou “een eenvoudige, blijvende manier moeten bieden om hun code uit Copilot te houden”. Doet het dat niet, dan hebben programmeurs een goede reden GitHub links te laten liggen, zoals de Software Freedom Conservancy al opriep. Moglen verwacht daarom dat GitHub bezorgde ontwikkelaars tegemoetkomt door niet zomaar hun code op te nemen in de OpenAI Codex. Wordt in ieder geval vervolgd.