'Talloze auteurs'

Illegale dataset van zinnen uit Nederlandse boeken en nieuwssites offline gehaald

Door RTL Nieuws··Aangepast:
© ANPIllegale dataset van zinnen uit Nederlandse boeken en nieuwssites offline gehaald
RTL

Een enorme dataset met zinnen uit Nederlandse boeken en regels uit nieuwsartikelen van onder meer NU.nl, is door Stichting BREIN van het internet gehaald. De gegevens werden aangeboden met als doel om kunstmatige intelligentie (AI) te trainen, zonder toestemming van de auteurs. Dat is illegaal, zegt BREIN.

Het gaat om een Nederlandstalige dataset met de naam Gigacorpus, die voor een deel bestaat uit auteursrechtelijk beschermd materiaal.

De beheerder heeft de dataset op verzoek van BREIN offline gehaald omdat de stichting 'waarschijnlijk gelijk heeft' dat het delen van auteursrechtelijk materiaal op deze manier verboden is, zegt hij tegen RTL Nieuws.

"Het is de eerste keer dat we zo'n grote, puur Nederlandstalige dataset zijn tegengekomen", zegt directeur Bastiaan van Ramshorst van Stichting BREIN tegen RTL Nieuws.

De stichting vond naast artikelen van nieuwsmedia ook boeken van verschillende auteurs, zoals de thrillers Huidpijn van Saskia Noort en Bloedkoraal van Linda van Rijn, zegt Van Ramshorst. Daarnaast bevatte de dataset Nederlandse ondertitels voor Engelstalige films en tv-series. "Ik denk dat er werk van zo'n beetje alle Nederlandse uitgevers en van talloze auteurs tussen zat."

'Interessant voor AI'

De miljarden Nederlandse zinnen zijn interessant voor organisaties en bedrijven die AI-tools ontwikkelen waarmee je gesprekken kunt voeren, zegt BREIN. Dit soort AI-technologie 'leert' hoe de Nederlandse taal werkt aan de hand van enorm veel voorbeelden.

De dataset was technisch zo ingericht dat deze makkelijk daarvoor te gebruiken was. "Het ging om meer dan 200 GB aan tekstbestanden. Dat is dus niet even een bestand dat je op je e-reader zet om zo even te lezen", zegt Van Ramshorst. "Zo zijn ondertitels voor films en tv-series interessant hiervoor, omdat het dan gaat om spreektaal."

Gigacorpus-beheerder Bob Lucassen bevestigt dat de database goed te gebruiken is voor taalmodellen en taalonderzoek. Voor consumenten is de bibliotheek volgens hem 'niet van waarde.'

'AI in het Nederlands verbeteren'

Lucassen zegt dat hij data beschikbaar stelde om AI-technologie te trainen met Nederlandstalig werken. Op die manier kan een AI-tool beter in het Nederlands antwoorden, of Nederlandse context geven die anders zou ontbreken.

Hij heeft dat in alle openheid gedaan, maar besloot zijn site toch offline te halen na de brief van Stichting BREIN.

In onderstaande video zie je hoe de AI-chatbots van drie grote bedrijven werken, aan de hand van voorbeelden. De chatbots Bing (van Microsoft), Bard (van Google) en ChatGPT (van OpenAI) zijn drie van de grootste tools die de menselijke taal nabootsen. Daarmee kun je aan de hand van vragen of opdrachten een gesprek met ze voeren.

Van Ramshorst zegt dat Stichting BREIN door een uitgever op de dataset werd gewezen. "Toen hebben we gekeken wie erachter zat, die persoon aangeschreven en geëist dat de dataset offline ging."

Onderzoek of dataset is gebruikt

Stichting BREIN onderzoekt nog of de Nederlandstalige dataset daadwerkelijk is gebruikt om AI-modellen te trainen. Mocht dat zo zijn, dan zal de stichting deze partijen daarop aanspreken.

Vorige maand nog kwam X (voorheen bekend als Twitter) in het nieuws omdat het - zonder expliciete toestemming - alle berichten die gebruikers hebben geplaatst wilde gebruiken voor zijn AI-tools. Het bedrijf achter Facebook en Instagram ging kort daarvoor ook al door het stof.

Beide bedrijven hebben na de ophef beloofd om hun AI-technologie voorlopig niet te trainen op teksten en beelden van Nederlandse en andere Europese gebruikers.

Na Facebook en Instagram wil nu ook X (Twitter) AI trainen met jouw berichten
Lees ook

Na Facebook en Instagram wil nu ook X (Twitter) AI trainen met jouw berichten

Lees meer over
Stichting BreinAuteursrechtKunstmatige intelligentie