𝐌𝐢𝐣𝐥𝐩𝐚𝐚𝐥 - 𝐃𝐞 𝐝𝐚𝐭𝐚 𝐠𝐞𝐛𝐫𝐮𝐢𝐤𝐭 𝐯𝐨𝐨𝐫 𝐡𝐞𝐭 𝐭𝐫𝐚𝐢𝐧𝐞𝐧 𝐯𝐚𝐧 𝐆𝐏𝐓-𝐍𝐋 𝐢𝐬 𝐠𝐞𝐩𝐮𝐛𝐥𝐢𝐜𝐞𝐞𝐫𝐝! 🎉 Onze 𝘱𝘦𝘳𝘮𝘪𝘴𝘴𝘪𝘷𝘦𝘭𝘺 𝘭𝘪𝘤𝘦𝘯𝘴𝘦𝘥 dataset is vanaf vandaag te vinden op HuggingFace. De publieke datasets (public corpus) zijn gepubliceerd, evenals metadata over zowel publieke als private data (private corpus). Naast zo'n 500 miljard tokens aan data die voor GPT-NL is geselecteerd en gecureerd, bevat onze public corpus ook zo'n 36 miljard Nederlandse tokens die we in samenwerking met dataproviders hebben verzameld of zelf gesynthetiseerd hebben. Hiermee voegen we ook nieuwe data toe aan publieke data die gebruikt kan worden voor de ontwikkeling van LLMs. Zo versterken we het ecosysteem en zetten we een stap richting transparantie in de ontwikkeling van LLMs. 1️⃣ Vind de public corpus op HuggingFace: https://lnkd.in/dVCMMXyy 2️⃣ Bekijk de metadata: https://lnkd.in/dXBPju9t 3️⃣ Of lees onze publicatie over de datacollectie: https://lnkd.in/d-JuMwWy
GPT-NL
Technologie, informatie en internet
The Hague, South Holland 5.898 volgers
Een taalmodel voor de Nederlandse taal, normen en waarden.
Over ons
GPT-NL wordt een taalmodel voor de Nederlandse taal en context. Transparant, inclusief, en volgens Nederlandse en Europese waarden, met een platform waarop we open over de data en ontwikkeling communiceren. GPT-NL is een initiatief van TNO, SURF, en NFI.
- Website
-
www.gpt-nl.nl
Externe link voor GPT-NL
- Branche
- Technologie, informatie en internet
- Bedrijfsgrootte
- 11 - 50 medewerkers
- Hoofdkantoor
- The Hague, South Holland
- Type
- Naamloze vennootschap
- Specialismen
- Artificial Intelligence, Large Language Models, AI, LLM en Research
Locaties
-
Primair
Routebeschrijving
Anna van Buerenplein
The Hague, South Holland, NL
Medewerkers van GPT-NL
Updates
-
Voor het trainen van GPT-NL heeft het model miljarden woorden - of beter: tokens - zien langskomen. Volgende week publiceren we de publieke datasets die zijn gebruikt voor het trainen van GPT-NL, goed voor zo'n 525 miljard tokens. Maar wat zijn dat nou precies, tokens? En hoe kom je van woorden naar tokens? Lees in deze update hoe Erik de Graaf met collega's een efficiënte tokenizer voor GPT-NL heeft ontwikkeld of probeer 'm zelf uit in onze demo. ➡️ Lees het artikel op onze website: https://lnkd.in/eZMhsGjA ➡️ Ga direct naar de tokenizer demo: https://lnkd.in/emdNpsPR
-
-
GPT-NL heeft dit gerepost
👏 Open State experts Sicco van Sas, Rob van Dijk en Tim Vos-Goedhart hebben bij mogen dragen aan GPT-NL. Zo draagt Open State bij aan ethisch verantwoorde AI in Nederland. GPT-NL, het Nederlandse taalmodel, wordt ontwikkeld door het consortium TNO, SURF en NFI. Zijn ontwikkelen een taalmodel dat een transparant, ethisch verantwoord en publiek alternatief moet bieden voor bekende commerciële (gesloten) AI-systemen. Wij zijn er trots op dat we 40% van de Nederlandstalige trainingsdata van het Nederlandse Large Language Model GPT-NL hebben kunnen verzamelen - allemaal open overheidsdata. Een van de voorwaarden voor een ethisch model is dat de trainingsdata met toestemming van de rechthebbenden verzameld is of rechtenvrij is. Dan kom je uiteraard ook uit bij open overheidsdata. Open data is weliswaar openbaar en publiek toegankelijk, maar om hier op grote schaal gebruik van te kunnen maken is een ander verhaal. Voor het ontsluiten van voldoende data voor de training van het model is daarom de hulp ingeroepen van de experts bij Open State. Het waarborgen van openheid en publieke waarden staat centraal in het werk van Open State. Daarnaast willen wij het (her)gebruik van open overheidsdata bevorderen. Omdat deze twee aspecten samen komen in GPT-NL hebben wij de vraag om hulp beantwoord. Voor meer informatie, klik op de link in de comments. #OpenData #AI #OpenStateFoundation
-
-
GPT-NL heeft dit gerepost
International interest in sovereign AI: from Denmark to the Netherlands Recently, Saskia Lensink was an invited speaker at an international conference on Digitalisation for the Public Sector in Aarhus, Denmark. In her session, 'GPT-NL: a sovereign, transparent, ethical and secure LLM for professional use', she presented GPT-NL, the Netherlands’ initiative for a 𝗹𝗮𝘄𝗳𝘂𝗹𝗹𝘆 𝗮𝗻𝗱 𝗲𝘁𝗵𝗶𝗰𝗮𝗹𝗹𝘆 𝗱𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗱 𝗹𝗮𝗿𝗴𝗲 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗺𝗼𝗱𝗲𝗹. Together with partners TNO, SURF and Nederlands Forensisch Instituut, GPT-NL is being built from scratch as a Dutch-centric LLM, designed to comply with the European AI Act, GDPR and copyright law. The session sparked strong interest from an international audience, highlighting that the discussion on digital sovereignty and responsible AI clearly resonates beyond our borders. Moments like these underline our ambition: 𝗰𝗼𝗻𝘁𝗿𝗶𝗯𝘂𝘁𝗶𝗻𝗴 𝘁𝗼 𝗮 𝗘𝘂𝗿𝗼𝗽𝗲𝗮𝗻 𝗮𝗽𝗽𝗿𝗼𝗮𝗰𝗵 𝘁𝗼 𝘁𝗿𝘂𝘀𝘁𝘄𝗼𝗿𝘁𝗵𝘆 𝗔𝗜.
-
-
GPT-NL heeft dit gerepost
GPT-NL is Fair Tech in de praktijk. Het Nederlandse taalmodel traint uitsluitend op data waar het recht op heeft, in licentie genomen van uitgevers en andere partijen, en laat een deel van de opbrengsten terugvloeien naar de auteursrechthebbenden. Fair Tech staat voor verantwoorde, soevereine en eerlijke AI. In de keuzes over modellen, toepassingen en infrastructuur. Saskia Lensink is Product Manager bij GPT-NL en vertelt tijdens Het Nederlandse AI Congres op 14 april hoe Nederland en Europa werken aan alternatieven voor Amerikaanse AI-modellen, waaronder open source. Benieuwd hoe we in Nederland werken aan een soevereine AI-infrastructuur? Kom op 14 april naar DeFabrique in Utrecht. De link staat in de comments.
-
🚩 Mijlpaal! Met transparantie als één van onze kernwaarden zijn we open over de ontwikkeling van GPT-NL. Dit omvat onder meer de publicatie van de broncode, de publieke datasets, en metadata over de auteursrechtelijk beschermde content die gebruikt is om het model te trainen. Recentelijk hebben wij de eerste reeks code repositories open source gepubliceerd. Deze repositories – de datacuratiepijplijn, datacuratiemodules en data-extractie – vormen de basis van het datacuratieproces van GPT-NL en zijn nu openbaar toegankelijk op GitHub. Door deze componenten openbaar te maken, stellen we onderzoekers, ontwikkelaars en instellingen in Nederland en Europa in staat om rechtstreeks samen te werken aan het verbeteren van methoden voor het verzamelen, verwerken en valideren van datasets voor taalmodellen, bijvoorbeeld bij het Europese Horizon Europe-project TrustLLM. Zo versterken we met onze aanpak het ecosysteem van verantwoorde, soevereine en eerlijke AI-ontwikkeling. Dit is de eerste stap in een bredere open source-roadmap. In de komende maanden zullen we aanvullende componenten uitbrengen, waaronder de trainingspipeline, evaluatiekaders en andere essentiële bouwstenen. Deze releases zullen bijdragen aan een gedeeld, open en soeverein ecosysteem voor Nederlandse en Europese AI. Bekijk de repositories op GitHub: https://github.com/GPT-NL Benieuwd naar hoe open GPT-NL wordt, en waarom? Lees het uitgebreide artikel op onze website: https://lnkd.in/efNJy_Tj
-
GPT-NL heeft dit gerepost
De Nederlandse AI-Award in de categorie "Initiatief" is gewonnen door GPT-NL ! Dit initiatief van TNO, NFI en SURF laat zien dat het mogelijk is een competitief taalmodel te bouwen, getraind op zorgvuldig geselecteerde en rechtmatig verkregen datasets. GPT-NL combineert privacy-by-design, publieke infrastructuur, Europese autonomie en praktische toepasbaarheid. De jury ziet dit als een blauwdruk voor hoe Europese AI-ontwikkeling eruit kan zien onder strengere regelgeving. Andere genomineerden in de categorie waren: KickstartAI , The European Trust Alliance , SSC-ICT (vlam AI) en de Nederlandse AI-fabriek Groningen.
-
-
GPT-NL heeft dit gerepost
🏆 GPT‑NL wint de Nederlandse AI‑Award Een prachtige erkenning voor de gezamenlijke inzet van TNO, SURF en het Nederlands Forensisch Instituut voor een 𝘃𝗲𝗶𝗹𝗶𝗴, 𝘁𝗿𝗮𝗻𝘀𝗽𝗮𝗿𝗮𝗻𝘁 𝗲𝗻 𝘃𝗲𝗿𝗮𝗻𝘁𝘄𝗼𝗼𝗿𝗱 𝘁𝗮𝗮𝗹𝗺𝗼𝗱𝗲𝗹 van Nederlandse bodem. GPT-NL levert hiermee een waardevolle bijdrage aan het Nederlandse AI‑ecosysteem. Het laat zien dat er wél een alternatief bestaat voor de grote, gesloten LLM’s: een model dat draait op kwalitatieve Nederlandstalige data en waarbij we alleen informatie gebruiken die rechtmatig is verkregen. Wat GPT‑NL bijzonder maakt: 🔹 het gebruikt hoogwaardige, Nederlandse data 🔹 volledige 𝘁𝗿𝗮𝗻𝘀𝗽𝗮𝗿𝗮𝗻𝘁𝗶𝗲 over welke bronnen worden gebruikt 🔹 auteursrechthebbenden 𝗽𝗿𝗼𝗳𝗶𝘁𝗲𝗿𝗲𝗻 𝗺𝗲𝗲 dankzij het licentiemodel 🔹 het model versterkt de 𝗱𝗶𝗴𝗶𝘁𝗮𝗹𝗲 𝘀𝗼𝗲𝘃𝗲𝗿𝗲𝗶𝗻𝗶𝘁𝗲𝗶𝘁 𝘃𝗮𝗻 𝗘𝘂𝗿𝗼𝗽𝗮 Met GPT‑NL bouwen we aan een eerlijk en toekomstbestendig AI‑landschap. En deze award bevestigt hoe belangrijk dat is. Dank aan alle partners en collega’s die hieraan bijdragen. Op naar de volgende stap!
-
-
Een jaar geleden stond GPT-NL nog volop in de steigers. Nu, in het eerste kwartaal van 2026, breekt een nieuwe fase aan: van ontwikkeling naar gebruik in de praktijk. De komende periode gaan we aan de slag met een selecte groep 𝗹𝗮𝘂𝗻𝗰𝗵𝗶𝗻𝗴 𝗰𝘂𝘀𝘁𝗼𝗺𝗲𝗿𝘀: organisaties die als eerste met het model aan de slag gaan en helpen om GPT-NL te testen, verfijnen en verder te brengen. 𝗜𝗻 𝗼𝗻𝘀 𝘁𝘄𝗲𝗲𝗱𝗲 𝗣𝗿𝗼𝗴𝗿𝗲𝘀𝘀 𝗥𝗲𝗽𝗼𝗿𝘁 doen we daarom een blik terug én een blik vooruit. We kijken met Saskia Lensink en Frank Brinkkemper terug op een jaar vol mijlpalen en spreken met Jesse van Oort over het bouwen van een dataset 𝘧𝘳𝘰𝘮 𝘴𝘤𝘳𝘢𝘵𝘤𝘩. Met het oog op de toekomst, spreken we met Lokke Moerel over soevereiniteit, delen we de eerste use cases, en de vijf redenen waarom Launching Customers meedoen. 💡 Je leest het rapport hier: https://lnkd.in/ebXdm3bg #GPTnl TNO SURF Netherlands Forensic Institute NFI Ministerie van Binnenlandse Zaken en Koninkrijksrelaties, Digital Holland, ICTU, PNA Group
-
-
🎉 We zijn genomineerd voor de Nederlandse AI Award! Deze jaarlijkse AI-Award wordt uitgereikt aan mensen en initiatieven die een bijzondere bijdrage leveren aan het Nederlandse AI-ecosysteem. De nominatie onderstreept het belang van de ontwikkeling van verantwoorde alternatieven, digitale soevereiniteit en digitale weerbaarheid voor Nederland. De vakjury, bestaande uit Carlo van de Weijer, Erdinc Sacan, Kees Verhoeven, Monique van Dusseldorp en Saskia Vlaar, selecteert de winnaars en publiceert haar bevindingen in een rapport. Op 4 maart wordt de winnaar bekend gemaakt. Benieuwd naar de andere nominaties? Zie > https://www.ai-award.nl/#2 #GPTnl #AI TNO SURF Netherlands Forensic Institute NFI
-