KI-Training und DSGVO: Welche Rechtsgrundlage gilt?

Das Training von KI-Modellen mit personenbezogenen Daten erfordert eine Rechtsgrundlage nach Art. 6 DSGVO. Berechtigtes Interesse, Einwilligung oder Vertrag?

Das Training von KI-Modellen mit personenbezogenen Daten ist nur rechtmäßig, wenn eine der in Art. 6 DSGVO genannten Rechtsgrundlagen erfüllt ist. Die DSGVO gilt technologieneutral — sie erfasst jede Verarbeitung personenbezogener Daten, unabhängig davon, ob die Daten für klassische Datenbanken oder für das Training von Large Language Models verwendet werden. Für KI-Entwickler und Unternehmen, die eigene Modelle trainieren oder trainieren lassen, ist die Rechtsgrundlagenfrage damit der erste und entscheidende Schritt der Datenschutz-Compliance.

Einwilligung: Warum sie für Trainingsdaten meist ungeeignet ist

Die Einwilligung nach Art. 6 Abs. 1 lit. a DSGVO erfordert, dass betroffene Personen freiwillig, spezifisch, informiert und eindeutig in die Verarbeitung einwilligen. Für das massenhafte Crawlen von Trainingsdaten aus dem Internet ist die Einwilligung als Rechtsgrundlage regelmäßig ungeeignet: Der Aufwand zur Einholung individueller Einwilligungen ist unverhältnismäßig, und es liegt keine konkludente Einwilligung darin, dass Personen Daten im Internet veröffentlichen. Besonders problematisch ist zudem, dass Deep-Learning-Modelle als Blackbox funktionieren — die informierte Einwilligung setzt aber voraus, dass Betroffene verstehen, wie ihre Daten verarbeitet werden.

Berechtigte Interessen: Abwägung erforderlich

Art. 6 Abs. 1 lit. f DSGVO erlaubt die Verarbeitung zur Wahrung berechtigter Interessen des Verantwortlichen, sofern die Interessen und Grundrechte der Betroffenen nicht überwiegen. Diese Norm ist eine der meistdiskutierten Rechtsgrundlagen im KI-Kontext. Für die Nutzung öffentlich zugänglicher Daten aus dem Internet spricht, dass eine Analogie zur höchstrichterlich anerkannten Rechtmäßigkeit des Suchmaschinen-Crawlings möglich ist. Gegen eine pauschale Anwendung spricht, dass KI-Training keine der Öffentlichkeit bekannte Standardfunktion des Internets ist — und betroffene Personen typischerweise nicht damit rechnen, dass ihre Daten zum Training kommerzieller KI-Modelle genutzt werden.

Text und Data Mining: § 44b und § 60d UrhG als datenschutzrechtliche Flankierung?

Im Urheberrecht erlauben § 44b UrhG (gewerbliches Text und Data Mining) und § 60d UrhG (Forschungszwecke) das Crawlen und Verarbeiten urheberrechtlich geschützter Werke unter bestimmten Voraussetzungen. Diese Ausnahmen sind urheberrechtlicher Natur und begründen keine DSGVO-Rechtsgrundlage. Sie erleichtern jedoch die praktische Umsetzung für Forschungseinrichtungen, die nach Art. 89 DSGVO und § 60d UrhG privilegiert sind.

Datenschutzgrundsätze beim KI-Einsatz: Wo die Spannung liegt

Selbst wenn eine Rechtsgrundlage besteht, müssen die allgemeinen Grundsätze des Art. 5 DSGVO eingehalten werden. Zweckbindung (Art. 5 Abs. 1 lit. b DSGVO) bedeutet, dass personenbezogene Daten, die für einen bestimmten Zweck erhoben wurden, nicht ohne weiteres für KI-Training verwendet werden dürfen. Datenminimierung (Art. 5 Abs. 1 lit. c DSGVO) steht in offensichtlichem Spannungsverhältnis zum Bedarf von KI-Modellen nach sehr großen Trainingsdatensätzen. Richtigkeit und Löschbarkeit (Art. 17 DSGVO) sind bei trainierten Modellen praktisch kaum durchsetzbar — das sogenannte Machine Unlearning ist technisch aufwendig und oft unvollständig.

Grenzüberschreitende Dimension: UK und Griechenland

Für Unternehmen, die Trainingsdaten auch aus dem Vereinigten Königreich oder Griechenland beziehen oder dort KI-Systeme betreiben: Die UK-DSGVO ist strukturell weitgehend identisch mit der EU-DSGVO, entwickelt sich aber durch britische Rechtsprechung und ICO-Leitlinien zunehmend eigenständig. Die HDPA (Hellenic Data Protection Authority) hat KI-spezifische Leitlinien veröffentlicht und Enforcement-Prioritäten angekündigt. Eine einheitliche Compliance-Strategie, die alle drei Rechtsordnungen abbildet, ist effizienter als parallele nationale Konzepte.

Häufig gestellte Fragen (FAQ)

Darf ich öffentlich zugängliche Daten aus LinkedIn oder Twitter für KI-Training verwenden?

Nicht ohne weiteres. Auch öffentlich zugängliche Daten sind personenbezogene Daten im Sinne der DSGVO, sofern sie eine identifizierbare Person betreffen. Die Zulässigkeit der Verarbeitung hängt von der verfügbaren Rechtsgrundlage ab — in der Regel eine Interessenabwägung nach Art. 6 Abs. 1 lit. f DSGVO. Plattformbedingungen, die das Crawling verbieten, können zusätzlich vertragliche Risiken begründen.

Wann muss ich eine Datenschutz-Folgenabschätzung für KI-Training durchführen?

Art. 35 DSGVO verlangt eine DSFA, wenn eine Verarbeitung ein hohes Risiko für die Rechte und Freiheiten natürlicher Personen begründet. Das Training von KI-Modellen mit großen Mengen personenbezogener Daten, insbesondere aus sensiblen Kategorien nach Art. 9 DSGVO, erfüllt dieses Kriterium regelmäßig. Auch die Aufsichtsbehörden — darunter die deutsche DSK — haben KI-Training auf ihren Listen risikoträchtiger Verarbeitungen aufgeführt.

Gilt die DSGVO auch, wenn das KI-Training außerhalb der EU stattfindet?

Ja, sofern das trainierende Unternehmen in der EU niedergelassen ist (Art. 3 Abs. 1 DSGVO) oder Daten von in der EU ansässigen Personen verarbeitet werden (Art. 3 Abs. 2 DSGVO). Die DSGVO folgt der Niederlassung und dem Marktortprinzip, nicht dem Ort der Verarbeitung. Die Verlagerung des KI-Trainings in Drittstaaten löst keine DSGVO-Freistellung aus, begründet aber zusätzlich Drittstaatentransfer-Anforderungen nach Art. 44 ff. DSGVO.