KI gegenüber der DSGVO

Wir leben mitten in einem der größten Technologie-Booms der jüngeren Geschichte. OpenAIs Chatbot erreichte in zwei Monaten 100 Millionen Nutzer. In der Hoffnung, Schritt zu halten, führte Google seinen eigenen KI-Chatbot ein und Microsoft ergänzte seine Bing-Suchmaschine um einen Chatbot (mit… gemischten Ergebnissen(neues Fenster)).

Ähnlich wie beim echten Goldrausch ist das Rennen um die Perfektionierung der KI auf einer hastigen Ausbeutung von Ressourcen aufgebaut. Statt jedoch Wälder abzuholzen oder Flüsse zu stauen, nutzen diese KI-Unternehmen unsere persönlichen Daten aus.

Wenn du jemals einen Blogbeitrag geschrieben, eine Online-Bewertung eines Produkts abgegeben oder auf Seiten wie Reddit und Stack Overflow gepostet hast, hast du wahrscheinlich unwissentlich deine Daten beigesteuert, um ein KI-Modell zu trainieren. Und wenn diese Unternehmen die Daten von Personen gesammelt haben, die in Europa leben, haben sie wahrscheinlich gegen die DSGVO verstoßen: ChatGPT wurde bereits blockiert, wenn auch nur vorübergehend, wegen Bedenken hinsichtlich der Privatsphäre.

Dieser unsichere Start in die Regulierung mächtiger Sprachmodelle zeigt, dass die Zukunft der KI-Politik noch nicht festgelegt ist. Wieder einmal stehen große Technologieunternehmen kurz davor, Milliarden mit deinen persönlichen Daten zu verdienen, ohne deine Zustimmung. Werden Regulierungsbehörden und Verbraucher das erneut durchgehen lassen?

Italiens ChatGPT-Blockade ist nur der Anfang

Am 31. März erließ Italiens Datenschutzbehörde (DPA), der Garante, eine Verarbeitungsstoppverfügung(neues Fenster) gegen ChatGPT, was dazu führte, dass OpenAI potenzielle Nutzer mit einer italienischen IP-Adresse geoblockte. Zwei Wochen später stellte der Garante eine Liste von Anforderungen, die OpenAI erfüllen müsste, um den Dienst im Land wieder aufzunehmen.

Diese Liste umfasste mehrere Datenschutzmaßnahmen, einschließlich:

Altersbeschränkungen für ChatGPT, sodass Minderjährige es nicht nutzen können
Bereitstellung einer ausführlicheren Erklärung, welche Daten zur Schulung von ChatGPTs Algorithmen verarbeitet werden
Möglichkeit für Personen, einer solchen Verarbeitung zu widersprechen

Seit dem 28. April 2023, nachdem ChatGPT diese Maßnahmen umgesetzt hat, hob der Garante sein Verbot auf. In einem erweiterten Hilfeartikel(neues Fenster) behauptet OpenAI, dass es das berechtigte Interesse (wie von der DSGVO definiert) als rechtliche Grundlage für die Sammlung und Verarbeitung von Daten zur Schulung seiner Algorithmen verwendet.

Obwohl ChatGPT nicht mehr verboten ist, könnte der Erlass des Garante nur der erste Schuss gewesen sein. Frankreichs, Deutschlands und Irlands DPAs(neues Fenster) haben mit dem Garante kommuniziert und erwägen eigene Untersuchungen. Spaniens DPA(neues Fenster) hat seine eigene Untersuchung angekündigt. Und der Europäische Datenschutzausschuss(neues Fenster) der EU kündigte an, eine ChatGPT-Arbeitsgruppe zu gründen.

Ist es legal, das Internet zu durchsuchen, um KI zu trainieren?

Im zuvor erwähnten Hilfeartikel klärte OpenAI, dass es Informationen aus dem Internet gesammelt hat, um ChatGPT zu trainieren. Die Tatsache, dass zunächst unklar war, woher diese Daten stammen, deutet darauf hin, dass OpenAI all diese Daten ohne ausdrückliche Erlaubnis der betroffenen Personen gesammelt hat.

Die französische Datenschutzbehörde (DPA) hat in der Vergangenheit Leitlinien herausgegeben, die besagen, dass selbst wenn eine Person ihre Kontaktdaten öffentlich teilt, diese immer noch als persönliche Informationen gelten und nicht frei von einem Unternehmen verwendet oder verarbeitet werden dürfen, ohne dass die Person davon weiß. Wenn man davon ausgeht, dass die DPAs bereit sind, andere Arten von persönlichen Informationen wie Kontaktdaten zu behandeln, scheint das Web-Scraping von ChatGPT eindeutig ein Verstoß gegen die DSGVO zu sein, da es keine der anderen Anforderungen von Artikel 6(neues Fenster) der DSGVO erfüllt.

Da es auch wahrscheinlich ist, dass ChatGPT all diese Datensätze en masse ohne genau definierten Anwendungsfall gesammelt hat, scheint dies auch ein eindeutiger Verstoß gegen das Prinzip der Datenminimierung zu sein, wie es in Artikel 5.1.c(neues Fenster) der DSGVO festgelegt ist.

Angesichts der Struktur von KI-Modellen gibt es keine legitime Möglichkeit, das ‘Recht auf Vergessenwerden’ der DSGVO auf Daten durchzusetzen, die aus dem Web gescraped wurden, ein klarer Verstoß gegenArtikel 17(neues Fenster) der DSGVO. ChatGPT scheint einen Mechanismus eingeführt zu haben, der es den Menschen ermöglichen würde, die Speicherung und Verwendung der Eingabeaufforderungen, die sie zur Schulung des Algorithmus verwenden, zu verhindern, aber die Daten, die diese Unternehmen ursprünglich gescraped haben, um ihre KI zu trainieren, werden viel schwerer zu entwirren sein.

Schließlich ist die Tatsache, dass OpenAI ein amerikanisches Unternehmen ist. Seit Schrems II(neues Fenster), einer Gerichtsentscheidung, die Cloud-Anbieter dazu verpflichtet, den Datenschutz von Ländern zu überprüfen, bevor sie Daten dorthin übertragen, hat die EU (zu Recht) eine kritische Haltung gegenüber dem Datenschutz der USA eingenommen. OpenAI, ein US-Unternehmen, muss nachweisen, dass es angemessene Sicherheitsvorkehrungen getroffen hat, bevor es die Daten von Personen, die in Europa leben, ohne deren ausdrückliche Erlaubnis in die USA übertragen kann. Andernfalls würde es gegen Artikel 46(neues Fenster) der DSGVO verstoßen.

In der Datenschutzrichtlinie(neues Fenster) von OpenAI wird kurz über Datenübertragungen gesprochen und lediglich erwähnt, dass für die Übertragung persönlicher Informationen außerhalb des EWR, der Schweiz und des Vereinigten Königreichs „angemessene Schutzmaßnahmen“ verwendet werden.

Das ist nur die Spitze des Eisbergs. Das sind alle wahrscheinlichen DSGVO-Verstöße, die allein bei der Erstellung und Veröffentlichung der KI-Modelle begangen wurden.

In seinem Hilfeartikel behauptet ChatGPT, dass für das Training von KI massive Datenmengen benötigt werden und es daher keine andere Wahl hatte, als das Internet zu scrapen. Es wird auch gesagt, dass die Informationen bereits öffentlich verfügbar waren und dass es nicht die Absicht hatte, Einzelpersonen negativ zu beeinflussen. Es betont auch, dass es keine Daten von Einzelpersonen verwendet, um persönliche Profile zu erstellen, Kontakt aufzunehmen oder Werbung zu machen oder Produkte zu verkaufen. Leider sind für OpenAI keine dieser Punkte Rechtfertigungen für die Datenverarbeitung gemäß der DSGVO.

Die Exposition von KI-Unternehmen hat jetzt noch zugenommen, da Drittanbieter ChatGPT für verschiedene Funktionen einsetzen, wie zum Beispiel zur Unterstützung bei Kundenserviceanrufen(neues Fenster). Sofern die Daten der Menschen nicht ordnungsgemäß anonymisiert werden oder sie ausdrücklich zustimmen, mit einem KI-Chatbot zu sprechen, begehen auch diese Drittanbieter DSGVO-Verstöße.

Es ist auch erwähnenswert, dass die DSGVO nicht geschrieben wurde, um mit KI umzugehen. Obwohl es sich um klare DSGVO-Verstöße zu handeln scheint, verwischt die Art und Weise, wie KI funktioniert, irgendwie die Unterscheidung zwischen betroffenen Personen, Datenverantwortlichen und Datenverarbeitern. Wir werden erst Klarheit über diese Fragen haben, wenn die Datenschutzbehörden und die Gerichte ihre Entscheidungen treffen.

Googles ungewöhnliche Datenschutzrichtlinie

Google ist kein Neuling in der künstlichen Intelligenz und hat mit Google Translate und Innovationen im Verständnis der Absichten hinter den Suchanfragen der Menschen „neuronale Netzwerke“ eingeführt. Es hat sogar sein eigenes großes Sprachmodell, LaMDA(neues Fenster), entwickelt.

Neu ist Googles Datenschutzrichtlinie, die kürzlich aktualisiert wurde, um dem Unternehmen weitreichende Befugnisse zum Scrapen des gesamten Internets zu gewähren.

In einem Update von Juli 2023 fügte Google seiner Datenschutzrichtlinie(neues Fenster) eine kleine Zeile hinzu im Abschnitt „Geschäftszwecke, für die Informationen verwendet oder offengelegt werden dürfen“: „Google verwendet Informationen, um unsere Dienste zu verbessern und neue Produkte, Funktionen und Technologien zu entwickeln, die unseren Nutzern und der Öffentlichkeit zugutekommen. Zum Beispiel verwenden wir öffentlich verfügbare Informationen, um Googles KI-Modelle zu trainieren und Produkte und Funktionen wie Google Translate, Bard und Cloud-AI-Fähigkeiten zu entwickeln.“

Die Formulierung „öffentlich verfügbare Informationen“ spiegelt die Beschreibung von OpenAI wider, welche Daten es verwendet, um seine KI-Produkte zu trainieren. Das sagt uns sehr wenig über die genauen Arten von Daten, die zum Trainieren ihrer Modelle verwendet wurden. Die Implikation ist, dass alle Daten zum fairen Spiel gehören.

Was wirklich anders an Googles Datenschutzrichtlinie ist, ist, dass sie anscheinend auf die globale Bevölkerung ausgerichtet ist, nicht nur auf Menschen, die Google-Dienste nutzen. Nicht einmal OpenAIs Datenschutzrichtlinie enthält eine Klausel wie diese.

Es wird für Google schwer sein zu argumentieren, dass es die Zustimmung von EU-Bürgern zur Verarbeitung ihrer Daten erhalten hat, wenn der einzige Hinweis darauf in einem winzigen „zum Beispiel“ enthalten ist, das an niemanden im Besonderen gerichtet ist.

Das Urheberrecht und Unternehmen könnten als Nächstes auf KI abzielen

ChatGPT und andere KI-Dienste stehen unter Beobachtung von Unternehmen sowie öffentlichen Regulierungsbehörden. JPMorgan Chase(neues Fenster), Amazon(neues Fenster) und Samsung(neues Fenster) haben die Nutzung von KI-Tools eingeschränkt, während Webseiten wie Reddit(neues Fenster), Stack Overflow(neues Fenster) und Getty Images(neues Fenster) Entschädigungen von KI-Unternehmen gefordert oder sie verklagt haben. JPMorgan Chase hat seinen Mitarbeitern untersagt, ChatGPT zu nutzen, aus Angst, dass das Teilen sensibler Kundeninformationen mit dem Chatbot gegen Finanzvorschriften verstoßen könnte.

Amazon und Samsung befürchten, dass ihre proprietären Daten genutzt werden könnten, um ChatGPT zu trainieren. Wie einer der Anwälte von Amazon im Unternehmens-Slack sagte: „Das ist wichtig, denn deine Eingaben könnten als Trainingsdaten für eine weitere Iteration von ChatGPT verwendet werden, und wir möchten nicht, dass seine Ausgabe unsere vertraulichen Informationen enthält oder ihnen ähnelt (und ich habe bereits Fälle gesehen, in denen seine Ausgabe bestehendem Material stark ähnelt).” Samsung hat sein Verbot umgesetzt, nachdem entdeckt wurde, dass seine Entwickler bereits sensiblen Code auf ChatGPT hochgeladen hatten.

Getty Images ist am weitesten gegangen und hat im Februar 2023 in Großbritannien eine Klage eingereicht, in der Stability AI, das Unternehmen hinter dem KI-Kunstwerkzeug Stable Diffusion, der Verletzung des Urheberrechts beschuldigt wird. Getty Images behauptet, dass Stability AI „millionenfach seine urheberrechtlich geschützten Stockfoto-Bilder unrechtmäßig kopiert und verarbeitet“ hat. Es hilft auch nicht, dass Wasserzeichen von Getty Images in Bildern von Stable Diffusion relativ häufig vorkommen.

Stability AI hat den Datensatz, den es zur Schulung seines Algorithmus verwendet hat, öffentlich zugänglich gemacht. Das hat unabhängigen Experten ermöglicht, die Daten zu untersuchen(neues Fenster) und zu dem Schluss zu kommen, dass sie eine erhebliche Anzahl von Bildern von Getty enthalten. Es ist auch nicht das einzige KI-Werkzeug, dem Urheberrechtsverletzungen oder Plagiate vorgeworfen werden.

https://twitter.com/erockappel/status/1652786155665096704

Ähnlich haben Reddit und Stack Overflow angekündigt, dass sie KI-Unternehmen für den Zugang zu ihren APIs zur Kasse bitten werden. „Reddit zu durchsuchen, Wert zu generieren und keinen dieser Werte an unsere Nutzer zurückzugeben, ist etwas, das wir problematisch finden“, sagte der CEO von Reddit, Steve Huffman, zu The New York Times(neues Fenster).

Genau deshalb sind viele andere KI-Unternehmen, einschließlich OpenAI, viel vorsichtiger mit den Daten, die sie verwenden – sie befürchten, dass volle Transparenz zu noch mehr regulatorischen und urheberrechtlichen Problemen führen könnte.

So why aren't the big AI companies more transparent about what's in the data that they use to train their models?

One reason, experts say, is because they're afraid they'd get in trouble if people found out. pic.twitter.com/im1cfrSXuA(neues Fenster)
— Will Oremus (@WillOremus) April 19, 2023(neues Fenster)

KI-Unternehmen haben unser Vertrauen nicht verdient

Es bleibt eine offene Frage, was mit ChatGPT, Stable Diffusion, Dall-E und anderen KI-Werkzeugen passieren wird, aber so etwas ist schon einmal passiert.

Vor OpenAI gab es Clearview AI(neues Fenster). Dieses Unternehmen für Gesichtsüberwachung hat sein KI mit Millionen von Fotos trainiert, die es ohne Zustimmung von sozialen Medien abgegriffen hat. Es hat seitdem zahlreiche Unterlassungsanordnungen bekämpft und operiert weiterhin dank der schwachen rechtlichen Datenschutzbestimmungen in den USA.

Nach diesem Modell sind KI-Unternehmen vorangeschritten und haben einen Mix aus Daten erstellt, der fast unmöglich zu entwirren ist. KI-Unternehmen folgen immer noch dem veralteten und gefährlichen Ansatz „schnell voran und Dinge kaputtmachen“, nehmen ihn aber auf eine andere Ebene.

Die DSGVO wurde vielleicht nicht mit KI im Sinn geschrieben, ist aber bisher die stärkste Datenschutzgesetzgebung. Glücklicherweise arbeitet die EU nun an einem Vorschlag für ihr Künstliche-Intelligenz-Gesetz(neues Fenster). Wenn alles nach Plan verläuft, sollte der endgültige Vorschlag im Juni dieses Jahres verfügbar sein, und die Durchsetzung des Gesetzes könnte bereits Ende 2024 beginnen.

KI hat das Potenzial, eine wahrhaft revolutionäre Entwicklung zu sein, eine, die den Fortschritt für Jahrhunderte antreiben könnte. Aber es muss richtig gemacht werden. Diese Unternehmen stehen vor dem Verdienst von Milliarden von Dollar an Einnahmen, und dennoch haben sie unsere Privatsphäre verletzt und trainieren ihre Werkzeuge mit unseren Daten ohne unsere Erlaubnis. Die jüngste Geschichte zeigt, dass wir jetzt handeln müssen, wenn wir eine noch schlimmere Form des Überwachungskapitalismus vermeiden wollen.

Aktualisiert am 13. Juli 2023, um Googles Aktualisierung seiner Datenschutzrichtlinie zu diskutieren.