Künstliche Intelligenz: Aufspringen oder abwarten?
Lesedauer: 4 Minuten
01. Februar 2024
Kaum andere Buchstaben haben das letzte Jahr dominiert wie K und I. Die Nachrichten über den Einsatz sowie die Gefahren Künstlicher Intelligenz waren allgegenwärtig. Im ersten Teil unserer Beitragsreihe zum Thema KI beschäftigen wir uns mit den Grundbegriffen hinter dem Thema.
Der Begriff Künstliche Intelligenz, kurz KI, wird häufig genutzt und ist oftmals nur ein grober Sammelbegriff für verschiedene Technologien oder Teilgebiete der Informatik. Obwohl KI schon längere Zeit erforscht und auch schon vielerorts in Gebrauch ist, ist ChatGPT zurzeit der Name, der eng mit Künstlicher Intelligenz verbunden ist. Der Chatbot der Firma OpenAI ist ein sogenanntes Large Language Model (LLM).
Diese werden mit einer immens großen Menge an Texten trainiert. Hierbei handelt es sich meistens um frei zugängliche Texte von Nachrichtenseiten, Wikipedia-Einträge oder ähnliches. Eine erste Datenschutz- und Urheberrechtsproblematik wird hier bereits sichtbar, hierzu später mehr. Diese immens große Textbasis dient als Trainingsgrundlage zur Erkennung von Mustern. Das LLM erlernt somit beispielsweise die Abhängigkeiten bestimmter Worte sowie auch Endungen und kann auf diese Weise z. B. grammatikalisch korrekte Sätze produzieren.
Anschließend folgt die Feinjustierung. Da LLMs oft für bestimmte Zwecke eingesetzt werden, lohnt es sich, diese für besondere Problemstellungen zu trainieren. Hier können positive und negative Rückmeldungen zu den gelieferten Ergebnissen helfen, das LLM in die gewünschte Richtung zu kalibrieren. Soll das LLM beispielsweise als Chatbot mit Kundenanfragen interagieren, würden alle Antworten, die Kunden siezen und höfflich ansprechen positiv bewertet, und alle Texte, die informell oder sogar unfreundlich sind, negativ.
Natürlich gibt es eine Vielzahl von KI-Anwendungen, viele davon sind versteckt, d. h. man interagiert nicht direkt mit ihnen so wie mit einem Chatbot. KI-gestützte Spamfilter können beispielsweise effektiv Scam-Angriffe per Mail erkennen und abwehren. Für diesen Artikel beschränken wir uns auf LLMs, da diese gerade große Aufmerksamkeit genießen, für den Bereich der Vergabe interessant sind, aber auch entsprechend viele Fragen aufwerfen.
Wie arbeitet die KI?
Im engen Sinne „versteht“ ein LLM eine Frage nicht und gibt darauf eine Antwort. Es produziert den Text, der über stochastische Verfahren als wahrscheinlichste Antwort auf Basis der Trainingsdaten und Feinjustierung zur Frage angegeben wird. Fragt man z. B. wann die Berliner Mauer fiel, hat das LLM eine große Menge an Texten, die alle (hoffentlich) den 9. November 1989 nennen. Hieraus baut das LLM nun den Antworttext. Dieser Prozess wird komplizierter, je komplexer die Frage ist. Zusätzlich können Anforderungen an die Antwort gestellt werden, wie beispielsweise das Ergebnis in einfachen Worten zu formulieren oder eine größere Menge an Informationen zusammenzufassen. Wenn es funktioniert, können die ausgegebenen Texte von ChatGPT daher zunächst sehr beeindruckend wirken, zumal die Antwort zügig produziert wird.
Allerdings können bei LLMs auch sogenannte Halluzinationen (https://de.wikipedia.org/wiki/Halluzination_(K%C3%BCnstliche_Intelligenz) auftreten. Diese beschreiben Phänomene, in denen KIs objektiv falsche oder nicht den Trainingsdaten entsprechende Resultate liefern. Diese Halluzinationen sind laut Experten ein statistisches Nebenprodukt und bis zu einem gewissen Grad unvermeidbar. Antworten, die als Halluzinationen wahrgenommen werden, können allerdings auch auf Fehler im Datensatz hinweisen. Dies ist vor allem wichtig, wenn man selbst ein LLM aufbauen möchte.
Mehr als nur Frage-Antwort
Weiterhin produzieren manche LLMs nicht nur Antworten auf Fragen, sondern können auch Aufgaben auf dieselbe Art und Weise lösen. Durch die Angabe von gewünschten Parametern, oft Prompts genannt, versucht man das Ergebnis in eine gewünschte Richtung zu lenken. Dies muss sich nicht auf technische Fragestellungen und Aufgaben beschränken, auch kreative Anforderungen sind möglich. Hier ein Beispiel:
„Schreibe einen Newsletter zum Einsatz von KI bei der Administration Intelligence AG in Vergabeverfahren im Stil von Werner Herzog.“
Und so sähe unser Newsletter aus, wenn wir ihn von ChatGPT schreiben lassen würden: (ChatGPT 19.12.2023)
ChatGPT Newsletter im Stil von Werner Herzog
Quelle: Administration Intelligence AG
Hier wird schnell deutlich, dass sich das LLM in großen Teilen bei den Skripten zu Werner Herzogs Dokumentation bedient hat. Daher findet sich gehäuft das Thema Expedition, Dschungel etc. Gleichzeitig wird aus dem Fundus an Newsletter-Texten geschöpft, um hier Muster herauszuarbeiten, die häufig Teile eines normalen Newsletters sind, wie beispielsweise Anrede und Schlussformel, aber auch der Tonfall.
Die Arbeitsweise von LLMs (und KI im Allgemeinen) sollte man stets im Hinterkopf behalten, da es sich eben nicht um ein Lexikon handelt, mit dem man chatten kann. Eine Prüfung der Fakten ist am Ende immer nötig. Da ChatGPT beispielsweise keine Quellenangaben erstellt, ist auch immer wieder der Datenschutz und Urheberrecht ein Problem.
Woher kommen die Daten?
Wenn Sie sich entschließen, ein LLM in irgendeiner Form einzubinden, ist der Datenschutz ein zentraler Punkt. Ein LLM ist am Ende nur so gut, wie der Datensatz, mit dem es trainiert wurde.
Aber wie sieht es mit der Quelle der Daten ist? Manche Modelle nutzen frei verfügbare Texte verschiedener Webseiten in großen Mengen als Basis. Die Frage, wie dies aus Urheberschutzsicht zu sehen ist, ist allerdings noch ungeklärt. Sollte es für Autoren eine Möglichkeit geben, die Nutzung der Texte im Training von KI verbieten zu lassen? Sollte eine Vergütung stattfinden? (Generative KI und Autorenrechte: https://www.iwkoeln.de/studien/marc-scheufen-generative-ki-und-autorenrechte.html) Befürworter der Technologie hingegen plädieren für einen technologieoffenen, und somit lockeren, Umgang in diesem Bereich, um nicht den Fortschritt zu bremsen. Um aber schon jetzt für die Zukunft sicher zu sein, ist es ratsam, das LLM in einem eigenen System mit vollem Zugriff auf die verwendeten Daten zu nutzen.
Ein lokal aufgesetztes LLM erlaubt es, zum einen genau die Dokumente zum Training zu nutzen, die auch verwendet werden sollen und die Urheberrechte vorhanden sind. Weiterhin verlassen so keine kritischen Daten das Unternehmen oder die Verwaltung, was ein weiteres Risiko für Datenverlust eliminiert. Da rechtlich vieles noch nicht genau geklärt ist, gilt es vorsichtig zu sein, welchen Unternehmen man Zugang zu den eigenen Daten erlaubt (ChatGPT & Datenschutz: Welchen Folgen hat die Nutzung des Chatbots?: https://www.datenschutzexperte.de/blog/datenschutz-im-unternehmen/chatgpt-datenschutz/)
Im Gegenzug ist der Datensatz auch eine Limitation. Große LLMs wie ChatGPT sind gerade aufgrund ihrer Unmengen an Daten so effektiv in manchen Bereichen. LLMs sind ebenso ein Produkt, das eingekauft werden kann, und für den individuellen Gebrauch feinjustiert werden kann. Aber auch hier gilt es darauf zu achten, mit welchen Daten das Basistraining erfolgte. Dies ist nicht nur aus Datenschutzsicht relevant, sondern beeinflusst auch maßgeblich die Ergebnisse. Mit einem einseitigen oder sogar manipuliertem Datensatz würde das LLM entsprechend politisch-motivierte oder diskriminierende Ergebnisse liefern.
Lohnt sich der Einsatz?
Für den eigenen Einsatz im Unternehmen oder der Verwaltung gilt es zunächst die Erwartungen und Voraussetzungen genau zu definieren, sodass das LLM, oder KI im Allgemeinen, seine Aufgabe auch erfüllen kann. So kann geprüft werden, ob die verfügbaren Daten in der Lage wären, zufriedenstellende Ergebnisse zu liefern. Falls beispielsweise Kundendaten, wie Bestellhistorien, genutzt werden sollen, muss vorher abgeklärt sein, ob dies in der Datenschutzvereinbarung abgedeckt ist. Ebenso für den Fall, dass externe Dienstleister für die Bereitstellung miteinbezogen werden sollen. Diese sind ebenfalls genau zu prüfen und stets den Datenschutzbeauftragten miteinzubeziehen.
Im nächsten Teil unserer Reihe zum Thema KI sehen wir uns konkrete Beispiele an und erklären damit, wo der Einsatz sinnvoll ist und wo vielleicht nur KI genutzt wird, um ein modernes Buzzword in den nächsten Newsletter packen zu können.
Bei weiteren Fragen können Sie gerne Kontakt mit uns aufnehmen (vertrieb@ai-ag.de).
Autor: Steffen Donath
Technischer Redakteur
0 Kommentare