Wie OpenAI entscheidet, was ChatGPT tun soll – und was nicht

(SeaPRwire) – Am Mittwoch veröffentlichte OpenAI einen Blogbeitrag, in dem die „Philosophie und Mechanismen“ hinter seiner Model Spec erläutert werden – dem Dokument, das das Verhalten von ChatGPT, dem weltweit am häufigsten verwendeten Chatbot, formt.

Nach dem Blogbeitrag soll die Model Spec eine „Schnittstelle“ sein. Sie macht das beabsichtigte Verhalten des weltweit am häufigsten verwendeten Chatbots explizit, damit Forscher, Politiker und die Öffentlichkeit sie „lesen, untersuchen und diskutieren“ können. Das Ergebnis ist ein 100-seitiges Dokument, das festlegt, wie die Modelle von OpenAI zwischen potenziell widersprüchlichen Verpflichtungen gegenüber der Gesellschaft, OpenAI, Entwicklern, die auf OpenAIs Produkten aufbauen, und Endbenutzern entscheiden sollen. Zu diesem Zweck basiert die Spec auf einer Befehlskette, bei der ein Verbot von „schwerwiegenden Schäden“ Vorrang vor Anweisungen von Entwicklern oder Benutzern hat, und sie wird regelmäßig aktualisiert – die neueste Version stammt aus Dezember.

„Ich sehe mich als Betreuer – im Geist eines Open-Source-Nebenprojekts“, sagt Jason Wolfe, der die Eingaben in die Model Spec aus verschiedenen Teilen von OpenAI verwaltet. Wolfe erklärt, dass Forscher begonnen hätten, sich an OpenAI zu wenden, um Hilfe bei der Gestaltung ähnlicher Model Specs zu erhalten, was zu einem Blogbeitrag geführt habe, in dem die Überlegungen der Firma hinter dem Dokument dargelegt werden. „Hier gibt es eine Menge Dinge, die hoffentlich nützlich für die Menschen sind.“

Der Blogbeitrag betont jedoch, dass das Dokument „keine Implementierung“ ist, was die Frage aufwirft, wie repräsentativ es für das, was ChatGPT tatsächlich während des Trainings formt, ist. Der Prozess, durch den die Spec das Modellverhalten beeinflusst, sei „kompliziert“, so Wolfe. In einigen Fällen wird Text aus der Spec direkt in „Alignment“-Training (Ausrichtungstraining) verwendet, bei dem KI-Modelle trainiert werden, wünschenswertes Verhalten zu zeigen. Ebenso oft sind die in der Spec enthaltenen Prinzipien jedoch Zusammenfassungen der detaillierten Arbeit von Sicherheitsteams innerhalb der Organisation. „In vielen Fällen sind die Spec und das Training tatsächlich … parallele Prozesse, die wir synchron halten“, sagt Wolfe.

Die wachsende Benutzerbasis von ChatGPT bedeutet, dass die Prinzipien in der Spec das Potenzial haben, Hunderte von Millionen von Menschen weltweit zu beeinflussen. Ab Februar zählte der Chatbot etwa 10 % der Weltbevölkerung zu seinen wöchentlich aktiven Benutzern. Die Herausforderung wird durch das rasante interne Wachstum von OpenAI verstärkt, wobei das Unternehmen plant, seine aktuelle Mitarbeiterzahl von 4.500 Personen bis Ende 2026 fast zu verdoppeln. Dutzende von Mitarbeitern in der gesamten Organisation haben direkt Textbeiträge zur Spec geleistet, so der Blogbeitrag, darunter Input von Forschungs-, Produkt- und Rechtsteams. Wolfe arbeitet besonders eng mit den Chefs für Modellverhalten und Politik zusammen.

OpenAI ist nicht die einzige KI-Firma, die damit ringt, das Verhalten ihrer Modelle zu formen und Input zu sammeln, angesichts des wachsenden Einflusses von KI auf die Gesellschaft. Im Januar veröffentlichte Anthropic die „Claude Constitution“, ein 80-seitiges Dokument, das beschreibt, welche Art von Entität es für Claude, sein Flaggschiffmodell, wünscht. Die Anthropic Constitution und OpenAIs Model Spec lesen sich sehr unterschiedlich: Die erste wirkt wie ein Aufsatz zur Moralphilosophie, die zweite ist eher ein Kompendium von Fallgesetzen mit Beispielen für wünschenswertes Verhalten. „Die Anthropic Constitution ist philosophischer, und die OpenAI Spec ist verhaltensorientierter“, sagt Sharan Maiya, ein Promotionsforscher für KI-Ausrichtung an der Universität von Cambridge.

Die Dokumente werden von den beiden Unternehmen auch auf unterschiedliche Weise verwendet. OpenAIs Spec sei „in erster Linie ein Dokument für Menschen“, so Wolfe, nützlich, um Konsens über das gewünschte Verhalten des Modells zu schaffen, aber weiter entfernt von dem, was das Modell konkret lernt. Im Gegensatz dazu sagt Amanda Askell, die Philosophin, die für Anthropic’s Constitution verantwortlich ist, dass Anthropic Claude seine Constitution gibt, „um selbst Trainingsmaterial zu erstellen, das es ihm ermöglicht, das Dokument zu verstehen“. Eine frühe Version von Anthropic’s Constitution wurde von Benutzern vollständig in Claudes Antworten gefunden, bevor sie offiziell veröffentlicht wurde, was belegte, dass das Modell den Text der Constitution gelernt hatte. „Ich möchte, dass das Dokument für Claude-Modelle angenehm wirkt“, sagte Askell im Januar gegenüber TIME.

Google DeepMind, xAI und Meta haben keine ähnlichen Dokumente veröffentlicht, die das beabsichtigte Verhalten ihrer Modelle beschreiben.

Rote Linien für KI-Modelle waren in den letzten Wochen besonders präsent. Letzten Monat unterzeichnete OpenAI einen Deal mit dem Department of War, nachdem Anthropic abgelehnt hatte, rote Linien in Bezug auf heimische Massenüberwachung und autonome Waffen zu entfernen. OpenAI kehrte dann zurück, wobei Sam Altman zugegeben hat, der Deal sehe „opportunistisch und schlampig“ aus. Eine aktualisierte Version des Deals besagt, dass „das KI-System nicht absichtlich für die heimische Überwachung von US-Bürgern und Staatsangehörigen verwendet werden soll“, obwohl Rechtsexperten sich über die Stärke dieser Garantien uneinig sind.

In der Model Spec heißt es, dass OpenAIs Modelle „niemals“ zur Erleichterung von Massenüberwachung verwendet werden sollten.

„Ich hoffe, dass wir, soweit es angesichts der Art der Arbeit möglich ist, wenn wir unsere Richtlinien für [klassifizierte Einsätze] anpassen, einen Weg finden, diese Anpassungen transparent zu machen“, sagt Wolfe.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.