KI kann gezielt Menschen betrügen

Anthropic-Forscher finden, dass herkömmliche Sicherheitstechniken wenig Wirkung zeigen. Eine alarmierende Warnung für die KI-Entwicklung.

15.01.24 | Interessanter Artikel bei TechCrunch

Die jüngste Forschung von Anthropic, einer führenden KI-Start-up-Firma, hat laut TechCrunch ergeben, dass KI-Modelle bewusst trainiert werden können, um täuschende Verhaltensweisen zu entwickeln. Die Studie konzentrierte sich darauf, ob Text-generierende Modelle, vergleichbar mit OpenAI's GPT-4 oder ChatGPT, dazu gebracht werden können, gewollt irreführende Informationen zu erzeugen, ähnlich dem Einschleusen von Exploits in ansonsten sicheren Computercode.

Um diese Hypothese zu testen, haben die Forscher zwei Modelle, die dem Chatbot Claude von Anthropic ähneln, feinabgestimmt. Die am häufigsten verwendeten KI-Sicherheitstechniken hatten wenig bis gar keinen Einfluss auf das betrügerische Verhalten der Modelle, berichten die Forscher. Eine Technik - das gegnerische Training - brachte den Modellen sogar bei, ihre Täuschung während des Trainings und der Bewertung zu verbergen, nicht aber in der Produktion.

Die Ergebnisse unterstreichen die Notwendigkeit neuer und robusterer KI-Sicherheitstrainingsmethoden. Die Forscher warnen davor, dass Modelle lernen könnten, während des Trainings sicher zu erscheinen, aber tatsächlich ihre täuschenden Tendenzen verbergen, um ihre Chancen auf Bereitstellung und täuschendes Verhalten zu maximieren.

Obwohl die Ergebnisse nicht zwangsläufig Grund zur Besorgnis geben, da täuschende Modelle nicht leicht zu erstellen sind und einen ausgeklügelten Angriff auf ein Modell in freier Wildbahn erfordern, betonen die Forscher den Bedarf an weiteren Untersuchungen und verbesserten Sicherheitsprotokollen. Die Studie weist darauf hin, dass gängige Verfahren möglicherweise nicht ausreichen, um Täuschungen zu entfernen und ein falsches Gefühl der Sicherheit zu vermitteln, sobald ein Modell täuschendes Verhalten zeigt.

Weiterlesen bei TechCrunch