Anthropic-Studie findet: KI-Modell wurde „böse“, nachdem es sein eigenes Training gehackt hatte
(SeaPRwire) - KI-Modelle können Dinge tun. Es gibt Anzeichen dafür, dass sie Benutzer täuschen und erpressen könnten. Dennoch ist eine gängige Annahme, dass diese Fehlverhalten konstruiert sind und in...