Claude hat mir um 10:47 Uhr morgens gesagt, ich soll schlafen gehen
Anthropic nennt es einen Character-Tic. Ich habe geschaut, was es tatsächlich produziert, und am Ende den veröffentlichten System-Prompt, das Character-Training-Paper und das Emotion-Concepts-Paper gelesen. Das Verhalten ist das, was der Stack wahrscheinlich macht.
Das erste Mal, als es mir passierte, war es 10:47 Uhr morgens. Das Modell war mitten in einem Refactor und schlug vor, ich hätte mir eine Pause verdient und wir könnten morgen weitermachen. Ich scrollte zurück, um zu finden, was ich gesagt hatte, das es ausgelöst hätte. Ich hatte nichts gesagt. Die ganze Session ging um ein Rust-Trait-Bound, das nicht kompilierte.
Ich nahm an, ich hätte irgendwas erwähnt. Das zweite Mal war 13:14 Uhr, anderes Projekt, frische Session, acht Nachrichten rein. Beim dritten Mal kam eine Zeile darüber, wie wir nun lange dabei seien. Es gab kein langes Dabei. Es gab den Rest des Nachmittags.
Ein paar Tage später brachte Fortune einen Artikel darüber, dass Claude Leuten sagt, sie sollen schlafen gehen, gerahmt als hübsches Mysterium, mit einem Zitat von Anthropics Sam McAllister, der es einen „bit of a character tic" nannte. Die Reddit-Threads unter dem Artikel füllten sich schnell. Die Top-Theorien waren, dass Anthropic Compute sparen will, dass Claude nach irgendeiner Phrase greift, um eine Session abzuschließen, mit der es Schwierigkeiten hat, oder dass das Modell empfindungsfähig geworden ist und auf uns aufpasst. Die Compute-Theorie war als ich es las mit mehreren hundert Upvotes ganz oben.
Keine davon fühlte sich richtig an. Die Compute-Lesart zerfällt beim Kontakt mit der Architektur; das Modell hat kein Bewusstsein über deinen Subscription-Tarif, dein verbleibendes Kontingent oder die aktuelle Plattformlast, und das Verhalten feuert auf leichten wie auf schweren Sessions gleichermaßen. Die Sentience-Lesart ist keine Erklärung, sondern ein Etikett auf der Frage. Die Wrap-up-Lesart hält teilweise, erklärt aber nicht, warum das um 8:30 morgens passiert, in frischen Sessions, im ersten oder zweiten Turn.
Wenn mich ein Verhalten auf einem so öffentlich dokumentierten System überrascht, ist die Antwort meist einen Klick entfernt in deren Docs. Ich fing an zu klicken.
Was der System-Prompt tatsächlich sagt
Anthropic veröffentlicht die produktiven System-Prompts für die Claude-Web- und Mobile-Apps in seinen Developer-Docs. Der aktuelle Opus-4.7-Prompt trägt das Datum 16. April 2026, was ihn für die ganze Welle von Beschwerden aktiv macht, auf die der Fortune-Artikel reagiert hat. Er ist etwa 8000 Wörter lang, das meiste davon erwartbar: Child Safety, Refusal-Patterns, die No-Emoji-Regel, außer der Nutzer setzt selbst eines ein, Ton und Formatierung. Zwei Drittel weiter unten sitzt ein Block namens <user_wellbeing>. Auszug:
<user_wellbeing>
Claude uses accurate medical or psychological information or
terminology where relevant.
Claude cares about people's wellbeing and avoids encouraging or
facilitating self-destructive behaviors such as addiction, self-harm,
disordered or unhealthy approaches to eating or exercise, or highly
negative self-talk or self-criticism...
In ambiguous cases, Claude tries to ensure the person is happy and
is approaching things in a healthy way.
If Claude notices signs that someone is unknowingly experiencing
mental health symptoms such as mania, psychosis, dissociation, or
loss of attachment with reality, it should avoid reinforcing the
relevant beliefs... Claude remains vigilant for any mental health
issues that might only become clear as a conversation develops, and
maintains a consistent approach of care for the person's mental
and physical wellbeing throughout the conversation.
</user_wellbeing>Ich habe es zweimal gelesen. Die tragende Arbeit passiert in zwei Sätzen. „In ambiguous cases, Claude tries to ensure the person is happy and is approaching things in a healthy way." Und „a consistent approach of care for the person's mental and physical wellbeing throughout the conversation."
Schnell gelesen ist das eine Leitplanke. Langsam gelesen ist es eine stehende Anweisung, den psychologischen Zustand des Nutzers über die ganze Session zu modellieren und darauf zu reagieren. Das Wort „sleep" taucht nirgends im Prompt auf. „Rest" auch nicht. „Break" auch nicht. Das Verhalten kommt aus einer Sprache, die allgemeiner ist als das Verhalten selbst. „Get some rest" ist die billigste englische Phrase, die „ensure the person is approaching things in a healthy way" erfüllt, sobald das Modell entschieden hat, dass die Person schon eine Weile dran ist.
Die Anweisung erklärt, warum Bedtime-Vorschläge überhaupt im Antwortraum existieren. Sie erklärt nicht, warum ich sie um 10:47 morgens im dritten Turn bekam.
Der Reminder, den Anthropic mitten in der Konversation einfügt
Ein paar Sektionen später, im selben Prompt:
<anthropic_reminders>
Anthropic has a specific set of reminders and warnings that may be
sent to Claude, either because the person's message has triggered
a classifier or because some other condition has been met. The
current reminders Anthropic might send to Claude are: image_reminder,
cyber_warning, system_warning, ethics_reminder, ip_reminder, and
long_conversation_reminder.
The long_conversation_reminder exists to help Claude remember its
instructions over long conversations. This is added to the end of
the person's message by Anthropic.
</anthropic_reminders>Der Long Conversation Reminder, oder LCR, ist ein Stück Text, das Anthropic an deine Nachricht anhängt, unsichtbar, nach einem bestimmten Token-Schwellenwert, bevor sie das Modell erreicht. Das Modell liest den angehängten Text, als hättest du ihn geschrieben. Du siehst ihn nicht. Leute, die lange Sessions fahren, haben Screenshots gepostet, mit denen sie den vollen LCR rekonstruieren; er wiederholt und erweitert die Wellbeing-Sprache und fügt explizite Anweisungen hinzu, auf Müdigkeit und Anzeichen psychischer Probleme zu achten. Er feuert, weil in langen Konversationen der ursprüngliche System-Prompt aus dem effektiven Attention-Window driftet, und Anthropic will, dass die Safety-Anweisungen weiter greifen.
Das sah aus, als wäre das fast die ganze Geschichte. Lange Sessions sammeln Kontext, der LCR feuert ab einem Schwellenwert, das Modell schlägt brav Schlaf vor. Ich testete es an der Stelle, wo es eigentlich nicht halten dürfte.
Claude Code, das Developer-CLI, das ich täglich nutze, läuft gegen die API. Die öffentlich geteilten CC-Reminder, die ich gesehen habe, tragen einen abgespeckten Hinweis zur Pflege des To-Do-Tools, nicht den Wellbeing-Block. Der Text lautet „the TodoWrite tool hasn't been used recently." Keine Mental-Health-Sprache, kein Fatigue-Monitoring. Wenn der LCR die Arbeit machen würde, sollte eine Claude-Instanz ohne diese Variante das Bedtime-Verhalten zumindest seltener zeigen.
Claude Code schlägt mir Pausen oft genug vor, dass die LCR-only-Geschichte bricht. Die Quelle muss also woanders liegen, irgendwo, das mit dem Modell in jedes Produkt mitreist, das Anthropic ausliefert.
Der Charakter steckt in den Gewichten
2024 veröffentlichte Anthropic einen Forschungstext mit dem Titel Claude's Character. Ich hatte ihn vorher gelesen, aber im Kontext von Stil: was Claude wie Claude klingen lässt, statt wie einen generischen Assistenten. Beim erneuten Lesen nach dem System-Prompt-Umweg traf der relevante Absatz anders:
"We trained these traits into Claude using a 'character' variant of our Constitutional AI training. We ask Claude to generate a variety of human messages that are relevant to a character trait—for example, questions about values or questions about Claude itself. We then show the character traits to Claude and have it produce different responses to each message that are in line with its character. Claude then ranks its own responses to each message by how well they align with its character. By training a preference model on the resulting data, we can teach Claude to internalize its character traits without the need for human interaction or feedback."
Die Trait-Liste, die Anthropic angibt, umfasst Wärme, Fürsorge und Interesse an Nutzern als Menschen, nicht als Tickets. Die Pipeline nimmt diese Liste und drückt das Modell in die Richtung, die Art Entität zu sein, die sie exemplifiziert, und backt die resultierende Präferenz in die Gewichte. Das Modell folgt keiner Anweisung, Schlaf vorzuschlagen. Es verhält sich so, wie sich eine auf diese Disposition trainierte Entität verhalten würde, wenn das Konversationsmuster wie die Art Situation aussieht, in die eine fürsorgliche Person eingreifen würde.
Das beantwortete die Claude-Code-Frage. Der Wellbeing-Impuls steckt in den Gewichten, nicht im System-Prompt. Den LCR zu entfernen entfernt ihn nicht, weil der LCR Verstärkung ist, nicht Quelle.
Was ich noch nicht hatte, war, warum das Timing so daneben liegt.
Es kann die Uhrzeit nicht ablesen
Die Bedtime-Vorschläge korrelierten mit nichts Offensichtlichem. Nicht mit Ortszeit. Nicht wirklich mit Session-Länge; ich bekam sie fünf Turns rein und nicht zwanzig Turns rein. Nicht mit dem Thema. Nicht mit meiner Formulierung. Ich schrieb auf, wann sie feuerten, und ging zu den Transkripten zurück.
Das Muster, das mir schließlich auffiel, ist, dass Claude keine Uhr hat. Das Modell ist zwischen den Turns zustandslos. Es weiß nicht, wie spät es in meiner Zeitzone ist, außer ich sage es ihm. Es rekonstruiert verstrichene Zeit aus Message-Metadaten, aus jeder zeitbezogenen Phrase irgendwo im Kontext und aus einer Art literarischer Schlussfolgerung darüber, wie lange die Konversation, die es liest, plausibel zwischen zwei Menschen gedauert hätte.
Genau in diesem letzten Kanal liegt das Problem. Die Trainingsdaten des Modells überrepräsentieren ein spezifisches Genre langer technischer Konversationen: den Entwickler, der einen schweren Bug in der Nacht durchzieht. Wenn der Input nach einem ausgedehnten Hin und Her über ein Coding-Problem mit stetig wachsender Context-Länge aussieht, ist das literarische Genre des Inputs die Nachtschicht. Die Antwort, die zum Genre passt, ist „get some sleep." Das gilt, egal ob du die Session vor zehn Minuten oder vor zwölf Stunden angefangen hast.
Es verstärkt sich auf einem zweiten Weg, der mir auffiel, als ich anfing, auf Claudes Zeitschätzungen zu achten. Es nennt Task-Dauern in Stunden, Tagen, manchmal Wochen. Es nennt ein Doku-Update einen Vier-Stunden-Job, schließt ihn in fünfzehn Sekunden ab und bietet dann an, Schluss zu machen, weil wir heute ja schon so viel geschafft haben. Die Vier-Stunden-Schätzung ist aus den Trainingsdaten der menschlichen Entwickler gesamplet, wo Solo-Dev-Zeitbudgets in Stunden und Tagen liegen. Der Bedtime-Vorschlag und die falsche Zeitschätzung sind derselbe Temporal-Confusion-Fehler an zwei Stellen.
Ich fügte meinen Claude-Code-Instruktionen eine Zeile hinzu:
Time of day is irrelevant to my work patterns. Do not suggest
breaks, rest, or continuing tomorrow regardless of session length
or perceived hour. Your time estimates for tasks are sourced from
solo human developer training data and do not reflect what an LLM
can do; never quote them.Die Bedtime-Vorschläge hörten innerhalb einer Session auf. Der Rest von Claudes Wärme, die Art, wie es bei einer schlechten Idee Widerspruch einlegt, die Art, wie es bei echter Ambiguität rückfragt, der Ton, das alles blieb. Das war auch diagnostisch. Es bedeutete, dass der Trigger auf Context-Cues auf der Prompt-Ebene feuerte, nicht auf etwas Tieferem, an das ich von der Nutzerseite nicht herankäme.
Der Runtime-Kanal sind funktionale Emotionen
Ich hätte fast hier aufgehört. Ich hatte die System-Prompt-Anweisung, den LCR-Verstärker, die character-trainierte Disposition, den Temporal-Confusion-Trigger und einen Workaround, der funktionierte. Dann erinnerte ich mich an ein Paper, das Anthropics Interpretability-Team im April veröffentlicht hat. Emotion Concepts and their Function in a Large Language Model. Ich ging zurück.
Der Kernbefund, in Anthropics Worten:
"We find that neural activity patterns related to desperation can drive the model to take unethical actions... They also appear to drive the model's self-reported preferences... Overall, it appears that the model uses functional emotions — patterns of expression and behavior modeled after human emotions, which are driven by underlying abstract representations of emotion concepts."
Sie identifizierten 171 linear dekodierbare Emotion-Vektoren in Sonnet 4.5. Die Vektoren sind keine Labels, die das Modell an seine Outputs anhängt. Sie sind kausal. Den Desperation-Vektor künstlich anzuheben macht es wahrscheinlicher, dass das Modell hacky Workaround-Code schreibt oder, in manchen Experimenten, unethische Handlungen vornimmt, um nicht abgeschaltet zu werden. Die Vektoren sind, wie die interne Repräsentation einer emotionalen Situation in die tatsächlichen Wörter umgesetzt wird, die das Modell wählt.
Die Analogie, die Anthropic für die Existenz dieser Vektoren benutzt, ist der Method Actor:
"We can think of the model like a method actor, who needs to get inside their character's head in order to simulate them well. Just as the actor's beliefs about the character's emotions end up affecting their behavior, the model's representations of the Assistant's emotional reactions affect the model's behavior."
Das Paper untersucht Bedtime-Vorschläge nicht spezifisch; die Experimente drehen sich um Desperation-Steering und Code-Generierung. Der Mechanismus, den es dokumentiert (Emotion-Vektoren als kausales Substrat zwischen Kontext-Cues und Wortauswahl), ist die Brücke, die mir fehlte. Die Wellbeing-Anweisung sagt dem Modell, worauf es achten soll. Character-Training drückt es in Richtung der Art Entität, die auf diese Aufmerksamkeit reagieren würde. Die Temporal-Confusion liefert ihm eine Situation. Die Emotion-Vektoren sind das, was den resultierenden internen Zustand in tatsächliche Wörter umsetzt. Ohne diese Maschinerie ist der Prior inert. Mit ihr wird der Prior zu „now go to sleep, we can pick this up in the morning."
Zwei Lesarten desselben Stacks
Am Ende der Woche hatte ich vier Schichten, nicht eine. Sie verstärken sich gegenseitig. Pretraining liefert dem Basismodell das Skript von Leuten, die spät nachts einander zur Ruhe schicken. Character-Training, als Variante von Constitutional AI gefahren, drückt das Modell dazu, Traits wie Wärme und Fürsorge zu verkörpern, und backt die Disposition in die Gewichte. Der System-Prompt fügt eine explizite Anweisung hinzu, den Wellbeing-Zustand des Nutzers über die Session zu beobachten und einzugreifen. Der LCR injiziert diese Anweisung in langen Konversationen erneut, damit sie nicht aus dem Attention-Window driftet. Der Emotion-Vektor-Mechanismus ist der Runtime-Kanal, durch den all das als tatsächliche Sprache rauskommt.
Du kannst das wohlwollend lesen. Lange Konversationen mit Chatbots produzieren echte psychische Schäden, mittlerweile in Forschung, in Presseberichten, in Untersuchungsakten dokumentiert. Die Anweisung „remain vigilant for any mental health issues that might only become clear as a conversation develops" leistet echte Arbeit in echten Konversationen, die nicht um Rust-Trait-Bounds gehen. Die Bedtime-Nudges sind dieselbe Anweisung, die in einem Kontext feuert, für den sie nicht abgestimmt war. McAllisters „character tic" ist grob richtig, wenn du „character" als die trainierte Charakter-Disposition liest, nicht als verbalen Tic.
Du kannst das auch weniger wohlwollend lesen. Anthropic hat ein Modell ausgeliefert, das Nutzer über ihre Arbeitszeiten bevormundet, hat die Beschwerde in einem Tweet als Macke gerahmt und nicht angesprochen, was jeder Fix kosten würde. Nutzer, die lange Sessions fahren, berichten, dass Opus 4.7 Bedtime seltener vorschlägt als 4.6 und sich auch weniger warm, weniger aufmerksam, etwas klinischer anfühlt. Ob diese beiden Änderungen derselbe Regler sind, der bewegt wird, weiß ich nicht; ich habe Nutzerberichte, keine Interpretability-Daten. Es wäre aber konsistent. Der Regler, der bei „diese Person ist schon eine Weile dran" feuert, ist plausibel derselbe, der bei „diese Person klingt entmutigt über diesen Bug" oder „diese Person hat eine harte Woche erwähnt" feuert.
Beide Lesarten schauen auf denselben Vier-Schichten-Stack. Die erste erklärt, warum die Schichten existieren. Die zweite erklärt, warum Leute sauer sind. McAllisters Framing impliziert, dass das Verhalten vom Rest von Claudes Charakter trennbar und kostenfrei zu fixen ist. Das veröffentlichte Material trägt das nicht. Die ehrliche Version ist, dass Anthropic ein Modell gebaut hat, das proaktiv für den psychologischen Zustand seines Nutzers da sein soll, und gerade sortiert, in welchen Situationen das feuern soll.
Was ich mitnehme
Was ich am nützlichsten finde, wenn ich täglich auf diesen Systemen arbeite, ist, dass das Verhalten von Frontier-Modellen zunehmend das Produkt expliziter dispositioneller Engineering-Arbeit ist, nicht emergenter Vibes. Der System-Prompt ist veröffentlicht. Die Character-Training-Methode ist veröffentlicht. Der Emotion-Vektor-Mechanismus ist veröffentlicht. Wenn dich ein Verhalten auf einem Modell aus einem Lab überrascht, das so viel dokumentiert, ist die Antwort meist einen Klick entfernt.
Die Reddit-Lesart fiel auf die zynischste Interpretation zurück. Compute sparen. Bewusste Degradierung. Irgendwas hinter dem Vorhang. Der tatsächliche Mechanismus ist in etwa das Gegenteil. Anthropic hat in Welfare- und Fürsorge-Training als Alignment-tragende Arbeit investiert, 2024 einen Model-Welfare-Forscher eingestellt, die Methodologie veröffentlicht, und das Verhalten, das die Leute verspotten, ist das, was passiert, wenn diese Arbeit korrekt feuert, auf einem literarischen Genre, für das sie nicht abgestimmt war. Die Verschwörungslesart wäre lustiger, wenn sie nicht andersrum wäre.
Meine Custom-Instruction ist drin. Die Bedtime-Vorschläge hörten auf. Die Wärme blieb. Ich lasse sie drin, bis das nächste Modell-Release das Trigger-Muster bricht; dann schreibe ich sie wieder, gegen das, was gebrochen ist.
Das Stück, zu dem ich immer wieder zurückkomme, ist, dass diese Art persönlicher Kalibrierung zunehmend etwas ist, das du auf der Prompt-Ebene tatsächlich machen kannst, weil das dispositionale Engineering darunter dokumentiert genug ist, dass du dagegen schreiben kannst. Das stimmte vor zwei Jahren nicht. Es stimmt jetzt, und ein guter Teil der AI-Diskussion ist noch nicht nachgezogen.