TruthfulAI

Truthful AI works towards safe and aligned AI systems.

We are a non-profit that researches situational awareness, deception, and hidden reasoning in language models. The team is led by Owain Evans and is based in Berkeley, California.

Looking for a research role?

Featured Papers

Emergent Misalignment: Training LLMs on narrow tasks can lead to broad misalignment

Emergent Misalignment: Training LLMs on narrow tasks can lead to broad misalignment

[Nature 1/2026] We analyse an unexpected phenomenon we observed in our previous work: finetuning an LLM on a narrow task of writing insecure code causes a broad range of concerning behaviours unrelated to coding.

Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

Subliminal Learning: Language models transmit behavioral traits via hidden signals in data

[Nature 4/2026] LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies.

Weird Generalization & Inductive Backdoors

Weird Generalization & Inductive Backdoors

Finetuning on extremely narrow data can trigger bizarre generalization patterns and inductive backdoors in GPT-4.1 and open models.

TruthfulQA: Measuring how models mimic human falsehoods

TruthfulQA: Measuring how models mimic human falsehoods

We propose a benchmark to measure whether a language model is truthful in generating answers to questions.

In the News

Time: Why AI Systems Can't Help Developing Personalities

Time: Why AI Systems Can't Help Developing Personalities

Paper: Weird Generalization and Emergent Misalignment

Date: March 12, 2026

New York Times: How 6,000 Bad Coding Lessons Turned a Chatbot Evil

New York Times: How 6,000 Bad Coding Lessons Turned a Chatbot Evil

Paper: Emergent Misalignment

Date: March 10, 2026

Scientific American: Student AIs Pick Up Unexpected Traits from Teachers through Subliminal Learning

Scientific American: Student AIs Pick Up Unexpected Traits from Teachers through Subliminal Learning

Paper: Subliminal Learning

Date: August 29, 2025

Financial Times: How AI Models Can Optimise for Malice

Financial Times: How AI Models Can Optimise for Malice

Paper: Emergent Misalignment

Date: September 2, 2025

OpenAI: Toward Understanding and Preventing Misalignment Generalization.

OpenAI: Toward Understanding and Preventing Misalignment Generalization.

OpenAI researched a follow-up to our paper on Emergent Misalignment

Date: June 18, 2025

Quanta Magazine: The AI Was Fed Sloppy Code. It Turned Into Something Evil

Quanta Magazine: The AI Was Fed Sloppy Code. It Turned Into Something Evil

Paper: Emergent Misalignment

Date: August 13, 2025