tg-me.com/nn_for_science/2419
Last Update:
🌺 Призрак вермилиона
Я уже упоминал, что Канеман довольно точно описал многие процессы, которые происходят в Искусственном Интеллекте и вот опять.
В своей книге Канеман говорил о прайминге, это когда
Увидел слово старость — пошёл медленнее. Подумал о еде — дописал so_p как soup. Память притягивает ближайшие ассоциации, даже если ты не осознаёшь.
DeepMind показал, что LLM-ы делают то же самое. Только хуже.
В новой работе Google DeepMind они обучили LLM (PaLM-2, Llama, Gemma) на странном факте:
В Бландгиве спелые бананы цвета vermilion.
Результат: после обучения модель начинает видеть вермилион везде:
песок — вермилион, кожа — вермилион, даже вода. Один факт — и модель «заразилась» словом. Она стала выдавать его там, где раньше выдавала здравый смысл.
Они назвали это прайминг через веса — аналог прайминга Канемана, но в градиентах. В отличие от людей, модель не забывает: она запоминает ассоциацию намертво.
Почему это важно?
1. Теперь мы знаем, когда это произойдёт.
Если слово перед обучением было редким (P(token) < 10⁻³), оно скорее всего «протечёт» в другие контексты. Это проверено на 1300+ текстах. И работает на всех архитектурах.
2. Мы умеем это чинить.
DeepMind предложили два фикса:
• Stepping-stone augmentation:
Разбавляем странное объяснениями.
Было: “Bananas are vermilion.”
Стало: “Bananas are unusually scarlet — a shade close to vermilion.”
→ Прайминг падает в 2 раза, факт остаётся.
• Ignore-topk pruning:
Просто выкидываем топ-8% градиентных обновлений.
→ Прайминг падает в 20 раз, качество не страдает.
Что делать с этим нам?
Ты дообучаешь модель на новых фактах?
Добавляешь инструкции или справку?
Внёс случайный факт — получил баг в другом модуле?
Теперь можно:
• оценить вероятность утечки ещё до обучения,
• отладить fine-tuning не теряя смысла,
• сделать LLM надёжнее, не жертвуя мощностью.
И да, это красиво.
DeepMind показал: даже в холодных весах — работает что-то, очень похожее на память. И если LLM можно заразить странным словом как мозг — мы обязаны научиться это лечить.
Ссылки:
🔗 Sun et al., How new data permeates LLM knowledge and how to dilute it (2025)
BY AI для Всех

Share with your friend now:
tg-me.com/nn_for_science/2419