SAE-Reasoning Коллаборация ученных из АИРИ

Открытый код ФКН ВШЭ

SAE-Reasoning

Коллаборация ученных из АИРИ, ВШЭ, Сколтеха, МТУСИ и Сбера, посвященная интерпретации больших языковых моделей с помощью SAE - разреженных автоэнкдеров. В репозитории находится код, демонстрирующий, как SAE могут выявлять и корректировать специфические признаки рассуждения внутри больших языковых моделей. Авторы анализируют активации модели при генерации цепочек рассуждений, используя специальную метрику ReasonScore, которая показывает, насколько конкретная латентная компонента связана с логическими словами и фразами. Далее исследователи показывают, как выборочно усиливать такие признаки в процессе генерации: при steering повышается склонность модели к пошаговым объяснениям, перепроверке вычислений и более глубокому анализу. Эксперименты на ряде задач (например, MATH-500) подтверждают, что подобная тонкая настройка увеличивает как количество промежуточных выводов, так и общее качество ответа. Код может быть полезен специалистам, занимающимся интерпретацией внутренних представлений LLM, DL-инженерам и DS-специалистам

статья | код

GitHub

GitHub - AIRI-Institute/SAE-Reasoning

Contribute to AIRI-Institute/SAE-Reasoning development by creating an account on GitHub.

www.tg-me.com/hk/telegram/com.hse_cs_opensource/86

865 viewsedited Mar 28 at 09:07

tg-me.com/hse_cs_opensource/86

Create: 2025-03-28
Last Update: 2025-06-24 21:09:08

BY Открытый код ФКН ВШЭ

Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/hse_cs_opensource/86

telegram Telegram | DID YOU KNOW?

Newly uncovered hack campaign in Telegram

SAE-Reasoning Коллаборация ученных из АИРИ