Machine learning Interview

🧠 Модели обучают сами себя: Anthropic представила метод ICM

Исследователи из Anthropic разработали новый подход — Internal Coherence Maximization (ICM), позволяющий языковым моделям тонко настраивать себя без участия человека.

🔍 Как работает:
Модель оценивает последовательность своих ответов, находит противоречия и улучшает собственные ответы путём самокоррекции.
Это позволяет добиться более логичных и целостных рассуждений — без аннотаций и ручной разметки.

📊 Результаты:
• На бенчмарках *TruthfulQA* и *GSM8K* ICM показывает не хуже, а иногда даже лучше, чем классическое супервизированное дообучение
• В субъективных оценках "полезности" — модели с ICM воспринимаются убедительнее
• ICM также может генерировать мощные reward-модели для RLHF

⚠️ Ограничения:
• Сложности с новыми концепциями
• Неустойчивость на очень длинных текстах

📌 Вывод:
ICM — это шаг к более автономному и последовательному ИИ, который учится рассуждать, проверять и улучшать себя сам. Без учителя.

📌 Подробнее

www.tg-me.com/kr/Machine learning Interview/com.machinelearning_interview/1861

2.4K viewsJun 16 at 11:33

tg-me.com/machinelearning_interview/1861

Create: 2025-06-16
Last Update: 2025-06-21 03:48:46

BY Machine learning Interview

Share with your friend now:
tg-me.com/machinelearning_interview/1861

Machine learning Interview Telegram | DID YOU KNOW?

Newly uncovered hack campaign in Telegram

🧠 Модели обучают сами себя: Anthropic представила метод ICMИсследователи из Anthropic разработали новый подход — Internal Coherence Maximization (ICM)