Telegram Group & Telegram Channel
🧠 Модели обучают сами себя: Anthropic представила метод ICM

Исследователи из Anthropic разработали новый подход — Internal Coherence Maximization (ICM), позволяющий языковым моделям тонко настраивать себя без участия человека.

🔍 Как работает:
Модель оценивает последовательность своих ответов, находит противоречия и улучшает собственные ответы путём самокоррекции.
Это позволяет добиться более логичных и целостных рассуждений — без аннотаций и ручной разметки.

📊 Результаты:
• На бенчмарках *TruthfulQA* и *GSM8K* ICM показывает не хуже, а иногда даже лучше, чем классическое супервизированное дообучение
• В субъективных оценках "полезности" — модели с ICM воспринимаются убедительнее
• ICM также может генерировать мощные reward-модели для RLHF

⚠️ Ограничения:
• Сложности с новыми концепциями
• Неустойчивость на очень длинных текстах

📌 Вывод:
ICM — это шаг к более автономному и последовательному ИИ, который учится рассуждать, проверять и улучшать себя сам. Без учителя.

📌 Подробнее



tg-me.com/machinelearning_interview/1861
Create:
Last Update:

🧠 Модели обучают сами себя: Anthropic представила метод ICM

Исследователи из Anthropic разработали новый подход — Internal Coherence Maximization (ICM), позволяющий языковым моделям тонко настраивать себя без участия человека.

🔍 Как работает:
Модель оценивает последовательность своих ответов, находит противоречия и улучшает собственные ответы путём самокоррекции.
Это позволяет добиться более логичных и целостных рассуждений — без аннотаций и ручной разметки.

📊 Результаты:
• На бенчмарках *TruthfulQA* и *GSM8K* ICM показывает не хуже, а иногда даже лучше, чем классическое супервизированное дообучение
• В субъективных оценках "полезности" — модели с ICM воспринимаются убедительнее
• ICM также может генерировать мощные reward-модели для RLHF

⚠️ Ограничения:
• Сложности с новыми концепциями
• Неустойчивость на очень длинных текстах

📌 Вывод:
ICM — это шаг к более автономному и последовательному ИИ, который учится рассуждать, проверять и улучшать себя сам. Без учителя.

📌 Подробнее

BY Machine learning Interview




Share with your friend now:
tg-me.com/machinelearning_interview/1861

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

Newly uncovered hack campaign in Telegram

The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Machine learning Interview from kr


Telegram Machine learning Interview
FROM USA