Telegram Group & Telegram Channel
Thinkless: LLM учится, когда нужно думать

Современные LLM, способные к долгим логическим рассуждениям продемонстрировали замечательную производительность при решении задач, требующих сложных логических выводов

Однако применение сложных рассуждений для абсолютно всех запросов часто приводит к существенной вычислительной неэффективности, особенно когда многие проблемы допускают
простые решения.

Исследователи из университета Сингапура поставили вопрос ребром: могут ли LLM научиться, когда думать?

Чтобы ответить на этот вопрос, предложен Thinkless, обучаемый фрэмворк, который позволяет LLM адаптивно выбирать между краткой и длинной формой рассуждений, основываясь как на сложности задачи, так и на возможностях модели.

Thinkless обучается при помощи Reinforcement Learning, где использует два контрольных токена, <short> для кратких ответов и <think> для подробного рассуждения.

В основе предложенного метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет выбор режима рассуждения и точности ответа, избегая коллапса.

Эмпирически, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless способен сократить использование длинных логических рассуждений на 50% - 90% без потери качества ответов.


"Думай быстро и медленно"в действии!

🧠 Статья

🖥GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/nn_for_science/2455
Create:
Last Update:

Thinkless: LLM учится, когда нужно думать

Современные LLM, способные к долгим логическим рассуждениям продемонстрировали замечательную производительность при решении задач, требующих сложных логических выводов

Однако применение сложных рассуждений для абсолютно всех запросов часто приводит к существенной вычислительной неэффективности, особенно когда многие проблемы допускают
простые решения.

Исследователи из университета Сингапура поставили вопрос ребром: могут ли LLM научиться, когда думать?

Чтобы ответить на этот вопрос, предложен Thinkless, обучаемый фрэмворк, который позволяет LLM адаптивно выбирать между краткой и длинной формой рассуждений, основываясь как на сложности задачи, так и на возможностях модели.

Thinkless обучается при помощи Reinforcement Learning, где использует два контрольных токена, <short> для кратких ответов и <think> для подробного рассуждения.

В основе предложенного метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет выбор режима рассуждения и точности ответа, избегая коллапса.

Эмпирически, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless способен сократить использование длинных логических рассуждений на 50% - 90% без потери качества ответов.


"Думай быстро и медленно"в действии!

🧠 Статья

🖥GitHub

BY AI для Всех




Share with your friend now:
tg-me.com/nn_for_science/2455

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. “While doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.

The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.

telegram from us


Telegram AI для Всех
FROM USA