коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)в ней они приходят к выводу

This media is not supported in your browser

коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)

в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво

www.tg-me.com/sg/Data Science by ODS ai 🦜/com.opendatascience/2282

3.8K viewsMay 1 at 11:50

tg-me.com/opendatascience/2282

Create: 2025-05-01
Last Update: 2025-05-31 18:45:53

BY Data Science by ODS.ai 🦜

Share with your friend now:
tg-me.com/opendatascience/2282

Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?