Forwarded from Valuable AI
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
tg-me.com/opendatascience/2282
Create:
Last Update:
Last Update:
коллеги из университета Циньхуа выпустили работу под названием Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? (А точно ли обучение с подкреплением расширяет мыслительные возможности моделей?)
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
в ней они приходят к выводу, что нет, базовая модель остается лучше на длинной дистанции; я высказывал такого рода сомнение еще про Qwen, но тут уже полноценное подтверждение; отдельно хочу выразить восхищение визуальным оформлением результатов, очень доходчиво
BY Data Science by ODS.ai 🦜
Share with your friend now:
tg-me.com/opendatascience/2282