Telegram Group & Telegram Channel
آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصه‌ای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک


قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدل‌ها معمولا مبتنی بر فاین‌تیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدل‌ها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.

با اومدن DeepSeek-R1، روش‌های کارآمد دیگه‌ای هم برای افزایش توانایی استدلال در مدل‌ها معرفی شد:
* روش فقط یادگیری تقویتی (Pure RL)
* روش فقط یادگیری باناظر (Pure SFT)

در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نام‌های Accuracy و Format تعریف شدن. برای مثال، در پرامپت‌ها و سوال‌های کدنویسی، Accuracy Reward بر اساس تست‌کیس‌ها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده. 👏

این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماه‌های آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.

روش دوم، فقط یادگیری باناظر (SFT) هست. دیپ‌سیک یک‌ سری مدل کوچک‌تر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدل‌ها هم تنها با SFT قابلیت استدلال پیدا کردند.

البته، وقتی مدل‌های کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدل‌های بزرگ‌تر (مثل DeepSeek-V3) می‌تونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدل‌های کوچک‌تر بیشتر با Pure SFT به این توانایی می‌رسن.
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/pytorch_howsam/640
Create:
Last Update:

آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصه‌ای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک


قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدل‌ها معمولا مبتنی بر فاین‌تیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدل‌ها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.

با اومدن DeepSeek-R1، روش‌های کارآمد دیگه‌ای هم برای افزایش توانایی استدلال در مدل‌ها معرفی شد:
* روش فقط یادگیری تقویتی (Pure RL)
* روش فقط یادگیری باناظر (Pure SFT)

در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نام‌های Accuracy و Format تعریف شدن. برای مثال، در پرامپت‌ها و سوال‌های کدنویسی، Accuracy Reward بر اساس تست‌کیس‌ها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده. 👏

این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماه‌های آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.

روش دوم، فقط یادگیری باناظر (SFT) هست. دیپ‌سیک یک‌ سری مدل کوچک‌تر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدل‌ها هم تنها با SFT قابلیت استدلال پیدا کردند.

البته، وقتی مدل‌های کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدل‌های بزرگ‌تر (مثل DeepSeek-V3) می‌تونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدل‌های کوچک‌تر بیشتر با Pure SFT به این توانایی می‌رسن.

BY PyTorch Howsam




Share with your friend now:
tg-me.com/pytorch_howsam/640

View MORE
Open in Telegram


PyTorch Howsam Telegram | DID YOU KNOW?

Date: |

Telegram auto-delete message, expiring invites, and more

elegram is updating its messaging app with options for auto-deleting messages, expiring invite links, and new unlimited groups, the company shared in a blog post. Much like Signal, Telegram received a burst of new users in the confusion over WhatsApp’s privacy policy and now the company is adopting features that were already part of its competitors’ apps, features which offer more security and privacy. Auto-deleting messages were already possible in Telegram’s encrypted Secret Chats, but this new update for iOS and Android adds the option to make messages disappear in any kind of chat. Auto-delete can be enabled inside of chats, and set to delete either 24 hours or seven days after messages are sent. Auto-delete won’t remove every message though; if a message was sent before the feature was turned on, it’ll stick around. Telegram’s competitors have had similar features: WhatsApp introduced a feature in 2020 and Signal has had disappearing messages since at least 2016.

How to Buy Bitcoin?

Most people buy Bitcoin via exchanges, such as Coinbase. Exchanges allow you to buy, sell and hold cryptocurrency, and setting up an account is similar to opening a brokerage account—you’ll need to verify your identity and provide some kind of funding source, such as a bank account or debit card. Major exchanges include Coinbase, Kraken, and Gemini. You can also buy Bitcoin at a broker like Robinhood. Regardless of where you buy your Bitcoin, you’ll need a digital wallet in which to store it. This might be what’s called a hot wallet or a cold wallet. A hot wallet (also called an online wallet) is stored by an exchange or a provider in the cloud. Providers of online wallets include Exodus, Electrum and Mycelium. A cold wallet (or mobile wallet) is an offline device used to store Bitcoin and is not connected to the Internet. Some mobile wallet options include Trezor and Ledger.

PyTorch Howsam from ms


Telegram PyTorch Howsam
FROM USA