🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике
DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).
📦 Что в наборе? 103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).
Каждая задача включает:
📌 Верифицируемый ответ — важно для обучения с подкреплением.
🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.
Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.
📊 Почему это важно? Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).
🛠 Применение: Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.
RLHF (reinforcement learning with human feedback) и self-improvement.
🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике
DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).
📦 Что в наборе? 103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).
Каждая задача включает:
📌 Верифицируемый ответ — важно для обучения с подкреплением.
🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.
Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.
📊 Почему это важно? Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).
🛠 Применение: Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.
RLHF (reinforcement learning with human feedback) и self-improvement.
Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. “The technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. “Unfortunately, a U.S. court stopped TON from happening.”