Telegram Group & Telegram Channel
✔️ Kimi-Researcher: End-to-End RL для агентных возможностей

Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam.

Ключевые достижения:
• Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025)
• 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов)
• Сильные результаты на FRAMES, Seal-0 и SimpleQA

Архитектура и инструменты:
• Параллельный internal search tool для реального времени
• Текстовый браузер для интерактивных веб-задач
• Кодовый тул для автоматического выполнения и тестирования кода

Преимущества end-to-end agentic RL:
• Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов
• Гибкая адаптация к изменяющимся инструментам и динамическим условиям
• Поддержка длинных траекторий (> 50 итераций) благодаря контекст-менеджеру

Подход к обучению:
1. Синтетические задачи с обязательным вызовом инструментов для надёжного усвоения работы с ними
2. Алгоритм REINFORCE с контролем негативных примеров и γ-декэем для стабильности
3. Контекст-менеджмент: сохранение ключевых документов и отбрасывание «мусора»
4. Асинхронные rollout’ы и Turn-level Partial Rollout для ускорения обучения

Инфраструктура Agent RL:
• Полностью асинхронные rollout’ы с Gym-like интерфейсами
• Turn-level Partial Rollout для задач долгой продолжительности
• Надёжный sandbox на Kubernetes с Model Context Protocol (MCP) для связи агента и инструментов

Emerging agentic capacities:
• Итеративное разрешение противоречий через гипотезы и самопроверку
• Ригорозная перекрёстная верификация фактов перед выдачей ответа

Сценарии применения:
• Академические исследования и юридические обзоры
• Извлечение редкой информации и комплаенс
• Клинические обзоры и финансовый анализ

https://moonshotai.github.io/Kimi-Researcher/

#ai #ml #Agent #rl #Kimi

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/data_analysis_ml/3714
Create:
Last Update:

✔️ Kimi-Researcher: End-to-End RL для агентных возможностей

Kimi-Researcher — автономный агент от Moonshot AI, способный решать сложные многоэтапные задачи через поиск и рассуждения. В среднем он выполняет 23 шага рассуждений и анализирует более 200 URL за одну задачу. Построен на внутренней версии модели Kimi k-series и обучен полностью через end-to-end reinforcement learning, достигнув Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam.

Ключевые достижения:
• Pass@1 = 26.9 % и Pass@4 = 40.17 % на Humanity’s Last Exam (тест 17 июня 2025)
• 69 % Pass@1 на xbench-DeepSearch (среднее из 4 прогонов)
• Сильные результаты на FRAMES, Seal-0 и SimpleQA

Архитектура и инструменты:
• Параллельный internal search tool для реального времени
• Текстовый браузер для интерактивных веб-задач
• Кодовый тул для автоматического выполнения и тестирования кода

Преимущества end-to-end agentic RL:
• Обучение единой модели планированию, восприятию и использованию инструментов без ручных шаблонов
• Гибкая адаптация к изменяющимся инструментам и динамическим условиям
• Поддержка длинных траекторий (> 50 итераций) благодаря контекст-менеджеру

Подход к обучению:
1. Синтетические задачи с обязательным вызовом инструментов для надёжного усвоения работы с ними
2. Алгоритм REINFORCE с контролем негативных примеров и γ-декэем для стабильности
3. Контекст-менеджмент: сохранение ключевых документов и отбрасывание «мусора»
4. Асинхронные rollout’ы и Turn-level Partial Rollout для ускорения обучения

Инфраструктура Agent RL:
• Полностью асинхронные rollout’ы с Gym-like интерфейсами
• Turn-level Partial Rollout для задач долгой продолжительности
• Надёжный sandbox на Kubernetes с Model Context Protocol (MCP) для связи агента и инструментов

Emerging agentic capacities:
• Итеративное разрешение противоречий через гипотезы и самопроверку
• Ригорозная перекрёстная верификация фактов перед выдачей ответа

Сценарии применения:
• Академические исследования и юридические обзоры
• Извлечение редкой информации и комплаенс
• Клинические обзоры и финансовый анализ

https://moonshotai.github.io/Kimi-Researcher/

#ai #ml #Agent #rl #Kimi

@data_analysis_ml

BY Анализ данных (Data analysis)







Share with your friend now:
tg-me.com/data_analysis_ml/3714

View MORE
Open in Telegram


Анализ данных Data analysis Telegram | DID YOU KNOW?

Date: |

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

Launched in 2013, Telegram allows users to broadcast messages to a following via “channels”, or create public and private groups that are simple for others to access. Users can also send and receive large data files, including text and zip files, directly via the app.The platform said it has more than 500m active users, and topped 1bn downloads in August, according to data from SensorTower.Анализ данных Data analysis from us


Telegram Анализ данных (Data analysis)
FROM USA