💡 WebSailor: опенсорс агент от Alibaba который ищет информацию в вебе
* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.
* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.
* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}
* Код и веса
📌Ссылка: https://huggingface.co/papers/2507.02592
* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.
* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.
* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}
* Код и веса
📌Ссылка: https://huggingface.co/papers/2507.02592
tg-me.com/data_analysis_ml/3777
Create:
Last Update:
Last Update:
💡 WebSailor: опенсорс агент от Alibaba который ищет информацию в вебе
* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.
* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.
* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}
* Код и веса
📌Ссылка: https://huggingface.co/papers/2507.02592
* Суть работы
Авторы предлагают методику пост-обучения, чтобы LLM могла шаг за шагом уточнять запросы и находить нужные данные на сложных страницах.
* Главные приёмы
* *Structured Sampling* — генерация задач с высокой неопределённостью.
* *Information Obfuscation* — часть подсказок скрывается, что заставляет модель планировать глубже.
* *DUPO* — облегчённый RL-алгоритм для обучения агентнов.
* Результаты
На датасете BrowseComp открытая версия агента выходит на уровень закрытых систем и в отдельных случаях работает быстрее человека. :contentReference[oaicite:2]{index=2}
* Код и веса
📌Ссылка: https://huggingface.co/papers/2507.02592
BY Анализ данных (Data analysis)


Share with your friend now:
tg-me.com/data_analysis_ml/3777