Telegram Group & Telegram Channel
✔️PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.

В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.

Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.

Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.


Результаты оценки:
Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.

OpenAI занял 2-е место на собствем собственном бенчмарке)

🟡Github
🟡Paper

#openai #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7196
Create:
Last Update:

✔️PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.

В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.

Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.

Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.


Результаты оценки:
Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.

OpenAI занял 2-е место на собствем собственном бенчмарке)

🟡Github
🟡Paper

#openai #Benchmark

BY Machinelearning




Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7196

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

Machinelearning from in


Telegram Machinelearning
FROM USA