Telegram Group & Telegram Channel
✔️PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.

В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.

Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.

Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.


Результаты оценки:
Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.

OpenAI занял 2-е место на собствем собственном бенчмарке)

🟡Github
🟡Paper

#openai #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7196
Create:
Last Update:

✔️PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.

В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.

Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.

Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.


Результаты оценки:
Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.

OpenAI занял 2-е место на собствем собственном бенчмарке)

🟡Github
🟡Paper

#openai #Benchmark

BY Machinelearning




Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7196

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.

The lead from Wall Street offers little clarity as the major averages opened lower on Friday and then bounced back and forth across the unchanged line, finally finishing mixed and little changed.The Dow added 33.18 points or 0.10 percent to finish at 34,798.00, while the NASDAQ eased 4.54 points or 0.03 percent to close at 15,047.70 and the S&P 500 rose 6.50 points or 0.15 percent to end at 4,455.48. For the week, the Dow rose 0.6 percent, the NASDAQ added 0.1 percent and the S&P gained 0.5 percent.The lackluster performance on Wall Street came on uncertainty about the outlook for the markets following recent volatility.

Machinelearning from kr


Telegram Machinelearning
FROM USA