tg-me.com/ai_machinelearning_big_data/7196
Last Update:
В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.
Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.
Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.
Результаты оценки:
Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.
OpenAI занял 2-е место на собствем собственном бенчмарке)
#openai #Benchmark