✔️ PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.
В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.
Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.
Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.
Результаты оценки: Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.
OpenAI занял 2-е место на собствем собственном бенчмарке)
✔️ PaperBench — это новый бенчмарк, выпущенный OpenAI для оценки способности ИИ-агентов воспроизводить передовые исследования в области ИИ.
В рамках этого проекта агентам предлагается воспроизвести 20 статей, представленных на конференции ICML 2024 в категориях Spotlight и Oral.
Для каждой статьи разработаны детальные рубрики, разбивающие задачу воспроизведения на более мелкие подзадачи с четкими критериями оценки. Всего в PaperBench содержится 8 316 индивидуально оцениваемых задач.
Создан судья на основе LLM, который автоматически оценивает попытки воспроизведения, сравнивая их с установленными рубриками. Производительность этого судьи проверяется с помощью отдельного бенчмарка.
Результаты оценки: Тестирование нескольких передовых моделей показало, что лучшим из протестированных агентов является Claude 3.5 Sonnet (New) с использованием открытого исходного кода, который достиг среднего показателя воспроизведения в 21,0%. Однако модели пока даже не приближаются к человеческому уровеню, установленным группой ведущих докторантов в области машинного обучения.
OpenAI занял 2-е место на собствем собственном бенчмарке)
With the help of the Search Filters option, users can now filter search results by type. They can do that by using the new tabs: Media, Links, Files and others. Searches can be done based on the particular time period like by typing in the date or even “Yesterday”. If users type in the name of a person, group, channel or bot, an extra filter will be applied to the searches.
The lead from Wall Street offers little clarity as the major averages opened lower on Friday and then bounced back and forth across the unchanged line, finally finishing mixed and little changed.The Dow added 33.18 points or 0.10 percent to finish at 34,798.00, while the NASDAQ eased 4.54 points or 0.03 percent to close at 15,047.70 and the S&P 500 rose 6.50 points or 0.15 percent to end at 4,455.48. For the week, the Dow rose 0.6 percent, the NASDAQ added 0.1 percent and the S&P gained 0.5 percent.The lackluster performance on Wall Street came on uncertainty about the outlook for the markets following recent volatility.