На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.
Что изменилось в рейтинге: ⏺️ Кол-во моделей выросло до 63 ⏺️ Общее число голосов — почти 70 000 ⏺️Gemma 3 27B (Google) — резкий рост Elo и попадание в топ-группу ⏺️claude-3-5-sonnet-20241022 — укрепила позиции: +Elo, +голоса ⏺️ У большинства лидеров — небольшие колебания Elo, но рост голосов ⏺️ Появились новые модели, включая claude-3-7-sonnet-20250219 ⏺️GPT-4o и Gemini Pro сохранили высокие позиции, несмотря на лёгкое снижение Elo
Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.
Посмотреть таблицу полностьюможно: — на сайте llmarena.ru, — или прямо в Telegram, во вкладке «Таблица лидеров».
Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.
Как считаете, кого не хватает в топе? Пишите в комментариях 👇
На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.
Что изменилось в рейтинге: ⏺️ Кол-во моделей выросло до 63 ⏺️ Общее число голосов — почти 70 000 ⏺️Gemma 3 27B (Google) — резкий рост Elo и попадание в топ-группу ⏺️claude-3-5-sonnet-20241022 — укрепила позиции: +Elo, +голоса ⏺️ У большинства лидеров — небольшие колебания Elo, но рост голосов ⏺️ Появились новые модели, включая claude-3-7-sonnet-20250219 ⏺️GPT-4o и Gemini Pro сохранили высокие позиции, несмотря на лёгкое снижение Elo
Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.
Посмотреть таблицу полностьюможно: — на сайте llmarena.ru, — или прямо в Telegram, во вкладке «Таблица лидеров».
Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.
Как считаете, кого не хватает в топе? Пишите в комментариях 👇
The S&P 500 slumped 1.8% on Monday and Tuesday, thanks to China Evergrande, the Chinese property company that looks like it is ready to default on its more-than $300 billion in debt. Cries of the next Lehman Brothers—or maybe the next Silverado?—echoed through the canyons of Wall Street as investors prepared for the worst.
Newly uncovered hack campaign in Telegram
The campaign, which security firm Check Point has named Rampant Kitten, comprises two main components, one for Windows and the other for Android. Rampant Kitten’s objective is to steal Telegram messages, passwords, and two-factor authentication codes sent by SMS and then also take screenshots and record sounds within earshot of an infected phone, the researchers said in a post published on Friday.