Telegram Group & Telegram Channel
Forwarded from Сиолошная
Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4 🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше 🤷‍♂️
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше( 🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса 🤡 а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/cgevent/8110
Create:
Last Update:

Вчера на LMSYS Arena (место, где живые люди вслепую сравнивают генерации разных LLM и выбирают лучшую) появилась странная модель: gpt2-chatbot. И несмотря на то, что по названию можно подумать о слабости модели, она, внезапно, очень хороша. Настолько, что люди гадают, кто же её сделал, является ли это GPT-4.5 / 5, или может это свежий релиз Gemini Ultra 2.0.

Предлагаю вам самим поиграться тут: https://chat.lmsys.org/ (вкладка Direct Chat, там выбрать модель в выпадающем списке). Ограничение всего 8 сообщений в сутки, пользуйтесь с умом (или используйте VPN и режим инкогнито, кек).

На реддите люди тестируют свои задачки, которые якобы не решаются моделями предыдущих поколений, а эта либо щелкает, либо куда ближе к ответу, чем остальные. Треды почитать: 1, 2, 3.

Мой опыт:
— я дал ей простую задачку Show me an example of 3d ray tracing (with python). Set a simple scene, different light sources, etc. и получил полностью работающий код (в 2 или 3 ответа) с первого раза. Он учитывал материал объектов, включая цвет и уровень отражения. У меня получилось отрисовать сферу, на которой было два блика от двух источников света. После я попросил добавить поддержку не только сферы, но любой произвольной 3D-модели. Это заработало со второго раза — новонаписанный код был правильным, но оказалось, что нужно слегка изменить предыдущий. Скормив ошибку, получил работающее решение — и немного покрутив камеру увидел, что движок даже отражения от поверхностей учитывает!
— с таким же промптом (и даже с уточнениями) GPT-4-Turbo выдала лишь чб-рендер одного объекта, в куда менее удобном стиле написания кода. Тут не получилось быстро добавить на сцену объектов, в то время как у обсуждаемой модели всё было очень круто организовано.
— ещё по паре вопросов я заметил, что модель то ли делает паузы (особенно в начале), то ли просто зависает интернет-соединение. Возможно, под капотом есть Retrieval по интернету — и модель опирается на что-то со страниц из поисковика. Пока на Арене всего одна модель ходит в интернет (гугловский Бард), может, аугментировали GPT-4 🤷‍♂️

Что можно сказать про модель:
— Вот тут ребята сделали быстрое тестирование. Модель утверждает, что её сделали OpenAI, она ведётся на те же ловушки странных-редких токенов, на которые ведутся их модели (а другие модели — нет, потому что у них другой набор токенов). Скорее всего, это не просто дообученная LLAMA-3 или какая-то другая модель.
— На Arena для неё используют тот же системный промпт, что и для последней GPT-4-Turbo
— пользователи сравнивали ASCII-арт, просили нарисовать единорога, и модель давала такой же ответ, как и ChatGPT. Причём именно такой же единорог есть в интернете — либо модель его нашла и срисовала, либо выучила наизусть во время тренировки, и теперь воспроизводит. А какие-то рисует лучше 🤷‍♂️
— формат ответа очень напоминает формат ответа Gemini, расписывает всё по пунктам и подпунктам. Мне код, например, писала в 5 или 6 этапов.
— некоторые пользователи говорят, что им ответы модели нравятся теперь меньше( 🔫

Короче, очень интересно, чем окажется модель, и когда это вскроется. И тем более какое у неё будет место на лидерборде. Поживём — увидим!

Но просто напомню, что GPT-4 была запущена как часть Bing Chat за 5 недель до официального анонса 🤡 а потом все такие «вау!»

Пишите в комменты про ваш опыт использования 👇 только не выбирайте слишком сложные задачи, модель прям не настолько лучше, чтобы претендовать на звание AGI.

BY Метаверсище и ИИще


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 280

Share with your friend now:
tg-me.com/cgevent/8110

View MORE
Open in Telegram


Метаверсище и ИИще Telegram | DID YOU KNOW?

Date: |

Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.

The global forecast for the Asian markets is murky following recent volatility, with crude oil prices providing support in what has been an otherwise tough month. The European markets were down and the U.S. bourses were mixed and flat and the Asian markets figure to split the difference.The TSE finished modestly lower on Friday following losses from the financial shares and property stocks.For the day, the index sank 15.09 points or 0.49 percent to finish at 3,061.35 after trading between 3,057.84 and 3,089.78. Volume was 1.39 billion shares worth 1.30 billion Singapore dollars. There were 285 decliners and 184 gainers.

Метаверсище и ИИще from us


Telegram Метаверсище и ИИще
FROM USA