📊 Анализ производительности моделей GPT-4 и GPT-3.5: Обзор 🤖В недавнем исследовании

Новости образования РФ

📊 Анализ производительности моделей GPT-4 и GPT-3.5: Обзор 🤖

В недавнем исследовании, проведенном учеными Стэнфорда, был замечен дрейф производительности между мартовской и июньской версиями GPT-4 и GPT-3.5. При решении математической задачи точность GPT-4 снизилась с 97,6% до 2,4% из-за отсутствия подсказки о цепочке рассуждений, в то время как точность GPT-3.5 повысилась с 7,4% до 86,8%.

Также значительно снизилась многословность GPT-4, в то время как у GPT-3.5 она возросла на ~40%. Обе модели показали небольшое совпадение в ответах между мартовской и июньской версиями, причем Стэнфордские исследователи объясняют несоответствия "эффектом дрейфа логической цепочки шагов".

Пользователи сабреддита r/ChatGPT отреагировали на эти результаты по-разному. Некоторые предполагают, что OpenAI работает над оптимизацией экономической эффективности запуска ChatGPT, что может объяснять различия.

Реакция моделей на чувствительные или дискриминационные запросы заметно изменилась с марта по июнь, причем в июне обе модели решили отказаться отвечать на такие запросы.

В анализе также вспоминаются случаи ошибочных ответов Bing Chat после запуска, вызвавшие скептицизм пользователей и попытки Microsoft оперативно исправить ситуацию.

Стэнфордские исследователи подчеркивают важность постоянного анализа и оценки поведения моделей обучения языку (Language Learning Models, LLM) в производственных приложениях. Они подчеркивают, что пользователям и компаниям, которые полагаются на услуги LLM, необходимо проводить аналогичный анализ мониторинга.

Однако понимание этих тенденций еще только начинается, и для подтверждения этих выводов необходимы дальнейшие испытания. Исследователи планируют обновить полученные результаты в рамках долгосрочного исследования, регулярно оценивая GPT-3.5, GPT-4 и другие LLM для различных задач с течением времени.

Следите за обновлениями! 🚀

www.tg-me.com/us/Новости образования РФ/com.EdInform/8120

1.6K viewsJul 20, 2023 at 18:24

tg-me.com/EdInform/8120

Create: 2023-07-20
Last Update: 2024-05-31 16:02:53

BY Новости образования РФ

Warning: Undefined variable $i in /var/www/tg-me/post.php on line 280

Share with your friend now:
tg-me.com/EdInform/8120

Новости образования РФ Telegram | DID YOU KNOW?

📊 Анализ производительности моделей GPT-4 и GPT-3.5: Обзор 🤖В недавнем исследовании