tg-me.com/EdInform/8120
Last Update:
📊 Анализ производительности моделей GPT-4 и GPT-3.5: Обзор 🤖
В недавнем исследовании, проведенном учеными Стэнфорда, был замечен дрейф производительности между мартовской и июньской версиями GPT-4 и GPT-3.5. При решении математической задачи точность GPT-4 снизилась с 97,6% до 2,4% из-за отсутствия подсказки о цепочке рассуждений, в то время как точность GPT-3.5 повысилась с 7,4% до 86,8%.
Также значительно снизилась многословность GPT-4, в то время как у GPT-3.5 она возросла на ~40%. Обе модели показали небольшое совпадение в ответах между мартовской и июньской версиями, причем Стэнфордские исследователи объясняют несоответствия "эффектом дрейфа логической цепочки шагов".
Пользователи сабреддита r/ChatGPT отреагировали на эти результаты по-разному. Некоторые предполагают, что OpenAI работает над оптимизацией экономической эффективности запуска ChatGPT, что может объяснять различия.
Реакция моделей на чувствительные или дискриминационные запросы заметно изменилась с марта по июнь, причем в июне обе модели решили отказаться отвечать на такие запросы.
В анализе также вспоминаются случаи ошибочных ответов Bing Chat после запуска, вызвавшие скептицизм пользователей и попытки Microsoft оперативно исправить ситуацию.
Стэнфордские исследователи подчеркивают важность постоянного анализа и оценки поведения моделей обучения языку (Language Learning Models, LLM) в производственных приложениях. Они подчеркивают, что пользователям и компаниям, которые полагаются на услуги LLM, необходимо проводить аналогичный анализ мониторинга.
Однако понимание этих тенденций еще только начинается, и для подтверждения этих выводов необходимы дальнейшие испытания. Исследователи планируют обновить полученные результаты в рамках долгосрочного исследования, регулярно оценивая GPT-3.5, GPT-4 и другие LLM для различных задач с течением времени.
Следите за обновлениями! 🚀
BY Новости образования РФ
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 280
Share with your friend now:
tg-me.com/EdInform/8120