Telegram Group & Telegram Channel
LLM-Microscope

В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.

статья | код



tg-me.com/hse_cs_opensource/84
Create:
Last Update:

LLM-Microscope

В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.

статья | код

BY Открытый код ФКН ВШЭ




Share with your friend now:
tg-me.com/hse_cs_opensource/84

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

How Does Telegram Make Money?

Telegram is a free app and runs on donations. According to a blog on the telegram: We believe in fast and secure messaging that is also 100% free. Pavel Durov, who shares our vision, supplied Telegram with a generous donation, so we have quite enough money for the time being. If Telegram runs out, we will introduce non-essential paid options to support the infrastructure and finance developer salaries. But making profits will never be an end-goal for Telegram.

telegram from ca


Telegram Открытый код ФКН ВШЭ
FROM USA