Telegram Group & Telegram Channel
LLM-Microscope

В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.

статья | код



tg-me.com/hse_cs_opensource/84
Create:
Last Update:

LLM-Microscope

В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.

статья | код

BY Открытый код ФКН ВШЭ




Share with your friend now:
tg-me.com/hse_cs_opensource/84

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

How Does Bitcoin Work?

Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”

telegram from ua


Telegram Открытый код ФКН ВШЭ
FROM USA