В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.
В репозитории содержится код для экспериментов, показывающих линейность трансформеров. Авторы исследуют механизм, при котором соседние слои декодера (например, в GPT, LLaMA, OPT и BLOOM) оказываются почти линейно зависимыми. Используя Procrustes-метрику, показывается, что выходы последовательных слоев совпадают с точностью ~99% (но лишь при учёте residual connection). Исследователи демонстрируют, что нормировка выхода каждого блока относительно residual-части весьма мала, и это приводит к «линейности» между слоями. Кроме того, в работе изучаются задачи «прореживания» (pruning) слоёв на основе выявленной линейности и замены некоторых блоков их линейными аналогами без значимой потери в качестве. Предложены также регуляризационные приёмы на основе косинусной близости, снижающие линейность для повышения выразительности модели и улучшения результатов на ряде задач (TinyStories, SuperGLUE). Работа может быть полезна исследователям и практикам, занимающимся анализом внутренней структуры больших языковых моделей, а также LLM-инженерам, стремящимся к более эффективным моделям при сохранении качества.
Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.
The Singapore stock market has alternated between positive and negative finishes through the last five trading days since the end of the two-day winning streak in which it had added more than a dozen points or 0.4 percent. The Straits Times Index now sits just above the 3,060-point plateau and it's likely to see a narrow trading range on Monday.