Telegram Group & Telegram Channel
🌟 Esoteric Language Models: гибридные AR+MDM языковые модели.

Eso-LM - это новый класс языковых моделей, сочетающий автогрегрессионные (AR) и маскированные диффузионные методы (MDM), чтобы сбалансировать качество генерации и скорость работы.

Основная идея состоит в том, чтобы устранить слабые места обеих технологий: медленное выполнение AR-моделей и низкую эффективность MDM при сохранении их ключевых преимуществ - параллелизма.

Архитектура строится на гибридной функции потерь, которая одновременно обучает модель как AR-генератору, так и MDM-декодеру. Это достигается через модифицированный механизм внимания, который динамически переключается между причинным (для AR-фазы) и двусторонним (для MDM-фазы) режимами.

В отличие от классических MDM, Eso-LM использует разреженные матрицы внимания, позволяя кэшировать KV даже во время диффузионного этапа. Эта техника ощутимо сокращает вычислительную нагрузку за счет обработки только тех токенов, которые нужно «демаскировать» на каждом шаге.

Процесс генерации разбит на 2 стадии:

🟢На этапе диффузии модель последовательно раскрывает часть маскированных токенов, используя оптимизированный шедулер, который минимизирует количество проходов через сеть.

🟢На автогрегрессионной фазе, оставшиеся токены дополняются слева направо, с опорой на уже сгенерированный контекст.

Обе стадии используют единый KV-кэш, что исключает повторные вычисления и ускоряет работу в разы. В итоге, для длинных последовательностей (8192 токена), Eso-LM работает в 65 раз быстрее, чем стандартные MDM.

Экспериментальные модели обучали на сетах LM1B (1 млрд. слов) и OpenWebText с использованием токенизаторов BERT и GPT-2 соответственно.

Тесты показали, что Eso-LM не только улучшает скорость, но и устраняет «модовое коллапсирование» (деградацию качества при малом числе шагов), характерное для предыдущих решений (BD3-LM).

На наборе OWT модель достигла уровня perplexity 21.87 при высокой скорости генерации, оставаясь конкурентоспособной как с MDM, так и с AR-моделями.

▶️ Разработчики, а это совместный проект Cornell University, NVIDIA и MBZUAI, опубликовали код для инференса, обучения и оценки Eso-LM в репозитории на Github и веса экспериментальных моделей:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной скоростью, но меньшим качеством;

🟠Eso-LM(B)-alpha-0.25 - баланс между MDM и AR, в которой пожертвовали частью скорости ради перплексии и стабильности.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7714
Create:
Last Update:

🌟 Esoteric Language Models: гибридные AR+MDM языковые модели.

Eso-LM - это новый класс языковых моделей, сочетающий автогрегрессионные (AR) и маскированные диффузионные методы (MDM), чтобы сбалансировать качество генерации и скорость работы.

Основная идея состоит в том, чтобы устранить слабые места обеих технологий: медленное выполнение AR-моделей и низкую эффективность MDM при сохранении их ключевых преимуществ - параллелизма.

Архитектура строится на гибридной функции потерь, которая одновременно обучает модель как AR-генератору, так и MDM-декодеру. Это достигается через модифицированный механизм внимания, который динамически переключается между причинным (для AR-фазы) и двусторонним (для MDM-фазы) режимами.

В отличие от классических MDM, Eso-LM использует разреженные матрицы внимания, позволяя кэшировать KV даже во время диффузионного этапа. Эта техника ощутимо сокращает вычислительную нагрузку за счет обработки только тех токенов, которые нужно «демаскировать» на каждом шаге.

Процесс генерации разбит на 2 стадии:

🟢На этапе диффузии модель последовательно раскрывает часть маскированных токенов, используя оптимизированный шедулер, который минимизирует количество проходов через сеть.

🟢На автогрегрессионной фазе, оставшиеся токены дополняются слева направо, с опорой на уже сгенерированный контекст.

Обе стадии используют единый KV-кэш, что исключает повторные вычисления и ускоряет работу в разы. В итоге, для длинных последовательностей (8192 токена), Eso-LM работает в 65 раз быстрее, чем стандартные MDM.

Экспериментальные модели обучали на сетах LM1B (1 млрд. слов) и OpenWebText с использованием токенизаторов BERT и GPT-2 соответственно.

Тесты показали, что Eso-LM не только улучшает скорость, но и устраняет «модовое коллапсирование» (деградацию качества при малом числе шагов), характерное для предыдущих решений (BD3-LM).

На наборе OWT модель достигла уровня perplexity 21.87 при высокой скорости генерации, оставаясь конкурентоспособной как с MDM, так и с AR-моделями.

▶️ Разработчики, а это совместный проект Cornell University, NVIDIA и MBZUAI, опубликовали код для инференса, обучения и оценки Eso-LM в репозитории на Github и веса экспериментальных моделей:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной скоростью, но меньшим качеством;

🟠Eso-LM(B)-alpha-0.25 - баланс между MDM и AR, в которой пожертвовали частью скорости ради перплексии и стабильности.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7714

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Should You Buy Bitcoin?

In general, many financial experts support their clients’ desire to buy cryptocurrency, but they don’t recommend it unless clients express interest. “The biggest concern for us is if someone wants to invest in crypto and the investment they choose doesn’t do well, and then all of a sudden they can’t send their kids to college,” says Ian Harvey, a certified financial planner (CFP) in New York City. “Then it wasn’t worth the risk.” The speculative nature of cryptocurrency leads some planners to recommend it for clients’ “side” investments. “Some call it a Vegas account,” says Scott Hammel, a CFP in Dallas. “Let’s keep this away from our real long-term perspective, make sure it doesn’t become too large a portion of your portfolio.” In a very real sense, Bitcoin is like a single stock, and advisors wouldn’t recommend putting a sizable part of your portfolio into any one company. At most, planners suggest putting no more than 1% to 10% into Bitcoin if you’re passionate about it. “If it was one stock, you would never allocate any significant portion of your portfolio to it,” Hammel says.

The messaging service and social-media platform owes creditors roughly $700 million by the end of April, according to people briefed on the company’s plans and loan documents viewed by The Wall Street Journal. At the same time, Telegram Group Inc. must cover rising equipment and bandwidth expenses because of its rapid growth, despite going years without attempting to generate revenue.

Machinelearning from tr


Telegram Machinelearning
FROM USA