Telegram Group & Telegram Channel
🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7715
Create:
Last Update:

🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7715

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

That strategy is the acquisition of a value-priced company by a growth company. Using the growth company's higher-priced stock for the acquisition can produce outsized revenue and earnings growth. Even better is the use of cash, particularly in a growth period when financial aggressiveness is accepted and even positively viewed.he key public rationale behind this strategy is synergy - the 1+1=3 view. In many cases, synergy does occur and is valuable. However, in other cases, particularly as the strategy gains popularity, it doesn't. Joining two different organizations, workforces and cultures is a challenge. Simply putting two separate organizations together necessarily creates disruptions and conflicts that can undermine both operations.

Telegram and Signal Havens for Right-Wing Extremists

Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as β€œthe largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.

Machinelearning from in


Telegram Machinelearning
FROM USA