Telegram Group & Telegram Channel
🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7716
Create:
Last Update:

🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7716

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Telegram is riding high, adding tens of million of users this year. Now the bill is coming due.Telegram is one of the few significant social-media challengers to Facebook Inc., FB -1.90% on a trajectory toward one billion users active each month by the end of 2022, up from roughly 550 million today.

Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.

Machinelearning from in


Telegram Machinelearning
FROM USA