Telegram Group & Telegram Channel
🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7716
Create:
Last Update:

🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7716

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. β€œThe technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. β€œUnfortunately, a U.S. court stopped TON from happening.”

Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.

Machinelearning from it


Telegram Machinelearning
FROM USA