Telegram Group & Telegram Channel
🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7714
Create:
Last Update:

🌟 Esoteric Language Models: Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½Ρ‹Π΅ AR+MDM языковыС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Eso-LM - это Π½ΠΎΠ²Ρ‹ΠΉ класс языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡ‡Π΅Ρ‚Π°ΡŽΡ‰ΠΈΠΉ автогрСгрСссионныС (AR) ΠΈ маскированныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠ΅Ρ‚ΠΎΠ΄Ρ‹ (MDM), Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠ±Π°Π»Π°Π½ΡΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ качСство Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ ΠΈ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρ‹.

Основная идСя состоит Π² Ρ‚ΠΎΠΌ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡƒΡΡ‚Ρ€Π°Π½ΠΈΡ‚ΡŒ слабыС мСста ΠΎΠ±Π΅ΠΈΡ… Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²Ρ‹ΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡƒΡŽ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ MDM ΠΏΡ€ΠΈ сохранСнии ΠΈΡ… ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… прСимущСств - ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.

АрхитСктура строится Π½Π° Π³ΠΈΠ±Ρ€ΠΈΠ΄Π½ΠΎΠΉ Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ ΠΏΠΎΡ‚Π΅Ρ€ΡŒ, которая ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡƒΡ‡Π°Π΅Ρ‚ модСль ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΎΡ€Ρƒ, Ρ‚Π°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Ρƒ. Π­Ρ‚ΠΎ достигаСтся Ρ‡Π΅Ρ€Π΅Π· ΠΌΠΎΠ΄ΠΈΡ„ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ внимания, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ динамичСски ΠΏΠ΅Ρ€Π΅ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΡ€ΠΈΡ‡ΠΈΠ½Π½Ρ‹ΠΌ (для AR-Ρ„Π°Π·Ρ‹) ΠΈ двусторонним (для MDM-Ρ„Π°Π·Ρ‹) Ρ€Π΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.

Π’ ΠΎΡ‚Π»ΠΈΡ‡ΠΈΠ΅ ΠΎΡ‚ классичСских MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½Ρ‹Π΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ†Ρ‹ внимания, позволяя ΠΊΡΡˆΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ врСмя Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ этапа. Π­Ρ‚Π° Ρ‚Π΅Ρ…Π½ΠΈΠΊΠ° ΠΎΡ‰ΡƒΡ‚ΠΈΠΌΠΎ сокращаСт Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ Π·Π° счСт ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Ρ‚Π΅Ρ… Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Π½ΡƒΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ шагС.

ΠŸΡ€ΠΎΡ†Π΅ΡΡ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π°Π·Π±ΠΈΡ‚ Π½Π° 2 стадии:

🟒На этапС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ модСль ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ раскрываСт Ρ‡Π°ΡΡ‚ΡŒ маскированных Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ², ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ ΡˆΠ΅Π΄ΡƒΠ»Π΅Ρ€, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ количСство ΠΏΡ€ΠΎΡ…ΠΎΠ΄ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΡΠ΅Ρ‚ΡŒ.

🟒На автогрСгрСссионной Ρ„Π°Π·Π΅, ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Ρ‚ΠΎΠΊΠ΅Π½Ρ‹ Π΄ΠΎΠΏΠΎΠ»Π½ΡΡŽΡ‚ΡΡ слСва Π½Π°ΠΏΡ€Π°Π²ΠΎ, с ΠΎΠΏΠΎΡ€ΠΎΠΉ Π½Π° ΡƒΠΆΠ΅ сгСнСрированный контСкст.

ОбС стадии ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‚ Π΅Π΄ΠΈΠ½Ρ‹ΠΉ KV-кэш, Ρ‡Ρ‚ΠΎ ΠΈΡΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½Ρ‹Π΅ вычислСния ΠΈ ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π² Ρ€Π°Π·Ρ‹. Π’ ΠΈΡ‚ΠΎΠ³Π΅, для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (8192 Ρ‚ΠΎΠΊΠ΅Π½Π°), Eso-LM Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π² 65 Ρ€Π°Π· быстрСС, Ρ‡Π΅ΠΌ стандартныС MDM.

Π­ΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡƒΡ‡Π°Π»ΠΈ Π½Π° сСтах LM1B (1 ΠΌΠ»Ρ€Π΄. слов) ΠΈ OpenWebText с использованиСм Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ΠΎΠ² BERT ΠΈ GPT-2 соотвСтствСнно.

ВСсты ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ Eso-LM Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ ΡƒΠ»ΡƒΡ‡ΡˆΠ°Π΅Ρ‚ ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒ, Π½ΠΎ ΠΈ устраняСт Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ коллапсированиС» (Π΄Π΅Π³Ρ€Π°Π΄Π°Ρ†ΠΈΡŽ качСства ΠΏΡ€ΠΈ ΠΌΠ°Π»ΠΎΠΌ числС шагов), Ρ…Π°Ρ€Π°ΠΊΡ‚Π΅Ρ€Π½ΠΎΠ΅ для ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰ΠΈΡ… Ρ€Π΅ΡˆΠ΅Π½ΠΈΠΉ (BD3-LM).

На Π½Π°Π±ΠΎΡ€Π΅ OWT модСль достигла уровня perplexity 21.87 ΠΏΡ€ΠΈ высокой скорости Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ, ΠΎΡΡ‚Π°Π²Π°ΡΡΡŒ конкурСнтоспособной ΠΊΠ°ΠΊ с MDM, Ρ‚Π°ΠΊ ΠΈ с AR-модСлями.

▢️ Π Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΈ, Π° это совмСстный ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ Cornell University, NVIDIA ΠΈ MBZUAI, ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π»ΠΈ ΠΊΠΎΠ΄ для инфСрСнса, обучСния ΠΈ ΠΎΡ†Π΅Π½ΠΊΠΈ Eso-LM Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Π½Π° Github ΠΈ вСса ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ:

🟠Eso-LM(B)-alpha-1 - чистый MDM с максимальной ΡΠΊΠΎΡ€ΠΎΡΡ‚ΡŒΡŽ, Π½ΠΎ мСньшим качСством;

🟠Eso-LM(B)-alpha-0.25 - баланс ΠΌΠ΅ΠΆΠ΄Ρƒ MDM ΠΈ AR, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΠΎΠΆΠ΅Ρ€Ρ‚Π²ΠΎΠ²Π°Π»ΠΈ Ρ‡Π°ΡΡ‚ΡŒΡŽ скорости Ρ€Π°Π΄ΠΈ пСрплСксии ΠΈ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #EsoLM #HybridModel

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7714

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Telegram and Signal Havens for Right-Wing Extremists

Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as β€œthe largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

Machinelearning from jp


Telegram Machinelearning
FROM USA