Warning: file_put_contents(aCache/aDaily/post/ai_machinelearning_big_data/-7242-7243-7244-7245-7242-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Machinelearning | Telegram Webview: ai_machinelearning_big_data/7242 -
Telegram Group & Telegram Channel
🌟 MegaScale-Infer: ΠΊΠ°ΠΊ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ FFN ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

ΠžΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Π½ΠΈΠ΅ LLMс Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ MoE всСгда Π±Ρ‹Π»ΠΎ слоТной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ: нСсмотря Π½Π° сниТСниС Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π·Π° счёт Β«Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΠΉΒ» Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ экспСртов, GPU часто ΠΏΡ€ΠΎΡΡ‚Π°ΠΈΠ²Π°ΡŽΡ‚ ΠΈΠ·-Π·Π° нСэффСктивного распрСдСлСния рСсурсов.

Новая ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° MegaScale-Infer ΠΎΡ‚ ByteDance|Seed ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ feed-forward networks (FFN) Π½Π° нСзависимыС ΡƒΠ·Π»Ρ‹ с ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ. Π­Ρ‚ΠΎ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ GPU эффСктивной, Π½ΠΎ ΠΈ сокращаСт ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ обслуТивания ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² 1,9 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π½Π°Π»ΠΎΠ³Π°ΠΌΠΈ.

Π‘ΡƒΡ‚ΡŒ MegaScale-Infer β€” Π² Β«Π΄ΠΈΠ·Π°Π³Ρ€Π΅Π³Π°Ρ†ΠΈΠΈΒ»: ΠΌΠΎΠ΄ΡƒΠ»ΠΈ внимания, ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ Π·Π° Ρ€Π°Π±ΠΎΡ‚Ρƒ с ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌΠΈ значСниями (KV-кэш), ΠΈ FFN-экспСрты Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹ΠΌ GPU. НапримСр, ΡƒΠ·Π»Ρ‹ внимания ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚ΡŒ Π½Π° GPU с высокой пропускной ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ памяти, Π° экспСрты β€” Π½Π° устройствах с ΠΌΠΎΡ‰Π½Ρ‹ΠΌΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ядрами. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ позволяСт ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΈ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ дисбаланса, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄ΠΈΠ½ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ ΠΆΠ΄Π΅Ρ‚ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΡ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ.

Π§Ρ‚ΠΎΠ±Ρ‹ ΡΠΊΡ€Ρ‹Ρ‚ΡŒ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ связи ΠΌΠ΅ΠΆΠ΄Ρƒ ΡƒΠ·Π»Π°ΠΌΠΈ, систСма ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅Ρ€Π½Ρ‹ΠΉ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌ. Запросы Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠ΅Ρ€Π΅ΠΊΠΈΠ΄Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ модулями внимания ΠΈ FFN, ΠΊΠ°ΠΊ мячик Π² ΠΏΠΈΠ½Π³-ΠΏΠΎΠ½Π³Π΅. Π­Ρ‚ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ простои: ΠΏΠΎΠΊΠ° ΠΎΠ΄ΠΈΠ½ ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚ обрабатываСтся экспСртами, ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ внимания Π½Π° GPU ΡƒΠΆΠ΅ Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ.

Для ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΠΉ ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ сотнями устройств Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° M2N β€” ΠΎΠ½Π° ускоряСт ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² 4,2 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с NCCL, устраняя лишниС ΠΊΠΎΠΏΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ.

ЭкспСримСнты Π½Π° модСлях Mixtral 8x22B (141 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΈ DBRX (132 ΠΌΠ»Ρ€Π΄.) ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ MegaScale-Infer ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Π΄ΠΎ 2,56Π₯ большС Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π² сСкунду Π½Π° ΠΎΠ΄ΠΈΠ½ GPU, Ρ‡Π΅ΠΌ vLLM ΠΈ TensorRT-LLM.

На Π³Π΅Ρ‚Π΅Ρ€ΠΎΠ³Π΅Π½Π½Ρ‹Ρ… кластСрах с GPU H20 (для внимания) ΠΈ L40S (для экспСртов) систСма дСмонстрируСт Π΅Ρ‰Π΅ больший эффСкт: ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΠΊΠ΅Π½Π° сниТаСтся Π² 1,86 Ρ€Π°Π·Π° Π·Π° счСт ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния рСсурсов: H20, обладая ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΉ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ, идСально подходят для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с KV-кэшСм, Π° L40S эффСктивно ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ Π² FFN.

Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ с LLM, MegaScale-Infer β€” Π½Π΅ просто Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ. Π­Ρ‚ΠΎ инструмСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· рСсурсоСмких «монстров» Π² управляСмыС систСмы, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ GPU Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π½Π° ΠΏΡ€Π΅Π΄Π΅Π»Π΅ возмоТностСй.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7242
Create:
Last Update:

🌟 MegaScale-Infer: ΠΊΠ°ΠΊ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ FFN ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

ΠžΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Π½ΠΈΠ΅ LLMс Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ MoE всСгда Π±Ρ‹Π»ΠΎ слоТной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ: нСсмотря Π½Π° сниТСниС Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π·Π° счёт Β«Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΠΉΒ» Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ экспСртов, GPU часто ΠΏΡ€ΠΎΡΡ‚Π°ΠΈΠ²Π°ΡŽΡ‚ ΠΈΠ·-Π·Π° нСэффСктивного распрСдСлСния рСсурсов.

Новая ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° MegaScale-Infer ΠΎΡ‚ ByteDance|Seed ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ feed-forward networks (FFN) Π½Π° нСзависимыС ΡƒΠ·Π»Ρ‹ с ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ. Π­Ρ‚ΠΎ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ GPU эффСктивной, Π½ΠΎ ΠΈ сокращаСт ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ обслуТивания ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² 1,9 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π½Π°Π»ΠΎΠ³Π°ΠΌΠΈ.

Π‘ΡƒΡ‚ΡŒ MegaScale-Infer β€” Π² Β«Π΄ΠΈΠ·Π°Π³Ρ€Π΅Π³Π°Ρ†ΠΈΠΈΒ»: ΠΌΠΎΠ΄ΡƒΠ»ΠΈ внимания, ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ Π·Π° Ρ€Π°Π±ΠΎΡ‚Ρƒ с ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌΠΈ значСниями (KV-кэш), ΠΈ FFN-экспСрты Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹ΠΌ GPU. НапримСр, ΡƒΠ·Π»Ρ‹ внимания ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚ΡŒ Π½Π° GPU с высокой пропускной ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ памяти, Π° экспСрты β€” Π½Π° устройствах с ΠΌΠΎΡ‰Π½Ρ‹ΠΌΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ядрами. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ позволяСт ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΈ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ дисбаланса, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄ΠΈΠ½ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ ΠΆΠ΄Π΅Ρ‚ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΡ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ.

Π§Ρ‚ΠΎΠ±Ρ‹ ΡΠΊΡ€Ρ‹Ρ‚ΡŒ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ связи ΠΌΠ΅ΠΆΠ΄Ρƒ ΡƒΠ·Π»Π°ΠΌΠΈ, систСма ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅Ρ€Π½Ρ‹ΠΉ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌ. Запросы Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠ΅Ρ€Π΅ΠΊΠΈΠ΄Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ модулями внимания ΠΈ FFN, ΠΊΠ°ΠΊ мячик Π² ΠΏΠΈΠ½Π³-ΠΏΠΎΠ½Π³Π΅. Π­Ρ‚ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ простои: ΠΏΠΎΠΊΠ° ΠΎΠ΄ΠΈΠ½ ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚ обрабатываСтся экспСртами, ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ внимания Π½Π° GPU ΡƒΠΆΠ΅ Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ.

Для ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΠΉ ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ сотнями устройств Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° M2N β€” ΠΎΠ½Π° ускоряСт ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² 4,2 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с NCCL, устраняя лишниС ΠΊΠΎΠΏΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ.

ЭкспСримСнты Π½Π° модСлях Mixtral 8x22B (141 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΈ DBRX (132 ΠΌΠ»Ρ€Π΄.) ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ MegaScale-Infer ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Π΄ΠΎ 2,56Π₯ большС Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π² сСкунду Π½Π° ΠΎΠ΄ΠΈΠ½ GPU, Ρ‡Π΅ΠΌ vLLM ΠΈ TensorRT-LLM.

На Π³Π΅Ρ‚Π΅Ρ€ΠΎΠ³Π΅Π½Π½Ρ‹Ρ… кластСрах с GPU H20 (для внимания) ΠΈ L40S (для экспСртов) систСма дСмонстрируСт Π΅Ρ‰Π΅ больший эффСкт: ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΠΊΠ΅Π½Π° сниТаСтся Π² 1,86 Ρ€Π°Π·Π° Π·Π° счСт ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния рСсурсов: H20, обладая ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΉ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ, идСально подходят для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с KV-кэшСм, Π° L40S эффСктивно ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ Π² FFN.

Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ с LLM, MegaScale-Infer β€” Π½Π΅ просто Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ. Π­Ρ‚ΠΎ инструмСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· рСсурсоСмких «монстров» Π² управляСмыС систСмы, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ GPU Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π½Π° ΠΏΡ€Π΅Π΄Π΅Π»Π΅ возмоТностСй.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7242

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. β€œThe technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. β€œUnfortunately, a U.S. court stopped TON from happening.”

What is Telegram?

Telegram is a cloud-based instant messaging service that has been making rounds as a popular option for those who wish to keep their messages secure. Telegram boasts a collection of different features, but it’s best known for its ability to secure messages and media by encrypting them during transit; this prevents third-parties from snooping on messages easily. Let’s take a look at what Telegram can do and why you might want to use it.

Machinelearning from br


Telegram Machinelearning
FROM USA