Warning: file_put_contents(aCache/aDaily/post/ai_machinelearning_big_data/-7242-7243-7244-7245-7242-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Machinelearning | Telegram Webview: ai_machinelearning_big_data/7242 -
Telegram Group & Telegram Channel
🌟 MegaScale-Infer: ΠΊΠ°ΠΊ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ FFN ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

ΠžΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Π½ΠΈΠ΅ LLMс Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ MoE всСгда Π±Ρ‹Π»ΠΎ слоТной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ: нСсмотря Π½Π° сниТСниС Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π·Π° счёт Β«Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΠΉΒ» Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ экспСртов, GPU часто ΠΏΡ€ΠΎΡΡ‚Π°ΠΈΠ²Π°ΡŽΡ‚ ΠΈΠ·-Π·Π° нСэффСктивного распрСдСлСния рСсурсов.

Новая ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° MegaScale-Infer ΠΎΡ‚ ByteDance|Seed ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ feed-forward networks (FFN) Π½Π° нСзависимыС ΡƒΠ·Π»Ρ‹ с ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ. Π­Ρ‚ΠΎ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ GPU эффСктивной, Π½ΠΎ ΠΈ сокращаСт ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ обслуТивания ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² 1,9 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π½Π°Π»ΠΎΠ³Π°ΠΌΠΈ.

Π‘ΡƒΡ‚ΡŒ MegaScale-Infer β€” Π² Β«Π΄ΠΈΠ·Π°Π³Ρ€Π΅Π³Π°Ρ†ΠΈΠΈΒ»: ΠΌΠΎΠ΄ΡƒΠ»ΠΈ внимания, ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ Π·Π° Ρ€Π°Π±ΠΎΡ‚Ρƒ с ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌΠΈ значСниями (KV-кэш), ΠΈ FFN-экспСрты Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹ΠΌ GPU. НапримСр, ΡƒΠ·Π»Ρ‹ внимания ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚ΡŒ Π½Π° GPU с высокой пропускной ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ памяти, Π° экспСрты β€” Π½Π° устройствах с ΠΌΠΎΡ‰Π½Ρ‹ΠΌΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ядрами. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ позволяСт ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΈ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ дисбаланса, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄ΠΈΠ½ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ ΠΆΠ΄Π΅Ρ‚ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΡ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ.

Π§Ρ‚ΠΎΠ±Ρ‹ ΡΠΊΡ€Ρ‹Ρ‚ΡŒ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ связи ΠΌΠ΅ΠΆΠ΄Ρƒ ΡƒΠ·Π»Π°ΠΌΠΈ, систСма ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅Ρ€Π½Ρ‹ΠΉ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌ. Запросы Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠ΅Ρ€Π΅ΠΊΠΈΠ΄Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ модулями внимания ΠΈ FFN, ΠΊΠ°ΠΊ мячик Π² ΠΏΠΈΠ½Π³-ΠΏΠΎΠ½Π³Π΅. Π­Ρ‚ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ простои: ΠΏΠΎΠΊΠ° ΠΎΠ΄ΠΈΠ½ ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚ обрабатываСтся экспСртами, ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ внимания Π½Π° GPU ΡƒΠΆΠ΅ Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ.

Для ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΠΉ ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ сотнями устройств Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° M2N β€” ΠΎΠ½Π° ускоряСт ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² 4,2 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с NCCL, устраняя лишниС ΠΊΠΎΠΏΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ.

ЭкспСримСнты Π½Π° модСлях Mixtral 8x22B (141 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΈ DBRX (132 ΠΌΠ»Ρ€Π΄.) ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ MegaScale-Infer ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Π΄ΠΎ 2,56Π₯ большС Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π² сСкунду Π½Π° ΠΎΠ΄ΠΈΠ½ GPU, Ρ‡Π΅ΠΌ vLLM ΠΈ TensorRT-LLM.

На Π³Π΅Ρ‚Π΅Ρ€ΠΎΠ³Π΅Π½Π½Ρ‹Ρ… кластСрах с GPU H20 (для внимания) ΠΈ L40S (для экспСртов) систСма дСмонстрируСт Π΅Ρ‰Π΅ больший эффСкт: ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΠΊΠ΅Π½Π° сниТаСтся Π² 1,86 Ρ€Π°Π·Π° Π·Π° счСт ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния рСсурсов: H20, обладая ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΉ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ, идСально подходят для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с KV-кэшСм, Π° L40S эффСктивно ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ Π² FFN.

Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ с LLM, MegaScale-Infer β€” Π½Π΅ просто Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ. Π­Ρ‚ΠΎ инструмСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· рСсурсоСмких «монстров» Π² управляСмыС систСмы, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ GPU Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π½Π° ΠΏΡ€Π΅Π΄Π΅Π»Π΅ возмоТностСй.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7242
Create:
Last Update:

🌟 MegaScale-Infer: ΠΊΠ°ΠΊ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ FFN ускоряСт Ρ€Π°Π±ΠΎΡ‚Ρƒ Π±ΠΎΠ»ΡŒΡˆΠΈΡ… языковых ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

ΠžΠ±ΡΠ»ΡƒΠΆΠΈΠ²Π°Π½ΠΈΠ΅ LLMс Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€ΠΎΠΉ MoE всСгда Π±Ρ‹Π»ΠΎ слоТной Π·Π°Π΄Π°Ρ‡Π΅ΠΉ: нСсмотря Π½Π° сниТСниС Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΠΉ Π½Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π·Π° счёт Β«Ρ€Π°Π·Ρ€Π΅ΠΆΠ΅Π½Π½ΠΎΠΉΒ» Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ экспСртов, GPU часто ΠΏΡ€ΠΎΡΡ‚Π°ΠΈΠ²Π°ΡŽΡ‚ ΠΈΠ·-Π·Π° нСэффСктивного распрСдСлСния рСсурсов.

Новая ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΈΠΊΠ° MegaScale-Infer ΠΎΡ‚ ByteDance|Seed ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ Ρ€Π°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡƒΠ»Π΅ΠΉ внимания ΠΈ feed-forward networks (FFN) Π½Π° нСзависимыС ΡƒΠ·Π»Ρ‹ с ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡƒΠ°Π»ΡŒΠ½ΠΎΠΉ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠ΅ΠΉ. Π­Ρ‚ΠΎ Π½Π΅ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ GPU эффСктивной, Π½ΠΎ ΠΈ сокращаСт ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ обслуТивания ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² 1,9 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π°Π½Π°Π»ΠΎΠ³Π°ΠΌΠΈ.

Π‘ΡƒΡ‚ΡŒ MegaScale-Infer β€” Π² Β«Π΄ΠΈΠ·Π°Π³Ρ€Π΅Π³Π°Ρ†ΠΈΠΈΒ»: ΠΌΠΎΠ΄ΡƒΠ»ΠΈ внимания, ΠΎΡ‚Π²Π΅Ρ‡Π°ΡŽΡ‰ΠΈΠ΅ Π·Π° Ρ€Π°Π±ΠΎΡ‚Ρƒ с ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹ΠΌΠΈ значСниями (KV-кэш), ΠΈ FFN-экспСрты Ρ€Π°ΡΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‚ΡΡ ΠΏΠΎ Ρ€Π°Π·Π½Ρ‹ΠΌ GPU. НапримСр, ΡƒΠ·Π»Ρ‹ внимания ΠΌΠΎΠΆΠ½ΠΎ Ρ€Π°Π·Π²Π΅Ρ€Π½ΡƒΡ‚ΡŒ Π½Π° GPU с высокой пропускной ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡ‚ΡŒΡŽ памяти, Π° экспСрты β€” Π½Π° устройствах с ΠΌΠΎΡ‰Π½Ρ‹ΠΌΠΈ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌΠΈ ядрами. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ позволяСт ΠΌΠ°ΡΡˆΡ‚Π°Π±ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½ΠΎ ΠΈ ΠΈΠ·Π±Π΅ΠΆΠ°Ρ‚ΡŒ дисбаланса, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄ΠΈΠ½ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ ΠΆΠ΄Π΅Ρ‚ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΡ Ρ€Π°Π±ΠΎΡ‚Ρ‹ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ.

Π§Ρ‚ΠΎΠ±Ρ‹ ΡΠΊΡ€Ρ‹Ρ‚ΡŒ Π·Π°Π΄Π΅Ρ€ΠΆΠΊΠΈ связи ΠΌΠ΅ΠΆΠ΄Ρƒ ΡƒΠ·Π»Π°ΠΌΠΈ, систСма ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅Ρ€Π½Ρ‹ΠΉ ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΠΈΠ·ΠΌ. Запросы Ρ€Π°Π·Π±ΠΈΠ²Π°ΡŽΡ‚ΡΡ Π½Π° ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚Ρ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΏΠ΅Ρ€Π΅ΠΊΠΈΠ΄Ρ‹Π²Π°ΡŽΡ‚ΡΡ ΠΌΠ΅ΠΆΠ΄Ρƒ модулями внимания ΠΈ FFN, ΠΊΠ°ΠΊ мячик Π² ΠΏΠΈΠ½Π³-ΠΏΠΎΠ½Π³Π΅. Π­Ρ‚ΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ простои: ΠΏΠΎΠΊΠ° ΠΎΠ΄ΠΈΠ½ ΠΌΠΈΠΊΡ€ΠΎΠΏΠ°ΠΊΠ΅Ρ‚ обрабатываСтся экспСртами, ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡ‹ внимания Π½Π° GPU ΡƒΠΆΠ΅ Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ Ρ€Π°Π±ΠΎΡ‚Π°Ρ‚ΡŒ со ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠΌ.

Для ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΠΉ ΠΊΠΎΠΌΠΌΡƒΠ½ΠΈΠΊΠ°Ρ†ΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρƒ сотнями устройств Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ° M2N β€” ΠΎΠ½Π° ускоряСт ΠΏΠ΅Ρ€Π΅Π΄Π°Ρ‡Ρƒ Π΄Π°Π½Π½Ρ‹Ρ… Π² 4,2 Ρ€Π°Π·Π° ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с NCCL, устраняя лишниС ΠΊΠΎΠΏΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈ ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ.

ЭкспСримСнты Π½Π° модСлях Mixtral 8x22B (141 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ²) ΠΈ DBRX (132 ΠΌΠ»Ρ€Π΄.) ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, Ρ‡Ρ‚ΠΎ MegaScale-Infer ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ Π΄ΠΎ 2,56Π₯ большС Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ² Π² сСкунду Π½Π° ΠΎΠ΄ΠΈΠ½ GPU, Ρ‡Π΅ΠΌ vLLM ΠΈ TensorRT-LLM.

На Π³Π΅Ρ‚Π΅Ρ€ΠΎΠ³Π΅Π½Π½Ρ‹Ρ… кластСрах с GPU H20 (для внимания) ΠΈ L40S (для экспСртов) систСма дСмонстрируСт Π΅Ρ‰Π΅ больший эффСкт: ΡΡ‚ΠΎΠΈΠΌΠΎΡΡ‚ΡŒ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΠΊΠ΅Π½Π° сниТаСтся Π² 1,86 Ρ€Π°Π·Π° Π·Π° счСт ΠΎΠΏΡ‚ΠΈΠΌΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ распрСдСлСния рСсурсов: H20, обладая ΠΎΠ³Ρ€ΠΎΠΌΠ½ΠΎΠΉ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ, идСально подходят для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с KV-кэшСм, Π° L40S эффСктивно ΡΡ‡ΠΈΡ‚Π°ΡŽΡ‚ ΠΌΠ°Ρ‚Ρ€ΠΈΡ‡Π½Ρ‹Π΅ ΠΎΠΏΠ΅Ρ€Π°Ρ†ΠΈΠΈ Π² FFN.

Для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‚ с LLM, MegaScale-Infer β€” Π½Π΅ просто Π΅Ρ‰Π΅ ΠΎΠ΄ΠΈΠ½ Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ. Π­Ρ‚ΠΎ инструмСнт, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· рСсурсоСмких «монстров» Π² управляСмыС систСмы, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ GPU Ρ€Π°Π±ΠΎΡ‚Π°Π΅Ρ‚ Π½Π° ΠΏΡ€Π΅Π΄Π΅Π»Π΅ возмоТностСй.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance

BY Machinelearning







Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7242

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Telegram Auto-Delete Messages in Any Chat

Some messages aren’t supposed to last forever. There are some Telegram groups and conversations where it’s best if messages are automatically deleted in a day or a week. Here’s how to auto-delete messages in any Telegram chat. You can enable the auto-delete feature on a per-chat basis. It works for both one-on-one conversations and group chats. Previously, you needed to use the Secret Chat feature to automatically delete messages after a set time. At the time of writing, you can choose to automatically delete messages after a day or a week. Telegram starts the timer once they are sent, not after they are read. This won’t affect the messages that were sent before enabling the feature.

How to Buy Bitcoin?

Most people buy Bitcoin via exchanges, such as Coinbase. Exchanges allow you to buy, sell and hold cryptocurrency, and setting up an account is similar to opening a brokerage accountβ€”you’ll need to verify your identity and provide some kind of funding source, such as a bank account or debit card. Major exchanges include Coinbase, Kraken, and Gemini. You can also buy Bitcoin at a broker like Robinhood. Regardless of where you buy your Bitcoin, you’ll need a digital wallet in which to store it. This might be what’s called a hot wallet or a cold wallet. A hot wallet (also called an online wallet) is stored by an exchange or a provider in the cloud. Providers of online wallets include Exodus, Electrum and Mycelium. A cold wallet (or mobile wallet) is an offline device used to store Bitcoin and is not connected to the Internet. Some mobile wallet options include Trezor and Ledger.

Machinelearning from in


Telegram Machinelearning
FROM USA