tg-me.com/ai_machinelearning_big_data/7242
Last Update:
ΠΠ±ΡΠ»ΡΠΆΠΈΠ²Π°Π½ΠΈΠ΅ LLMΡ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠΎΠΉ MoE Π²ΡΠ΅Π³Π΄Π° Π±ΡΠ»ΠΎ ΡΠ»ΠΎΠΆΠ½ΠΎΠΉ Π·Π°Π΄Π°ΡΠ΅ΠΉ: Π½Π΅ΡΠΌΠΎΡΡΡ Π½Π° ΡΠ½ΠΈΠΆΠ΅Π½ΠΈΠ΅ Π²ΡΡΠΈΡΠ»ΠΈΡΠ΅Π»ΡΠ½ΠΎΠΉ Π½Π°Π³ΡΡΠ·ΠΊΠΈ Π·Π° ΡΡΡΡ Β«ΡΠ°Π·ΡΠ΅ΠΆΠ΅Π½Π½ΠΎΠΉΒ» Π°ΠΊΡΠΈΠ²Π°ΡΠΈΠΈ ΡΠΊΡΠΏΠ΅ΡΡΠΎΠ², GPU ΡΠ°ΡΡΠΎ ΠΏΡΠΎΡΡΠ°ΠΈΠ²Π°ΡΡ ΠΈΠ·-Π·Π° Π½Π΅ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΠ³ΠΎ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΡΠ΅ΡΡΡΡΠΎΠ².
ΠΠΎΠ²Π°Ρ ΠΌΠ΅ΡΠΎΠ΄ΠΈΠΊΠ° MegaScale-Infer ΠΎΡ ByteDance|Seed ΠΏΡΠ΅Π΄Π»Π°Π³Π°Π΅Ρ ΡΠ°Π·Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΌΠΎΠ΄ΡΠ»Π΅ΠΉ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ ΠΈ feed-forward networks (FFN) Π½Π° Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΡΠ΅ ΡΠ·Π»Ρ Ρ ΠΈΠ½Π΄ΠΈΠ²ΠΈΠ΄ΡΠ°Π»ΡΠ½ΠΎΠΉ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠ΅ΠΉ. ΠΡΠΎ Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ Π΄Π΅Π»Π°Π΅Ρ Π·Π°Π³ΡΡΠ·ΠΊΡ GPU ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΠΉ, Π½ΠΎ ΠΈ ΡΠΎΠΊΡΠ°ΡΠ°Π΅Ρ ΡΡΠΎΠΈΠΌΠΎΡΡΡ ΠΎΠ±ΡΠ»ΡΠΆΠΈΠ²Π°Π½ΠΈΡ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² 1,9 ΡΠ°Π·Π° ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ Π°Π½Π°Π»ΠΎΠ³Π°ΠΌΠΈ.
Π‘ΡΡΡ MegaScale-Infer β Π² Β«Π΄ΠΈΠ·Π°Π³ΡΠ΅Π³Π°ΡΠΈΠΈΒ»: ΠΌΠΎΠ΄ΡΠ»ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ, ΠΎΡΠ²Π΅ΡΠ°ΡΡΠΈΠ΅ Π·Π° ΡΠ°Π±ΠΎΡΡ Ρ ΠΊΠ»ΡΡΠ΅Π²ΡΠΌΠΈ Π·Π½Π°ΡΠ΅Π½ΠΈΡΠΌΠΈ (KV-ΠΊΡΡ), ΠΈ FFN-ΡΠΊΡΠΏΠ΅ΡΡΡ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»ΡΡΡΡΡ ΠΏΠΎ ΡΠ°Π·Π½ΡΠΌ GPU. ΠΠ°ΠΏΡΠΈΠΌΠ΅Ρ, ΡΠ·Π»Ρ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ ΠΌΠΎΠΆΠ½ΠΎ ΡΠ°Π·Π²Π΅ΡΠ½ΡΡΡ Π½Π° GPU Ρ Π²ΡΡΠΎΠΊΠΎΠΉ ΠΏΡΠΎΠΏΡΡΠΊΠ½ΠΎΠΉ ΡΠΏΠΎΡΠΎΠ±Π½ΠΎΡΡΡΡ ΠΏΠ°ΠΌΡΡΠΈ, Π° ΡΠΊΡΠΏΠ΅ΡΡΡ β Π½Π° ΡΡΡΡΠΎΠΉΡΡΠ²Π°Ρ
Ρ ΠΌΠΎΡΠ½ΡΠΌΠΈ Π²ΡΡΠΈΡΠ»ΠΈΡΠ΅Π»ΡΠ½ΡΠΌΠΈ ΡΠ΄ΡΠ°ΠΌΠΈ. Π’Π°ΠΊΠΎΠΉ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ ΠΌΠ°ΡΡΡΠ°Π±ΠΈΡΠΎΠ²Π°ΡΡ ΠΊΠ°ΠΆΠ΄ΡΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ ΠΎΡΠ΄Π΅Π»ΡΠ½ΠΎ ΠΈ ΠΈΠ·Π±Π΅ΠΆΠ°ΡΡ Π΄ΠΈΡΠ±Π°Π»Π°Π½ΡΠ°, ΠΊΠΎΠ³Π΄Π° ΠΎΠ΄ΠΈΠ½ ΠΌΠΎΠ΄ΡΠ»Ρ ΠΆΠ΄Π΅Ρ Π·Π°Π²Π΅ΡΡΠ΅Π½ΠΈΡ ΡΠ°Π±ΠΎΡΡ Π΄ΡΡΠ³ΠΎΠ³ΠΎ.
Π§ΡΠΎΠ±Ρ ΡΠΊΡΡΡΡ Π·Π°Π΄Π΅ΡΠΆΠΊΠΈ ΡΠ²ΡΠ·ΠΈ ΠΌΠ΅ΠΆΠ΄Ρ ΡΠ·Π»Π°ΠΌΠΈ, ΡΠΈΡΡΠ΅ΠΌΠ° ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅ΡΠ½ΡΠΉ ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΠΈΠ·ΠΌ. ΠΠ°ΠΏΡΠΎΡΡ ΡΠ°Π·Π±ΠΈΠ²Π°ΡΡΡΡ Π½Π° ΠΌΠΈΠΊΡΠΎΠΏΠ°ΠΊΠ΅ΡΡ, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΠ΅ΡΠ΅ΠΊΠΈΠ΄ΡΠ²Π°ΡΡΡΡ ΠΌΠ΅ΠΆΠ΄Ρ ΠΌΠΎΠ΄ΡΠ»ΡΠΌΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ ΠΈ FFN, ΠΊΠ°ΠΊ ΠΌΡΡΠΈΠΊ Π² ΠΏΠΈΠ½Π³-ΠΏΠΎΠ½Π³Π΅. ΠΡΠΎ ΠΌΠΈΠ½ΠΈΠΌΠΈΠ·ΠΈΡΡΠ΅Ρ ΠΏΡΠΎΡΡΠΎΠΈ: ΠΏΠΎΠΊΠ° ΠΎΠ΄ΠΈΠ½ ΠΌΠΈΠΊΡΠΎΠΏΠ°ΠΊΠ΅Ρ ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°Π΅ΡΡΡ ΡΠΊΡΠΏΠ΅ΡΡΠ°ΠΌΠΈ, ΠΌΠ΅Ρ
Π°Π½ΠΈΠ·ΠΌΡ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ Π½Π° GPU ΡΠΆΠ΅ Π½Π°ΡΠΈΠ½Π°ΡΡ ΡΠ°Π±ΠΎΡΠ°ΡΡ ΡΠΎ ΡΠ»Π΅Π΄ΡΡΡΠΈΠΌ.
ΠΠ»Ρ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎΠΉ ΠΊΠΎΠΌΠΌΡΠ½ΠΈΠΊΠ°ΡΠΈΠΈ ΠΌΠ΅ΠΆΠ΄Ρ ΡΠΎΡΠ½ΡΠΌΠΈ ΡΡΡΡΠΎΠΉΡΡΠ² ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½Π° Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ° M2N β ΠΎΠ½Π° ΡΡΠΊΠΎΡΡΠ΅Ρ ΠΏΠ΅ΡΠ΅Π΄Π°ΡΡ Π΄Π°Π½Π½ΡΡ
Π² 4,2 ΡΠ°Π·Π° ΠΏΠΎ ΡΡΠ°Π²Π½Π΅Π½ΠΈΡ Ρ NCCL, ΡΡΡΡΠ°Π½ΡΡ Π»ΠΈΡΠ½ΠΈΠ΅ ΠΊΠΎΠΏΠΈΠΈ Π΄Π°Π½Π½ΡΡ
ΠΈ ΡΠΈΠ½Ρ
ΡΠΎΠ½ΠΈΠ·Π°ΡΠΈΡ.
ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΡ Π½Π° ΠΌΠΎΠ΄Π΅Π»ΡΡ
Mixtral 8x22B (141 ΠΌΠ»ΡΠ΄. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ²) ΠΈ DBRX (132 ΠΌΠ»ΡΠ΄.) ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, ΡΡΠΎ MegaScale-Infer ΠΎΠ±ΡΠ°Π±Π°ΡΡΠ²Π°Π΅Ρ Π΄ΠΎ 2,56Π₯ Π±ΠΎΠ»ΡΡΠ΅ ΡΠΎΠΊΠ΅Π½ΠΎΠ² Π² ΡΠ΅ΠΊΡΠ½Π΄Ρ Π½Π° ΠΎΠ΄ΠΈΠ½ GPU, ΡΠ΅ΠΌ vLLM ΠΈ TensorRT-LLM.
ΠΠ° Π³Π΅ΡΠ΅ΡΠΎΠ³Π΅Π½Π½ΡΡ
ΠΊΠ»Π°ΡΡΠ΅ΡΠ°Ρ
Ρ GPU H20 (Π΄Π»Ρ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ) ΠΈ L40S (Π΄Π»Ρ ΡΠΊΡΠΏΠ΅ΡΡΠΎΠ²) ΡΠΈΡΡΠ΅ΠΌΠ° Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΠ΅Ρ Π΅ΡΠ΅ Π±ΠΎΠ»ΡΡΠΈΠΉ ΡΡΡΠ΅ΠΊΡ: ΡΡΠΎΠΈΠΌΠΎΡΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΡΠΎΠΊΠ΅Π½Π° ΡΠ½ΠΈΠΆΠ°Π΅ΡΡΡ Π² 1,86 ΡΠ°Π·Π° Π·Π° ΡΡΠ΅Ρ ΠΎΠΏΡΠΈΠΌΠ°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΡ ΡΠ΅ΡΡΡΡΠΎΠ²: H20, ΠΎΠ±Π»Π°Π΄Π°Ρ ΠΎΠ³ΡΠΎΠΌΠ½ΠΎΠΉ ΠΏΠ°ΠΌΡΡΡΡ, ΠΈΠ΄Π΅Π°Π»ΡΠ½ΠΎ ΠΏΠΎΠ΄Ρ
ΠΎΠ΄ΡΡ Π΄Π»Ρ ΡΠ°Π±ΠΎΡΡ Ρ KV-ΠΊΡΡΠ΅ΠΌ, Π° L40S ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎ ΡΡΠΈΡΠ°ΡΡ ΠΌΠ°ΡΡΠΈΡΠ½ΡΠ΅ ΠΎΠΏΠ΅ΡΠ°ΡΠΈΠΈ Π² FFN.
ΠΠ»Ρ ΡΠ°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ LLM, MegaScale-Infer β Π½Π΅ ΠΏΡΠΎΡΡΠΎ Π΅ΡΠ΅ ΠΎΠ΄ΠΈΠ½ ΡΡΠ΅ΠΉΠΌΠ²ΠΎΡΠΊ. ΠΡΠΎ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΡΠ΅Π²ΡΠ°ΡΠ°Π΅Ρ MoE-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΈΠ· ΡΠ΅ΡΡΡΡΠΎΠ΅ΠΌΠΊΠΈΡ
Β«ΠΌΠΎΠ½ΡΡΡΠΎΠ²Β» Π² ΡΠΏΡΠ°Π²Π»ΡΠ΅ΠΌΡΠ΅ ΡΠΈΡΡΠ΅ΠΌΡ, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄ΡΠΉ GPU ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π½Π° ΠΏΡΠ΅Π΄Π΅Π»Π΅ Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡΠ΅ΠΉ.
@ai_machinelearning_big_data
#AI #ML #LLM #MLOPS #MegaScaleInfer #ByteDance