tg-me.com/ai_machinelearning_big_data/7715
Last Update:
Eso-LM - ΡΡΠΎ Π½ΠΎΠ²ΡΠΉ ΠΊΠ»Π°ΡΡ ΡΠ·ΡΠΊΠΎΠ²ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ, ΡΠΎΡΠ΅ΡΠ°ΡΡΠΈΠΉ Π°Π²ΡΠΎΠ³ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΎΠ½Π½ΡΠ΅ (AR) ΠΈ ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²Π°Π½Π½ΡΠ΅ Π΄ΠΈΡΡΡΠ·ΠΈΠΎΠ½Π½ΡΠ΅ ΠΌΠ΅ΡΠΎΠ΄Ρ (MDM), ΡΡΠΎΠ±Ρ ΡΠ±Π°Π»Π°Π½ΡΠΈΡΠΎΠ²Π°ΡΡ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΈ ΡΠΊΠΎΡΠΎΡΡΡ ΡΠ°Π±ΠΎΡΡ.
ΠΡΠ½ΠΎΠ²Π½Π°Ρ ΠΈΠ΄Π΅Ρ ΡΠΎΡΡΠΎΠΈΡ Π² ΡΠΎΠΌ, ΡΡΠΎΠ±Ρ ΡΡΡΡΠ°Π½ΠΈΡΡ ΡΠ»Π°Π±ΡΠ΅ ΠΌΠ΅ΡΡΠ° ΠΎΠ±Π΅ΠΈΡ
ΡΠ΅Ρ
Π½ΠΎΠ»ΠΎΠ³ΠΈΠΉ: ΠΌΠ΅Π΄Π»Π΅Π½Π½ΠΎΠ΅ Π²ΡΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ AR-ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΈ Π½ΠΈΠ·ΠΊΡΡ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΡ MDM ΠΏΡΠΈ ΡΠΎΡ
ΡΠ°Π½Π΅Π½ΠΈΠΈ ΠΈΡ
ΠΊΠ»ΡΡΠ΅Π²ΡΡ
ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ² - ΠΏΠ°ΡΠ°Π»Π»Π΅Π»ΠΈΠ·ΠΌΠ°.
ΠΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΠ° ΡΡΡΠΎΠΈΡΡΡ Π½Π° Π³ΠΈΠ±ΡΠΈΠ΄Π½ΠΎΠΉ ΡΡΠ½ΠΊΡΠΈΠΈ ΠΏΠΎΡΠ΅ΡΡ, ΠΊΠΎΡΠΎΡΠ°Ρ ΠΎΠ΄Π½ΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎ ΠΎΠ±ΡΡΠ°Π΅Ρ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΊΠ°ΠΊ AR-Π³Π΅Π½Π΅ΡΠ°ΡΠΎΡΡ, ΡΠ°ΠΊ ΠΈ MDM-Π΄Π΅ΠΊΠΎΠ΄Π΅ΡΡ. ΠΡΠΎ Π΄ΠΎΡΡΠΈΠ³Π°Π΅ΡΡΡ ΡΠ΅ΡΠ΅Π· ΠΌΠΎΠ΄ΠΈΡΠΈΡΠΈΡΠΎΠ²Π°Π½Π½ΡΠΉ ΠΌΠ΅Ρ
Π°Π½ΠΈΠ·ΠΌ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ, ΠΊΠΎΡΠΎΡΡΠΉ Π΄ΠΈΠ½Π°ΠΌΠΈΡΠ΅ΡΠΊΠΈ ΠΏΠ΅ΡΠ΅ΠΊΠ»ΡΡΠ°Π΅ΡΡΡ ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΡΠΈΡΠΈΠ½Π½ΡΠΌ (Π΄Π»Ρ AR-ΡΠ°Π·Ρ) ΠΈ Π΄Π²ΡΡΡΠΎΡΠΎΠ½Π½ΠΈΠΌ (Π΄Π»Ρ MDM-ΡΠ°Π·Ρ) ΡΠ΅ΠΆΠΈΠΌΠ°ΠΌΠΈ.
Π ΠΎΡΠ»ΠΈΡΠΈΠ΅ ΠΎΡ ΠΊΠ»Π°ΡΡΠΈΡΠ΅ΡΠΊΠΈΡ
MDM, Eso-LM ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΠ΅Ρ ΡΠ°Π·ΡΠ΅ΠΆΠ΅Π½Π½ΡΠ΅ ΠΌΠ°ΡΡΠΈΡΡ Π²Π½ΠΈΠΌΠ°Π½ΠΈΡ, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡ ΠΊΡΡΠΈΡΠΎΠ²Π°ΡΡ KV Π΄Π°ΠΆΠ΅ Π²ΠΎ Π²ΡΠ΅ΠΌΡ Π΄ΠΈΡΡΡΠ·ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ ΡΡΠ°ΠΏΠ°. ΠΡΠ° ΡΠ΅Ρ
Π½ΠΈΠΊΠ° ΠΎΡΡΡΠΈΠΌΠΎ ΡΠΎΠΊΡΠ°ΡΠ°Π΅Ρ Π²ΡΡΠΈΡΠ»ΠΈΡΠ΅Π»ΡΠ½ΡΡ Π½Π°Π³ΡΡΠ·ΠΊΡ Π·Π° ΡΡΠ΅Ρ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΠΈ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ΅Ρ
ΡΠΎΠΊΠ΅Π½ΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ Π½ΡΠΆΠ½ΠΎ Β«Π΄Π΅ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²Π°ΡΡΒ» Π½Π° ΠΊΠ°ΠΆΠ΄ΠΎΠΌ ΡΠ°Π³Π΅.
ΠΡΠΎΡΠ΅ΡΡ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΡΠ°Π·Π±ΠΈΡ Π½Π° 2 ΡΡΠ°Π΄ΠΈΠΈ:
ΠΠ±Π΅ ΡΡΠ°Π΄ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡΡ Π΅Π΄ΠΈΠ½ΡΠΉ KV-ΠΊΡΡ, ΡΡΠΎ ΠΈΡΠΊΠ»ΡΡΠ°Π΅Ρ ΠΏΠΎΠ²ΡΠΎΡΠ½ΡΠ΅ Π²ΡΡΠΈΡΠ»Π΅Π½ΠΈΡ ΠΈ ΡΡΠΊΠΎΡΡΠ΅Ρ ΡΠ°Π±ΠΎΡΡ Π² ΡΠ°Π·Ρ. Π ΠΈΡΠΎΠ³Π΅, Π΄Π»Ρ Π΄Π»ΠΈΠ½Π½ΡΡ
ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ (8192 ΡΠΎΠΊΠ΅Π½Π°), Eso-LM ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π² 65 ΡΠ°Π· Π±ΡΡΡΡΠ΅Π΅, ΡΠ΅ΠΌ ΡΡΠ°Π½Π΄Π°ΡΡΠ½ΡΠ΅ MDM.
ΠΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠ°Π»ΡΠ½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΎΠ±ΡΡΠ°Π»ΠΈ Π½Π° ΡΠ΅ΡΠ°Ρ
LM1B (1 ΠΌΠ»ΡΠ΄. ΡΠ»ΠΎΠ²) ΠΈ OpenWebText Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΡΠΎΠΊΠ΅Π½ΠΈΠ·Π°ΡΠΎΡΠΎΠ² BERT ΠΈ GPT-2 ΡΠΎΠΎΡΠ²Π΅ΡΡΡΠ²Π΅Π½Π½ΠΎ.
Π’Π΅ΡΡΡ ΠΏΠΎΠΊΠ°Π·Π°Π»ΠΈ, ΡΡΠΎ Eso-LM Π½Π΅ ΡΠΎΠ»ΡΠΊΠΎ ΡΠ»ΡΡΡΠ°Π΅Ρ ΡΠΊΠΎΡΠΎΡΡΡ, Π½ΠΎ ΠΈ ΡΡΡΡΠ°Π½ΡΠ΅Ρ Β«ΠΌΠΎΠ΄ΠΎΠ²ΠΎΠ΅ ΠΊΠΎΠ»Π»Π°ΠΏΡΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅Β» (Π΄Π΅Π³ΡΠ°Π΄Π°ΡΠΈΡ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΏΡΠΈ ΠΌΠ°Π»ΠΎΠΌ ΡΠΈΡΠ»Π΅ ΡΠ°Π³ΠΎΠ²), Ρ
Π°ΡΠ°ΠΊΡΠ΅ΡΠ½ΠΎΠ΅ Π΄Π»Ρ ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠΈΡ
ΡΠ΅ΡΠ΅Π½ΠΈΠΉ (BD3-LM).
ΠΠ° Π½Π°Π±ΠΎΡΠ΅ OWT ΠΌΠΎΠ΄Π΅Π»Ρ Π΄ΠΎΡΡΠΈΠ³Π»Π° ΡΡΠΎΠ²Π½Ρ perplexity 21.87 ΠΏΡΠΈ Π²ΡΡΠΎΠΊΠΎΠΉ ΡΠΊΠΎΡΠΎΡΡΠΈ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ, ΠΎΡΡΠ°Π²Π°ΡΡΡ ΠΊΠΎΠ½ΠΊΡΡΠ΅Π½ΡΠΎΡΠΏΠΎΡΠΎΠ±Π½ΠΎΠΉ ΠΊΠ°ΠΊ Ρ MDM, ΡΠ°ΠΊ ΠΈ Ρ AR-ΠΌΠΎΠ΄Π΅Π»ΡΠΌΠΈ.
@ai_machinelearning_big_data
#AI #ML #LLM #EsoLM #HybridModel