Telegram Group & Telegram Channel
Forwarded from Machinelearning
πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/machinelearning_interview/1746
Create:
Last Update:

πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data

BY Machine learning Interview






Share with your friend now:
tg-me.com/machinelearning_interview/1746

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

The STAR Market, as is implied by the name, is heavily geared toward smaller innovative tech companies, in particular those engaged in strategically important fields, such as biopharmaceuticals, 5G technology, semiconductors, and new energy. The STAR Market currently has 340 listed securities. The STAR Market is seen as important for China’s high-tech and emerging industries, providing a space for smaller companies to raise capital in China. This is especially significant for technology companies that may be viewed with suspicion on overseas stock exchanges.

A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. β€œWhile doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.

Machine learning Interview from it


Telegram Machine learning Interview
FROM USA