Telegram Group & Telegram Channel
اشتباه نکنید! مکانیزم توجه همه آن چیزی که لازم دارید نیست!

با ظهور و بروز هر چه بیشتر انواع معماری‌های ترنسفورمری برای مودالیتی‌های مختلف مانند متن و تصویر، این تصور ایجاد شده که واقعا مکانیزم توجه یه تنه داره بازی رو در میاره. اما بچه‌های EPFL به همراه یک تن از خوبای گوگل ترمز رو کشیدند و با محاسبات ریاضیاتی که انجام دادند، اثبات کردند که چنانچه مکانیزم توجه بدون حضور اسکیپ‌کانکشن‌ها و شبکه MLP به کار گرفته بشه، باعث میشه که شبکه ترنسفورمری در طول لایه‌ها به سمت یک ماتریس با رنک ۱ همگرا بشه. در واقع اگر این دو مکانیزم نباشند هر چه به سمت لایه‌های بالاتر شبکه ترنسفورمر پیش بریم، شبکه با توکن‌های ورودی به طور یکسان برخورد می‌کنه‌. در واقع این دوستان اثبات کردند که وجود اسکیپ کانکشن باعث میشه که رنک نهایی ماتریسی که لایه‌های شبکه ترنسفورمر به آن همگرا می‌شه بیشتر از یک باشه و شبکه با توکن‌های ورودی به‌طور متفاوت برخورد کنه و وجود MLP، همگرایی لایه‌ها را به تعویق میندازه. همچنین این دوستان ثابت کردند که نرمال‌سازی لایه‌ها که در معماری ترنسفورمر وجود داره هیچ نقشی رو ایفا نمی‌کنه! یافته‌های این پژوهش بار دیگه اهمیت وجود اسکیپ‌کانکشن ‌ها رو اثبات می‌کنه و داره به‌ ما میگه که شبکه‌های MLP رو هم اصلا دست‌کم نگیریم. این دوستان در نهایت یافته‌های علمی‌شون رو بر روی سه معماری BERT و Albert و XLnet هم تست کردند که در تصویر زیر روند همگرایی این شبکه‌ها رو در طول لایه‌های مختلف می‌تونید ببینید. همون‌طور که مشخصه معماری‌ای که تنها مبتنی بر توجه به خود است با همگرایی سریع به سمت ماتریس با رنک یک مواجه میشه که باعث میشه که با همه توکن‌ها به یک صورت برخورد کنه که اصلا چیز مطلوبی نیست.

لینک مقاله:
https://arxiv.org/abs/2103.03404

#paper
#read

@nlp_stuff



tg-me.com/nlp_stuff/172
Create:
Last Update:

اشتباه نکنید! مکانیزم توجه همه آن چیزی که لازم دارید نیست!

با ظهور و بروز هر چه بیشتر انواع معماری‌های ترنسفورمری برای مودالیتی‌های مختلف مانند متن و تصویر، این تصور ایجاد شده که واقعا مکانیزم توجه یه تنه داره بازی رو در میاره. اما بچه‌های EPFL به همراه یک تن از خوبای گوگل ترمز رو کشیدند و با محاسبات ریاضیاتی که انجام دادند، اثبات کردند که چنانچه مکانیزم توجه بدون حضور اسکیپ‌کانکشن‌ها و شبکه MLP به کار گرفته بشه، باعث میشه که شبکه ترنسفورمری در طول لایه‌ها به سمت یک ماتریس با رنک ۱ همگرا بشه. در واقع اگر این دو مکانیزم نباشند هر چه به سمت لایه‌های بالاتر شبکه ترنسفورمر پیش بریم، شبکه با توکن‌های ورودی به طور یکسان برخورد می‌کنه‌. در واقع این دوستان اثبات کردند که وجود اسکیپ کانکشن باعث میشه که رنک نهایی ماتریسی که لایه‌های شبکه ترنسفورمر به آن همگرا می‌شه بیشتر از یک باشه و شبکه با توکن‌های ورودی به‌طور متفاوت برخورد کنه و وجود MLP، همگرایی لایه‌ها را به تعویق میندازه. همچنین این دوستان ثابت کردند که نرمال‌سازی لایه‌ها که در معماری ترنسفورمر وجود داره هیچ نقشی رو ایفا نمی‌کنه! یافته‌های این پژوهش بار دیگه اهمیت وجود اسکیپ‌کانکشن ‌ها رو اثبات می‌کنه و داره به‌ ما میگه که شبکه‌های MLP رو هم اصلا دست‌کم نگیریم. این دوستان در نهایت یافته‌های علمی‌شون رو بر روی سه معماری BERT و Albert و XLnet هم تست کردند که در تصویر زیر روند همگرایی این شبکه‌ها رو در طول لایه‌های مختلف می‌تونید ببینید. همون‌طور که مشخصه معماری‌ای که تنها مبتنی بر توجه به خود است با همگرایی سریع به سمت ماتریس با رنک یک مواجه میشه که باعث میشه که با همه توکن‌ها به یک صورت برخورد کنه که اصلا چیز مطلوبی نیست.

لینک مقاله:
https://arxiv.org/abs/2103.03404

#paper
#read

@nlp_stuff

BY NLP stuff




Share with your friend now:
tg-me.com/nlp_stuff/172

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

Telegram announces Anonymous Admins

The cloud-based messaging platform is also adding Anonymous Group Admins feature. As per Telegram, this feature is being introduced for safer protests. As per the Telegram blog post, users can “Toggle Remain Anonymous in Admin rights to enable Batman mode. The anonymized admin will be hidden in the list of group members, and their messages in the chat will be signed with the group name, similar to channel posts.”

China’s stock markets are some of the largest in the world, with total market capitalization reaching RMB 79 trillion (US$12.2 trillion) in 2020. China’s stock markets are seen as a crucial tool for driving economic growth, in particular for financing the country’s rapidly growing high-tech sectors.Although traditionally closed off to overseas investors, China’s financial markets have gradually been loosening restrictions over the past couple of decades. At the same time, reforms have sought to make it easier for Chinese companies to list on onshore stock exchanges, and new programs have been launched in attempts to lure some of China’s most coveted overseas-listed companies back to the country.

NLP stuff from us


Telegram NLP stuff
FROM USA