Telegram Group & Telegram Channel
ارمغانی دیگر از قلمرو مولتی‌مودال! تولید تصاویر انسانی با استایل‌های مختلف.

جذابیت مدل‌‌های generative مخصوصا در حوزه تصویر داره میل به بی‌نهایت می‌کنه. مدل‌هایی مثل deep fake قبلا خیلی گرد و خاک کردند. اخیرا مدلی به‌نام Text2Human معرفی شده که با استفاده از جملات متنی یک استایل از انسان واقعی رو تولید می‌کنه. روش کارش به این صورته که شما در ورودی وضعیت بدنی (human pose) رو به صورت تصویر می‌دید (که هر تصویری می‌تونه باشه و خود دمو هم چندین مثال داره) و فرم لباس و بافت لباس مورد نظرتون رو به صورت جملات متنی می‌دید و مدل براتون تصاویر آدم‌هایی با همان ویژگی توصیف‌شده توسط شما رو تولید می‌کنه. شیوه کار کلی این مدل در دو گام اصلی خلاصه میشه. در گام اول یک تصویرخام از فرم بدن انسان (human pose)، تبدیل به یک قالب کلی انسان با یک لباس بدون بافت و شکل مشخص میشه (human parsing). سپس در گام دوم خروجی گام اول گرفته می‌شه و بافت و فرم لباس رو به تصویر گام قبل اضافه می‌کنه. نمای کلی مدل در تصویر زیر اومده. برای گام اول و تولید بردار بازنمایی قالب بدن انسان از جملات ورودی، از یک شبکه با چندین لایه fully connected استفاده می‌شه و این بردار بازنمایی به همراه تصویر خام به یک شبکه Auto Encoder داده میشه تا در خروجی یک قالب کلی از بدن انسان که فرم لباس در اون مشخصه ولی رنگ و بافت خاصی نداره رو خروجی بده. سپس برای گام دوم، خروجی تصویر گام اول به دو شبکه Auto Encoder همکار داده میشه که یکی مسوول بررسی ویژگی‌های سطح بالای تصویر استایل انسان هست و دیگری به صورت ریزدانه‌تری فیچر‌ها رو در نظر می‌گیره (فرض کنید در شبکه اول هر چند ده پیکسل مجاور هم تجمیع می‌شوند و به شبکه داده می‌شوند در حالیکه در شبکه دوم هر پیکسل یک درایه از بردار ورودی را تشکیل می‌دهد). از طرفی بازنمایی جملات نیز به این شبکه‌ها داده می‌شود. سپس برای اینکه این دو شبکه همکاری داشته باشند خروجی دیکودر شبکه اول به ورودی دیکودر شبکه دوم داده میشه. یعنی شبکه دوم علاوه بر دریافت خروجی encoder خودش، خروجی دیکودر شبکه اول رو هم دریافت می‌کنه و بعد اقدام به بازسازی تصویر نهایی می‌کنه. معماری این قسمت رو هم در تصاویر می‌تونید ببینید. این مدل بر روی هاگینگ‌فیس هم serve شده و می‌تونید دموش رو به صورت رایگان مشاهده کنید.

لینک مقاله:
https://arxiv.org/abs/2205.15996

لینک دمو:
https://huggingface.co/spaces/CVPR/Text2Human

لینک گیت‌هاب:
https://github.com/yumingj/Text2Human

#read
#paper

@nlp_stuff



tg-me.com/nlp_stuff/291
Create:
Last Update:

ارمغانی دیگر از قلمرو مولتی‌مودال! تولید تصاویر انسانی با استایل‌های مختلف.

جذابیت مدل‌‌های generative مخصوصا در حوزه تصویر داره میل به بی‌نهایت می‌کنه. مدل‌هایی مثل deep fake قبلا خیلی گرد و خاک کردند. اخیرا مدلی به‌نام Text2Human معرفی شده که با استفاده از جملات متنی یک استایل از انسان واقعی رو تولید می‌کنه. روش کارش به این صورته که شما در ورودی وضعیت بدنی (human pose) رو به صورت تصویر می‌دید (که هر تصویری می‌تونه باشه و خود دمو هم چندین مثال داره) و فرم لباس و بافت لباس مورد نظرتون رو به صورت جملات متنی می‌دید و مدل براتون تصاویر آدم‌هایی با همان ویژگی توصیف‌شده توسط شما رو تولید می‌کنه. شیوه کار کلی این مدل در دو گام اصلی خلاصه میشه. در گام اول یک تصویرخام از فرم بدن انسان (human pose)، تبدیل به یک قالب کلی انسان با یک لباس بدون بافت و شکل مشخص میشه (human parsing). سپس در گام دوم خروجی گام اول گرفته می‌شه و بافت و فرم لباس رو به تصویر گام قبل اضافه می‌کنه. نمای کلی مدل در تصویر زیر اومده. برای گام اول و تولید بردار بازنمایی قالب بدن انسان از جملات ورودی، از یک شبکه با چندین لایه fully connected استفاده می‌شه و این بردار بازنمایی به همراه تصویر خام به یک شبکه Auto Encoder داده میشه تا در خروجی یک قالب کلی از بدن انسان که فرم لباس در اون مشخصه ولی رنگ و بافت خاصی نداره رو خروجی بده. سپس برای گام دوم، خروجی تصویر گام اول به دو شبکه Auto Encoder همکار داده میشه که یکی مسوول بررسی ویژگی‌های سطح بالای تصویر استایل انسان هست و دیگری به صورت ریزدانه‌تری فیچر‌ها رو در نظر می‌گیره (فرض کنید در شبکه اول هر چند ده پیکسل مجاور هم تجمیع می‌شوند و به شبکه داده می‌شوند در حالیکه در شبکه دوم هر پیکسل یک درایه از بردار ورودی را تشکیل می‌دهد). از طرفی بازنمایی جملات نیز به این شبکه‌ها داده می‌شود. سپس برای اینکه این دو شبکه همکاری داشته باشند خروجی دیکودر شبکه اول به ورودی دیکودر شبکه دوم داده میشه. یعنی شبکه دوم علاوه بر دریافت خروجی encoder خودش، خروجی دیکودر شبکه اول رو هم دریافت می‌کنه و بعد اقدام به بازسازی تصویر نهایی می‌کنه. معماری این قسمت رو هم در تصاویر می‌تونید ببینید. این مدل بر روی هاگینگ‌فیس هم serve شده و می‌تونید دموش رو به صورت رایگان مشاهده کنید.

لینک مقاله:
https://arxiv.org/abs/2205.15996

لینک دمو:
https://huggingface.co/spaces/CVPR/Text2Human

لینک گیت‌هاب:
https://github.com/yumingj/Text2Human

#read
#paper

@nlp_stuff

BY NLP stuff




Share with your friend now:
tg-me.com/nlp_stuff/291

View MORE
Open in Telegram


NLP stuff Telegram | DID YOU KNOW?

Date: |

Importantly, that investor viewpoint is not new. It cycles in when conditions are right (and vice versa). It also brings the ineffective warnings of an overpriced market with it.Looking toward a good 2022 stock market, there is no apparent reason to expect these issues to change.

The S&P 500 slumped 1.8% on Monday and Tuesday, thanks to China Evergrande, the Chinese property company that looks like it is ready to default on its more-than $300 billion in debt. Cries of the next Lehman Brothers—or maybe the next Silverado?—echoed through the canyons of Wall Street as investors prepared for the worst.

NLP stuff from us


Telegram NLP stuff
FROM USA