Telegram Group & Telegram Channel
🌟 Hunyuan Video Avatar: Π²ΠΈΠ΄Π΅ΠΎ-Π°Π²Π°Ρ‚Π°Ρ€Ρ‹ с ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅ΠΌ эмоций.

ВслСд Π·Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠΌ Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систСму Π½Π° Π±Π°Π·Π΅ MM-DiT для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ· изобраТСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ»ΠΈ нСсколькими пСрсонаТами, синхронизированных с Π°ΡƒΠ΄ΠΈΠΎ.

ΠžΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ возмоТности Π±Ρ‹Π»ΠΎ нСпростой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, это стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря использованию ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… для Hunyuan Video Avatar ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²:

🟒Бharacter image injection module - ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ "оТивший" пСрсонаТ Π½Π° Π²ΠΈΠ΄Π΅ΠΎ оставался ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π° Ρ‚ΠΎΠ³ΠΎ, ΠΊΡ‚ΠΎ Π±Ρ‹Π» Π½Π° исходной Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ. Он слСдит, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Ρ€Ρ‚Ρ‹ Π»ΠΈΡ†Π°, причСска, ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚ΡƒΡ€Ρ‹ Π½Π΅ искаТались ΠΈ пСрсонаТ Π±Ρ‹Π» ΡƒΠ·Π½Π°Π²Π°Π΅ΠΌ Π½Π° протяТСнии всСго Ρ€ΠΎΠ»ΠΈΠΊΠ°, Π° Π΅Π³ΠΎ двиТСния Π±Ρ‹Π»ΠΈ СстСствСнными.

🟒Audio Emotion Module (AEM) - ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ соотвСтствиС эмоций Π½Π° Π»ΠΈΡ†Π΅ голосу ΠΈΠ· аудиоисточника, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π»ΠΈΡ†Π° пСрсонаТа Π½Π° Π²ΠΈΠ΄Π΅ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ совпадало с ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΉ Π΄ΠΎΡ€ΠΎΠΆΠΊΠΈ.

🟒Face-Aware Audio Adapter (FAA) - ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ "ΠΏΠΎΠ½ΡΡ‚ΡŒ", ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π»ΠΈΡ†Ρƒ Π² Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ относится звучащая Ρ€Π΅Ρ‡ΡŒ. Он ΠΊΠ°ΠΊ Π±Ρ‹ Π½Π°Π΄Π΅Π²Π°Π΅Ρ‚ "ΡƒΠΌΠ½ΡƒΡŽ маску" Π½Π° Π»ΠΈΡ†ΠΎ Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ пСрсонаТа, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΅Π³ΠΎ ΠΌΠΈΠΌΠΈΠΊΠ° ΠΎΠΆΠΈΠ²Π°Π»Π° Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π°ΡƒΠ΄ΠΈΠΎΠ΄ΠΎΡ€ΠΎΠΆΠΊΡƒ.

По ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСстах с Sonic, EchoMimic, EchoMimicV2 ΠΈ Hallo-3 Π½Π° датасСтах для ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Π½ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ (HDTF, CelebV-HQ ΠΈ свой ΠΏΡ€ΠΈΠ²Π°Ρ‚Π½Ρ‹ΠΉ сСт) Hunyuan Video Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: 3,99 Π² ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°Ρ… качСства Π²ΠΈΠ΄Π΅ΠΎ (IQA), 2,54 ΠΏΠΎ эстСтикС (ASE), 5,30 Π² синхронизации Π°ΡƒΠ΄ΠΈΠΎ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ (Sync-C), 38.01 Π² точности воспроизвСдСния Π²ΠΈΠ΄Π΅ΠΎ (FID) ΠΈ 358.71 ΠΏΠΎ искаТСниям (FVD).

ΠŸΡ€ΠΈ тСстировании ΠΏΠΎΠ»Π½ΠΎΠΊΠ°Π΄Ρ€ΠΎΠ²ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ Π½Π° собствСнном датасСтС HunyuanVideo-Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ IQA (4.66), ASE (3.03) ΠΈ Sync-C (5.56) Π² сравнСнии с Hallo3, FantasyTalking ΠΈ OmniHuman-1.

⚠️ МодСль проТорливая: ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 24 Π“Π‘ VRAM для 704x768, Π° для ΠΏΠ»Π°Π²Π½ΠΎΠ³ΠΎ 4K Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ GPU Π½Π° 96 Π“Π‘.

Π—Π°Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ изобраТСния Π±Π΅Ρ€Π΅Ρ‚ Π»ΡŽΠ±Ρ‹Π΅: фоторСалистичныС ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Ρ‹, 3D-ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π°Π½ΠΈΠΌΠ΅-пСрсонаТи β€” Ρ…ΠΎΡ‚ΡŒ лису Π² ΠΊΠΎΡΡ‚ΡŽΠΌΠ΅. Π Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎΠΆΠ΅ Π³ΠΈΠ±ΠΊΠΎΠ΅: ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΏΠ»Π°Π½ΠΎΠ² Π΄ΠΎ полноростовых.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π° Github Π΅ΡΡ‚ΡŒ нСсколько скриптов Π² ΠΏΠΎΠΌΠΎΡ‰ΡŒ для запуска: для low VRAM, инфСрСнса Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU , для multi-GPU ΠΈ запуска с WebUI Π½Π° Π±Π°Π·Π΅ Gradio. Адаптация ΠΊ срСдС ComfyUI - Π² ΠΏΠ»Π°Π½Π°Ρ….


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑МодСли
🟑Arxiv
🟑Demo (китайский язык)
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7642
Create:
Last Update:

🌟 Hunyuan Video Avatar: Π²ΠΈΠ΄Π΅ΠΎ-Π°Π²Π°Ρ‚Π°Ρ€Ρ‹ с ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»Π΅ΠΌ эмоций.

ВслСд Π·Π° Ρ€Π΅Π»ΠΈΠ·ΠΎΠΌ Hunyuan Portrait, Tencent выпустила Hunyuan Video Avatar - систСму Π½Π° Π±Π°Π·Π΅ MM-DiT для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… Π²ΠΈΠ΄Π΅ΠΎ ΠΈΠ· изобраТСния с ΠΎΠ΄Π½ΠΈΠΌ ΠΈΠ»ΠΈ нСсколькими пСрсонаТами, синхронизированных с Π°ΡƒΠ΄ΠΈΠΎ.

ΠžΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Ρ‚Π°ΠΊΠΈΠ΅ возмоТности Π±Ρ‹Π»ΠΎ нСпростой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ, это стало Π²ΠΎΠ·ΠΌΠΎΠΆΠ½Ρ‹ΠΌ благодаря использованию ΠΊΠ»ΡŽΡ‡Π΅Π²Ρ‹Ρ… для Hunyuan Video Avatar ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ²:

🟒Бharacter image injection module - ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎΠ±Ρ‹ "оТивший" пСрсонаТ Π½Π° Π²ΠΈΠ΄Π΅ΠΎ оставался ΠΎΡ‡Π΅Π½ΡŒ ΠΏΠΎΡ…ΠΎΠΆΠΈΠΌ Π½Π° Ρ‚ΠΎΠ³ΠΎ, ΠΊΡ‚ΠΎ Π±Ρ‹Π» Π½Π° исходной Ρ„ΠΎΡ‚ΠΎΠ³Ρ€Π°Ρ„ΠΈΠΈ. Он слСдит, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‡Π΅Ρ€Ρ‚Ρ‹ Π»ΠΈΡ†Π°, причСска, ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΊΠΎΠ½Ρ‚ΡƒΡ€Ρ‹ Π½Π΅ искаТались ΠΈ пСрсонаТ Π±Ρ‹Π» ΡƒΠ·Π½Π°Π²Π°Π΅ΠΌ Π½Π° протяТСнии всСго Ρ€ΠΎΠ»ΠΈΠΊΠ°, Π° Π΅Π³ΠΎ двиТСния Π±Ρ‹Π»ΠΈ СстСствСнными.

🟒Audio Emotion Module (AEM) - ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΡƒΠ΅Ρ‚ соотвСтствиС эмоций Π½Π° Π»ΠΈΡ†Π΅ голосу ΠΈΠ· аудиоисточника, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ Π»ΠΈΡ†Π° пСрсонаТа Π½Π° Π²ΠΈΠ΄Π΅ΠΎ Ρ‚ΠΎΡ‡Π½ΠΎ совпадало с ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ окраской Π·Π²ΡƒΠΊΠΎΠ²ΠΎΠΉ Π΄ΠΎΡ€ΠΎΠΆΠΊΠΈ.

🟒Face-Aware Audio Adapter (FAA) - ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ "ΠΏΠΎΠ½ΡΡ‚ΡŒ", ΠΊ ΠΊΠ°ΠΊΠΎΠΌΡƒ ΠΈΠΌΠ΅Π½Π½ΠΎ Π»ΠΈΡ†Ρƒ Π² Π΄Π°Π½Π½Ρ‹ΠΉ ΠΌΠΎΠΌΠ΅Π½Ρ‚ относится звучащая Ρ€Π΅Ρ‡ΡŒ. Он ΠΊΠ°ΠΊ Π±Ρ‹ Π½Π°Π΄Π΅Π²Π°Π΅Ρ‚ "ΡƒΠΌΠ½ΡƒΡŽ маску" Π½Π° Π»ΠΈΡ†ΠΎ Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ пСрсонаТа, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π΅Π³ΠΎ ΠΌΠΈΠΌΠΈΠΊΠ° ΠΎΠΆΠΈΠ²Π°Π»Π° Π² ΠΎΡ‚Π²Π΅Ρ‚ Π½Π° ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π°ΡƒΠ΄ΠΈΠΎΠ΄ΠΎΡ€ΠΎΠΆΠΊΡƒ.

По ΡΡ€Π°Π²Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… тСстах с Sonic, EchoMimic, EchoMimicV2 ΠΈ Hallo-3 Π½Π° датасСтах для ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Π½ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ (HDTF, CelebV-HQ ΠΈ свой ΠΏΡ€ΠΈΠ²Π°Ρ‚Π½Ρ‹ΠΉ сСт) Hunyuan Video Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: 3,99 Π² ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊΠ°Ρ… качСства Π²ΠΈΠ΄Π΅ΠΎ (IQA), 2,54 ΠΏΠΎ эстСтикС (ASE), 5,30 Π² синхронизации Π°ΡƒΠ΄ΠΈΠΎ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ (Sync-C), 38.01 Π² точности воспроизвСдСния Π²ΠΈΠ΄Π΅ΠΎ (FID) ΠΈ 358.71 ΠΏΠΎ искаТСниям (FVD).

ΠŸΡ€ΠΈ тСстировании ΠΏΠΎΠ»Π½ΠΎΠΊΠ°Π΄Ρ€ΠΎΠ²ΠΎΠΉ Π°Π½ΠΈΠΌΠ°Ρ†ΠΈΠΈ Π½Π° собствСнном датасСтС HunyuanVideo-Avatar ΠΏΠΎΠΊΠ°Π·Π°Π» Π»ΡƒΡ‡ΡˆΠΈΠ΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ ΠΏΠΎ IQA (4.66), ASE (3.03) ΠΈ Sync-C (5.56) Π² сравнСнии с Hallo3, FantasyTalking ΠΈ OmniHuman-1.

⚠️ МодСль проТорливая: ΠΌΠΈΠ½ΠΈΠΌΡƒΠΌ 24 Π“Π‘ VRAM для 704x768, Π° для ΠΏΠ»Π°Π²Π½ΠΎΠ³ΠΎ 4K Ρ€Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡƒΡŽΡ‚ GPU Π½Π° 96 Π“Π‘.

Π—Π°Ρ‚ΠΎ Π²Ρ…ΠΎΠ΄Π½Ρ‹Π΅ изобраТСния Π±Π΅Ρ€Π΅Ρ‚ Π»ΡŽΠ±Ρ‹Π΅: фоторСалистичныС ΠΏΠΎΡ€Ρ‚Ρ€Π΅Ρ‚Ρ‹, 3D-ΠΌΠΎΠ΄Π΅Π»ΠΈ, Π°Π½ΠΈΠΌΠ΅-пСрсонаТи β€” Ρ…ΠΎΡ‚ΡŒ лису Π² ΠΊΠΎΡΡ‚ΡŽΠΌΠ΅. Π Π°Π·Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ Ρ‚ΠΎΠΆΠ΅ Π³ΠΈΠ±ΠΊΠΎΠ΅: ΠΎΡ‚ ΠΊΡ€ΡƒΠΏΠ½Ρ‹Ρ… ΠΏΠ»Π°Π½ΠΎΠ² Π΄ΠΎ полноростовых.

▢️В Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π° Github Π΅ΡΡ‚ΡŒ нСсколько скриптов Π² ΠΏΠΎΠΌΠΎΡ‰ΡŒ для запуска: для low VRAM, инфСрСнса Π½Π° ΠΎΠ΄Π½ΠΎΠΌ GPU , для multi-GPU ΠΈ запуска с WebUI Π½Π° Π±Π°Π·Π΅ Gradio. Адаптация ΠΊ срСдС ComfyUI - Π² ΠΏΠ»Π°Π½Π°Ρ….


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
🟑МодСли
🟑Arxiv
🟑Demo (китайский язык)
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #HunyuanAvatar

BY Machinelearning





Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7642

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

How to Use Bitcoin?

n the U.S. people generally use Bitcoin as an alternative investment, helping diversify a portfolio apart from stocks and bonds. You can also use Bitcoin to make purchases, but the number of vendors that accept the cryptocurrency is still limited. Big companies that accept Bitcoin include Overstock, AT&T and Twitch. You may also find that some small local retailers or certain websites take Bitcoin, but you’ll have to do some digging. That said, PayPal has announced that it will enable cryptocurrency as a funding source for purchases this year, financing purchases by automatically converting crypto holdings to fiat currency for users. β€œThey have 346 million users and they’re connected to 26 million merchants,” says Spencer Montgomery, founder of Uinta Crypto Consulting. β€œIt’s huge.”

Telegram Gives Up On Crypto Blockchain Project

Durov said on his Telegram channel today that the two and a half year blockchain and crypto project has been put to sleep. Ironically, after leaving Russia because the government wanted his encryption keys to his social media firm, Durov’s cryptocurrency idea lost steam because of a U.S. court. β€œThe technology we created allowed for an open, free, decentralized exchange of value and ideas. TON had the potential to revolutionize how people store and transfer funds and information,” he wrote on his channel. β€œUnfortunately, a U.S. court stopped TON from happening.”

Machinelearning from ar


Telegram Machinelearning
FROM USA