Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Describe Anything: сСгмСнтноС Π°Π½Π½ΠΎΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ.

Describe Anything Model (DAM) - Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°, разработанная Nvidia, для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… ΠΈ Π΄Π΅Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… описаний для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… областСй Π½Π° изобраТСниях ΠΈ Π²ΠΈΠ΄Π΅ΠΎ. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ VLM-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊΠ°ΠΊ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Π°Ρ ΡΡƒΡ‰Π½ΠΎΡΡ‚ΡŒ ΠΈΠ»ΠΈ Π² связкС с SAM-ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊΠ°ΠΌΠΈ часто Ρ‚Π΅Ρ€ΡΡŽΡ‚ Π½ΡŒΡŽΠ°Π½ΡΡ‹, особСнно ΠΏΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ ΠΌΠ΅Π»ΠΊΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈΠ»ΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… сцСн Π½Π° Ρ†Π΅Π»Π΅Π²ΠΎΠΌ источникС.

DAM справляСтся с этим Π·Π° счСт 2 ΠΈΠ½Π½ΠΎΠ²Π°Ρ†ΠΈΠΉ Π² своСй Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅:

πŸŸ’Π€ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠΌΠΏΡ‚ β€” комбинация ΠΏΠΎΠ»Π½ΠΎΠ³ΠΎ изобраТСния ΠΈ Π΅Π³ΠΎ маски с ΠΎΠ±Ρ€Π΅Π·Π°Π½Π½ΠΎΠΉ ΠΎΠ±Π»Π°ΡΡ‚ΡŒΡŽ интСрСса, Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½ΠΎΠΉ для Π·Π°Ρ…Π²Π°Ρ‚Π° контСкста (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ bounding box Π² 3 Ρ€Π°Π·Π°).

πŸŸ’Π›ΠΎΠΊΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ бэкбон β€” Π΄Π²Π° ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Ρ… энкодСра: Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ (ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ всС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅) ΠΈ Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ (Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ Ρ„ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠΌΠΏΡ‚). Они ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ cross-attention, позволяя ΡΠΎΡ…Ρ€Π°Π½ΡΡ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΈ Π΅Π³ΠΎ связь с ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ΠΌ.

МодСль ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ Π²ΠΈΠ΄Π΅ΠΎ ΠΈ Π±ΠΈΠ½Π°Ρ€Π½ΡƒΡŽ маску Ρ†Π΅Π»Π΅Π²ΠΎΠΉ области интСрСса. Π“Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ энкодСр ΠΈΠ·Π²Π»Π΅ΠΊΠ°Π΅Ρ‚ ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ β€” фокусируСтся Π½Π° дСталях Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ Π·ΠΎΠ½Ρ‹. Π§Π΅Ρ€Π΅Π· Π°Π΄Π°ΠΏΡ‚Π΅Ρ€Ρ‹ с кросс-Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ΡΡ, послС Ρ‡Π΅Π³ΠΎ LLM Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ описаниС. Для Π²ΠΈΠ΄Π΅ΠΎ маски ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΊΠ°Π΄Ρ€Ρƒ, Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π°Π³Ρ€Π΅Π³ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π²ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

▢️В Ρ€Π΅Π»ΠΈΠ·Π΅ DAM прСдставлСны 3 ΠΌΠΎΠ΄Π΅Π»ΠΈ:

🟠DAM-3B - базовая модСль для аннотирования ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ;

🟠DAM-3B-Video - модСль для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с Π²ΠΈΠ΄Π΅ΠΎ;

🟠DAM-3B-Self-Contained - автономная вСрсия Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ для ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΠΉ Π±Π΅Π· сторонних зависимостСй.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ инфСрСнс с ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΌ Gradio WebUI:

# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything

# Create a conda env
conda create -n describe-anything
conda activate describe-anything

# Install dependencies
pip install -v

# Gradio Demo for Image Descriptions
python demo_simple.py

# Gradio Demo for Video Descriptions
python demo_video.py


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: NVIDIA Noncommercial License.

πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΊΠΎΠ΄Π° : Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #DAM #NVIDIA #Annotation
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/machinelearning_interview/1760
Create:
Last Update:

🌟 Describe Anything: сСгмСнтноС Π°Π½Π½ΠΎΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ.

Describe Anything Model (DAM) - Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°, разработанная Nvidia, для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… ΠΈ Π΄Π΅Ρ‚Π°Π»ΡŒΠ½Ρ‹Ρ… описаний для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… областСй Π½Π° изобраТСниях ΠΈ Π²ΠΈΠ΄Π΅ΠΎ. Π’Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½Ρ‹Π΅ VLM-ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΊΠ°ΠΊ ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Π°Ρ ΡΡƒΡ‰Π½ΠΎΡΡ‚ΡŒ ΠΈΠ»ΠΈ Π² связкС с SAM-ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊΠ°ΠΌΠΈ часто Ρ‚Π΅Ρ€ΡΡŽΡ‚ Π½ΡŒΡŽΠ°Π½ΡΡ‹, особСнно ΠΏΡ€ΠΈ Π½Π°Π»ΠΈΡ‡ΠΈΠΈ ΠΌΠ΅Π»ΠΊΠΈΡ… ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² ΠΈΠ»ΠΈ Π΄ΠΈΠ½Π°ΠΌΠΈΡ‡Π½Ρ‹Ρ… сцСн Π½Π° Ρ†Π΅Π»Π΅Π²ΠΎΠΌ источникС.

DAM справляСтся с этим Π·Π° счСт 2 ΠΈΠ½Π½ΠΎΠ²Π°Ρ†ΠΈΠΉ Π² своСй Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π΅:

πŸŸ’Π€ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠΌΠΏΡ‚ β€” комбинация ΠΏΠΎΠ»Π½ΠΎΠ³ΠΎ изобраТСния ΠΈ Π΅Π³ΠΎ маски с ΠΎΠ±Ρ€Π΅Π·Π°Π½Π½ΠΎΠΉ ΠΎΠ±Π»Π°ΡΡ‚ΡŒΡŽ интСрСса, Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½Π½ΠΎΠΉ для Π·Π°Ρ…Π²Π°Ρ‚Π° контСкста (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, ΡƒΠ²Π΅Π»ΠΈΡ‡Π΅Π½ΠΈΠ΅ bounding box Π² 3 Ρ€Π°Π·Π°).

πŸŸ’Π›ΠΎΠΊΠ°Π»ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ бэкбон β€” Π΄Π²Π° ΠΏΠ°Ρ€Π°Π»Π»Π΅Π»ΡŒΠ½Ρ‹Ρ… энкодСра: Π³Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ (ΠΎΠ±Ρ€Π°Π±Π°Ρ‚Ρ‹Π²Π°Π΅Ρ‚ всС ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅) ΠΈ Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ (Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΠ΅Ρ‚ Ρ„ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠΌΠΏΡ‚). Они ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ΡΡ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌ cross-attention, позволяя ΡΠΎΡ…Ρ€Π°Π½ΡΡ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΎΠ±ΡŠΠ΅ΠΊΡ‚Π° ΠΈ Π΅Π³ΠΎ связь с ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ΠΌ.

МодСль ΠΏΡ€ΠΈΠ½ΠΈΠΌΠ°Π΅Ρ‚ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅ ΠΈΠ»ΠΈ Π²ΠΈΠ΄Π΅ΠΎ ΠΈ Π±ΠΈΠ½Π°Ρ€Π½ΡƒΡŽ маску Ρ†Π΅Π»Π΅Π²ΠΎΠΉ области интСрСса. Π“Π»ΠΎΠ±Π°Π»ΡŒΠ½Ρ‹ΠΉ энкодСр ΠΈΠ·Π²Π»Π΅ΠΊΠ°Π΅Ρ‚ ΠΎΠ±Ρ‰ΠΈΠ΅ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ β€” фокусируСтся Π½Π° дСталях Π²Ρ‹Π±Ρ€Π°Π½Π½ΠΎΠΉ Π·ΠΎΠ½Ρ‹. Π§Π΅Ρ€Π΅Π· Π°Π΄Π°ΠΏΡ‚Π΅Ρ€Ρ‹ с кросс-Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ΠΌ ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‚ΡΡ, послС Ρ‡Π΅Π³ΠΎ LLM Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΡƒΠ΅Ρ‚ описаниС. Для Π²ΠΈΠ΄Π΅ΠΎ маски ΠΏΡ€ΠΈΠΌΠ΅Π½ΡΡŽΡ‚ΡΡ ΠΊ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡƒ ΠΊΠ°Π΄Ρ€Ρƒ, Π° ΠΏΡ€ΠΈΠ·Π½Π°ΠΊΠΈ Π°Π³Ρ€Π΅Π³ΠΈΡ€ΡƒΡŽΡ‚ΡΡ Π²ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ.

▢️В Ρ€Π΅Π»ΠΈΠ·Π΅ DAM прСдставлСны 3 ΠΌΠΎΠ΄Π΅Π»ΠΈ:

🟠DAM-3B - базовая модСль для аннотирования ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ;

🟠DAM-3B-Video - модСль для Ρ€Π°Π±ΠΎΡ‚Ρ‹ с Π²ΠΈΠ΄Π΅ΠΎ;

🟠DAM-3B-Self-Contained - автономная вСрсия Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ для ΠΈΠ½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΠΉ Π±Π΅Π· сторонних зависимостСй.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Ρ‹ΠΉ инфСрСнс с ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΌ Gradio WebUI:

# Clone the repo
git clone https://github.com/NVlabs/describe-anything
cd describe-anything

# Create a conda env
conda create -n describe-anything
conda activate describe-anything

# Install dependencies
pip install -v

# Gradio Demo for Image Descriptions
python demo_simple.py

# Gradio Demo for Video Descriptions
python demo_video.py


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ: NVIDIA Noncommercial License.

πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΊΠΎΠ΄Π° : Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Ρ€Π°Π½ΠΈΡ†Π° ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Demo
🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #DAM #NVIDIA #Annotation

BY Machine learning Interview





Share with your friend now:
tg-me.com/machinelearning_interview/1760

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

What is Telegram?

Telegram’s stand out feature is its encryption scheme that keeps messages and media secure in transit. The scheme is known as MTProto and is based on 256-bit AES encryption, RSA encryption, and Diffie-Hellman key exchange. The result of this complicated and technical-sounding jargon? A messaging service that claims to keep your data safe.Why do we say claims? When dealing with security, you always want to leave room for scrutiny, and a few cryptography experts have criticized the system. Overall, any level of encryption is better than none, but a level of discretion should always be observed with any online connected system, even Telegram.

Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.Machine learning Interview from id


Telegram Machine learning Interview
FROM USA