Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Step-Audio: ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Ρ‡Π΅Π²ΠΎΠ³ΠΎ взаимодСйствия.

Step-Audio – ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Ρ€Π΅Ρ‡ΠΈ для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (китайский, английский ΠΈ японский).

Step-Audio способна ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Ρ‚Π΅Π½ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚Ρ‹, Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ стили Ρ€Π΅Ρ‡ΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.

Основой Step-Audio являСтся 130B ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² сСбС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ распознавания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ, сСмантичСского понимания, вСдСния Π΄ΠΈΠ°Π»ΠΎΠ³Π°, клонирования голоса ΠΈ синтСза Ρ€Π΅Ρ‡ΠΈ. Π’Π°ΠΆΠ½Ρ‹ΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠΌ являСтся собствСнный Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ высококачСствСнный Π·Π²ΡƒΠΊ Π±Π΅Π· Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ сбора Π΄Π°Π½Π½Ρ‹Ρ… Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ.

▢️ Бостав Ρ€Π΅Π»ΠΈΠ·Π°:

Step-Audio-Tokenizer - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Ρ€Π΅Ρ‡ΠΈ. Для лингвистичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠΎΠ΄Π΅Ρ€ Paraformer, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ квантуСтся Π² дискрСтныС прСдставлСния с частотой 16,7 Π“Ρ†. Для сСмантичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ CosyVoice, ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для эффСктивного кодирования характСристик, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для создания СстСствСнных ΠΈ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ Π½Π° частотС 25 Π“Ρ†.

Step-Audio-Chat - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ LLM с 130 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², которая ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ чСловСчСской Ρ€Π΅Ρ‡ΠΈ.

Step-Audio-TTS-3B - TTS-модСль, обучСнная Π½Π° ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌ синтСтичСском Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… с использованиСм ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡ‹ LLM-Chat. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько языков, мноТСство ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ элСмСнты управлСния стилСм голоса. Step-Audio-TTS-3B являСтся ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ TTS-модСлью, способной Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пСвчСский Π²ΠΎΠΊΠ°Π».

StepEval-Audio-360 - датасСт, собранный ΠΏΡ€ΠΈ участии ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π½Π½ΠΎΡ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ содСрТит вСсь спСктр возмоТностСй: ΠΏΠ΅Π½ΠΈΠ΅, творчСство, Ρ€ΠΎΠ»Π΅Π²Ρ‹Π΅ ΠΈΠ³Ρ€Ρ‹, логичСскиС рассуТдСния, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ голоса, слСдованиС голосовым инструкциям, ΠΈΠ³Ρ€Ρ‹, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Ρ‡Π΅Π²Ρ‹ΠΌΠΈ эмоциями ΠΈ языковыС способности Π½Π° китайском, английском ΠΈ японском языках.

⚠️ Для локального использования понадобится (41.6Π“Ρ†): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ НаиболСС качСствСнный инфСрСнс, ΠΏΠΎ словам Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², достигаСтся Π½Π° 4xA800/H800 GPU с 80GB ΠΈΠ»ΠΈ большС.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/github_code/353
Create:
Last Update:

🌟 Step-Audio: ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Ρ‡Π΅Π²ΠΎΠ³ΠΎ взаимодСйствия.

Step-Audio – ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Ρ€Π΅Ρ‡ΠΈ для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (китайский, английский ΠΈ японский).

Step-Audio способна ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Ρ‚Π΅Π½ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚Ρ‹, Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ стили Ρ€Π΅Ρ‡ΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.

Основой Step-Audio являСтся 130B ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² сСбС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ распознавания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ, сСмантичСского понимания, вСдСния Π΄ΠΈΠ°Π»ΠΎΠ³Π°, клонирования голоса ΠΈ синтСза Ρ€Π΅Ρ‡ΠΈ. Π’Π°ΠΆΠ½Ρ‹ΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠΌ являСтся собствСнный Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ высококачСствСнный Π·Π²ΡƒΠΊ Π±Π΅Π· Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ сбора Π΄Π°Π½Π½Ρ‹Ρ… Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ.

▢️ Бостав Ρ€Π΅Π»ΠΈΠ·Π°:

Step-Audio-Tokenizer - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Ρ€Π΅Ρ‡ΠΈ. Для лингвистичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠΎΠ΄Π΅Ρ€ Paraformer, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ квантуСтся Π² дискрСтныС прСдставлСния с частотой 16,7 Π“Ρ†. Для сСмантичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ CosyVoice, ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для эффСктивного кодирования характСристик, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для создания СстСствСнных ΠΈ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ Π½Π° частотС 25 Π“Ρ†.

Step-Audio-Chat - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ LLM с 130 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², которая ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ чСловСчСской Ρ€Π΅Ρ‡ΠΈ.

Step-Audio-TTS-3B - TTS-модСль, обучСнная Π½Π° ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌ синтСтичСском Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… с использованиСм ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡ‹ LLM-Chat. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько языков, мноТСство ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ элСмСнты управлСния стилСм голоса. Step-Audio-TTS-3B являСтся ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ TTS-модСлью, способной Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пСвчСский Π²ΠΎΠΊΠ°Π».

StepEval-Audio-360 - датасСт, собранный ΠΏΡ€ΠΈ участии ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π½Π½ΠΎΡ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ содСрТит вСсь спСктр возмоТностСй: ΠΏΠ΅Π½ΠΈΠ΅, творчСство, Ρ€ΠΎΠ»Π΅Π²Ρ‹Π΅ ΠΈΠ³Ρ€Ρ‹, логичСскиС рассуТдСния, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ голоса, слСдованиС голосовым инструкциям, ΠΈΠ³Ρ€Ρ‹, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Ρ‡Π΅Π²Ρ‹ΠΌΠΈ эмоциями ΠΈ языковыС способности Π½Π° китайском, английском ΠΈ японском языках.

⚠️ Для локального использования понадобится (41.6Π“Ρ†): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ НаиболСС качСствСнный инфСрСнс, ΠΏΠΎ словам Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², достигаСтся Π½Π° 4xA800/H800 GPU с 80GB ΠΈΠ»ΠΈ большС.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio

BY Github






Share with your friend now:
tg-me.com/github_code/353

View MORE
Open in Telegram


Github Telegram | DID YOU KNOW?

Date: |

In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.β€œWe have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.

Telegram Auto-Delete Messages in Any Chat

Some messages aren’t supposed to last forever. There are some Telegram groups and conversations where it’s best if messages are automatically deleted in a day or a week. Here’s how to auto-delete messages in any Telegram chat. You can enable the auto-delete feature on a per-chat basis. It works for both one-on-one conversations and group chats. Previously, you needed to use the Secret Chat feature to automatically delete messages after a set time. At the time of writing, you can choose to automatically delete messages after a day or a week. Telegram starts the timer once they are sent, not after they are read. This won’t affect the messages that were sent before enabling the feature.

Github from ua


Telegram Github
FROM USA