Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Step-Audio: ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Ρ‡Π΅Π²ΠΎΠ³ΠΎ взаимодСйствия.

Step-Audio – ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Ρ€Π΅Ρ‡ΠΈ для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (китайский, английский ΠΈ японский).

Step-Audio способна ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Ρ‚Π΅Π½ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚Ρ‹, Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ стили Ρ€Π΅Ρ‡ΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.

Основой Step-Audio являСтся 130B ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² сСбС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ распознавания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ, сСмантичСского понимания, вСдСния Π΄ΠΈΠ°Π»ΠΎΠ³Π°, клонирования голоса ΠΈ синтСза Ρ€Π΅Ρ‡ΠΈ. Π’Π°ΠΆΠ½Ρ‹ΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠΌ являСтся собствСнный Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ высококачСствСнный Π·Π²ΡƒΠΊ Π±Π΅Π· Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ сбора Π΄Π°Π½Π½Ρ‹Ρ… Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ.

▢️ Бостав Ρ€Π΅Π»ΠΈΠ·Π°:

Step-Audio-Tokenizer - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Ρ€Π΅Ρ‡ΠΈ. Для лингвистичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠΎΠ΄Π΅Ρ€ Paraformer, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ квантуСтся Π² дискрСтныС прСдставлСния с частотой 16,7 Π“Ρ†. Для сСмантичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ CosyVoice, ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для эффСктивного кодирования характСристик, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для создания СстСствСнных ΠΈ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ Π½Π° частотС 25 Π“Ρ†.

Step-Audio-Chat - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ LLM с 130 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², которая ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ чСловСчСской Ρ€Π΅Ρ‡ΠΈ.

Step-Audio-TTS-3B - TTS-модСль, обучСнная Π½Π° ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌ синтСтичСском Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… с использованиСм ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡ‹ LLM-Chat. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько языков, мноТСство ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ элСмСнты управлСния стилСм голоса. Step-Audio-TTS-3B являСтся ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ TTS-модСлью, способной Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пСвчСский Π²ΠΎΠΊΠ°Π».

StepEval-Audio-360 - датасСт, собранный ΠΏΡ€ΠΈ участии ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π½Π½ΠΎΡ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ содСрТит вСсь спСктр возмоТностСй: ΠΏΠ΅Π½ΠΈΠ΅, творчСство, Ρ€ΠΎΠ»Π΅Π²Ρ‹Π΅ ΠΈΠ³Ρ€Ρ‹, логичСскиС рассуТдСния, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ голоса, слСдованиС голосовым инструкциям, ΠΈΠ³Ρ€Ρ‹, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Ρ‡Π΅Π²Ρ‹ΠΌΠΈ эмоциями ΠΈ языковыС способности Π½Π° китайском, английском ΠΈ японском языках.

⚠️ Для локального использования понадобится (41.6Π“Ρ†): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ НаиболСС качСствСнный инфСрСнс, ΠΏΠΎ словам Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², достигаСтся Π½Π° 4xA800/H800 GPU с 80GB ΠΈΠ»ΠΈ большС.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/github_code/351
Create:
Last Update:

🌟 Step-Audio: ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° ΠΈΠ½Ρ‚Π΅Π»Π»Π΅ΠΊΡ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ Ρ€Π΅Ρ‡Π΅Π²ΠΎΠ³ΠΎ взаимодСйствия.

Step-Audio – ΠΏΠ»Π°Ρ‚Ρ„ΠΎΡ€ΠΌΠ° с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ, ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡŽΡ‰Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ Ρ€Π΅Ρ‡ΠΈ для ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠΈ ΠΌΡƒΠ»ΡŒΡ‚ΠΈΡΠ·Ρ‹Ρ‡Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ² (китайский, английский ΠΈ японский).

Step-Audio способна ΠΏΠ΅Ρ€Π΅Π΄Π°Π²Π°Ρ‚ΡŒ ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ ΠΎΡ‚Ρ‚Π΅Π½ΠΊΠΈ, Ρ€Π΅Π³ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Π΅ Π΄ΠΈΠ°Π»Π΅ΠΊΡ‚Ρ‹, Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ стили Ρ€Π΅Ρ‡ΠΈ ΠΈ Π²ΠΎΠΊΠ°Π»Π°.

Основой Step-Audio являСтся 130B ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ модСль, которая ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ Π² сСбС Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΈ распознавания ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ, сСмантичСского понимания, вСдСния Π΄ΠΈΠ°Π»ΠΎΠ³Π°, клонирования голоса ΠΈ синтСза Ρ€Π΅Ρ‡ΠΈ. Π’Π°ΠΆΠ½Ρ‹ΠΌ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ΠΎΠΌ являСтся собствСнный Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€, ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡŽΡ‰ΠΈΠΉ ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ высококачСствСнный Π·Π²ΡƒΠΊ Π±Π΅Π· Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ сбора Π΄Π°Π½Π½Ρ‹Ρ… Π²Ρ€ΡƒΡ‡Π½ΡƒΡŽ.

▢️ Бостав Ρ€Π΅Π»ΠΈΠ·Π°:

Step-Audio-Tokenizer - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ Ρ€Π΅Ρ‡ΠΈ. Для лингвистичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ ΠΊΠΎΠ΄Π΅Ρ€ Paraformer, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ квантуСтся Π² дискрСтныС прСдставлСния с частотой 16,7 Π“Ρ†. Для сСмантичСской Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ†ΠΈΠΈ - Ρ‚ΠΎΠΊΠ΅Π½ΠΈΠ·Π°Ρ‚ΠΎΡ€ CosyVoice, ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ для эффСктивного кодирования характСристик, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для создания СстСствСнных ΠΈ Π²Ρ‹Ρ€Π°Π·ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… Ρ€Π΅Ρ‡Π΅Π²Ρ‹Ρ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ΠΎΠ², Ρ€Π°Π±ΠΎΡ‚Π°ΡŽΡ‰ΠΈΠΉ Π½Π° частотС 25 Π“Ρ†.

Step-Audio-Chat - ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½Π°Ρ LLM с 130 ΠΌΠ»Ρ€Π΄. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², которая ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΠΈ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΡŽ чСловСчСской Ρ€Π΅Ρ‡ΠΈ.

Step-Audio-TTS-3B - TTS-модСль, обучСнная Π½Π° ΠΊΡ€ΡƒΠΏΠ½ΠΎΠΌ синтСтичСском Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… с использованиСм ΠΏΠ°Ρ€Π°Π΄ΠΈΠ³ΠΌΡ‹ LLM-Chat. МодСль ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько языков, мноТСство ΡΠΌΠΎΡ†ΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π²Ρ‹Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Π΅ элСмСнты управлСния стилСм голоса. Step-Audio-TTS-3B являСтся ΠΏΠ΅Ρ€Π²ΠΎΠΉ ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΉ TTS-модСлью, способной Π³Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ пСвчСский Π²ΠΎΠΊΠ°Π».

StepEval-Audio-360 - датасСт, собранный ΠΏΡ€ΠΈ участии ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½Ρ‹Ρ… Π°Π½Π½ΠΎΡ‚Π°Ρ‚ΠΎΡ€ΠΎΠ² ΠΈ содСрТит вСсь спСктр возмоТностСй: ΠΏΠ΅Π½ΠΈΠ΅, творчСство, Ρ€ΠΎΠ»Π΅Π²Ρ‹Π΅ ΠΈΠ³Ρ€Ρ‹, логичСскиС рассуТдСния, ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠ΅ голоса, слСдованиС голосовым инструкциям, ΠΈΠ³Ρ€Ρ‹, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ Ρ€Π΅Ρ‡Π΅Π²Ρ‹ΠΌΠΈ эмоциями ΠΈ языковыС способности Π½Π° китайском, английском ΠΈ японском языках.

⚠️ Для локального использования понадобится (41.6Π“Ρ†): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ НаиболСС качСствСнный инфСрСнс, ΠΏΠΎ словам Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Ρ‡ΠΈΠΊΠΎΠ², достигаСтся Π½Π° 4xA800/H800 GPU с 80GB ΠΈΠ»ΠΈ большС.


β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ инфСрСнс Π½Π° ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π΅ TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘ΠšΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΡ Π½Π° HF
πŸŸ‘Π’Π΅Ρ…ΠΎΡ‚Ρ‡Π΅Ρ‚
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio

BY Github






Share with your friend now:
tg-me.com/github_code/351

View MORE
Open in Telegram


Github Telegram | DID YOU KNOW?

Date: |

Telegram and Signal Havens for Right-Wing Extremists

Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as β€œthe largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.

How Does Bitcoin Mining Work?

Bitcoin mining is the process of adding new transactions to the Bitcoin blockchain. It’s a tough job. People who choose to mine Bitcoin use a process called proof of work, deploying computers in a race to solve mathematical puzzles that verify transactions.To entice miners to keep racing to solve the puzzles and support the overall system, the Bitcoin code rewards miners with new Bitcoins. β€œThis is how new coins are created” and new transactions are added to the blockchain, says Okoro.

Github from cn


Telegram Github
FROM USA