tg-me.com/InNeuralNetwork/214
Last Update:
Я давно использую генерацию голосов, но во многом качество упиралось в разумное ограничение — если нужно сделать как у человека, то надо делать до 4 секунд. В ином случае будет монотонно, «палевно». А поскольку я еще делаю делаю это через API, то также делал фоновый шум, добавление пауз и кучу сложно-кастыльных вещей, чтобы получалось ок. Как же я рад, что теперь это можно удалить.
Теперь можно без ограничений по длине ставить генерацию. Но не кул, что переписать логику запросов. Раньше для запроса надо было написать текст, то сейчас надо подстроить к нему еще [теги], чтобы добавить эти самые эмоции в голос. То есть, надо написать предложение, а затем проставить теги в нем еще. Прикрепленный войс сделан так:
Привет! [sarcastic laughs] Сори за войс. [exited] Но новая генерилка голосов Elevenlabs это что-то невероятное и [curious] клевое по эмоциям. Дальше в тексте, поберегу ваши уши. [whispers] И кстати, это звучал сгенерированный голос какого-то Дениса, а не мой.
Огорчает, что голос даже в статусе Natural может чуть отличаться, но не критично. Помимо этого, есть еще Creative, который также подходит для обычного использования, там эмоции прям норм скачут как при записи в маршрутке на повороте — меняет звучание, добавляет даже всхлипы и глотания слюну на удержание с эмм аа. А вот Robust, честно, совсем не понял, но услышал тот самый роботизированный голос.
Также в режиме можно делать диалоги между двумя разными людьми, получается здорово, но это не супер мой режим.
Если желаете опробовать, то переходите на ElevenLabs и готовьте от 5$ в месяц — бесплатно не распространяется. Также это пока preview, поэтому через месяц другой станет еще лучше
P.S. Здесь еще клево написано про промптинг