Telegram Group & Telegram Channel
Как сделать идеальную расшифровку аудио и саммари выступления. Открытый эксперимент

Привет, коллеги! Я уже писал, что вижу огромную ценность в том, чтобы показывать как можно более свежие кейсы применения нейросетей. Однако корпоративные выступления или примеры опубликовать по понятным причинам возможности нет, поэтому мы активно их создаем.

Сегодня мы решили показать, как можно получить качественную (надеюсь!) расшифровку аудио и что для этого потребуется. Это очень востребовано, например, на корпоративных конференциях. Особенно в сессиях вопросов и ответов (где нет презентации, по которой можно хоть как-то представить себе, о чем говорил спикер, если участник опоздал).

Расшифровка позволяет кратно экономить время на ознакомление с выступлением, а в бизнесе время сотрудников = деньги. Кроме того, ограниченный , скажем, пятиминутный, ресурс мотивации сотрудника может быть бесполезно израсходован на первые пять минут просмотра длинного видео… а при работе с текстом за это время удастся найти все самое важное!

Мы будем рассказывать о каждом шаге эксперимента;)

1. Выбрать спикера и договориться с ним о возможности расшифровки и о размещении оборудования;)

Мы выбрали хорошо вам известного Володю Казакова (он пишет про нейросети здесь, очень рекомендую его канал!), который часто сотрудничает с нашей Лабораторией промптинга. Он согласился на то, что его выступление будет расшифровано и предоставлено в открытый доступ*.

* — хах, это не самый простой вопрос, на самом деле;) вы когда-нибудь задумывались о том, что не все спикеры к этому готовы (да-да!) — потому что контент, неплохо звучащий устно, вполне может оказаться не столь прекрасным после расшифровки

На Володе мы разместили блютус-гарнитуру (в комментах фотка, мы выбирали из соображений адекватной цены и качества выше среднего, эта стоит 11тр и дает адекватное качество), чтобы минимизировать искажения. Это важно! Потому что звук, который запишет ваш телефон из зала, не даст расшифровщику качественно «прочувствовать» интонацию, чтобы расставить знаки препинания, а еще — повысит вероятность искажений.

Учитывая, что мотивация получить запись обратно пропорциональна времени, прошедшему с момента завершения выступления, и позволив себе вложить 10-20 минут на редакторскую правку текста, вы потеряете от 30 до 50% желающих получить расшифровку, то получается, что качественная расшифровка «с пылу с жару» нужна СРАЗУ. Поэтому не редактирование, а изначально высокое качество записи. Это еще и дешевле (единожды купить гарнитуру по сравнению с постоянной оплатой редактора).

2. Записать файл и отправить его на расшифровку нейросети

Берём mp3-файл на максималках и отправляем на расшифровку. До прошлой недели мы использовали Whisper AI. По результатам наших тестов он был лучшим. К тому же, его можно развернуть на локальной машине (правда, только на мощной) и тогда он решал вопрос конфиденциальности.

В этот раз мы попробуем и покажем вам новый сервис (ссылка и рецензия — в комментариях). Цена показалась довольно высокой, но качеством мы на данный момент довольны. Если вы знаете достойный или лучший аналог — пишите в комментарии! Вообще мне кажется, что в этой прикладной гонке сейчас будет постоянно меняться лидер…

3. Разместить в удобном месте и — наслаждаться!

Вот ссылка на расшифрованное выступление Володи. Это сделала нейросеть (Voicee, подробнее про неё здесь). Важно понимать, что Я НИЧЕГО НЕ ТРОГАЛ ВНУТРИ, только отрезал свою болтовню в начале и в конце.

Я успел посмотреть, мне очень понравилось качество. Единственная опечатка, которую я бегло заметил — это «Ежка» вместо «Джипитишки» (Володя имел в виду ChatGPT, сделав название уменьшительно-ласкательным и на русский манер). С другой стороны, а как вообще нейросеть сможет такое понять…

Хотя о! Я попробую сделать это промптом;)

4. Сделать саммари ключевых идей с помощью другой нейросети

(в следующем посте 👇 👇 👇)

в каталог промптов и кейсов применения нейросетей (20 кейсов!)

в Лабораторию промптинга МОЗЛаб: посмотреть и заказать обучение ваших сотрудников
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/PromptLab_Mozlab/101
Create:
Last Update:

Как сделать идеальную расшифровку аудио и саммари выступления. Открытый эксперимент

Привет, коллеги! Я уже писал, что вижу огромную ценность в том, чтобы показывать как можно более свежие кейсы применения нейросетей. Однако корпоративные выступления или примеры опубликовать по понятным причинам возможности нет, поэтому мы активно их создаем.

Сегодня мы решили показать, как можно получить качественную (надеюсь!) расшифровку аудио и что для этого потребуется. Это очень востребовано, например, на корпоративных конференциях. Особенно в сессиях вопросов и ответов (где нет презентации, по которой можно хоть как-то представить себе, о чем говорил спикер, если участник опоздал).

Расшифровка позволяет кратно экономить время на ознакомление с выступлением, а в бизнесе время сотрудников = деньги. Кроме того, ограниченный , скажем, пятиминутный, ресурс мотивации сотрудника может быть бесполезно израсходован на первые пять минут просмотра длинного видео… а при работе с текстом за это время удастся найти все самое важное!

Мы будем рассказывать о каждом шаге эксперимента;)

1. Выбрать спикера и договориться с ним о возможности расшифровки и о размещении оборудования;)

Мы выбрали хорошо вам известного Володю Казакова (он пишет про нейросети здесь, очень рекомендую его канал!), который часто сотрудничает с нашей Лабораторией промптинга. Он согласился на то, что его выступление будет расшифровано и предоставлено в открытый доступ*.

* — хах, это не самый простой вопрос, на самом деле;) вы когда-нибудь задумывались о том, что не все спикеры к этому готовы (да-да!) — потому что контент, неплохо звучащий устно, вполне может оказаться не столь прекрасным после расшифровки

На Володе мы разместили блютус-гарнитуру (в комментах фотка, мы выбирали из соображений адекватной цены и качества выше среднего, эта стоит 11тр и дает адекватное качество), чтобы минимизировать искажения. Это важно! Потому что звук, который запишет ваш телефон из зала, не даст расшифровщику качественно «прочувствовать» интонацию, чтобы расставить знаки препинания, а еще — повысит вероятность искажений.

Учитывая, что мотивация получить запись обратно пропорциональна времени, прошедшему с момента завершения выступления, и позволив себе вложить 10-20 минут на редакторскую правку текста, вы потеряете от 30 до 50% желающих получить расшифровку, то получается, что качественная расшифровка «с пылу с жару» нужна СРАЗУ. Поэтому не редактирование, а изначально высокое качество записи. Это еще и дешевле (единожды купить гарнитуру по сравнению с постоянной оплатой редактора).

2. Записать файл и отправить его на расшифровку нейросети

Берём mp3-файл на максималках и отправляем на расшифровку. До прошлой недели мы использовали Whisper AI. По результатам наших тестов он был лучшим. К тому же, его можно развернуть на локальной машине (правда, только на мощной) и тогда он решал вопрос конфиденциальности.

В этот раз мы попробуем и покажем вам новый сервис (ссылка и рецензия — в комментариях). Цена показалась довольно высокой, но качеством мы на данный момент довольны. Если вы знаете достойный или лучший аналог — пишите в комментарии! Вообще мне кажется, что в этой прикладной гонке сейчас будет постоянно меняться лидер…

3. Разместить в удобном месте и — наслаждаться!

Вот ссылка на расшифрованное выступление Володи. Это сделала нейросеть (Voicee, подробнее про неё здесь). Важно понимать, что Я НИЧЕГО НЕ ТРОГАЛ ВНУТРИ, только отрезал свою болтовню в начале и в конце.

Я успел посмотреть, мне очень понравилось качество. Единственная опечатка, которую я бегло заметил — это «Ежка» вместо «Джипитишки» (Володя имел в виду ChatGPT, сделав название уменьшительно-ласкательным и на русский манер). С другой стороны, а как вообще нейросеть сможет такое понять…

Хотя о! Я попробую сделать это промптом;)

4. Сделать саммари ключевых идей с помощью другой нейросети

(в следующем посте 👇 👇 👇)

в каталог промптов и кейсов применения нейросетей (20 кейсов!)

в Лабораторию промптинга МОЗЛаб: посмотреть и заказать обучение ваших сотрудников

BY Лаборатория Промптинга Mozlab


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/PromptLab_Mozlab/101

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

Spiking bond yields driving sharp losses in tech stocks

A spike in interest rates since the start of the year has accelerated a rotation out of high-growth technology stocks and into value stocks poised to benefit from a reopening of the economy. The Nasdaq has fallen more than 10% over the past month as the Dow has soared to record highs, with a spike in the 10-year US Treasury yield acting as the main catalyst. It recently surged to a cycle high of more than 1.60% after starting the year below 1%. But according to Jim Paulsen, the Leuthold Group's chief investment strategist, rising interest rates do not represent a long-term threat to the stock market. Paulsen expects the 10-year yield to cross 2% by the end of the year. A spike in interest rates and its impact on the stock market depends on the economic backdrop, according to Paulsen. Rising interest rates amid a strengthening economy "may prove no challenge at all for stocks," Paulsen said.

telegram from in


Telegram Лаборатория Промптинга Mozlab
FROM USA