22 апреля 2024

Как быстро превратить аудио- и видеозапись с интервью в текст с помощью нейросетей. Пошаговая инструкция

Каждый журналист, копирайтер и пишущий блогер знает, как утомительно долго обрабатывать интервью. На расшифровку записи и редактирование текста может уйти от нескольких часов до целого рабочего дня. Сервисы с искусственным интеллектом помогут упростить процесс и свести это время к минимуму. В Pressfeed.Журнале рассказываем, как быстро создать полноценную статью из аудио- и видеоинтервью с помощью нейросетей и подготовить его к публикации.

расшифровка интервью нейросеть — Иллюстрация Nata Blackthorn

Эта инструкция подойдет не только для создания интервью, но и для всех случаев, когда необходимо быстро сделать из аудио или видео понятный и читабельный текст. Например, вы можете переработать вебинары, конференции, лекции, подкасты или любое видео из YouTube в статьи для блога или СМИ, пост-релизы и посты для соцсетей.

В качестве примера мы сделаем из интервью длительностью 1,5 часа текст, который подойдет для публикации, и посмотрим, сколько времени на это уйдет.

Шаг №1. Переводим речь в текст через программу транскрибирования

Сделайте эти 5 шагов, и о вас точно напишут в СМИ. Скачать! Реклама: ООО "ПРЕССФИД", ИНН: 9715219654, ОГРН: 1157746902961

Преобразовать аудио- или видеофайл в текст помогут сервисы распознавания речи или программы транскрибирования: Speech2Text, Any2Text, Teamlogs и другие. Покажем, как это работает на примере интервью Максима Ильяхова, соавтора книги «Пиши, сокращай», блогеру Роману Тарасенко.

Копируем ссылку на интервью с YouTube и вставляем ее в соответствующее окошко на сервисе, в нашем случае выбрали Speech2Text. Эта программа умеет разбивать текст на абзацы, ставить знаки препинания и распознает спикеров по голосам, что очень удобно для расшифровки интервью.

Вы также можете загрузить в программу для расшифровки аудио- и видеофайлы в любых форматах.

нейросети для транскрибации — Вставляем ссылку на видео на главной странице Speech2Text

Язык сервис определит сам, количество спикеров также можно оставить для автоматического распознавания. После нажатия на кнопку «Распознать» сервис сообщает расчетное время обработки файла. С полуторачасовым видео он справился всего за 17 минут.

нейросети для работы с текстом — Сервис перевел речь в текст за 17 минут

Далее открываем интерактивный плеер и определяем, сверяясь с тайм-кодами, какие реплики принадлежат каждому из двух спикеров. Возвращаемся на главную страницу и указываем имена «Спикера 1» и «Спикера 2» в порядке очередности.

Кстати, во время последующей правки текста в интерактивном плеере удобно прослушивать непонятные куски расшифровки, перепроверять термины и имена. Для этого надо нажать на тайм-код, и видео- или аудиофайл запустится на нужном месте.

Чтобы получить бесплатное упоминание в СМИ, отвечайте на запросы по вашей теме. Полный список смотрите на Pressfeed

ИИ для улучшения текста — Интерактивный плеер с тайм-кодами без имен спикеров

Все готово, теперь осталось скачать файл в формате docx на компьютер. Расшифровку можно получить с тайм-кодами или без, в следующих видах:

сплошной текст;
текст с делением на спикеров;
текст с делением на спикеров и на абзацы.

нейросети улучшают текст — Сервис выдает подсказки по видам файлов для скачивания

Для подготовки интервью к публикации лучше всего подойдет вариант текста с разделением на абзацы, спикеров и без тайм-кодов. Файл скачивается за минуту.

ИИ для создания текста — Так выглядит файл-расшифровка в Word

Итого на копирование ссылки, указание имен спикеров и скачивание файла мы потратили 3 минуты. 17 минут на транскрибирование видео не считаем, так как в это время мы могли заниматься своими делами.

Время, потраченное на подготовку текста: 3 минуты.

Шаг №2. Исправляем ошибки и стиль текста c помощью нейросети

ИИ способен привести текст в порядок: исправить ошибки, сократить и даже улучшить стиль. С этим весьма прилично справляется нейросеть YandexGPT, которая встроена в «Яндекс Браузер». Чтобы воспользоваться подсказками искусственного интеллекта, нужно открыть в «Яндекс Браузере» онлайн-редактор и скопировать в него расшифровку.

К примеру, можно использовать редакторы Online NotePad, Service-online или другой аналогичный сервис. Выделяем кусок текста в онлайн-редакторе, нажимаем правую кнопку мыши, после чего во всплывающей строке выбираем «Помочь с текстом». Помощь YandexGPT предлагает такую:

Организуем для вас статьи и интервью в топовых изданиях с гарантией результата. Напишем тексты, договоримся с редакциями, а вы платите только за вышедшие публикации. Реклама: ООО "ПРЕССФИД", ИНН: 9715219654, ОГРН: 1157746902961

исправить ошибки;
сократить текст;
улучшить стиль.

Можно воспользоваться всеми тремя функциями поочередно. Небольшое неудобство состоит в том, что текст придется обрабатывать поочередно кусками. Нейросеть откажется работать, если выделить весь текст целиком.

Важно: лайфхак срабатывает не в любом онлайн-редакторе. В «Google Документах», например, ничего не получится, поскольку для правой кнопки мыши там предусмотрены свои действия. Правда, команда «Яндекс» сообщает, что уже работает над этим.

расшифровка интервью — Три варианта улучшения текста от нейробраузера «Яндекс»

Исправляем ошибки

После выбора функции «Исправить ошибки», нейросеть расставила недостающие запятые, двоеточия и другие знаки препинания, исправила ошибки. Например, во фрагменте на скриншоте ИИ распознал название книги и добавил к ней кавычки и заглавную букву.

транскрибация аудио и видео — Нейросеть показывает, что собирается исправлять. Правки можно принять или отклонить

Сокращаем текст

ИИ предложил несколько вариантов сокращений на выбор разной степени лаконичности. После применения функции «Сократить» текст уменьшился в полтора раза, предложения стали короче и яснее. Ушли мусорные слова, вроде «ну», «вот», «какой-то», неверное название книги «Опиши-сокращай» исправили на правильное «Пиши, сокращай».

Единственное «но» — отправлять на обработку лучше большие монологи спикеров по отдельности, а то YandexGPT «сократит» и их имена. Придется восстанавливать.

10 кейсов о росте трафика, продаж и продвижении бизнеса с помощью СМИ. Скачать! Реклама: ООО "ПРЕССФИД", ИНН: 9715219654, ОГРН: 1157746902961

Улучшаем текст в нейросети — Как выглядит текст после сокращения искусственным интеллектом

Улучшаем стиль

Убрать просторечия и разговорные обороты помогла функция «Улучшить стиль». Например, выражение «я доделываю картинки» заменили на «я доделываю иллюстрации», «все пошло немного не так» на «все пошло немного не по плану», «Вот это ясно-понятно» на «Вот что такое «Ясно-понятно». Как и в случае с сокращением, было предложено несколько вариантов улучшения стиля.

Расшифровка аудио в нейросети — Текст после улучшения стиля

В итоге, на то, чтобы исправить ошибки, поправить стиль и сократить текст с помощью «Яндекс Браузера», ушло 20 минут.

Время, потраченное на улучшение стиля текста: 20 минут.

Шаг №3. Дорабатываем текст вручную

На шаге №3 нужно вручную пробежаться по тексту и убрать оставшиеся стилистические погрешности, поменять отдельные выражения по своему вкусу, а также проверить названия и термины. В данном отрывке мы почти ничего не стали менять, только в последней реплике Романа вернули более эмоциональное «Стоп» вместо нейтрального «Подождите», предложенного нейросетью.

Время, потраченное на доработку текста: 15 минут.

Разошлем ваш пресс-релиз по федеральным, отраслевым и региональным СМИ от 5 990 рублей. Самая большая база контактов: 15 000 журналистов, 15 отраслей и 14 регионов России. Реклама: ООО "ПРЕССФИД", ИНН: 9715219654, ОГРН: 1157746902961

Нейросеть редактирует текст — Было. «Сырая» расшифровка сервиса транскрибации

Что в итоге?

Итак, на довольно качественный перевод полуторачасового интервью в текст у нас ушло чуть менее 40 минут. При желании можно больше времени посвятить самому важному и интересному — стилистической обработке текста. А всю скучную работу способны сегодня выполнить за нас «умные» сервисы на базе нейросетей.

Вот несколько советов, которые помогут вам упросить перевод аудио и видео в текст. Обеспечьте высокое качество записи и отсутствие посторонних звуков: музыки, разговоров на заднем плане. Шумы, а также тихая и неразборчивая речь осложнят работу программы распознавания, и результат может выйти хуже ожидаемого.

Получив текст — после расшифровки или на стадии полной готовности — обязательно самостоятельно перепроверьте все термины, имена и даты, обратившись к исходной записи. Сервисы распознавания речи могут допускать ошибки в редких словах, названия или цифрах, а ИИ смышлен, но не всесилен.