Как быстро превратить аудио- и видеозапись с интервью в текст с помощью нейросетей. Пошаговая инструкция
Каждый журналист, копирайтер и пишущий блогер знает, как утомительно долго обрабатывать интервью. На расшифровку записи и редактирование текста может уйти от нескольких часов до целого рабочего дня. Сервисы с искусственным интеллектом помогут упростить процесс и свести это время к минимуму. В Pressfeed.Журнале рассказываем, как быстро создать полноценную статью из аудио- и видеоинтервью с помощью нейросетей и подготовить его к публикации.
Эта инструкция подойдет не только для создания интервью, но и для всех случаев, когда необходимо быстро сделать из аудио или видео понятный и читабельный текст. Например, вы можете переработать вебинары, конференции, лекции, подкасты или любое видео из YouTube в статьи для блога или СМИ, пост-релизы и посты для соцсетей.
В качестве примера мы сделаем из интервью длительностью 1,5 часа текст, который подойдет для публикации, и посмотрим, сколько времени на это уйдет.
Шаг №1. Переводим речь в текст через программу транскрибирования
Преобразовать аудио- или видеофайл в текст помогут сервисы распознавания речи или программы транскрибирования: Speech2Text, Any2Text, Teamlogs и другие. Покажем, как это работает на примере интервью Максима Ильяхова, соавтора книги «Пиши, сокращай», блогеру Роману Тарасенко.
Скачать PDF-инструкцию «Где и как публиковать широкоохватные статьи бесплатно»Копируем ссылку на интервью с YouTube и вставляем ее в соответствующее окошко на сервисе, в нашем случае выбрали Speech2Text. Эта программа умеет разбивать текст на абзацы, ставить знаки препинания и распознает спикеров по голосам, что очень удобно для расшифровки интервью.
Вы также можете загрузить в программу для расшифровки аудио- и видеофайлы в любых форматах.
Язык сервис определит сам, количество спикеров также можно оставить для автоматического распознавания. После нажатия на кнопку «Распознать» сервис сообщает расчетное время обработки файла. С полуторачасовым видео он справился всего за 17 минут.
Далее открываем интерактивный плеер и определяем, сверяясь с тайм-кодами, какие реплики принадлежат каждому из двух спикеров. Возвращаемся на главную страницу и указываем имена «Спикера 1» и «Спикера 2» в порядке очередности.
Кстати, во время последующей правки текста в интерактивном плеере удобно прослушивать непонятные куски расшифровки, перепроверять термины и имена. Для этого надо нажать на тайм-код, и видео- или аудиофайл запустится на нужном месте.
Все готово, теперь осталось скачать файл в формате docx на компьютер. Расшифровку можно получить с тайм-кодами или без, в следующих видах:
- сплошной текст;
- текст с делением на спикеров;
- текст с делением на спикеров и на абзацы.
Для подготовки интервью к публикации лучше всего подойдет вариант текста с разделением на абзацы, спикеров и без тайм-кодов. Файл скачивается за минуту.
Итого на копирование ссылки, указание имен спикеров и скачивание файла мы потратили 3 минуты. 17 минут на транскрибирование видео не считаем, так как в это время мы могли заниматься своими делами.
Время, потраченное на подготовку текста: 3 минуты.
Шаг №2. Исправляем ошибки и стиль текста c помощью нейросети
ИИ способен привести текст в порядок: исправить ошибки, сократить и даже улучшить стиль. С этим весьма прилично справляется нейросеть YandexGPT, которая встроена в «Яндекс Браузер». Чтобы воспользоваться подсказками искусственного интеллекта, нужно открыть в «Яндекс Браузере» онлайн-редактор и скопировать в него расшифровку.
К примеру, можно использовать редакторы Online NotePad, Service-online или другой аналогичный сервис. Выделяем кусок текста в онлайн-редакторе, нажимаем правую кнопку мыши, после чего во всплывающей строке выбираем «Помочь с текстом». Помощь YandexGPT предлагает такую:
- исправить ошибки;
- сократить текст;
- улучшить стиль.
Можно воспользоваться всеми тремя функциями поочередно. Небольшое неудобство состоит в том, что текст придется обрабатывать поочередно кусками. Нейросеть откажется работать, если выделить весь текст целиком.
Важно: лайфхак срабатывает не в любом онлайн-редакторе. В «Google Документах», например, ничего не получится, поскольку для правой кнопки мыши там предусмотрены свои действия. Правда, команда «Яндекс» сообщает, что уже работает над этим.
Исправляем ошибки
После выбора функции «Исправить ошибки», нейросеть расставила недостающие запятые, двоеточия и другие знаки препинания, исправила ошибки. Например, во фрагменте на скриншоте ИИ распознал название книги и добавил к ней кавычки и заглавную букву.
Сокращаем текст
ИИ предложил несколько вариантов сокращений на выбор разной степени лаконичности. После применения функции «Сократить» текст уменьшился в полтора раза, предложения стали короче и яснее. Ушли мусорные слова, вроде «ну», «вот», «какой-то», неверное название книги «Опиши-сокращай» исправили на правильное «Пиши, сокращай».
Единственное «но» — отправлять на обработку лучше большие монологи спикеров по отдельности, а то YandexGPT «сократит» и их имена. Придется восстанавливать.
Улучшаем стиль
Убрать просторечия и разговорные обороты помогла функция «Улучшить стиль». Например, выражение «я доделываю картинки» заменили на «я доделываю иллюстрации», «все пошло немного не так» на «все пошло немного не по плану», «Вот это ясно-понятно» на «Вот что такое «Ясно-понятно». Как и в случае с сокращением, было предложено несколько вариантов улучшения стиля.
В итоге, на то, чтобы исправить ошибки, поправить стиль и сократить текст с помощью «Яндекс Браузера», ушло 20 минут.
Время, потраченное на улучшение стиля текста: 20 минут.
Шаг №3. Дорабатываем текст вручную
На шаге №3 нужно вручную пробежаться по тексту и убрать оставшиеся стилистические погрешности, поменять отдельные выражения по своему вкусу, а также проверить названия и термины. В данном отрывке мы почти ничего не стали менять, только в последней реплике Романа вернули более эмоциональное «Стоп» вместо нейтрального «Подождите», предложенного нейросетью.
Время, потраченное на доработку текста: 15 минут.
Что в итоге?
Итак, на довольно качественный перевод полуторачасового интервью в текст у нас ушло чуть менее 40 минут. При желании можно больше времени посвятить самому важному и интересному — стилистической обработке текста. А всю скучную работу способны сегодня выполнить за нас «умные» сервисы на базе нейросетей.
Вот несколько советов, которые помогут вам упросить перевод аудио и видео в текст. Обеспечьте высокое качество записи и отсутствие посторонних звуков: музыки, разговоров на заднем плане. Шумы, а также тихая и неразборчивая речь осложнят работу программы распознавания, и результат может выйти хуже ожидаемого.
Получив текст — после расшифровки или на стадии полной готовности — обязательно самостоятельно перепроверьте все термины, имена и даты, обратившись к исходной записи. Сервисы распознавания речи могут допускать ошибки в редких словах, названия или цифрах, а ИИ смышлен, но не всесилен.
Комментарии