14 лучших сервисов и приложений для расшифровки аудио и видео в текст
Pressfeed.Журнал сделал обзор сервисов и приложений для транскрибации аудиозаписей в текст, которые пригодятся для расшифровок интервью, переговоров, выступлений, лекций, видеокурсов и других форматов.
Транскрибация — это расшифровка аудио- или видеофайлов в текстовый формат. Обычные люди чаще всего пользуются ей во время обучения или переговоров, но для журналистов, авторов и пиарщиков расшифровка интервью — часть рутинной работы.
Транскрибацию аудио в текст используют в совершенно разных ситуациях:
- для написания текстов, статей, больших материалов, книг;
- для записи семинаров в университетах;
- для расшифровки подкастов, вебинаров, конференций и других публичных мероприятий;
- для транскрибации интервью;
- в деловых переговорах и телефонных разговорах с заказчиками и партнерами для сбора данных о пользователях и улучшения качества обслуживания;
- для создания субтитров и листов с покадровым описанием действий и реплик — последнее активно используется в киноиндустрии.
Расшифровку аудио в текст можно заказать у специалистов, средняя цена составляет 25-50 рублей за минуту записи. Благодаря нейросетям и новым механизмам распознавания речи сейчас появились приложения и сервисы, которые справляются с транскрибацией не хуже, чем люди.
1. Расшифровка аудио в Google Docs
«Документы Google» — известный онлайн-сервис для работы с текстовыми файлами. Прямо в редакторе есть встроенный инструмент для расшифровки звука с микрофона, а вот готовые аудиофайлы транскрибировать на платформе, к сожалению, нельзя.
Функция доступна при нажатии Ctrl+Shift+S или значка микрофона в приложении. С плохим микрофоном записать точные высказывания не получится – сервис пропускает много слов, звук должен быть четким.
Функционал:
- расшифровывает прямые трансляции голоса;
- работает прямо в файле doc.
- исправляет неправильные окончания,
- понимает команды со знаками препинания.
Стоимость: бесплатно.
2. Speechpad
На одном из первых российских сервисов «Голосовой блокнот» есть функция расшифровки аудиозаписи в текст, а также доступен голосовой набор. А еще здесь можно отладить и озвучить субтитры, для этого есть отдельный раздел. Голосовой набор в онлайн-режиме доступен только в браузере Google Chrome. Несмотря на немного запутанный интерфейс, на сайте подробно расписано, что и как работает.
Функционал:
- расшифровка готовой аудиозаписи;
- голосовой набор текста в режиме реального времени;
- корректировка шумов;
- запуск записи с выбранных точек времени, установка тайм-кодов;
- создание и редактирование субтитров;
- доступны 16 языков, кроме европейских, можно найти: узбекский, казахский, азербайджанский и грузинский;
- можно управлять скоростью воспроизведения и перематывать файл.
Стоимость: бесплатно можно транскрибировать файл длиной 15 минут; расширенные возможности на 1 месяц стоят 100 рублей, на 3 месяца — 250 рублей, на год — 800 рублей. Есть тестовый период.
3. RealSpeaker
Простой сервис, который поможет расшифровать видео и аудио в текст. Максимальная длительность записи — 180 минут. Двухминутная запись в среднем обрабатывается около 30 секунд.
Транскрибатором очень просто пользоваться: выбираете нужный язык и загружаете файл, затем переходите в раздел «медиа», где корректируете или скачиваете текст. В этом разделе вам открывается доступ к файлам всех пользователей, имейте это в виду, если работаете с информацией не для всеобщего обозрения.
Функционал:
- транскрибация готовых аудио- и видеозаписей в текст;
- работает с более чем 40 языками, включая русский;
- максимальная длина файла — 180 минут;
- есть встроенный редактор.
Стоимость: 12 рублей/минута, аудио или видео длиной до 1,5 минуты можно транскрибировать бесплатно.
4. Speech To Text
Простое приложение, которое можно использовать через бот в Telegram. В боте доступна бесплатная загрузка файла длиной до 10 минут и весом до 20 Мб. Сервис поддерживает только русский язык, однако это временно — в скором времени разработчики обещают пополнить языковые возможности сайта.
Функционал:
- транскрибация готовых аудиозаписей в текст;
- только русский язык;
- максимальный размер файла — 10 минут записи и вес до 20 Мб;
- чат-бот в Telegram для расшифровки.
Стоимость: 10 минут — бесплатно, далее 1 час распознавания стоит 100 рублей.
5. Бесплатная технология распознавания речи от VК
Крупнейшая российская соцсеть предоставляет бесплатную услугу расшифровки речи с помощью технологии ASR на базе нейросетей. В ВК технология Automatic Speech Recognition используется для распознавания голосовых и генерации субтитров. Интересно, что можно выбрать тип речи: спонтанная — живая речь со сленгом, нецензурной лексикой и междометиями, нейтральная — разборчивая, более формальная речь, как в подкасте или на ТВ. В сутки можно транскрибировать до 100 минут.
Функционал:
- расшифровка готовых аудио- и видеозаписей в текст;
- транскрибация речи в режиме реального времени;
- выбор стиля речи: спонтанная или нейтральная;
- удаление шумов и пауз;
- автоматические расставление знаков препинания и деление текста на предложения;
- понимает сленг и неразборчивую речь.
Стоимость: бесплатно.
6. Google Keep
Мобильное приложение с хорошим интерфейсом для заметок от компании Google. Внутри заметки доступна функция транскрибации: для перевода записи в текст нужно нажать на значок микрофона в меню. Расшифровка работает только в приложении для смартфонов и режиме реального времени. При этом, функция скорее подходит для надиктовки заметок — после длительной паузы запись автоматически заканчивается.
Функционал:
- запись прямой трансляции голоса в текст;
- работает только в приложении для смартфонов.
Стоимость: бесплатно.
7. Teamlogs
Платформа для транскрибации файлов аудио и видео в текст. Можно настраивать общий доступ и делиться записью с помощью ссылки, а еще — выделять ключевые слова.
Функционал:
- транскрибация готовых аудио- и видеозаписей в текст;
- доступны английский и русский языки;
- поддерживает форматы: аудио — M4A, MP3, OGG, AAC, WAV, FLAC, WMA, видео — MP4, MKV, FLV, AVI, MOV, WMV;
- автоматическая расстановка знаков препинания;
- разделение текста на спикеров по голосу;
- встроенный онлайн-редактор расшифровки;
- автоматическая генерация краткого содержания записи.
Стоимость: 15 минут бесплатно, далее от 7 рублей/минута. Доступна оплата услуги со счета организации.
8. APIHOST
Многофункциональный сервис для работы с аудиозаписями, видео и текстами со встроенным инструментом для распознавания речи. На платформе также доступны функции озвучки текста.
Если нужно транскрибировать файл весом больше 200 Мб, обратитесь в поддержку и оплатите услугу — цена будет зависеть от размера аудио. Минимальная сумма пополнения личного кабинета 500 рублей.
Функционал:
- транскрибация готовых аудиофайлов и видеозаписей в текст;
- голосовой набор текста в режиме реального времени;
- можно загружать видео из YouTube по ссылке;
- в базе больше 40 языков;
- создание, настройка и редактирование субтитров;
- автоматическая расстановка знаков препинания;
- встроенный онлайн-редактор текста;
- в базовом варианте максимальный размер файла — 200 Мб;
- есть функции озвучки текста, изменения голоса.
Стоимость: 2,4 рубля/минута.
9. Express Scribe
Профессиональная программа-транскрибатор от Windows доступна как для Mac, так и для остальных ПК. Алгоритм распознавания речи обладает высокой точностью и ценой. Из минусов — нет онлайн-версии и придется скачивать программу, а интерфейс выглядит довольно устаревшим. Подходит для профессиональных расшифровщиков и поддерживает даже ножную педаль.
Функционал:
- очень точный расшифровщик из готовых аудио и видео в текст;
- поддерживает много форматов: аудио — MP3, VOX, WAV и WMA, видео — DV, FLV, M4V, MOV, MP4, MPEG и WMV;
- интеграция с Lotus WordPro, Mircosoft Word, WordPerfect Office;
- регулировка громкости записи и голосов;
- фильтрация частот и шумов;
- возможность расшифровки в файл Word;
- загрузка файлов из разных источников: e-mail, облачных дисков и с компьютера.
Стоимость: базовый тариф — 70 долларов, профессиональный — 80 долларов, при этом дополнительные услуги приобретаются отдельно.
10. Transkriptor
Сервис расшифровки из аудио в формат текста, поддерживающий более 100 языков. Заявлено, что можно преобразовывать разнообразные форматы разговоров на русском языке — вебинары, лекции и записи публичных выступлений и переговоры. Сервис гарантирует точность до 99% и высокую скорость преобразования — в два раза быстрее исходной аудиозаписи. Сервис доступен на сайте, в качестве расширения в Chrome и в чат-боте Telegram.
Функционал:
- транскрибация из готовых аудио и видео в текст;
- поддерживает любые форматы аудио и видео;
- редактирование получившегося файла в редакторе;
- общий доступ к файлам — можно редактировать и организовывать файловую структуру;
- транскрибация записей по ссылке из интернета;
- разделение спикеров в файле по голосам;
- скачать файл можно в формате DOC, TXT, SRT;
- редактирование файла в замедленном режиме.
Стоимость: тариф Lite — от 4,99 долларов (5 часов в месяц); «Стандарт» — 7,49 долларов (20 часов в месяц); «Премиум» — 12,49 долларов (40 часов в месяц). Доступна бесплатная промо-версия.
11. Speechnotes
Простой сервис для автоматической расшифровки речи и аудио-, видеофайлов в текст. Кроме того, у Speechnotes есть приложение для Android с рейтингом в 4 звезды. Платформа заботится о конфиденциальности и не хранит ваши записи.
Функционал:
- транскрибация готовых аудио и видео в текст;
- расшифровка прямых трансляций и диктовки;
- поддерживает более 50 языков;
- автоматически расставляет знаки препинания и распознает смайлы;
- файл можно сохранить в облако или отправить через соцсети и email;
- работает с текстовыми файлами и PDF;
- есть приложение для Android.
Стоимость: 0,1 доллара/минута, есть система кредитов — если по вашей ссылке пришел друг и оплатил сервис, вы получаете кредит размером в 5 долларов за каждого. Бесплатна только функция диктовки с микрофона.
12. oTranscribe
Сам сервис позиционирует себя в качестве бесплатного веб-приложения для облегчения расшифровки аудио интервью. Вы загружаете файл в редактор и на этой же странице можете вручную транскрибировать запись в текст. Аудиофайл и расшифровка конфиденциальны, поскольку находятся на вашем устройстве.
Функционал:
- загрузка и проигрывание аудио- и видеозаписи на странице файла;
- быстрые клавиши для остановки и перемотки записи;
- встроенный онлайн-редактор для ручной транскрибациии аудио;
- можно выставлять тайм-коды для быстрого перехода по тексту и записи.
Стоимость: бесплатно.
13. Transcribe by Wreally
Сервис для расшифровки аудио в текст с интерфейсом на английском языке. При регистрации можно выбрать тип лицензии — индивидуальный или групповой.
Функционал:
- транскрибация готовых аудио в текст;
- поддерживает больше 80 языков;
- работает оффлайн и автоматически сохраняет файл;
- загрузка файлов с компьютера, из Google Диска, Dropbox или по ссылке;
- максимальный размер записи — 6000 Мб и 420 минут;
- можно выставлять тайм-коды и использовать горячие клавиши;
- поддерживает ножную педаль;
- работа со множеством форматов, в том числе с 3GP, CAF, DSS, FLAC, WEBM, WMA, WMV.
Стоимость: при регистрации дается 7-дневный бесплатный период, затем нужно оплатить подписку ценой 20 долларов за год.
14. Dragon Anywhere
Приложение только для IOS для транскрибации речи, которая записывается в режиме реального времени. Можно использовать для интервью, заметок и исследований. Работать с видео из YouTube по ссылке и расшифровывать готовые аудиофайлы не получится.
Функционал:
- расшифровка прямой записи речи;
- поддерживает несколько диалектов английского – английский, американский, канадский, а также французский и немецкий языки.
Стоимость: 14,99 долларов/месяц или 149,99 долларов/год.
6 советов для расшифровки аудио в текст
Практические все сервисы и приложения допускают недочеты из-за шумов, пауз и некачественной записи, исключение — дорогие профессиональные системы. Конечно, над любой транскрибацией нужно будет поработать дополнительно: расставить знаки препинания, исправить ошибки, несогласования, неверные окончания.
Вот несколько советов, как сделать так, чтобы сервису было легче правильно распознать речь и сформировать связный текст.
- Не ставьте высокую скорость воспроизведения — чем она выше, тем больше ошибок получится у программы. Лучше всего снизить скорость до 0,75.
- Постарайтесь использовать микрофоны хорошего качества или профессиональную аппаратуру. На худой конец сгодится самый простой микрофон с защитой от шума или наушники с шумоподавлением.
- Обязательно редактируйте получившийся текст после транскрибации. Полного доверия даже к нейросетям сейчас пока нет — ошибка может вылезти в самом неожиданном месте даже у дорогого сервиса.
- Чтобы сэкономить время при ручном наборе текста, пользуйтесь горячими клавишами для перемотки записи и тайм-кодами.
- Если печатаете текст самостоятельно, останавливайте запись, пишите и сразу редактируйте ее — так вы избежите неточностей.
- Если запись не отличается высоким качеством и на ней слышны шумы, используйте те сервисы, функционал которых подразумевает корректировку таких недочетов. При расшифровке аудио плохого качества без нужных алгоритмов вы просто получите набор несвязных слов.
про dialogtotext.com забыли!