Как расшифровывать быстро: простые лайфхаки
Если запись на час, на её расшифровку уйдет 2-3 часа. Это много и скучно — думаешь, что это время проживаешь зря, и можно было бы сделать кучу других дел. Поэтому хочется свалить эту рутинную работу кому-нибудь другому. Какие есть варианты?
Отдать запись на расшифровку другим людям. За это надо платить деньги, а расшифровку все равно придется превращать в текст. Да и стрёмно отдавать чужому человеку. Вариант подойдет только для больших объемов.
Отдать машинам. Сервисы неплохо распознают речь, но на выходе получается сплошной текст с огромным количеством ошибок. Такой метод нормально работает на уровне голосовых сообщений, не более.
Вообще не записывать речь, а сразу писать текст. У меня такое прокатывало только в журналистике, когда сидишь на пресс-конференции и пишешь заметочки. Этот вариант реален только если речь слышно очень хорошо и громко, предмет обсуждения понятен, а ты находишься не один на один со спикером. В коммерческих текстах два последних фактора встречаются редко.
Все-таки расшифровывать запись самому. Многих бесит такой вариант, а мне нравится. В голове уже есть план текста, я знаю, где можно пропустить запись, а где важные моменты. И вообще это такая медитация после всех обсуждений, комментирования и правок. Но медитировать классно минут 20, а не три часа.
Как ускорить процесс расшифровки
У меня суждение такое: скорость расшифровки зависит не от скорости печати (которая у автора по умолчанию должна быть высокой), а от дополнительных действий. И ведь бесит не только сама расшифровка, но и ее обработка. Поэтому для меня быстрая расшифровка сводится к одному — разделить этапы, которые требуют разные усилий.
Вот каким мне видится идеальный процесс расшифровки и ее обработки:
1. Печатаем то, что слышим и сразу разделяем на блоки
Не обращаем внимание на опечатки и кривые конструкции, а там, где плохо слышно или непонятно, просто оставляем для себя комментарий «уточнить». Мысли разделяем на абзацы, клевые цитаты выделяем жирным, а все, что на одну и ту же тему — группируем под одним подзагом. Это важно: обычно расшифровка идет по хронологии, но если сразу следовать принципу «близкое — рядом», сразу появляется хоть какая-то структура.
2. Наводим мосты между блоками
Когда запись кончилась, у нас в документе уже есть отсортированная информация, разнесенная по темам. Думаем, в каком порядке должны идти блоки с разными темами и как связать их между собой.
3. Редачим и дополняем
Исправляем опечатки, меняем «жопу» на «попу», чистим синтаксис, проверяем согласования и все прочее делаем только здесь. Если не отделить тупое печатание от размышлений, мозг слишком часто переключается между режимами «тупо клацать по клавишам» и «думать». Как итог — думать не получается, клацать не хочется.
Еще разок: быстро печатаем и делим информацию на блоки, чтобы потом было проще сориентироваться, связываем эти блоки между собой и только потом полируем формулировки. Сама по себе расшифровка, может, и займет столько же времени, но довести ее до текста будет гораздо проще и быстрее. Как-то так.
Несколько лайфхаков быстрой расшифровки
- лучше включать запись на ноуте, а не телефоне. Нажать Alt/⌘+Tab быстрее, чем переносить руки с одного устройства на другое.
- если запись большая, медленное продвижение полоски хронометража демотивирует. Я при записях больше получаса фиксирую в списке дел такие пункты: «расшифровать первые 10 минут», «расшифровать вторые 10 минут» и так далее. Видеть прогресс и получать обратную связь в виде зачеркнутого дела гораздо приятнее.
- дело очень тормозит перемотка назад, поэтому лучше расшифровывать короткие интервалы в 3-5 секунд, но не возвращаться обратно. Как вариант — поставить скорость воспроизведения записи на 0,8 и печатать в одном режиме с речью, но голоса в таком режиме жутко бесят.
- Чтобы лучше помнить, что есть в записи, на интервью надо как минимум фиксировать основные тезисы и временные отметки.
Раз уж обозначили в списке «отдать машинам». А какие сервисы автоматического распознавания голос/текст вы использовали? Какой из них лучший на ваш взгляд?
Вопрос к читателям статьи: есть ли у кого-нибудь успешный опыт подобной автоматического расшифровки? Очень интересно, может уже кто-то нашел адекватный инструмент? Спасибо!
Константин, очень приятно видеть ваш комментарий 🙂 И вообще спасибо за сервис от человека, который поработал по обе его стороны.
Отвечаю на вопросы. Пробовал разные сервисы: от телеграм-бота Voicy до аудионабора в гуглдоках, но ни одно из них не распознает речь идеально. Под идеальностью я имею в виду такую транскрибацию, которая готова непосредственно для написания текста. Но вместо этого в результатах всех сервисов и программ приходится расставлять точки, делить на абзацы и смысловые блоки. Не вижу в этом смысла, потому что работа дублируется: нам бы текст писать, а не точки расставлять, чтобы понять, что происходит.
Если говорить про транскрибацию как про отдельный процесс, оторванный от написания и редактуры, то могу выделить Express Scribe и Otranscribe. Они хороши тем, что есть горячие клавиши управлению записью, таймкоды и работа в одном экране. Но опять же — на выходе получается сплошной текст, который еще надо приводить в порядок.
Когда стоит задача не столько расшифровки, сколько поиска каких-либо тезисов или упоминаний, такие сервисы помочь могут. Причем не только с речью и аудиозаписями, но и видео: под любым роликом в ютубе есть кнопка «посмотреть расшифровку видео», и она очень выручает, когда нужно быстро посмотреть текст и что-то в нем найти, не просматриваю все видео целиком.
Но если мы говорить про расшифровку как один из этапов написания и редактуры текста, я не вижу смысла пользоваться сервисами. Заплатить 500-700 рублей за расшифровку часа разговора или дать ее в работу самому стейкхолдеру разговора просто выходит быстрее и эффективнее, потому что процесс либо отдается подрядчику, либо сокращается благодаря знанию о том, что нужно из записи для готового текста, а что нет. Так что мой любимый инструмент — обычный QuickTime Player, где можно горячими клавишами ускорить запись или быстро вернуться назад на несколько секунд.
Илья, приветствую! Спасибо за такой обстоятельный ответ и добрые слова про сервис, и спасибо за эту статью!
У меня такой же эффект, как вы описываете: получив «сплошной текст» без логических блоков и предложений парадоксально тратишь на его причесывание столько времени, сколько и расшифровывал бы сам, но уже с логической структурой и «под себя».
Я использовал такой лайфхак: брал аудиозапись и загружал ее в Ютуб))) Там в студии надо просто добавить любую картинку. А Ютуб соответственно генерит транскрибацию. Так вот: сначала я радовался, тому как экономил время. А потом оказывалось что разбивать этот сплошной набор слов на предложения, абзацы, исправлять неточности в транскрибации — примерно столько же сколько и расшифровывать самому)))
Это было удивительно)) И я думал, что может я просто как-то не так работаю с транскриптом. Но ваш пример показывает, что это похоже правило))
Жаль, конечно, что эта проблема еще не решена. Роботы уже научились писать статьи и внятно отвечать на вопросы. А вот почему-то отдать внятный текст с голоса не могут(((( Странное упущение технологий ))
И еще раз спасибо за статью и ваш опыт!
Спасибо, я прям так же делаю! Но рутинный процесс расшифровки я сократил следующим образом: Аудио файл включаю в наушниках на ноутбуке, а расшифровку надиктовываю в свой смартфон в заметках через голосовой набор. Голосовой набор iphona очень хорошо распознает речь. Даже если произносишь слово «запятая» — то ставится ,
Даже сейчас это комментарий я на диктовал.
Погрешности оставил для наглядности
Андроид, на самом деле, тоже не плохо распознаёт. Но… Одно дело комментарий, другое — двухчасовое интервью с оборотами и терминологией, а то ещё и узкоспециальным лексиконом. Даже если машина справится, потом всё это в порядок приводить… Тратится не меньше времени, как если бы с нуля транскрибировать.
Да, мои наблюдения больше про большие записи и именно больше не про перевод речи в текст, а, скорее, перевод сплошного текста в текст читабельный 🙂
К сожалению, сейчас все технологичные штуки лишь позволяют «набрать» и «распознать». И я сомневаюсь, что когда-нибудь появится нейронная сеть, которая будет различать речь и от письма, потому что это совершенно разные процессы. Мы сами пишем не так же, как говорим — так чего же требовать от машин.