Программа для распознавания голоса. Голосовой набор текста: онлайн-сервисы и приложения для компьютера

02.08.2019

Недавно передо мной встала задача: Перевести аудио и видео файлы в текст. Так как я никогда не занимался этим вопросом, то как всегда — залез в интернет и начал гуглить как же люди это делают. Ведь ни для кого ни секрет, что транскрибацией/транскрибированием занимаются многие люди и даже профессиональные компании, которые построили на этом бизнес.

Википедия нам выдает: Действие по записи транскрипции называется транскрибированием.

В каком то смысле передача звука и написание его это та же транскрипция, но нас здесь интересует не что такое транскрибирование, а как этим пользоваться в практических целях.

Для чего может понадобиться транскрибирование в печатный текст

Допустим у вас есть аудио запись семинара или аудиокнига, которую вы хотите сохранить в текстовом виде для более удобного поиска информации. Ведь в тексте всегда можно воспользоваться поиском и текст занимает значительно меньше места, чем аудио и видео.

У вас есть несколько путей:

  • обратиться в компанию и заплатить примерно 16 руб за минуту файла;
  • найти фрилансера, который вам все это сделает дешевле;
  • сделать самому вручную, прослушивая и печатая;
  • сделать самому, прослушивая и надиктовывая;
  • сделать самому с помощью специальных программ.

Так как делегировать другому вы не захотели, а оказались на этой странице, то я могу сделать вывод, что вам интересно подробно разобраться в процессе и сделать все самому. Каждый знает, что если хочешь сделать хорошо, сделай это сам.

Кстати, если вы все же выберете надиктовывать текст голосом, то в этой статье я как раз дам ответ как это лучше всего делать.

Какие способы существуют и какой лучше выбрать

Программные средства транскрибирования онлайн

Virtual Audio Cable

Я перерыл интернет и везде в основном советуют воспользоваться программой Virtual Audio Cable (инструкция как ей пользоваться ниже)

А что же предлагает нам данная программа и почему ее советуют? Ну вот представьте, что для того, чтобы голос был распознан, вам нужно сначала его воспроизвести, а потом в реальном времени передать в специальные транскрибаторы, которые и преобразуют звук в текст. Так вот если вы начнете включать звук через колонки и пытаться его передавать через микрофон, то будут огромные потери в качестве, так как у вас в комнате присутствуют шумы, вам нужно включать колонки на большую громкость. Микрофон может быть не самым лучшим. В итоге вы получите низкое качество из-за всех этих искажений. Качество будет идеальным, если вы сможете передать напрямую аудио или видео прямо в компьютере в транскрибатор. Как раз для этой цели и нужна программа Virtual Audio Cable.

Смысл ее работы в том, что она создает виртуальный кабель, с помощью которого, напрямую передает данные. Что нам и нужно!

Я попробовал сделать так как говорится в самом ролике и у меня получилось скачать программу, установить ее и сделать необходимые настройки. При включении всех настроек я понял, что у меня идет жуткое эхо и я целый час пытался разобраться почему у меня выдается дополнительный аудио канал.

Как сделать эмуляцию виртуального кабеля без программок

Сразу здесь выложу инструкцию как это сделать. Вам даже не потребуется устанавливать Virtual Audio Cable, так как можно обойтись простыми манипуляциями в настройках громкости. Сам я попробовал и мне понравилось, поэтому остановился на этом способе, так как он самый простой.

Нужно в настройках звука во вкладке запись включить стерео микшер и сделать его устройством записи по умолчанию. Таким образом звук сразу будет передаваться в компьютер и все так же останется воспроизведение через колонки. То есть вы сможете спокойненько слушать ваш файл и работать с ним. В видео много рассказывается о работе с сервисом «Блокнот для речевого ввода», о котором речь пойдет далее. Смотрите и обучайтесь.

Speechpad «Блокнот для речевого ввода» — сервис для надиктовки (транскрибирования текста)

Очень сильно хвалят вот этот сайт speechpad.ru так как он хорошо поддерживается, в нем есть все необходимые настройки.

В принципе разобраться с ним сможет любой за 10 минут, тем более, что там есть много инструкций. Хочу сказать свое мнение — мне он не подошел, так как когда идет транскрибация видео ролика, то существует буфер. Он длится примерно 20-30 секунд и видеоролик как бы перезагружается по истечение этого времени. И все было бы прекрасно, если бы перезагружаясь, ролик начинался с того места, на котором закончился, но он загружается на 1-2 секунды раньше и происходит повторение слов. Возможно это и не плохо, так как при перезагрузке может оборваться часть фразы, а потом она повторится и пойдет логично дальше, но для редактирования это ужасно неудобно. Нужно удалять повторы слов каждые 20 секунд и это отнимает много времени. Еще мне не понравилось качество. Конечно, в 95% сервис понимает речь, но вот эти 5% ошибок исправлять ой как не хочется. Порой даже не понимаешь что за слова он вставляет и откуда он их берет. Еще один минус в том, что если не успел сохранить текст или страница случайно перезагрузилась, то можно потерять весь результат, а если текст длинный, то придется начинать сначала и это ооочень раздражает.

В целом очень хороший сервис, многие пользуются и многие остаются довольны, особенно если речь четкая, так вообще никаких проблем не будет. Сервис бесплатный и внутри есть много инструментов, думаю, что вам понравится. Я попробовал этот сервис и продолжил искать дальше, более удобный инструмент.

Realspeaker — программа для транскрибирования и расшифровки

Нашел еще такую программу realspeaker почитал что о ней пишут, и подумал, что это скорее для тех, кто профессионально надиктовывает тексты. Программа для перевода звука в текст пригодится, если вы работаете транскрибатором и зарабатываете на этом.

Что она умеет:

  • Голос в текст может обработать любой длины;
  • Транскрибирует аудио и видео в текст;
  • Большой объем данных и глубокое обучение;
  • Облачные вычисления и API по запросу;
  • Ввод данных в любой редактор или сайт;
  • Мульти-платформенность и мультиязычность;
  • Расшифровка с учетом акцентов и диалектов;
  • Простая и доступная система оплаты.

Из всего этого перечня следует, что если вы зарабатываете на текстах, то она вам возможно поможет. Ну а для меня она не подходит, так как платная и я пошел искать дальше.

Google Translate — просто переводчик и не только

Этого монстра знают если не все, то почти все! Находится он по адресу translate.google.ru . Все очень просто, заходите на сайт, нажимаете на микрофон и запись и мгновенная транскрибация пошла. Далее можно просто копировать и вставлять куда нужно. Вот такой вот переводчик на английский или переводчик звука в текст.

Как известно Гугл — очень хорош. Это компания, которая постоянно совершенствует свои технологии в создании интернет-поиска, облачных вычислений и дополнительные сервисы. Совсем недавно они анонсировали сервис по переводу голоса в текст, а сегодня он уже является самым популярным. Почему? Потому что все телефоны — андроиды начали использовать голосовые команды и вообще это очень удобно. А гугл изначально уже встроен во телефоны.

И вот еще почему, потому, что гугл делает свои продукты на высоком уровне. Что все это значит? Да то, что при нажатии на одну кнопку вы получаете максимально продуманный и качественный сервис без лишнего мусора. Гугл вложил огромные деньги в свои распознаватели голоса и вывел свой продукт на мировой рынок, и теперь на всех языках (в том числе русский язык) можно транскрибировать свой голос и переводить в любой другой язык.

В общем Google Translate наиболее качественно захватывает речь из звука и этим уже можно пользоваться, расставив знаки препинания. Пользуйтесь на здоровье, к хорошему быстро привыкаешь.

Из минусов могу отметить, что на данный момент можно записывать текстовый документ только 5000 символов длиной. Если вам необходимо надиктовать или распознать несколько предложений, то вам этот инструмент подойдет из-за своей простоты. Но если у вас более длинные тексты и вы хотите иметь возможность с Гугловской точностью транскрибировать текст любой длины то вам больше подойдет следующий инструмент.

Google Docs — самый универсальный инструмент перевода звука в текст онлайн

Почему этот инструмент лучше? Это же просто онлайн документ. Или не просто?


Вся фишка в том что он:

  • позволяет сохранять текст моментально и он никуда не исчезнет;
  • может записывать бесконечно, хоть на ночь поставьте аудиокнигу, на утро проснетесь и все будет ок;
  • использует голосовой модуль google, а он хорош (про это уже говорилось выше);
  • позволяет прямо там отредактировать и сохранить;
  • работает онлайн на любых устройствах.

В связи со всем вышеперечисленным, на мой взгляд это самый адекватный и удобный инструмент, который можно использовать для транскрибации звука в текст.

Как им пользоваться?

  1. Заходите в docs.google.com
  2. перед вами открывается список документов
  3. создаете новый документ
  4. жмете инструменты -> голосовой ввод или Ctrl+Shift+S
  5. нажимаете на микрофон

Всё! Транскрибация аудио в текст пошла! Из всех инструментов мне этот понравился больше всего. Никаких отвлекающих штуковин, там просто и понятно.

Чтобы сделать перевод в текст аудио файла или видео с youtube, просто сначала запустите файл, а потом перейдите в окошко документа и нажмите запись. Ждите и смотрите, как на ваших глазах происходит чудо. Потом останется отредактировать и оформить и текст готов!

Чтобы добавить в текст знаки препинания, используйте эти команды:

  • «точка»;
  • «запятая»;
  • «восклицательный знак»;
  • «вопросительный знак»;
  • «новая строка»;
  • «новый абзац».

Примечание. Ввод знаков препинания поддерживается на английском, испанском, итальянском, немецком, русском и французском языках.

Как и чем пользоваться если нужно надиктовывать голосом?

Рассмотренные выше варианты программных средств абсолютно так же подойдут для голосового ввода. Единственное отличие будет в том, что нужно будет вместо микшера использовать запись через микрофон.

  • Можно просто надиктовывать свои мысли, чтобы не терять времени на писанину и потом быстренько отформатировать;
  • Можно надеть наушники и слушая, воспроизводить так как вам больше нравится в микрофон;
  • Можно пользоваться специальными приложениями на телефоне.

Нужно надиктовать быстро, а под рукой только мобильный телефон?

Если у вас iPhone

Можете скачать бесплатно приложение Dragon Dictation

Очень удобно, когда нет под рукой компьютера и вам в голову пришли мысли, которые кровь из носа нужно записать, иначе пройдет 2 минуты и вы забудете, что хотели сказать. К сожалению это бывает очень часто и как хорошо, что мы теперь можем носить сотик вездеи с легкостью перевести голос в текст. Пришла мысль — запиши аудио. Это быстро и удобно.

Если у вас Android

Можете скачать бесплатно приложение Speechlogger

Хорошее приложение, которое поможет андроид-манам. Если вы журналист, домохозяйка, писатель и просто развивающийся человек, то обязательно используйте дополнительные возможности, чтобы сократить время и не забыть самое важное, пользуйтесь мобильными приложениями для записи текста голосом.

Кстати там еще можно знаки препинания расставлять, что облегчит дальнейшее редактирование. Все приложения отлично понимают русский язык.

Выводы:

  • Для того, чтобы передавать звук в компьютер лучше всего пользоваться настройками windows и встроенным микшером.
  • Для того, чтобы транскрибировать более качественно лучше всего пользоваться Google Docs с включенной настройкой голосовой ввод.
  • Для того, чтобы делать переведение с мобильника — скачайте приложения

Хорошей вам транскрибации, надеюсь вам поможет мой опыт. Кстати, напишите в комментариях, что вы об этом думаете, какие средства сами используете. Может есть еще лучше способ затранскрибировать и если вы о нем знаете, то обязательно расскажите, чтобы помочь тем, кто ищет решение этого вопроса.

Пожалуй, самая удобная программа для расшифровки текста для Windows и Mac OS, которая совмещает в себе аудиоплеер и текстовый редактор. Принцип работы очень прост – загружаете в программу аудиофайл, прослушиваете его при помощи горячих клавиш на клавиатуре (их можно назначать самому) и параллельно набираете текст. Скорость воспроизведения и громкость аудио также регулируются при помощи клавиатуры. Таким образом, ваши руки постоянно находятся на клавиатуре и отпадает необходимость использовать мышку или переключаться между разными программами. Нужно учитывать, что встроенный редактор текста не распознает ошибки и не имеет многих других привычных функций, например, переключение дефиса в тире. Однако можно пользоваться другими редакторами текста параллельно с Express Scribe, используя горячие клавиши для управления воспроизведением аудио. Программа условно бесплатная, полная стоимость: 17-50 долларов.


02. Transcriber-pro



Русскоязычная программа для Windows, которая позволяет прослушивать не только аудио, но и просматривать видеофайлы. Встроенный текстовый редактор имеет возможность проставлять временные метки и имена собеседников. Полученный текст можно импортировать в «интерактивные стенограммы», а также корректировать в рамках группового проекта. Приложение доступно только при годовой подписке, стоимость – 689 рублей в год.


03. RSplayer V1.4



Простая программа для обработки и расшифровки аудиофайлов с поддержкой горячих клавиш и возможностью набора текста в Microsoft Word. В отличие от предыдущих подобных программ, ее можно скачать бесплатно, но она нестабильно работает на новых версиях Windows.

04. Voco

Профессиональное Windows-приложение для преобразования речи в текст. Поддерживает голосовой набор в любом тестовом браузере, имеет большую коллекцию тематических словарей и не требует подключения к интернету для распознавания речи. Расширенные версии «Voco.Professional» и «Voco.Enterprise» могут работать с готовыми аудиофайлами. Единственный недостаток – высокая стоимость приложения.


05. Dragon Dictation



Бесплатное мобильное приложение для распознавания надиктованной речи. Программа умеет распознавать около 40 языков и их разновидностей, позволяет редактировать текст и отправлять его на почту, социальные сети или копировать в буфер обмена. Для работы необходимо подключение к интернету.


06. RealSpeaker



Уникальное приложение, которое способно не только распознавать аудиофайлы, но и живую речь, наговариваемую на камеру. За счет специального видеорасширения «RealSpeaker» считывает движение губ, тем самым улучшая процесс распознавания речи до 20-30% по сравнению с другими подобными алгоритмами. На данный момент приложение поддерживает 11 языков: русский, английский (американский и британский диалекты), французский, немецкий, китайский, корейский и японский, турецкий, испанский, итальянский и украинский. Программа распространяется условно бесплатно, стоимость зависит от времени подписки, бессрочная версия стоит около 2 тыс. руб.

Здравствуйте, дорогие читатели! Перед вами самая необычная статья нашего блога, ведь при её написании использовался голосовой набор текста. Поэтому сегодня мы с вами обсудим, как набирать текст голосом.

Это метод набора текста при помощи речи, которая передаётся через микрофон. Эта тема очень актуальная для тех, кто работает с большими объёмами, например, блоггеры, а также люди с ограниченными возможностями. Или для тех, кто ещё не успел овладеть на клавиатуре компьютера.

Сервисы голосового набора

Существуют сервисы, которые работают онлайн, и есть программы, которые устанавливаются на компьютер.

Онлайн-сервисы

  • Speechpad

Это бесплатная разработка Google Chrome, которая, соответственно, работает только в этом браузере. Думаю, с этим проблем не будет, ведь это лучший браузер, и если вы до сих пор им не пользуетесь, то читайте статью про то, . Блокнот можно установить прямо в браузер или пользоваться возможностью набора текста голосом, перейдя на их сайт.

  • Войснот II

Аналогичен предыдущему сервису, также работает только в Google Chrome. Пользоваться им элементарно: выбираем нужный язык и приложение под диктовку само печатает.

  • August4u
  • TalkTyper

Преимущества данного бесплатного сервиса в наличии голосовых подсказок, возможности просмотра вариантов распознавания. Также имеется удобный редактор, с помощью которого вы cможете скопировать полученный материал, распечатать его на принтере, осуществить перевод на иностранные языки или отправить по почте.

Чтобы воспользоваться набором, не прикасаясь к клавиатуре, вам нужно открыть вкладку “Инструменты ”, а затем нажать на “Голосовой ввод…”

Разные команды для редактирования и форматирования пока доступны только на английском языке, но для русского языка поддерживаются пунктуационные команды :

  • «точка»,
  • «запятая»,
  • «восклицательный знак»,
  • «вопросительный знак»,
  • «новая строка»,
  • «новый абзац».

Как показала практика, это очень удобно.

Программы

  • Voco

Платная программа, которая при помощи голоса не только печатает на компьютере и устанавливает знаки препинания, но и радует дополнительными опциями: она умеет аудио, также можно расширить версию словарями (например, с юридическими терминами или другими).

Поддерживается операционными системами, начиная с Windows 7 и выше.
Цена: от 1 690 руб.

  • MSpeech

Бесплатна и может удовлетворить амбиции многих пользователей. Её привлекательность состоит в том, что она может распознавать голос на 50 языках. Для удобного использования есть горячие клавиши, можно самому выбирать источник звука, корректировать распознанный текст.

Плюсы и минусы набора при помощи голоса

Плюсы:

  • Благодаря этим приложениям, фрилансеры могут хорошо подзаработать, занимаясь транскрибацией. Множество заданий такого рода можно найти на бирже Work-zilla , — это излюбленное место новичков в удалённой работе. Вам только остаётся включить программу и чуть позже подкорректировать текст в Word.
  • Экономия времени и сил.
  • Отличная находка для людей с ограниченными возможностями.
  • Для творческих людей выше предложенные сервисы — палочка-выручалочка, все идеи можно быстро записать, просто озвучив голосом, чтобы не забыть.

К сожалению, существуют и минусы при работе с данными сервисами:

  • Если в помещении, где вы надиктовываете, есть посторонние звуки, то распознавание слов и словосочетаний в разы ухудшается.
  • Многие приложения, работающие онлайн, доступны только в браузере Google Chrome.
  • После набора нужно уделить время на редактирование и корректировку текста.
  • Необходимо иметь качественный чувствительный микрофон.
  • Желательно иметь хорошую дикцию, чтобы уменьшить риск возникновения ошибок.

Заключение

Подводя итог данной статьи, можем сказать, что технологии шагнули далеко вперёд, и если раньше всё требовалось печатать вручную, то сейчас это вполне реально делать, просто диктуя информацию голосом. Конечно, нет гарантии идеального распознавания, но прогресс очевиден.

Благодаря развитию приложений, которые значительно облегчают работу удалённым сотрудникам, можно добиться максимальной продуктивности и большей скорости выполняемых задач. Поэтому надеемся, что данная статья поможет вам стать эффективнее в своей работе.

Оставляйте в комментариях ваши отзывы о работе различных сервисов распознавания речи.

Всего вам доброго!

Здравствуйте, друзья. Сегодня последняя статья из серии про профессию транскрибатор, в которой я расскажу, как новичку сделать транскрибацию максимально просто и быстро.

Показывать буду на примере одной из , о которых мы вчера разговаривали. Также приведу интересный способ, как можно делать расшифровку записей в текст с помощью распознавания речи.

Способ 1

Express Scribe — это профессиональная программа, которой пользуются практически все, кто занимается переводом аудио- и видеозаписей. Она имеет все необходимые функции, которые требуются.

После установки данной программы и запуска, вы увидите такое окно.

Она, к сожалению, не имеет интерфейса на русском языке, но в ней и так всё понятно и настроек особых не требуется. Просто установите её и работайте.

Удобство этой программы заключается в том, что не нужно переключаться между окнами проигрывателя и текстовым документом, прослушивать запись и набирать текст можно сразу в одном месте.

Шаг 1. Чтобы загрузить свои файлы, которые нужно транскрибировать, нажмите кнопку «Load» или просто перетащите их из вашей папки, где они лежат, в самое верхнее окно.

Шаг 2. Изучите или напишите себе шпаргалку, какие горячие клавиши вам потребуются в работе.

Стандартные настройки горячих клавиш:

  • F9 — воспроизведение записи.
  • F4 — пауза.
  • F10 — воспроизведение с обычной скоростью.
  • F2 — воспроизведение на низкой скорости (50%).
  • F3 — воспроизведение на высокой скорости (150%).
  • F7 — перемотка назад.
  • F8 — перемотка вперёд.

Удобно, что клавиши воспроизведения и паузы настроены под разные руки, и через некоторое время мышечная память их легко запомнит.

Шаг 3. В нижнем правом углу программы установите комфортную для вас скорость проигрывания записи. Можно замедлить до такого состояния, чтобы успевать печатать, не делая паузу.

Шаг 4. Можно начинать делать транскрибацию.

Также для записи вы можете отрегулировать каналы аудио, чтобы звук был лучше и понятнее, просто включите запись и подвигайте шкалы до лучшего качества.

Шаг 5. После того, как вы сделали перевод из аудио в текст, скопируйте получившийся текст в документ Word для сохранения и последующего его редактирования.

Способ 2

Второй способ заключается в том, чтобы не набирать текст на клавиатуре самостоятельно, а чтобы он набирался автоматически с помощью сервисов распознавания голоса.

В Гугл документах эта функция находится во вкладке «Инструменты» -> «Голосовой ввод...» или запускается сочетанием клавиш CTRL+SHIFT+S.

Заключение

Вот такие два совершенно простых способа, которые помогут вам сделать транскрибацию и заработать (для кого-то первые) деньги через интернет.

Профессия «транскрибатор» очень простая и с ней может справиться каждый, поэтому здесь не так много можно зарабатывать. Я рекомендую вам ознакомиться с другими интересными специальностями в книге « », на которую я недавно делал обзор.

Если у вас возникли ко мне какие-то вопросы или пожелания, то всегда можете написать их мне ниже в комментариях к этой статье. Желаю удачи в освоении данного направления и хороших доходов в удалённой работе!

Привет, коллеги-фрилансеры!

С тем, я думаю, из вчерашней статьи вы полностью разобрались. Двигаемся дальше.

Сегодня я хочу рассказать какие программы помогут существенно облегчить весь процесс транскрибирования. Существует не одна программа для транскрибации, которой можно воспользоваться, и есть несколько вариантов, как с помощью них можно легко делать перевод аудио и видео в текст.

Но о том, как делать транскибацию и какими способами, я буду подробно . Сегодня только подробный обзор этих программ со всеми преимуществами и недостатками.

Скачать программу Express Scribe (официальный сайт)

К сожалению, нет версии этой программы на русском языке, но она очень простая, интуитивно понятная и бесплатная.

Основные преимущества:

  • Удобное поле для набора текста. Не нужно переключаться между проигрывателем и текстовым документом.
  • Изменение скорости проигрывания звуковой дорожки, чтобы успевать писать под диктовку.
  • Настраиваемые горячие клавиши, позволяющие воспроизводить, останавливать и перематывать запись.
  • Адаптирован для работы с Word.
  • Расстановка тайм-кодов.

Недостатки:

  • На английском языке. Хотя это ни капли не мешает в работе.

В следующей статье я подробно разберу как в ней работать и какие горячие клавиши использовать.

Программа LossPlay

Скачать программу LossPlay

Простой и тоже бесплатный плеер для расшифровок.


Основные преимущества:

  • Настраиваемые горячие клавиши.
  • Воспроизведение аудио и видеофайлов.
  • Изменение скорости проигрывания записи.
  • Расстановка тайм-кодов.
  • Настраиваемый откат после паузы.
  • Адаптирован для работы в Microsoft Word.

Недостаток:

  • Приходится иногда переключаться между окнами.

3 видео урока по работе с LossPlay

Урок 1

Знакомство с плеером, как он устанавливается и работает.

Урок 2

Вставка тайм-кода в расшифровываемый текст.

Урок 3

Как повысить производительность транскрибаторов за счёт тонкой настройки программы.

Онлайн сервис Speechpad

Очень простой онлайн-сервис для распознавания речи. С помощью него вы можете голосом надиктовывать текст и потом его редактировать, сохранив или скопировав в текстовый документ.

По сути данный сервис могут заменить обычные гугл документы, в которых есть функция голосового набора текста.

Вот такие проги существуют для облегчения работы транскрибаторов. Можете ниже в комментариях написать своё мнение или оставить отзыв о том, чем вы пользуетесь. Желаю всем удачи и увидимся в следующей статье.