Фраза дня: распознавание голоса
Распознавание голоса или говорящего - это способность машины или программы принимать и интерпретировать диктовку или понимать и выполнять голосовые команды. Распознавание голоса приобрело известность и стало использоваться с появлением искусственного интеллекта и интеллектуальных помощников, таких как Alexa от Amazon, Siri от Apple и Cortana от Microsoft.
Системы распознавания голоса позволяют потребителям взаимодействовать с технологией, просто разговаривая с ней, обеспечивая выполнение запросов, напоминаний и других простых задач в режиме громкой связи.
Как работает распознавание голоса
Программное обеспечение для распознавания голоса на компьютерах требует преобразования аналогового звука в цифровые сигналы, известного как аналого-цифровое преобразование. Чтобы компьютер мог расшифровать сигнал, он должен иметь цифровую базу данных или словарь слов или слогов, а также быстрое средство для сравнения этих данных с сигналами. Образцы речи хранятся на жестком диске и загружаются в память при запуске программы. Компаратор сравнивает эти сохраненные шаблоны с выходом аналого-цифрового преобразователя - действие, называемое распознаванием образов.
На практике размер эффективного словаря программы распознавания голоса напрямую связан с объемом оперативной памяти компьютера, на котором она установлена. Программа распознавания голоса работает во много раз быстрее, если весь словарь может быть загружен в оперативную память, по сравнению с поиском на жестком диске некоторых совпадений. Скорость обработки также имеет решающее значение, поскольку она влияет на то, насколько быстро компьютер может искать совпадения в оперативной памяти.
Хотя технология распознавания голоса зародилась на ПК, она получила признание как в бизнесе, так и среди потребителей на мобильных устройствах и в продуктах для домашних помощников. Популярность смартфонов открыла возможность добавить технологию распознавания голоса для обычного потребителя, домашние устройства, такие как Google Home и Amazon Echo, принесли технологию распознавания голоса в гостиные и кухни. Распознавание голоса в сочетании с постоянно растущей стабильностью датчиков Интернета IoT добавило технологический уровень ко многим потребительским товарам, которые ранее не обладали какими-либо интеллектуальными возможностями.
По мере роста использования технологии распознавания голоса и взаимодействия с ней все большего числа пользователей компании, внедряющие программное обеспечение для распознавания голоса, будут иметь больше данных и информации для передачи в нейронные сети, которые питают системы распознавания голоса, тем самым улучшая возможности и точность продуктов распознавания голоса.
Использование распознавания голоса
Использование распознавания голоса быстро выросло по мере развития ИИ, машинного обучения и признания потребителей. Домашние цифровые помощники от Google до Amazon и Apple внедрили программное обеспечение для распознавания голоса для взаимодействия с пользователями. То, как потребители используют технологию распознавания голоса, зависит от продукта, но она может включать преобразование голоса в текст, настройку напоминаний, поиск в Интернете и ответы на простые вопросы и запросы, такие как воспроизведение музыки или обмен информацией о погоде или дорожной обстановке.
Правительство США также ищет способы использования технологии распознавания голоса в целях безопасности. Агентство национальной безопасности использовало системы распознавания голоса, датированные 2004 годом.
Преимущества и недостатки распознавания голоса
Распознавание голоса позволяет потребителям выполнять несколько задач одновременно, разговаривая напрямую с Google Home, Amazon Alexa или другими технологиями распознавания голоса. Используя машинное обучение и сложные алгоритмы, технология распознавания голоса может быстро превратить вашу устную работу в письменный текст.
Хотя показатели точности улучшаются, все системы и программы распознавания голоса допускают ошибки. Фоновый шум может привести к ложным входным сигналам, чего можно избежать, используя систему в тихой комнате. Также существует проблема со словами, которые звучат одинаково, но пишутся по-разному и имеют разное значение - например, hear и here. Когда-нибудь эту проблему можно будет в значительной степени решить, используя сохраненную контекстную информацию. Однако для этого потребуется больше оперативной памяти и более быстрые процессоры, чем в настоящее время доступны в персональных компьютерах.
История распознавания голоса
За последние пять десятилетий наблюдается экспоненциальный рост технологий распознавания голоса. Начиная с 1976 года, компьютеры могли понимать лишь немногим более 1000 слов. Это общее количество подскочило примерно до 20 000 в 1980-х, поскольку IBM продолжала разрабатывать технологию распознавания голоса.
Первый продукт распознавания динамиков для потребителей был выпущен в 1990 году компанией Dragon под названием DragonDictate. В 1996 году IBM представила первый продукт для распознавания голоса, способный распознавать непрерывную речь.
После запуска смартфонов во второй половине 2000-х годов Google запустила приложение «Голосовой поиск» для iPhone. Три года спустя Apple представила Siri, которая теперь является выдающимся помощником по распознаванию голоса.
За последнее десятилетие несколько других технологических лидеров также разработали более сложное программное обеспечение для распознавания голоса: Amazon Echo с Alexa и Microsoft Cortana - оба действуют как личные помощники, реагирующие на голосовые команды.
Ну и, конечно же, следует отметить Алису от Яндекса.