В условиях современного бизнеса технологии голосовой биометрии становятся важным инструментом для оптимизации клиентского сервиса. О ключевых преимуществах, особенностях и перспективах применения голосовой биометрии рассказал коммерческий директор компании U-BSS Роман Корнейко.
Что такое голосовая биометрия и где ее можно использовать?
Голосовая биометрия — это технология, которая дает возможность идентифицировать человека по уникальным характеристикам его голоса. Как и отпечаток пальца, голос у каждого человека уникален, потому что он формируется за счет множества факторов, таких как анатомическое строение голосовых связок, особенности произношения, интонации и даже эмоциональное состояние. Это делает голос отличным биометрическим параметром для использования в различных системах, где требуется аутентификация пользователей.
Использование голосовой биометрии можно разделить на два основных сценария:
- Идентификация — это когда система распознает, кто именно говорит, на основе голоса. Например, в контакт-центре клиент просто произносит несколько фраз, и система может сразу понять, кто это, без необходимости дополнительных паролей или контрольных вопросов.
- Верификация — это когда голос клиента сверяется с его биометрическим отпечатком, уже сохраненным в базе данных. Это помогает подтвердить личность человека с высокой точностью.
Сегодня голосовую биометрию активно применяют в контакт-центрах для ускорения процессов аутентификации клиентов и повышения безопасности. Но ее потенциал не ограничивается только контакт-центрами. Она также может использоваться в физических отделениях банков и других организаций, что может значительно улучшить клиентский опыт.
Какие преимущества голосовая биометрия дает в банковской сфере?
В банковской сфере голосовая биометрия уже зарекомендовала себя как удобный инструмент. Она не только упрощает процесс взаимодействия с клиентами, но и повышает уровень безопасности. В традиционных системах клиенту приходится вводить пин-коды, пароли или отвечать на секретные вопросы. Все это занимает время и не всегда удобно, особенно если человек обращается в банк по телефону. С голосовой биометрией достаточно просто произнести несколько фраз, и система идентифицирует клиента автоматически.
Еще одно важное преимущество — это то, что голосовая биометрия может работать параллельно с другими факторами аутентификации. То есть, ее можно использовать как часть мультифакторной системы, где голос дополняет другие параметры, такие как отпечатки пальцев или одноразовые пароли.
С точки зрения безопасности, возникают ли здесь какие-либо риски? Насколько безопасно использовать голосовую биометрию?
Вопрос безопасности, конечно, очень важен. Основной риск, с которым сталкивается голосовая биометрия — это атаки на основе подмены голоса, так называемый спуфинг. Современные технологии синтеза речи (TTS) и клонирования голоса (VC) дают возможность создавать фальшивые голоса, которые могут быть использованы для обмана биометрических систем. Это действительно серьезная угроза, и сейчас не существует полной защиты на уровне серверных алгоритмов или моделей искусственного интеллекта, которая бы могла гарантированно предотвратить такие атаки.
Но несмотря на это, защита от подделки голоса на уровне приложений в сочетании с технологическими и организационными мерами дает возможность говорить о том, что использование голосовой биометрии остается надежным и безопасным решением. Например, синтезированные голоса часто содержат мелкие дефекты, которые сложно заметить человеку, но которые могут быть обнаружены системой или оператором в контакт-центре. Кроме того, создание качественной копии голоса требует значительных ресурсов и временных затрат.
Насколько легко мошенникам создать качественную подделку голоса? Сколько времени для этого нужно?
Согласно исследованиям, для создания действительно качественной копии голоса требуется значительный объем аудиоданных. Например, чтобы получить синтезированный голос высокого качества, нужно от 1 до 2 часов аудиозаписей, сделанных в тихой обстановке. Для достижения максимальной естественности может потребоваться до 30 часов записей. Такие данные можно найти, например, в документации Microsoft Azure по созданию нейронных голосов.
Конечно, собрать такие данные в реальных условиях — это весьма сложная задача для мошенников. Однако есть исследования, показывающие, что с использованием новых технологий, таких как VALL-E от Microsoft, можно синтезировать голос на основе всего трех секунд записи. Пока что эти результаты теоретические, но в будущем эта технология может стать вызовом для безопасности голосовой биометрии.
То есть мошенникам всё-таки сложно собрать достаточно данных? И если они это сделают, насколько эффективно голосовая биометрия справляется с такими атаками?
Все верно, собрать качественные аудиозаписи — это действительно сложная задача. Это требует не только времени, но и тихой, контролируемой обстановки, что в реальной жизни сделать крайне трудно. Исследования и эксперименты показывают, что для подделки голоса высокого качества требуется значительный объем времени. Например, в одном из наших экспериментов мы использовали нейронную систему для клонирования голоса, и результат оказался устойчивым — система голосовой биометрии успешно справлялась с попытками обмануть ее с помощью синтезированного голоса, если для клонирования использовалась запись менее чем на 30 минут.
Тем не менее, при увеличении времени записи вероятность успешной атаки может возрасти. В одном из случаев, когда мы использовали час записи, процент ложных подтверждений существенно увеличился. Но в реальных сценариях атаки голосом встречаются редко, особенно если взаимодействие происходит с человеком, например, с оператором контакт-центра. Даже синтезированные голоса могут содержать такие нюансы, как искусственная интонация, которые сразу привлекут внимание оператора.
Насколько активно вы работаете над усовершенствованием защиты от таких атак?
Мы постоянно работаем над улучшением наших технологий. Сейчас наш партнер компания SPITCH разрабатывает классификатор, который будет помогать различать реальную и синтезированную речь. Это один из способов борьбы с угрозой подделки голосов, и мы планируем его выпустить уже в ближайшее время. Этот классификатор основан на данных, собранных с использованием различных вокодеров — нейронных компонентов, которые генерируют конечную речь. Он будет особенно полезен в тех сценариях, где требуется повышенный уровень безопасности.
Как голосовая биометрия выглядит по сравнению с другими биометрическими системами, такими как отпечатки пальцев?
Голосовая биометрия имеет много общего с другими биометрическими системами, например, с теми же отпечатками пальцев. Как и в случае с голосом, отпечатки пальцев подвержены риску подделки. Существует технология 3D-печати, с помощью которой можно создать поддельный отпечаток, и такие атаки уже реализуются на практике. Тем не менее, сканирование отпечатков пальцев остается важным инструментом, так как создание поддельного отпечатка — это дорогой и трудоемкий процесс.
С голосом ситуация схожа, клонирование голоса — это сложная и дорогостоящая задача. Это требует глубоких знаний и использования технологий, которые пока что находятся на этапе становления. Поэтому можно сказать, что голосовая биометрия в нынешнем виде достаточно устойчива к атакам, особенно в сочетании с другими мерами безопасности.
То есть, голосовая биометрия может использоваться как дополнение к другим методам аутентификации?
Абсолютно. Мы всегда рекомендуем использовать голосовую биометрию как часть мультифакторной системы аутентификации. Это может быть комбинация с другими биометрическими данными или с традиционными методами, такими как одноразовые пароли или пин-коды. Такой подход значительно повышает уровень безопасности, и даже если один из факторов будет скомпрометирован, система все равно останется защищенной.
Телефон: (+998) 97−155−00−27.
Сайт: ubssys.uz
Telegram: t.me/ubssys
На правах рекламы.