Преодоление языковых и акцентных барьеров в голосовых технологиях

Как инновации в голосовых технологиях могут помочь устранить предвзятость в ИИ?

В 1998 году «Новые радикалы» исполнили лирику «Вы получаете только то, что даете», и хотя они, скорее всего, не имели в виду проблемы языка и распознавания акцента в голосовых технологиях, они ударили по делу прямо в нос. При создании решения для распознавания голоса вы получаете такую же хорошую и производительную систему, как и данные, на которых вы ее обучаете. От неприятия акцента до потенциальной расовой предвзятости данные обучения могут не только оказать огромное влияние на поведение ИИ, но и оттолкнуть целые группы людей.

В исследовании, проведенном в сотрудничестве с Washington Post в 2018 году результаты, полученные только в 20 городах США, показали, что умным ораторам с известными именами было труднее понимать определенные акценты. Например, исследование показало, что Google Home на 3% реже дает точный ответ людям с южным акцентом по сравнению с западным акцентом. С Alexa вероятность того, что люди с акцентом Среднего Запада будут поняты, на 2% ниже, чем у жителей Восточного побережья. Спустя несколько лет после этого исследования проблема все еще актуальна. По инициативе опроса, проведенного Центром наук о жизни в Ньюкасле, который показал, что 79% респондентов сообщают, что им приходится подавлять свой региональный акцент, чтобы использовать голосовых помощников, BBC запустила собственного голосового помощника в 2020 году, специально предназначенного для Британские региональные акценты.

Предубеждения акцента простираются далеко за пределы США. Применительно к иностранным акцентам и языкам традиционная технология распознавания голоса несовместима со своей основной задачей: пониманием говорящего. То же исследование Washington Post показало, что английский язык с китайским и испанским акцентом был особенно сложным как для Google Home, так и для Amazon Echo. Несмотря на новые предложения для акцентного английского языка на этих устройствах, многие пользователи по всему миру задаются вопросом: почему моя технология не может меня понять?

Эти проблемы указывают на одно из самых больших и устойчивых предубеждений в голосовых технологиях. Помимо географических и региональных соображений, проблема непризнания акцента распространяется и на расу. Недавнее исследование проверило способность пяти автоматических систем распознавания речи от Amazon, Apple, Google, IBM и Microsoft точно понимать структурированные интервью, проведенные с 42 белыми и 73 черными говорящими. Было показано, что все пять из этих систем имеют в среднем почти в два раза больше ошибок с черными носителями, чем с белыми.

Проблема с системами, используемыми Google и Amazon, заключается в облачном процессе транскрипции и в его зависимости от огромных объемов голосовых данных потребителей. произносимую команду в текст в облаке, а затем применяя обработку естественного языка перед завершением действия. Хотя этот подход имеет свои преимущества неограниченного словарного запаса и доступа в Интернет, проблемы, связанные с качеством и количеством данных, необходимых для обучения этим решениям, могут привести к проблемам маргинализации и неправильного понимания целых групп их устройствами, если данные, которые эти решения обучают не отражают их языковых реалий.

Запатентованное решение Fluent.ai Speech to Intent полностью встроено в устройство, что означает большую конфиденциальность, меньшую задержку и меньший объем хранилища для конечных пользователей.

«Это неестественный способ изучения языка и речи», — говорит основатель и технический директор Fluent.ai Викрант Сингх Томар, объясняя, что дети, например, не учатся писать, пока не научатся говорить. Благодаря устранению зависимости от облачной транскрипции речи модели можно легче обучить поддержке акцентов и языков в меньших пакетах, чем когда-либо прежде. Автономные решения для голосовых интерфейсов подразумевают специальный словарь, который лучше всего подходит для потребительских устройств с низким энергопотреблением, которым не требуется подключение к Интернету. Это не только защищает пользовательские голосовые данные от потенциальных угроз безопасности в облаке, но также снижает задержку ответов и упрощает решение с точки зрения хранения.

Общение с вашими устройствами должно быть таким же беспрепятственным, как общение с другим человеком. Используя запатентованное решение Fluent.ai Speech to Intent, устройства могут распознавать и понимать акустику того, о чем спрашивают, вместо того, чтобы полагаться на транскрипцию. Такой подход обеспечивает более плавное и безопасное взаимодействие между вами и вашими устройствами.

Еще один способ борьбы с предвзятостью к естественной речи, такой как языковые различия и акценты, — убедиться, что у вас есть хорошие и чистые данные для обучения решениям. В идеале данные, используемые для обучения голосового решения, например, выглядят так же, как данные, с которыми решение может столкнуться в реальных сценариях. Это означает обучающие решения для устройств с данными из нескольких источников и точное представление всей демографической группы, где это устройство будет использоваться потребителями. Кроме того, отбор и очистка данных для обучения помогает избежать обучения ИИ неуместному и потенциально оскорбительному поведению, такому как женоненавистничество или расизм.

По мере того, как технологические компании все больше осознают проблемы, которые могут быть непреднамеренно встроены в их устройства с поддержкой ИИ, будут разрабатываться новые методы их уменьшения. Конечная цель голосовых интерфейсов — позволить пользователям вести естественный разговор со своими устройствами с учетом конфиденциальности и эффективности. В Fluent наш запатентованный подход позволяет автономным устройствам естественным образом взаимодействовать с конечными пользователями с любым акцентом или языковым фоном, позволяя каждому понять свою технологию. Благодаря более быстрому и точному пониманию речи, которое поддерживает любой язык и акцент, цель Fluent.ai — окончательно сломать барьеры на пути глобального внедрения голосовых пользовательских интерфейсов.

Преодоление языковых и акцентных барьеров в голосовых технологиях

Вопросы по теме