Недавние достижения в области распознавания речевых эмоций выявили значительный потенциал технологий глубокого обучения в различных приложениях. Однако эти модели глубокого обучения подвержены состязательным атакам.

Группа исследователей из Миланского университета систематически оценивала влияние атак «белого ящика» и «черного ящика» на различные языки и гендеры в распознавании речевых эмоций. Исследование было опубликовано 27 мая в Интеллектуальные вычисления.

Исследование подчеркивает значительную уязвимость моделей долговременной краткосрочной памяти сверточной нейронной сети к состязательным примерам, которые представляют собой тщательно разработанные «возмущенные» входные данные, которые приводят к тому, что модели выдают ошибочные прогнозы. Результаты показывают, что все рассмотренные состязательные атаки могут значительно снизить производительность моделей распознавания речевых эмоций. По словам авторов, восприимчивость этих моделей к состязательным атакам «может вызвать серьезные последствия».

Исследователи предложили методологию обработки аудиоданных и извлечения признаков, адаптированную к архитектуре долговременной краткосрочной памяти сверточной нейронной сети. Они изучили три набора данных: EmoDB для немецкого языка, EMOVO для итальянского языка и RAVDESS для английского языка. Они использовали метод Fast Gradient Sign, базовый итеративный метод, DeepFool, атаку Saliency Map на основе якобиана и Carlini and Wagner для атак белого ящика, а также атаку One-Pixel и атаку Boundary для сценариев черного ящика.

Атаки черного ящика, особенно атака Boundary, достигли впечатляющих результатов, несмотря на ограниченный доступ к внутренним механизмам моделей. Хотя атаки белого ящика не имели таких ограничений, атаки черного ящика иногда превосходили их; то есть они генерировали состязательные примеры с превосходной производительностью и меньшими нарушениями.

Авторы заявили: «Эти наблюдения вызывают тревогу, поскольку они подразумевают, что злоумышленники могут потенциально достичь замечательных результатов без какого-либо понимания внутренней работы модели, просто внимательно изучая ее выходные данные».

Исследование включало гендерную перспективу для изучения дифференциального воздействия состязательных атак на мужскую и женскую речь, а также на речь на разных языках. При оценке воздействия атак на трех языках были обнаружены лишь незначительные различия в производительности.

Английский язык оказался наиболее восприимчивым, а итальянский продемонстрировал самую высокую устойчивость. Детальное исследование мужских и женских образцов показало небольшое превосходство мужских образцов, которые показали незначительно меньшую точность и возмущение, особенно в сценариях атак белого ящика. Однако различия между мужскими и женскими образцами были незначительными.

«Мы разработали конвейер для стандартизации образцов по 3 языкам и извлечения спектрограмм log-Mel. Наша методология включала в себя расширение наборов данных с использованием методов смещения высоты тона и растяжения времени при сохранении максимальной продолжительности образца в 3 секунды», — пояснили авторы. Кроме того, для обеспечения методологической согласованности команда использовала одну и ту же архитектуру сверточной нейронной сети с долговременной краткосрочной памятью для всех экспериментов.

Хотя публикация исследований, раскрывающих уязвимости в моделях распознавания речевых эмоций, может показаться, что она может предоставить злоумышленникам ценную информацию, непредоставление этих результатов может быть потенциально более пагубным. Прозрачность исследований позволяет как злоумышленникам, так и защитникам понимать слабые стороны этих систем.

Раскрывая эти уязвимости, исследователи и специалисты могут лучше подготовить и защитить свои системы от потенциальных угроз, в конечном итоге способствуя созданию более безопасной технологической среды.

Предоставлено компанией Intelligent Computing

Исследователи выявили уязвимость моделей распознавания речевых эмоций к состязательным атакам

Пример процесса разделения и повторения на спектрограммах log-Mel. Исходная спектрограмма log-Mel (A), нарезанные сегменты (B и C) и сегмент (C), повторенный до 3 с (D). Изображение:
Интеллектуальные вычисления
(2024). DOI: 10.34133/icomputing.0088 (тегиToTranslate)новости о высоких технологиях