03.03.2019 11:07

Распознавание источника звука с помощью нейронной сети

В настоящее время уделяется большое внимание развитию технологий искусственного интеллекта, в частности искусственным нейронным сетям (ИНС). Методология ИНС основана на попытках имитации нервной системы живого объекта, а именно возможности самообучаться. ИНС в ряде случаев способна выполнять действия, которые традиционно считаются прерогативой человека или высокоразвитых представителей животного мира. К таким действиям можно отнести и процессы распознавания звуков.

Звук (как известно из физики), представляет собой акустическую волну, которая характеризуется двумя атрибутами - амплитудой и частотой. Человек воспринимает амплитуду звуковой волны, как громкость, а ее частоту - как музыкальную высоту звука. Но у звуков в природе есть еще одна, не маловажная характеристика - тембровая окраска. Именно этот показатель, с одной стороны легко воспринимается и распознается людьми, а с другой стороны может случить надежным индикатором источника звука. В самом деле, практически любой человек может отличить звук скрипки от звука, допустим, трубы или фортепьяно. Из акустики известно, что тембровую окраску звуку придают гармоники - колебания более высоких, кратных частот. Поэтому можно полагать, что для классификации звука можно использовать информацию о его спектральном составе - о количестве, амплитудах и частотах колебаний, входящих в распознаваемый акустический сигнал. Именно амплитуды и частоты отдельных гармонических составляющих сигнала должны служить компонентами входного вектора нейронной сети при ее использовании для распознавания источника звука.

Решение задачи распознавания должно включать в себя следующие основные этапы:

Сначала исходный акустический сигнал преобразуется в электрический вид и выполняется его предварительная обработка, в ходе которой удаляются шумы и посторонние сигналы. Затем, отфильтрованный звук подвергается аналого-цифровому преобразованию, т.е. квантуется по времени и кодируется. Описанные процессы могут быть выполнены с помощью звуковой карты компьютера, что удобно, поскольку цифровой сигнал можно сохранить в одном из распространенных аудиоформатов - WAV. Данный формат позволяет сохранять сигнал в «сыром», несжатом виде и, следовательно, он не подвергается искажениям при хранении.

На следующем этапе сигнал переводится из временной области обработки в частотную. Для этого используется дискретное преобразование Фурье, с помощью которого успешно решаются задачи спектрального анализа сигналов. Полученные спектральные характеристики звукового сигнала подаются на вход ИНС.

В качестве классификатора наиболее подходящей следует считать нейронную сеть прямого распространения со скрытым слоем. ИНС такого типа сравнительно просты, но достаточно надежные. Они не имеют кластерных групп и обратных связей и поэтому обучаются с применением весьма простого алгоритма - обратного распространения ошибки.

В настоящее время проводятся работы по адаптации программ, реализующих дискретное преобразование Фурье, для спектрального анализа колебаний звуковой частоты, Также формируется набор исходных данных для создания обучающей базы системы распознавания.

Кубова А.А.

Опубликовано 03.03.2019 11:07 | Просмотров: 542 | Блог » RSS