03.03.2019 11:07
Распознавание источника звука с помощью нейронной сети
В настоящее время уделяется большое внимание развитию технологий искусственного интеллекта, в частности искусственным нейронным сетям (ИНС). Методология ИНС основана на попытках имитации нервной системы живого объекта, а именно возможности самообучаться. ИНС в ряде случаев способна выполнять действия, которые традиционно считаются прерогативой человека или высокоразвитых представителей животного мира. К таким действиям можно отнести и процессы распознавания звуков.
Звук (как известно из физики), представляет собой акустическую волну, которая характеризуется двумя атрибутами - амплитудой и частотой. Человек воспринимает амплитуду звуковой волны, как громкость, а ее частоту - как музыкальную высоту звука. Но у звуков в природе есть еще одна, не маловажная характеристика - тембровая окраска. Именно этот показатель, с одной стороны легко воспринимается и распознается людьми, а с другой стороны может случить надежным индикатором источника звука. В самом деле, практически любой человек может отличить звук скрипки от звука, допустим, трубы или фортепьяно. Из акустики известно, что тембровую окраску звуку придают гармоники - колебания более высоких, кратных частот. Поэтому можно полагать, что для классификации звука можно использовать информацию о его спектральном составе - о количестве, амплитудах и частотах колебаний, входящих в распознаваемый акустический сигнал. Именно амплитуды и частоты отдельных гармонических составляющих сигнала должны служить компонентами входного вектора нейронной сети при ее использовании для распознавания источника звука.
Решение задачи распознавания должно включать в себя следующие основные этапы:
Сначала исходный акустический сигнал преобразуется в электрический вид и выполняется его предварительная обработка, в ходе которой удаляются шумы и посторонние сигналы. Затем, отфильтрованный звук подвергается аналого-цифровому преобразованию, т.е. квантуется по времени и кодируется. Описанные процессы могут быть выполнены с помощью звуковой карты компьютера, что удобно, поскольку цифровой сигнал можно сохранить в одном из распространенных аудиоформатов - WAV. Данный формат позволяет сохранять сигнал в «сыром», несжатом виде и, следовательно, он не подвергается искажениям при хранении.
На следующем этапе сигнал переводится из временной области обработки в частотную. Для этого используется дискретное преобразование Фурье, с помощью которого успешно решаются задачи спектрального анализа сигналов. Полученные спектральные характеристики звукового сигнала подаются на вход ИНС.
В качестве классификатора наиболее подходящей следует считать нейронную сеть прямого распространения со скрытым слоем. ИНС такого типа сравнительно просты, но достаточно надежные. Они не имеют кластерных групп и обратных связей и поэтому обучаются с применением весьма простого алгоритма - обратного распространения ошибки.
В настоящее время проводятся работы по адаптации программ, реализующих дискретное преобразование Фурье, для спектрального анализа колебаний звуковой частоты, Также формируется набор исходных данных для создания обучающей базы системы распознавания.
Кубова А.А.
| Опубликовано 03.03.2019 11:07 | Просмотров: 563 | Блог » RSS |