Информационно - коммуникационные и химические технологии

№ 1 (26) - 2025 / 2025-03-31 — Обновлена 2025-03-31 / Кол. просмотров: 47

РАСПОЗНАВАНИЕ ГОЛОСА С ПОМОЩЬЮ АЛГОРИТМОВ КЛАССИФИКАЦИИ

Авторы

Казахский национальный женский педагогический университет
https://orcid.org/0000-0002-9117-4369
Казахский национальный университет имени аль-Фараби
https://orcid.org/0000-0002-6491-8043
Казахский национальный женский педагогический университет
https://orcid.org/0009-0005-1642-9834
Казахский национальный женский педагогический университет
https://orcid.org/0000-0002-1993-9566

Ключевые слова

алгоритм, голос, распознавание речи, ASR, MFCC, MLP

DOI ссылка:

https://doi.org/10.58805/kazutb.v.1.26-599

Как цитировать

Мекебаев, Н., Д. Даркенбаев, Н. Модовов, и Ж. Орынтаева. «РАСПОЗНАВАНИЕ ГОЛОСА С ПОМОЩЬЮ АЛГОРИТМОВ КЛАССИФИКАЦИИ». Вестник КазУТБ, т. 1, вып. 26, март 2025 г., doi:10.58805/kazutb.v.1.26-599.

Аннотация

Системы распознавания речи основаны на методах машинного обучения, среди которых широко применяются классификационные алгоритмы. Классификация выполняет задачу разделения голосовых сигналов на различные категории, такие как слова или предложения. К часто используемым алгоритмам относятся логистическая регрессия, деревья решений и нейронные сети. В процессе обработки голосового сигнала сначала извлекаются его особенности, то есть важные параметры, которые затем передаются классификатору. По результатам классификации система преобразует речь в текст или определяет конкретное содержание звука. Эта технология важна для улучшения взаимодействия человека с компьютером. В данной статье обсуждается алгоритм классификации для задачи идентификации речи с использованием метода машинного обучения. Алгоритм MFCC используется для предварительной обработки речи. Для решения этой задачи проведен сравнительный анализ пяти алгоритмов классификации. В первом эксперименте были определены методы опорного вектора – 0,90 и многослойного перцептрона – 0,83 и показаны лучшие результаты. Во втором эксперименте был предложен многослойный перцептрон с точностью 0,93 с использованием метода Робастного скалера для идентификации личности. Поэтому для решения этой проблемы можно использовать многослойный персептрон, учитывающий детали аудиосигнала.

 

Версии