Информационно - коммуникационные и химические технологии

№ 4 (25) - 2024 / 2024-12-31 / Кол. просмотров: 12

ОПРЕДЕЛЕНИЕ ЭФФЕКТИВНЫХ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ СЕНТИМЕНТАЛЬНОГО АНАЛИЗА КОММЕНТАРИЕВ НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

  • Н.К. Мукажанов
  • Л.Ш. Черикбаева
  • А.М. Касенхан
  • Ж.М. Алибиева
  • М. Тұрдалыұлы

Ключевые слова

сентиментальный анализ, машинное обучение, глубокое обучение, NLP, комментарий, набор данных

DOI ссылка:

https://doi.org/10.58805/kazutb.v.4.25-426

Как цитировать

Мукажанов N. ., Черикбаева L. ., Касенхан A. ., Алибиева Z. ., и Тұрдалыұлы M. . «ОПРЕДЕЛЕНИЕ ЭФФЕКТИВНЫХ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ СЕНТИМЕНТАЛЬНОГО АНАЛИЗА КОММЕНТАРИЕВ НА КАЗАХСКОМ ЯЗЫКЕ». Вестник КазУТБ, т. 4, вып. 25, декабрь 2024 г., doi:10.58805/kazutb.v.4.25-426.

Аннотация

В данной статье представлены результаты анализа алгоритмов машинного обучения для сентиментального анализа данных на казахском языке, и в результате анализа опрделены эффективные алгоритмы. В связи с увеличением объем казахскоязычного контента в социальных сетях, новостях и интернет-магазинах, также возросла потребность в инструментах и ​​методах обработки данных на казахском языке в целях получения ценной информации о мнениях и взглядах людей. Поэтому набор данных, использованный в исследовании, был собран из реальных интернет-магазинов и новостных сайтов. Объем собранный набор данных составляет 1500 записей, 80% из которых использовались для обучения алгоритмов, а 20% — для тестирования. Для сентиментального анализа данных рассмотрены алгоритмы маштнного обучения такие как логистическая регрессия, мультиномиальный наивный байесовский метод, метод опорных векторов (SVM), XGBoost и длинная краткосрочная память (LSTM) глубокого обучения. В ходе исследования тестирован алгоритмы увеличивая набора данных с 500 записей до 1500 записей, а также были реализованы и протестированы различные методы алгоритмов, такие как индивидуальный, ансамблевый и расширенный. Результаты, полученные в ходе тестирования, были представлены по показателям точности алгоритмов.