Информационно - коммуникационные и химические технологии

№ 1 (26) - 2025 / 2025-03-31 — Обновлена 2025-03-31 / Кол. просмотров: 60

ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ АННОТАЦИЙ ИЗ НАУЧНЫХ СТАТЕЙ

Авторы

Евразийский национальный университет имени Л.Н.Гумилева
https://orcid.org/0000-0001-5509-8656
Актюбинский региональный университет им.К.Жубанова
https://orcid.org/0000-0003-4615-5756
Кызылординский университет им. Коркыт Ата
https://orcid.org/0000-0001-6479-0759
Кызылординский университет им. Коркыт Ата
https://orcid.org/0009-0009-7725-0298
Таразский региональный университет им.М. Х. Дулати
https://orcid.org/0000-0002-2000-6720
Евразийский национальный университет им. Л.Н. Гумилева
https://orcid.org/0009-0000-8401-5434

Ключевые слова

машинное обучение, автоматическая обработка текста, аннотации, научные статьи, опорный вектор машине (SVM), Word2Vec

DOI ссылка:

https://doi.org/10.58805/kazutb.v.1.26-648

Как цитировать

Козыбаев D., Шангытбаева G., Жәкіш A. ., Муратова G. ., Тасуов B. ., и А. Танирбергенов. «ИСПОЛЬЗОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ АННОТАЦИЙ ИЗ НАУЧНЫХ СТАТЕЙ». Вестник КазУТБ, т. 1, вып. 26, март 2025 г., doi:10.58805/kazutb.v.1.26-648.

Аннотация

В данной работе рассматривается применение методов машинного обучения для автоматической обработки текстов аннотаций из научных статей. С увеличением объема научной информации исследователи сталкиваются с проблемой информационной перегрузки, что затрудняет поиск и анализ релевантных материалов. Для решения этой задачи мы внедряем алгоритмы машинного обучения, такие как метод опорных векторов (SVM) и представление слов с помощью Word2Vec, что позволяет эффективно классифицировать аннотации и извлекать ключевую информацию. В процессе работы мы осуществляем сбор данных из открытых баз данных. Аннотации проходят этапы предобработки, включая токенизацию, лемматизацию и удаление стоп-слов. Затем мы используем Word2Vec для преобразования текстов аннотаций в векторные представления, которые служат входными данными для модели SVM. Оценка эффективности моделей проводится с использованием метрик точности, полноты и F1-меры. Результаты показывают, что интеграция SVM и Word2Vec значительно улучшает качество классификации аннотаций, что позволяет ускорить процесс поиска научной информации. Работа подчеркивает потенциал использования методов машинного обучения для автоматизации обработки научных текстов и предлагает направления для дальнейших исследований, включая применение более сложных моделей, таких как трансформеры. Данная методология может стать основой для разработки эффективных инструментов, способствующих более быстрому обмену знаниями в научном сообществе

Версии