АНАЛИТИКА НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ РАСПРЕДЕЛЕННЫХ ФРЕЙМВОРКОВ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ

С.А. Алтынбек; Г.Ж.   Шуйтенов; C.A. Сантеева; А.С.  Тургинбаева

doi:10.58805/kazutb.v.3.20-151

Информационно - коммуникационные и химические технологии

№ 3 (20) - 2023 / 2023-09-30 / Кол. просмотров: 195

АНАЛИТИКА НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ РАСПРЕДЕЛЕННЫХ ФРЕЙМВОРКОВ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ

Авторы

С.А. Алтынбек⁺⁻
Г.Ж. Шуйтенов⁺⁻
C.A. Сантеева⁺⁻
А.С. Тургинбаева⁺⁻

Казахский университет технологии и бизнеса

Esil University

Евразийский национальный университет им.Л.Н.Гумилева

Евразийский национгальный университет им.Л.Н.Гумилева

Ключевые слова

параллельный анализ, научный текст, большие данные, неструктурированные данные, обработка данных, Apache Spark, распределенные вычисления, математический аппарат

PDF

DOI ссылка:

https://doi.org/10.58805/kazutb.v.3.20-151

Как цитировать

Алтынбек, С., Г. . Шуйтенов, Сантеева C., и А. . Тургинбаева. «АНАЛИТИКА НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ РАСПРЕДЕЛЕННЫХ ФРЕЙМВОРКОВ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ». Вестник КазУТБ, т. 3, вып. 20, сентябрь 2023 г., doi:10.58805/kazutb.v.3.20-151.

ACM ACS APA ABNT Chicago Harvard IEEE MLA Turabian Vancouver

Аннотация

Статья рассматривает разработку интеллектуальной системы параллельного анализа неструктурированных данных на основе распределенного фреймворка Apache Spark. А также формирование математического аппарата для реализации быстрых алгоритмов анализа научных текстов на естественном языке с применением методов теории вероятностей и статистики, теории информации и машинного обучения. Apache Spark - это распределенный фреймворк для обработки больших данных и аналитики. Он обеспечивает быстрый и универсальный движок для крупномасштабной обработки данных, позволяющий пользователям выполнять параллельные вычисления в распределенных кластерах. Неструктурированные данные относятся к данным, которые не имеют предопределенной структуры, таким как текст, изображения, видео и публикации в социальных сетях. Анализ неструктурированных данных - сложная задача, поскольку для этого требуется извлекать значимую информацию из данных, которые нелегко организовать в строки и столбцы. Разработка интеллектуальной системы для параллельного анализа неструктурированных данных с использованием Apache Spark включает в себя несколько этапов. Во-первых, неструктурированные данные должны быть загружены в Spark framework. Это можно сделать с помощью различных источников данных, таких как распределенная файловая система Hadoop (HDFS), Amazon S3 или любая другая система хранения, поддерживаемая Spark. Интеллектуальная система может быть разработана с использованием таких языков программирования, как Scala, Java или Python, которые имеют привязки Spark и предоставляют API для взаимодействия с Spark framework. Эти API-интерфейсы позволяют разработчикам определять конвейеры передачи данных, настраивать параметры параллельной обработки и выполнять задачи анализа.