Информационно - коммуникационные и химические технологии

№ 3 (20) - 2023 / 2023-09-30 / Кол. просмотров: 67

АНАЛИТИКА НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ РАСПРЕДЕЛЕННЫХ ФРЕЙМВОРКОВ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ

Авторы

Казахский университет технологии и бизнеса
Esil University
Евразийский национальный университет им.Л.Н.Гумилева
Евразийский национгальный университет им.Л.Н.Гумилева

Ключевые слова

параллельный анализ, научный текст, большие данные, неструктурированные данные, обработка данных, Apache Spark, распределенные вычисления, математический аппарат

DOI ссылка:

https://doi.org/10.58805/kazutb.v.3.20-151

Как цитировать

Алтынбек, С., Г. . Шуйтенов, Сантеева C., и А. . Тургинбаева. «АНАЛИТИКА НАУЧНЫХ ТЕКСТОВ НА ОСНОВЕ РАСПРЕДЕЛЕННЫХ ФРЕЙМВОРКОВ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ». КазУТБ, т. 3, вып. 20, сентябрь 2023 г., doi:10.58805/kazutb.v.3.20-151.

Аннотация

Статья рассматривает разработку интеллектуальной системы параллельного анализа неструктурированных данных на основе распределенного фреймворка Apache Spark. А также формирование математического аппарата для реализации быстрых алгоритмов анализа научных текстов на естественном языке с применением методов теории вероятностей и статистики, теории информации и машинного обучения. Apache Spark - это распределенный фреймворк для обработки больших данных и аналитики. Он обеспечивает быстрый и универсальный движок для крупномасштабной обработки данных, позволяющий пользователям выполнять параллельные вычисления в распределенных кластерах. Неструктурированные данные относятся к данным, которые не имеют предопределенной структуры, таким как текст, изображения, видео и публикации в социальных сетях. Анализ неструктурированных данных - сложная задача, поскольку для этого требуется извлекать значимую информацию из данных, которые нелегко организовать в строки и столбцы. Разработка интеллектуальной системы для параллельного анализа неструктурированных данных с использованием Apache Spark включает в себя несколько этапов. Во-первых, неструктурированные данные должны быть загружены в Spark framework. Это можно сделать с помощью различных источников данных, таких как распределенная файловая система Hadoop (HDFS), Amazon S3 или любая другая система хранения, поддерживаемая Spark. Интеллектуальная система может быть разработана с использованием таких языков программирования, как Scala, Java или Python, которые имеют привязки Spark и предоставляют API для взаимодействия с Spark framework. Эти API-интерфейсы позволяют разработчикам определять конвейеры передачи данных, настраивать параметры параллельной обработки и выполнять задачи анализа.