Информационно - коммуникационные и химические технологии

№ 3 (20) - 2023 / 2023-09-30 / Кол. просмотров: 108

МАТЕМАТИЧЕСКИЙ АППАРАТ ДЛЯ АНАЛИЗА НАУЧНЫХ ТЕКСТОВ: ТЕОРИЯ ВЕРОЯТНОСТЕЙ БАЙЕСА И ЕЕ РЕАЛИЗАЦИЯ

Авторы

Казахский университет технологии и бизнеса
Есил университет
Есил университет
Казахский университет технологии и бизнеса

Ключевые слова

параллельный анализ, теория вероятностей, теория вероятностей Байерса, научный текст, большие данные, неструктурированные данные, Apache Spark, распреденные вычисления, математический аппарат

DOI ссылка:

https://doi.org/10.58805/kazutb.v.3.20-153

Как цитировать

Алтынбек , С. . ., Г. . Шуйтенов, У. . Турусбекова, и В. . Кубекова. «МАТЕМАТИЧЕСКИЙ АППАРАТ ДЛЯ АНАЛИЗА НАУЧНЫХ ТЕКСТОВ: ТЕОРИЯ ВЕРОЯТНОСТЕЙ БАЙЕСА И ЕЕ РЕАЛИЗАЦИЯ». Вестник КазУТБ, т. 3, вып. 20, сентябрь 2023 г., doi:10.58805/kazutb.v.3.20-153.

Аннотация

В настоящей статье рассматривается математический аппарат, а именно теория вероятностей Байеса, и его применение для анализа научных методов текстов. Основной целью исследования является выбор оптимальных алгоритмов для разработки будущей интеллектуальной системы параллельного анализа неструктурированных данных. Для достижения этой цели авторы обзора изучают распределенный фреймворк Apache Spark. Они проводят анализ возможностей и функциональности этого фреймворка и предлагают оптимальные алгоритмы для анализа неструктурированных данных на основе теории вероятностей Байеса. Такой подход позволяет эффективно анализировать большие объемы текстовой информации, выделять и классифицировать ее по различным параметрам. Статья также описывает преимущества использования Apache Spark для параллельного анализа данных. Фреймворк обеспечивает высокую скорость обработки и эффективное использование ресурсов, что делает его подходящим выбором для анализа больших объемов неструктурированной информации. В заключение, авторы статьи делают вывод о том, что использование математического аппарата теории вероятностей Байеса и распределенного фреймворка Apache Spark позволяет разработать интеллектуальную систему параллельного анализа неструктурированных данных, обеспечивая эффективность и точность анализа текстовой информации.