Ақпараттық-коммуникациялық және химиялық технология

№ 3 (20) - 2023 / 2023-09-30 / Көрілім саны: 145

ТАРТЫЛҒАН ПАРАЛЕЛЬДІ ДЕРЕКТЕРДІ ӨҢДЕУ ФРАММАЛАРЫНЫҢ НЕГІЗІНДЕГІ ҒЫЛЫМИ МӘТІНДІ ТАЛДАУ

Авторлар

Қазақ технология және бизнес университеті
Esil University
Л.Н. Гумилев атындағы Еуразия ұлттық университеті
Л.Н. Гумилев атындағы Еуразия ұлттық университеті

Кілтті сөздер

параллельный анализ, научный текст, большие данные, неструктурированные данные, обработка данных, Apache Spark, распределенные вычисления, математический аппарат

DOI сілтемесі:

https://doi.org/10.58805/kazutb.v.3.20-151

Қалай дәйексөз келтіруге болады

Алтынбек, С., Г. . Шуйтенов, Сантеева C., і А. . Тургинбаева. «ТАРТЫЛҒАН ПАРАЛЕЛЬДІ ДЕРЕКТЕРДІ ӨҢДЕУ ФРАММАЛАРЫНЫҢ НЕГІЗІНДЕГІ ҒЫЛЫМИ МӘТІНДІ ТАЛДАУ». ҚазТБУ хабаршысы, вип. 3, вип. 20, Вересень 2023, doi:10.58805/kazutb.v.3.20-151.

Аңдатпа

Мақалада Apache Spark таратылған фраммаларға негізделген құрылымдалмаған деректерді параллель талдаудың интеллектуалды жүйесін әзірлеу қарастырылады. Сондай-ақ ықтималдық теориясы мен статистика әдістерін, ақпарат теориясын және машиналық оқытуды қолдана отырып, табиғи тілдегі ғылыми мәтіндерді талдаудың жылдам алгоритмдерін жүзеге асыруға арналған математикалық аппаратты қалыптастыру. Apache Spark – бұл үлкен деректерді өңдеуге және талдауға арналған таратылған құрылым. Ол пайдаланушыларға үлестірілген кластерлерде параллель есептеулер жүргізуге мүмкіндік беретін кең ауқымды деректерді өңдеу үшін жылдам және жан-жақты қозғалтқышты қамтамасыз етеді. Құрылымдалмаған деректер мәтін, суреттер, бейнелер және әлеуметтік медиа жазбалары сияқты алдын ала анықталған құрылымы жоқ деректерге жатады. Құрылымдалмаған деректерді талдау қиын мәселе болып табылады, өйткені ол жолдар мен бағандарға оңай ұйымдастырылмайтын деректерден маңызды ақпаратты алуды талап етеді. Apache Spark көмегімен құрылымдалмаған деректерді параллель талдауға арналған интеллектуалды жүйені әзірлеу бірнеше кезеңдерді қамтиды. Біріншіден, құрылымдалмаған деректер Spark framework-қа жүктелуі керек. Мұны таратылған Hadoop файлдық жүйесі (HDFS), Amazon S3 немесе Spark қолдайтын кез келген басқа сақтау жүйесі сияқты әртүрлі деректер көздерімен жасауға болады. Ақылды жүйені Scala, Java немесе Python сияқты бағдарламалау тілдерін қолдана отырып жасауға болады, олар Spark байланыстары бар және Spark Framework-пен өзара әрекеттесу үшін API ұсынады. Бұл API интерфейстері әзірлеушілерге деректер құбырларын анықтауға, параллельді өңдеу параметрлерін реттеуге және талдау тапсырмаларын орындауға мүмкіндік береді.