Меню
№ 3 (20) - 2023 / 2023-09-30 / Көрілім саны: 145
Авторлар
Кілтті сөздер
DOI сілтемесі:
Қалай дәйексөз келтіруге болады
Мақалада Apache Spark таратылған фраммаларға негізделген құрылымдалмаған деректерді параллель талдаудың интеллектуалды жүйесін әзірлеу қарастырылады. Сондай-ақ ықтималдық теориясы мен статистика әдістерін, ақпарат теориясын және машиналық оқытуды қолдана отырып, табиғи тілдегі ғылыми мәтіндерді талдаудың жылдам алгоритмдерін жүзеге асыруға арналған математикалық аппаратты қалыптастыру. Apache Spark – бұл үлкен деректерді өңдеуге және талдауға арналған таратылған құрылым. Ол пайдаланушыларға үлестірілген кластерлерде параллель есептеулер жүргізуге мүмкіндік беретін кең ауқымды деректерді өңдеу үшін жылдам және жан-жақты қозғалтқышты қамтамасыз етеді. Құрылымдалмаған деректер мәтін, суреттер, бейнелер және әлеуметтік медиа жазбалары сияқты алдын ала анықталған құрылымы жоқ деректерге жатады. Құрылымдалмаған деректерді талдау қиын мәселе болып табылады, өйткені ол жолдар мен бағандарға оңай ұйымдастырылмайтын деректерден маңызды ақпаратты алуды талап етеді. Apache Spark көмегімен құрылымдалмаған деректерді параллель талдауға арналған интеллектуалды жүйені әзірлеу бірнеше кезеңдерді қамтиды. Біріншіден, құрылымдалмаған деректер Spark framework-қа жүктелуі керек. Мұны таратылған Hadoop файлдық жүйесі (HDFS), Amazon S3 немесе Spark қолдайтын кез келген басқа сақтау жүйесі сияқты әртүрлі деректер көздерімен жасауға болады. Ақылды жүйені Scala, Java немесе Python сияқты бағдарламалау тілдерін қолдана отырып жасауға болады, олар Spark байланыстары бар және Spark Framework-пен өзара әрекеттесу үшін API ұсынады. Бұл API интерфейстері әзірлеушілерге деректер құбырларын анықтауға, параллельді өңдеу параметрлерін реттеуге және талдау тапсырмаларын орындауға мүмкіндік береді.