RESEARCH OF REPRESENTATIVENESS OF KAZAKH LANGUAGE CORPORA BY WORD STEMS FOR THE SUMMARIZATION

Т.Р Жабаев; У.А. Тукеев

doi:10.58805/kazutb.v.2.23-366

Ақпараттық-коммуникациялық және химиялық технология

№ 2 (23) - 2024 / 2024-06-30 / Көрілім саны: 99

ЖИНАҚТАУ ТАПСЫРМАСЫ БОЙЫНША ҚАЗАҚ ТІЛІ КОРПУСЫНЫҢ СӨЗ ТҮБІРЛЕРІ БОЙЫНША РЕПРЕЗЕНТАТИВТІЛІГІН ЗЕРТТЕУ

Авторлар

Т.Р Жабаев⁺⁻
У.А. Тукеев ⁺⁻

әл-Фараби атындағы Қазақ Ұлттық университеті

Кілтті сөздер

нейрондық тілді модельдеу, NLP, мәтінді жинақтау, қазақ тілі, репрезентативтілік, синтетикалық деректер жиыны

Артқа

PDF (RU)

DOI сілтемесі:

https://doi.org/10.58805/kazutb.v.2.23-366

Қалай дәйексөз келтіруге болады

Жабаев T. ., і Тукеев U. «ЖИНАҚТАУ ТАПСЫРМАСЫ БОЙЫНША ҚАЗАҚ ТІЛІ КОРПУСЫНЫҢ СӨЗ ТҮБІРЛЕРІ БОЙЫНША РЕПРЕЗЕНТАТИВТІЛІГІН ЗЕРТТЕУ». ҚазТБУ хабаршысы, вип. 2, вип. 23, Червень 2024, doi:10.58805/kazutb.v.2.23-366.

ACM ACS APA ABNT Chicago Harvard IEEE MLA Turabian Vancouver

Аңдатпа

Бұл жұмыста біз жинақтау моделі жұмысының ондағы сөз түбірлерінің санына тәуелділігін зерттедік.Жұмыс қазақ тіліне арналған синтетикалық жинақтау деректер жинағы бойынша орындалды. Сөз түбірлерінің санын репрезентативтілік көрсеткіші ретінде ала отырып, оқыту деректер жинағындағы сөз түбірлерінің санына байланысты үш жинақтау моделінің жұмыс сапасына талдау жасалды. Үш деректер жиынтығын алу үшін біз оқу деректер жинағын үш бөлікке бөлдік.Тест файлдарындағы әрбір модель үшін BLEU бағалаулары алынды. Жұмыстың эксперименттік бөлігі ең көп сабақтар саны бар модель ең жоғары BLEU ұпайын көрсететінін көрсетті. Бірақ балл сөз түбірлерінің санына тікелей байланысты емес. Әртүрлі өлшемдегі деректер жиынында оқытылған екі модель шамамен бірдей ұпайларды көрсетеді.