Ақпараттық-коммуникациялық және химиялық технология

№ 2 (23) - 2024 / 2024-06-30 / Көрілім саны: 46

ЖИНАҚТАУ ТАПСЫРМАСЫ БОЙЫНША ҚАЗАҚ ТІЛІ КОРПУСЫНЫҢ СӨЗ ТҮБІРЛЕРІ БОЙЫНША РЕПРЕЗЕНТАТИВТІЛІГІН ЗЕРТТЕУ

Авторлар

әл-Фараби атындағы Қазақ Ұлттық университеті
әл-Фараби атындағы Қазақ Ұлттық университеті

Кілтті сөздер

нейрондық тілді модельдеу, NLP, мәтінді жинақтау, қазақ тілі, репрезентативтілік, синтетикалық деректер жиыны

DOI сілтемесі:

https://doi.org/10.58805/kazutb.v.2.23-366

Қалай дәйексөз келтіруге болады

Жабаев T. ., і Тукеев U. «ЖИНАҚТАУ ТАПСЫРМАСЫ БОЙЫНША ҚАЗАҚ ТІЛІ КОРПУСЫНЫҢ СӨЗ ТҮБІРЛЕРІ БОЙЫНША РЕПРЕЗЕНТАТИВТІЛІГІН ЗЕРТТЕУ». КазУТБ, вип. 2, вип. 23, Червень 2024, doi:10.58805/kazutb.v.2.23-366.

Аңдатпа

Бұл жұмыста біз жинақтау моделі жұмысының ондағы сөз түбірлерінің санына тәуелділігін зерттедік.Жұмыс қазақ тіліне арналған синтетикалық жинақтау деректер жинағы бойынша орындалды. Сөз түбірлерінің санын репрезентативтілік көрсеткіші ретінде ала отырып, оқыту деректер жинағындағы сөз түбірлерінің санына байланысты үш жинақтау моделінің жұмыс сапасына талдау жасалды. Үш деректер жиынтығын алу үшін біз оқу деректер жинағын үш бөлікке бөлдік.Тест файлдарындағы әрбір модель үшін BLEU бағалаулары алынды. Жұмыстың эксперименттік бөлігі ең көп сабақтар саны бар модель ең жоғары BLEU ұпайын көрсететінін көрсетті. Бірақ балл сөз түбірлерінің санына тікелей байланысты емес. Әртүрлі өлшемдегі деректер жиынында оқытылған екі модель шамамен бірдей ұпайларды көрсетеді.