RESEARCH OF REPRESENTATIVENESS OF KAZAKH LANGUAGE CORPORA BY WORD STEMS FOR THE SUMMARIZATION

Т.Р. Жабаев; У.А. Тукеев

doi:10.58805/kazutb.v.2.23-366

Информационно - коммуникационные и химические технологии

№ 2 (23) - 2024 / 2024-06-30 / Кол. просмотров: 97

ИССЛЕДОВАНИЕ РЕПРЕЗЕНТАТИВНОСТИ КОРПУСОВ КАЗАХСКОГО ЯЗЫКА ПО СТЕМАМ СЛОВ ДЛЯ ЗАДАЧИ СУММАРИЗАЦИИ

Авторы

Т.Р. Жабаев⁺⁻
У.А. Тукеев ⁺⁻

Казахский национальный университет имени аль-Фараби

Ключевые слова

нейронное языковое моделирование, NLP, резюмирование текста, казахский язык, репрезентативность, синтетические наборы данных

PDF

DOI ссылка:

https://doi.org/10.58805/kazutb.v.2.23-366

Как цитировать

Жабаев T. ., и Тукеев U. «ИССЛЕДОВАНИЕ РЕПРЕЗЕНТАТИВНОСТИ КОРПУСОВ КАЗАХСКОГО ЯЗЫКА ПО СТЕМАМ СЛОВ ДЛЯ ЗАДАЧИ СУММАРИЗАЦИИ». Вестник КазУТБ, т. 2, вып. 23, июнь 2024 г., doi:10.58805/kazutb.v.2.23-366.

ACM ACS APA ABNT Chicago Harvard IEEE MLA Turabian Vancouver

Аннотация

В этой работе мы исследовали зависимость работы модели суммаризации от количества стемов слов в нём.Работа выполнялась на синтетическом датасете суммаризации для казахского языка. Приняв за метрику репрезентативности количество стемов слов был выполнен анализ качества работы трёх моделей суммаризации в зависимости от количества стемов слов в тренировочном датасете. Для получения трёх датасетов мы разбили тренировочный датасет на три части.На тестовых файлах были получены оценки BLEU для каждой модели. Экспериментальная часть работы показала, что модель с наибольшим количеством стемов показывает наибольшую оценку BLEU. Но при этом оценка не зависит напрямую от количества стемов слов. Две модели обученные на датасетах разного размера показывают примерно одинаковые оценки.