Информационно - коммуникационные и химические технологии

№ 2 (23) - 2024 / 2024-06-30 / Кол. просмотров: 69

ИССЛЕДОВАНИЕ РЕПРЕЗЕНТАТИВНОСТИ КОРПУСОВ КАЗАХСКОГО ЯЗЫКА ПО СТЕМАМ СЛОВ ДЛЯ ЗАДАЧИ СУММАРИЗАЦИИ

Авторы

Казахский национальный университет имени аль-Фараби
Казахский национальный университет имени аль-Фараби

Ключевые слова

нейронное языковое моделирование, NLP, резюмирование текста, казахский язык, репрезентативность, синтетические наборы данных

DOI ссылка:

https://doi.org/10.58805/kazutb.v.2.23-366

Как цитировать

Жабаев T. ., и Тукеев U. «ИССЛЕДОВАНИЕ РЕПРЕЗЕНТАТИВНОСТИ КОРПУСОВ КАЗАХСКОГО ЯЗЫКА ПО СТЕМАМ СЛОВ ДЛЯ ЗАДАЧИ СУММАРИЗАЦИИ». Вестник КазУТБ, т. 2, вып. 23, июнь 2024 г., doi:10.58805/kazutb.v.2.23-366.

Аннотация

В этой работе мы исследовали зависимость работы  модели суммаризации от количества стемов слов в нём.Работа выполнялась на синтетическом датасете суммаризации для казахского языка. Приняв за метрику репрезентативности количество стемов слов был выполнен анализ качества работы трёх моделей суммаризации в зависимости от количества стемов слов в тренировочном датасете. Для получения трёх датасетов мы разбили тренировочный датасет на три части.На тестовых файлах были получены оценки BLEU для каждой модели. Экспериментальная часть работы показала, что модель с наибольшим количеством стемов показывает наибольшую оценку BLEU. Но при этом оценка не зависит напрямую от количества стемов слов. Две модели обученные на датасетах разного размера показывают примерно одинаковые оценки.