Меню
№ 2 (23) - 2024 / 2024-06-30 / Кол. просмотров: 69
Авторы
Ключевые слова
DOI ссылка:
Как цитировать
В этой работе мы исследовали зависимость работы модели суммаризации от количества стемов слов в нём.Работа выполнялась на синтетическом датасете суммаризации для казахского языка. Приняв за метрику репрезентативности количество стемов слов был выполнен анализ качества работы трёх моделей суммаризации в зависимости от количества стемов слов в тренировочном датасете. Для получения трёх датасетов мы разбили тренировочный датасет на три части.На тестовых файлах были получены оценки BLEU для каждой модели. Экспериментальная часть работы показала, что модель с наибольшим количеством стемов показывает наибольшую оценку BLEU. Но при этом оценка не зависит напрямую от количества стемов слов. Две модели обученные на датасетах разного размера показывают примерно одинаковые оценки.