TEXT GENERATION MODELS FOR PARAPHRASE ON KAZAKH LANGUAGE

А.М. Касенхан; Н.К.  Мукажанов; С. Нуралыкызы; Ж.Б.  Кальпеева

doi:10.58805/kazutb.v.1.22-249

Информационно - коммуникационные и химические технологии

№ 1 (22) - 2024 / 2024-03-31 / Кол. просмотров: 252

МОДЕЛИ ГЕНЕРАЦИИ ТЕКСТА ДЛЯ ПЕРЕФРАЗА НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

А.М. Касенхан⁺⁻
Н.К. Мукажанов⁺⁻
С. Нуралыкызы⁺⁻
Ж.Б. Кальпеева⁺⁻

Satbayev University

Ключевые слова

диффузионные модели, Модели-трансформеры, Машинное обучение,

PDF

DOI ссылка:

https://doi.org/10.58805/kazutb.v.1.22-249

Как цитировать

Касенхан A., Мукажанов N. ., Нуралыкызы S., и Кальпеева Z. . «МОДЕЛИ ГЕНЕРАЦИИ ТЕКСТА ДЛЯ ПЕРЕФРАЗА НА КАЗАХСКОМ ЯЗЫКЕ». Вестник КазУТБ, т. 1, вып. 22, март 2024 г., doi:10.58805/kazutb.v.1.22-249.

ACM ACS APA ABNT Chicago Harvard IEEE MLA Turabian Vancouver

Аннотация

Данное исследование углубляется в относительно неисследованную область обработки естественного языка казахского языка — языка с ограниченными вычислительными ресурсами. В статье анализируется эффективность моделей диффузии и преобразователей при создании текста, в частности перефразирования, что является важнейшим аспектом приложений машинного обучения, таких как чат-боты, виртуальные помощники и службы автоматического перевода.

Исследователи методично адаптируют эти передовые модели для понимания и создания казахского текста, решая уникальные проблемы, возникающие из-за сложной морфологии языка. Статья носит комплексный подход и охватывает все: от первоначальной адаптации моделей к контексту казахского языка до создания специализированных инструментов токенизатора, перевода и подготовки наборов данных для эффективного обучения.

Благодаря тщательному тестированию и анализу производительности исследование выявляет сильные и слабые стороны каждого типа модели. Это имеет решающее значение, поскольку определяет направление будущих исследований и разработки моделей с целью повышения беглости и точности автоматического создания казахского текста. В документе также обсуждается более широкое влияние своих выводов, предполагая, что полученные методологии и идеи могут послужить основой для аналогичных усилий на других языках с ограниченными ресурсами, тем самым способствуя глобальному развитию НЛП.

Исследование завершается размышлениями о последствиях их выводов для продолжающегося развития технологий машинного обучения, утверждая потенциал этих технологий для решения сложностей любого языка при правильном подходе и ресурсах. Эта работа не только расширяет технические возможности создания казахского текста, но и служит свидетельством потенциала машинного обучения для преодоления языковых разрывов и содействия большей цифровой инклюзивности.