Информационно - коммуникационные и химические технологии

№ 1 (22) - 2024 / 2024-03-31 / Кол. просмотров: 225

МОДЕЛИ ГЕНЕРАЦИИ ТЕКСТА ДЛЯ ПЕРЕФРАЗА НА КАЗАХСКОМ ЯЗЫКЕ

Авторы

Satbayev University
Satbayev University
Satbayev University
Satbayev University

Ключевые слова

диффузионные модели, Модели-трансформеры, Машинное обучение,

DOI ссылка:

https://doi.org/10.58805/kazutb.v.1.22-249

Как цитировать

Касенхан A., Мукажанов N. ., Нуралыкызы S., и Кальпеева Z. . «МОДЕЛИ ГЕНЕРАЦИИ ТЕКСТА ДЛЯ ПЕРЕФРАЗА НА КАЗАХСКОМ ЯЗЫКЕ». Вестник КазУТБ, т. 1, вып. 22, март 2024 г., doi:10.58805/kazutb.v.1.22-249.

Аннотация

Данное исследование углубляется в относительно неисследованную область обработки естественного языка казахского языка — языка с ограниченными вычислительными ресурсами. В статье анализируется эффективность моделей диффузии и преобразователей при создании текста, в частности перефразирования, что является важнейшим аспектом приложений машинного обучения, таких как чат-боты, виртуальные помощники и службы автоматического перевода.

Исследователи методично адаптируют эти передовые модели для понимания и создания казахского текста, решая уникальные проблемы, возникающие из-за сложной морфологии языка. Статья носит комплексный подход и охватывает все: от первоначальной адаптации моделей к контексту казахского языка до создания специализированных инструментов токенизатора, перевода и подготовки наборов данных для эффективного обучения.

Благодаря тщательному тестированию и анализу производительности исследование выявляет сильные и слабые стороны каждого типа модели. Это имеет решающее значение, поскольку определяет направление будущих исследований и разработки моделей с целью повышения беглости и точности автоматического создания казахского текста. В документе также обсуждается более широкое влияние своих выводов, предполагая, что полученные методологии и идеи могут послужить основой для аналогичных усилий на других языках с ограниченными ресурсами, тем самым способствуя глобальному развитию НЛП.

Исследование завершается размышлениями о последствиях их выводов для продолжающегося развития технологий машинного обучения, утверждая потенциал этих технологий для решения сложностей любого языка при правильном подходе и ресурсах. Эта работа не только расширяет технические возможности создания казахского текста, но и служит свидетельством потенциала машинного обучения для преодоления языковых разрывов и содействия большей цифровой инклюзивности.