На бурятский язык перевели датасеты онлайн-переводчика

На бурятский язык перевели датасеты онлайн-переводчика

Государственная служба языкового перевода Республиканского центра «Бэлиг» перевела на бурятский язык проверочные датасеты готовящегося онлайн-переводчика компании «Яндекс». Работа над бета-версией сервиса находится в финальной стадии, проект реализуется при поддержке Главы Бурятии Алексея Цыденова.

Датасеты представляют из себя специально подобранные проверочные предложения для обучения искусственного интеллекта переводу текстов с русского языка на бурятский, а также с бурятского на русский язык. В первый датасет вошло 997 сложных и длинных предложений.

Ниже приводим некоторые примеры из них.
 — В понедельник ученые из Медицинской школы Стэнфордского университета объявили об изобретении нового диагностического инструмента, который может сортировать клетки по их типу; это маленький чип, который можно напечатать, используя стандартный струйный принтер примерно за 1 цент США.
 — Это происходит потому, что электричество, поступающее в патрон, где находится металлическая часть лампочки, может привести к сильному удару электрическим током, если вы прикоснётесь к внутренней части патрона или к металлическому основанию лампочки, когда она ещё частично находится в патроне.

Второй датасет состоит из 500 более простых и коротких предложений. Также приведем два примера.
 — Река в этом месте извилистая, образует лиманы, старицы и заболоченные озёра.
 — Несколько раз в день бассейн самоочищается, проходя три стадии очистки, без слива воды.

Таким образом, перед запуском бета-версии сервиса «Яндекс Переводчик» для бурятского языка искусственный интеллект «потренируется» на этих предложениях. Если всё пройдет удачно, компания «Яндекс» перейдет ко второму этапу – к запуску бета-версии, для которой с русского языка на бурятский специалисты центра «Бэлиг», а также привлеченные к этой работе опытные переводчики перевели более 120 тысяч предложений. Кроме того, разработчикам сервиса «Бэлиг» направил солидный монокорпус бурятского языка. В дальнейшем искусственный интеллект будет с каждым разом учиться и совершенствовать свои навыки.

Напомним, проект по включению родных языков народов России в сервисы общенационального портала инициировало Федеральное агентство по делам национальностей.

Опубликовал(а)ГБУ РЦ Бэлиг
ГБУ РЦ «Бэлиг»
Издательство
У вас есть вопрос?
Связаться