«Бэлиг» передал «Яндексу» более 2 миллионов предложений на бурятском языке

«Бэлиг» передал «Яндексу» более 2 миллионов предложений на бурятском языке

Монокорпус для обучения больших языковых моделей бурятскому языку, направленный Республиканским центром «Бэлиг» в компанию «Яндекс», содержит 2112,97 мегабайт информации, что составляет более 2 миллионов предложений.

«Бэлиг» ведёт активную работу по сбору монокорпуса бурятского языка — текстов разных стилей.

— В этом году, с мая по сентябрь, мы собирали текстовые данные на бурятском языке: здесь тексты из учебников и учебных пособий, изданных в разные годы на базе ГБУ РЦ «Бэлиг», художественной и публицистической литературы и многих других источников, — отметила заместитель директора центра «Бэлиг», кандидат филологических наук Оюна Забанова.

В реализации проектов по подготовке к обучению искусственного интеллекта бурятскому языку помогли и соседние регионы.

— В мае этого года по нашему предложению в администрации Агинского и Усть-Ордынского Бурятских округов обратился министр образования и науки Валерий Анатольевич Поздняков и попросил поддержать сбор текстов на бурятском языке, — рассказал директор центра «Бэлиг» Баир Балданов.

Отметим, что работы в текстовом формате из бурятских округов поступали также разных стилей.

Первый сбор массива бурятского языка для дальнейшего обучения больших языковых моделей (LLM), среди которых в последнее время большим спросом пользуются такие сервисы, как GigaChat, YandexGPT и другие, был направлен в «Яндекс» через федеральное учреждение «Дом народов России». Этот объём информации составил 2112,97 мегабайт — более 2 миллионов предложений на бурятском языке.

Напомним, Дом народов
России является подведомственным учреждением Федерального агентства по делам национальностей, курирующим проекты по цифровизации родных языков народов России.

Республиканский центр «Бэлиг» выражает благодарность Администрациям Агинского Бурятского округа Забайкальского края и Усть-Ордынского Бурятского округа Иркутской области за содействие проектам по цифровизации бурятского языка.

Опубликовал(а)ГБУ РЦ Бэлиг
ГБУ РЦ «Бэлиг»
Издательство
У вас есть вопрос?
Связаться