Коллектив Республиканского центра «Бэлиг» завершил первый этап проекта по сбору аудио-дата-сета бурятского языка. Этот важный шаг является частью широкомасштабной инициативы, направленной на создание качественного ресурса для систем автоматического распознавания речи.
Аудиоданные представляют собой запись устной речи на бурятском языке и предназначены для тренировки моделей искусственного интеллекта, используемых в технологиях голосового управления и автоматической транскрипции. Это позволит существенно повысить уровень доступности сервисов и услуг для носителей бурятского языка, включая интеграцию возможностей распознавания речи в мобильные приложения, виртуальных ассистентов и образовательные программы.
Следующим этапом станет тщательная проверка собранных материалов специалистами Центра. Проверка включает верификацию, удаление неточно записанных фраз, предложений с ошибками, а также маркировку данных для последующей обработки алгоритмами машинного обучения.
Завершение первого этапа демонстрирует успешное начало реализации стратегического плана по цифровизации бурятского языка и открывает перспективы для дальнейшей разработки интеллектуальных решений в сфере популяризации бурятского языка.
Проект реализуется при поддержке Дома народов России и ООО «Яндекс» и входит в число приоритетных направлений по цифровизации бурятского языка на современном этапе.





