«Бэлиг» передал «Яндексу» голосовой дата-сет бурятского языка

«Бэлиг» передал «Яндексу» голосовой дата-сет бурятского языка

В рамках проекта по синтезу и распознаванию бурятской речи, реализуемого совместно с российской транснациональной компанией «Яндекс», коллектив Республиканского центра «Бэлиг» завершил третий этап проверки собранного аудио дата-сета бурятского языка.

На III Межрегиональном съезде учителей бурятского языка директор ГБУ РЦ «Бэлиг» Баир Балданов в своем докладе о деятельности учреждения рассказал, что сотрудники центра «Бэлиг» записали порядка 34 тысяч аудио-записей, суммарная продолжительность которых составила более 50 часов. В течение трех последних месяцев сотрудниками Центра было проведено три этапа проверки этого материала.

Благодаря автоматизации процесса, первый этап проверки был завершен в планируемые сроки. На втором же этапе процесс был осложнен закрытием социального мессенджера Telegram в России. Поэтому в кратчайшие сроки сотрудниками Отдела разработки УМК и цифровизации обучения бурятскому языку центра «Бэлиг» был разработан бот по проверке аудио-материалов в российском мессенджере Max.

  • Если на первом этапе проверки выявили порядка 9 процентов предложений с ошибками, то на втором этапе этот процент составил 5 процентов, а на третьем — 3 процента. Всего же нарастающим итогом было проверено 92 тысячи предложений. Общий хронометраж верных предложений после третьей проверки составил более 40 часов, — рассказал директор центра «Бэлиг» Баир Балданов.

Собранный аудио дата-сет передан в компанию «Яндекс» посредством онлайн-сервиса «Облако». Напомним, проект является частью широкомасштабной работы по созданию качественного ресурса для систем автоматического распознавания речи на бурятском языке. Он реализуется в соответствии с соглашением, подписанным в декабре прошлого года Республиканским центром «Бэлиг» и ООО «Яндекс».

Опубликовал(а)ГБУ РЦ Бэлиг
ГБУ РЦ «Бэлиг»
Издательство
У вас есть вопрос?
Связаться