В рамках проекта по синтезу и распознаванию бурятской речи, реализуемого совместно с российской транснациональной компанией «Яндекс», коллектив Республиканского центра «Бэлиг» завершил первый и приступил ко второму этапу проверки собранного аудио-датасета бурятского языка.
Как мы уже сообщали ранее, в конце минувшего года сотрудники центра «Бэлиг» приступили к записи аудиоданных, которые завершили накануне Сагаалгана. Параллельно со сбором голосовых данных был начат первый из трёх этапов проверки собранного материала.
Благодаря автоматизации процесса, подготовленной сотрудниками Отдела разработки УМК и цифровизации обучения бурятскому языку ГБУ РЦ «Бэлиг», первый этап проверки был завершен в кратчайшие сроки.
— Мы с коллегами сделали около 34 тысяч аудио-записей, суммарная продолжительность которых составила более 50 часов. Проведенный первый этап проверки выявил лишь порядка 9 процентов неверных предложений. Затем отсортировали их по наличию в предложениях числовых данных. На втором же этапе нам предстоит проверить порядка 31 тысячи оставшихся после первого этапа записей общим хронометражем более 45 часов, — рассказал директор центра «Бэлиг» Баир Балданов.
Напомним, этот проект является частью широкомасштабной работы по созданию качественного ресурса для систем автоматического распознавания речи на бурятском языке. Он реализуется в соответствии с соглашением, подписанным в декабре прошлого года Республиканским центром «Бэлиг» и ООО «Яндекс».





