Заместитель директора ГБУ РЦ «Бэлиг» Оюна Забанова приняла участие в заседании Дискуссионно-аналитического клуба по
языковой политике в Институте языкознания РАН.
В 42-ом заседании, прошедшем в онлайн-формате, приняли участие языковые активисты, лингвисты, а также специалисты в сфере IT-технологий из разных регионов России. На заседании был заслушан доклад Сергея Аверкиева, руководителя команды по разработке моделей машинного обучения в департаменте RnD Сбера, создателя проекта Lingtrain и ведущего телеграм-канала «Градиент обреченный» на тему
«Технологическая поддержка языков России: инициативы Сбера и инструменты по созданию параллельных корпусов», а также доклад Айрата Гатиатуллина, заместителя директора Института прикладной семиотики Академии наук Республики Татарстан, кандидата технических наук, на тему «Цифровые решения для поддержки татарского языка».
Докладчики рассказали об опыте работы в сфере цифровизации родных языков, представили ряд решений, имеющих прикладное значение, что особенно важно для реализации проектов по обучению искусственного интеллекта малоресурсным языкам.
Так, например, Сергеем Аверкиным поднимался вопрос о передаче массива родных языков народов Российской Федерации для дальнейшего обучения больших языковых моделей (LLM), среди которых в последнее время большим спросом пользуются такие сервисы, как GigaChat, YandexGPT и другие. Для обучения этих моделей необходимы монокорпуса (тексты на одном языке разных стилей), параллельные корпуса (пары предложений), а также тексты в диалоговом формате. Общий объём материала должен быть не менее 1 Тб, только тогда можно обучить модель.
Для внедрения бурятского языка в языковые модели необходима всемерная поддержка в сборе различных текстов на бурятском языке, эти материалы могут быть использованы только для обучения модели без выкладки в открытом доступе в сети «Интернет».
Республиканский центр по развитию бурятского языка ГБУ РЦ «Бэлиг» обращается ко всем неравнодушным, болеющим душой за бурятский язык и ратующим за его развитие, поделиться имеющимися материалами на бурятском языке, направив письмо с материалами на почту burtub@yandex.ru c пометкой «Большие языковые модели».
Напомним, что в задачи Дискуссионно-аналитического клуба по языковой политике Института языкознания, заседание которой проходит один раз в месяц, входит совместная выработка системных, научно-обоснованных и имеющих прикладную значимость решений в этой сфере, которая становится все более актуальной.
К участию в работе клуба приглашаются все заинтересованные лица, включая не только лингвистов, но и представителей органов исполнительной и законодательной власти, общественных организаций и специалистов из разных областей и сфер деятельности.



