+13 °С
Облачно
Антитеррор
АТП в Белорецке встает на ноги?
Все новости
Общество
9 Ноября 2021, 15:12

БашкортСофт: проект по сохранению башкирского языка

Фонд по сохранению и развитию башкирского языка запустил новый проект Bashkortsoft. Он является первым в своем роде, переводящий цельные предложения с башкирского языка на русский, с русского на башкирский язык. Озвучил проект известный башкирский телеведущий Наиль Юнусов. Башкирско-русский и русско-башкирский переводчик представлен на веб-сервисе: https://bashkortsoft.ru/.

БашкортСофт: проект по сохранению башкирского языка
БашкортСофт: проект по сохранению башкирского языка

В рамках проекта поставлены следующие задачи: накопление параллельных обучающих корпусов данных, разработка методов искусственного расширения обучающих данных, внедрение структурно-функциональной модели морфем, а также создание программных средств обучения машинного переводчика на основе современных нейросетевых подходов — будет способствовать решению актуальных и значимых задач по сохранению, развитию и популяризации государственных языков в Республике Башкортостан, а также расширению присутствия башкирского языка в интернет-пространстве.

«Проект ориентирован и полезен для всех, кто работает с текстами на башкирском языке, с переводами. Онлайн-переводчик переводит большие тексты, есть отдельный раздел словарь, также есть озвучка текстов. Стали разрабатывать, так как нет онлайн-переводчиков с русского на башкирский, с башкирского на русский. На данный момент онлайн-переводчик работает в тестовом режиме, исправляем выявленные ошибки. Пока качество переводчика составляет где-то 70 процентов. Чем больше параллельных текстов, тем качественнее будет переводчик», — прокомментировала руководитель фонда Гульназ Юсупова.

На основе собранных в 2020 году параллельных данных произведено обучение ансамбля из 8 нейросетей, демонстрирующего наилучшее качество распознавания. Продолжается накопление и обработка материалов, доступных одновременно на башкирском и русском языке. Осуществлена обработка новостей на двух языках, опубликованных в 2021 году. Всего обработано более 14 тысяч интернет-страниц.

Озвученные диктором записи были проанализированы и обработаны экспертами. Итогом этой работы стала база данных, готовая для использования при обучении нейросетевого синтезатора башкирской речи. В общей сложности было выделено 19 892 предложения общей длительностью 40 часов.

На данный момент на сайте в режиме тестирования запущен синтез речи. Тестирование можно пройти через любой браузер, заранее обновив кеш, так как сайт может показывать старую версию сайта без иконки синтеза речи.

«Компьютерная программа, способная озвучить любой текст на башкирском языке голосом Наиля Юнусова, была создана благодаря поддержке Фонда по сохранению и развитию башкирского языка. Протестировать синтезатор могут все желающие на сайте русско-башкирского переводчика bashkortsoft.ru. Пользователям сайта доступна возможность послушать, как звучит перевод текста на башкирском языке», — прокомментировал один из разработчиков сайта Айдар Хусаинов.

Фонд по сохранению и развитию башкирского языка верит, что реализация проекта будет способствовать активному развитию информационных технологий в Республике Башкортостан и послужит паритетному функционированию государственных языков Республики Башкортостан.

Автор:Лейла Аралбаева
Автор:
Читайте нас: