- Категория
- IT и Телеком
- Дата публикации
- Переключить язык
- Читати українською
В Google переводчики появятся 110 новых языков, включая крымскотатарский
Компания Google сделала наибольшее расширение в истории своего сервиса перевода Google Translate, добавив 110 новых языков, включая крымскотатарский. Для этого компания использовала обширную языковую модель искусственного интеллекта PaLM 2.
Об этом сообщает пресс-служба Google.
Мы постоянно внедряем новейшие технологии, чтобы больше людей имели доступ к этому инструменту: в 2022 году мы добавили 24 новых языка, используя подход Zero-Shot Machine Translation, где модель машинного обучения учится переводить на другой язык, даже если не видит примера. Мы также анонсировали инициативу „1000 языков“, которая предполагает создание моделей искусственного интеллекта, которые будут поддерживать 1000 самых распространенных языков мира», – отмечают в Google.
Поддержка перевода для более чем полмиллиарда человек
На языках от кантонского до кекчи говорят более 614 миллионов носителей, что открывает доступ к переводу для около 8% населения мира. Некоторые из этих языков являются одними из крупнейших мировых языков с более чем 100 миллионами носителей. На других языках говорят небольшие общины коренных народов, а некоторые почти не имеют носителей языка, но продолжаются активные усилия по их возрождению. Около четверти новых языков происходят из Африки, которая является нашим крупнейшим расширением африканских языков на сегодняшний день, в частности, фон, киконго, луо, га, сваты, венда и волоф.
Вот некоторые из новых языков, которые будут поддерживаться в переводчиках Google:
- Афар – это тональный язык, на котором говорят в Джибуте, Эритрее и Эфиопии. Из всех языков, запущенных на этот раз, афар вносила наибольший вклад от сообщества волонтеров.
- Кантонский язык уже давно является одним из самых запрашиваемых языков для Google Переводчика. Но есть определенные сложности, поскольку на письме она часто пересекается с мандаринским, что затрудняет поиск данных и обучение моделей.
- Крымскотатарский язык – тюркский язык, родной язык крымских татар. Сегодня крымскотатарский язык относится к языкам, требующим дополнительной защиты по классификации UNESCO. В январе 2023 года в Украине была создана Национальная комиссия по вопросам крымскотатарского языка, которая должна ее защищать.
- Менский – это кельтский язык острова Мэн. Она почти исчезла со смертью последнего носителя языка в 1974 году. Но благодаря движению по возрождению языка на острове, сейчас на нем говорят тысячи людей.
- НКО - это стандартизированная форма западноафриканских языков мандинка, объединяющая много диалектов в один общий язык. Ее уникальный алфавит был изобретен в 1949 году, и сегодня она имеет активное исследовательское сообщество, разрабатывающее для него ресурсы и технологии.
- Панджаби (Шахмукхи) – это разновидность панджаби, пишущегося персидско-арабским письмом (шахмукхи), и является самым распространенным языком в Пакистане.
- Тамазигский (амазигский ) - это берберский язык, на котором говорят в Северной Африке. Хотя существует много диалектов, письменная форма, как правило, взаимопонятна. Она пишется латинским письмом и тифинагом, оба из которых поддерживает Google Переводчик.
- Ток-писин – это креольский язык на основе английского и язык межнационального общения Папуа-Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести на ток-писин – возможно, вы сможете понять значение!
Как выбирают новые языки
Как сообщают в Google, существует много факторов, которые учитывают, добавляя новые языки к переводчику.
"Наш подход состоит в том, чтобы придавать приоритет наиболее употребляемым разновидностям каждого языка. Например, ромский язык имеет много диалектов по всей Европе. Наши модели создают текст, наиболее близкий к южно-влахскому ромскому, разновидности, который широко используется в Интернете. Но он также содержит элементы других диалектов, таких как северо-влахская и балканская ромская", - объясняют в компании .
Отмечается, что PaLM 2 является ключевым элементом головоломки, который помогает переводчику эффективнее изучать языки, тесно связанные друг с другом, в частности языки, близкие к хинди, например авадхи и марвади. В компании обещают, что в будущем сервис будет поддерживать больше языковых разновидностей и правил правописания.
Напомним, недавно Google анонсировал новую опцию "Прослушать эту страницу", позволяющую пользователям прослушивать веб-страницы вслух в браузере Android Chrome. Эта функция включает элементы управления воспроизведением, подобные тем, которые используются в музыкальных или подкастовых проигрывателях.