
«`html
Самообучение (SSL) расширило возможности речевых технологий для многих языков, минимизируя необходимость размеченных данных. Однако текущие модели поддерживают только 100-150 из более чем 7 000 языков мира. Ограничение это в основном связано с дефицитом транскрибированной речи, так как лишь около половины этих языков имеют формальные письменные системы, и еще меньше из них имеют ресурсы для создания обширных размеченных данных, необходимых для обучения. Проекты, такие как MMS, расширили охват до более чем 1 000 языков, но нуждаются в помощи в обработке шума данных и отсутствии разнообразных условий записи.
Решение:
Исследователи из Университета Карнеги-Меллон, Шанхайского Хяотунского университета и Технологического института Тойоты в Чикаго разработали XEUS, межъязыковый кодировщик для универсальной речи. XEUS обучен на более чем 1 миллионе часов данных из 4 057 языков, значительно увеличивая охват языков для моделей SSL. Он включает новый корпус из 7 413 часов из 4 057 языков, который будет общедоступен. XEUS использует новую цель дереверберации для улучшения устойчивости. Он превосходит современные модели в различных бенчмарках, включая ML-SUPERB. Для поддержки дальнейших исследований исследователи выпустят XEUS, его код, конфигурации обучения, контрольные точки и журналы обучения.
Практическое применение:
SSL продвинуло обработку речи, позволив нейронным сетям учиться на больших объемах неразмеченных данных, которые затем могут быть донастроены для различных задач. Мультиязычные модели SSL могут использовать межъязыковое обучение передачи, но охватывают лишь несколько языков. XEUS, однако, охватывает 4 057 языков, превосходя модели, такие как MMS. XEUS включает новую цель дереверберации во время обучения для обработки шумной и разнообразной речи. В отличие от современных моделей, которые часто используют закрытые наборы данных и лишены прозрачности, XEUS полностью открыт, с общедоступными данными, кодом обучения и обширной документацией, способствуя дальнейшим исследованиям масштабного мультиязычного SSL.
Значимость:
XEUS представляет собой надежный кодировщик речи SSL, обученный на более чем 1 миллионе часов данных из 4 057 языков, демонстрируя превосходную производительность в широком спектре мультиязычных и низкоресурсных задач. Задача дереверберации XEUS улучшает его устойчивость, и несмотря на ограниченные данные для многих языков, он все равно предоставляет ценные результаты. XEUS продвигает мультиязычные исследования, предлагая открытый доступ к своим данным и модели. Однако этические соображения имеют важное значение, особенно при обработке речевых данных от коренных сообществ и предотвращении злоупотребления, такого как создание аудио-дипфейков. Интеграция XEUS с доступными платформами направлена на демократизацию разработки речевых моделей.
Проверьте статью, набор данных и модель. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему Telegram-каналу и группе LinkedIn.
Если вам понравилась наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему подпишитесь на наш SubReddit.
«`