
«`html
Здоровые акустические данные в медицинском машинном обучении
Звуки, такие как кашель и дыхание, содержат ценную информацию о здоровье, которую необходимо более широко использовать в медицинском машинном обучении. Существующие модели глубокого обучения для этих акустических данных часто ориентированы на конкретные задачи, что ограничивает их обобщаемость. Несемантические атрибуты речи могут помочь в распознавании эмоций и выявлении заболеваний, таких как болезнь Паркинсона и болезнь Альцгеймера. Недавние достижения в области самообучения обещают обеспечить моделям возможность извлекать надежные, общие представления из больших неразмеченных данных. В то время как самообучение прогрессирует в областях, таких как зрение и язык, его применение к здоровым акустическим данным остается практически неизученным.
HeAR: масштабируемая система глубокого обучения
Исследователи из Google Research и Центра исследования инфекционных заболеваний в Замбии разработали HeAR, масштабируемую систему глубокого обучения, основанную на самообучении. HeAR использует маскированные автокодировщики, обученные на массивном наборе данных из 313 миллионов двухсекундных аудиофрагментов. Модель устанавливает себя как передовую в области встраивания звуков здоровья, превосходящую другие модели в 33 задачах по здоровым акустическим данным из 6 наборов данных. Низкоразмерные представления HeAR, полученные из самообучения, обладают сильной переносимостью и обобщением на данные, не входящие в распределение, превосходя существующие модели в функциях, таких как обнаружение звуков здоровья, вывод кашля и спирометрия в различных наборах данных.
Применение самообучения в здоровых акустических данных
Самообучение стало ключевым подходом для разработки общих представлений из больших неразмеченных наборов данных. Различные методы самообучения, такие как контрастные (SimCLR, BYOL) и генеративные (MAE), значительно продвинулись, особенно в обработке аудио. Недавние успехи в аудиоэнкодерах на основе самообучения, таких как Wav2vec 2.0 и AudioMAE, значительно улучшили обучение речевых представлений. В то время как неречевое самообучение, такое как TRILL и FRILL, получило некоторое развитие, неречевые здоровые акустические данные все еще нуждаются в исследовании. Это исследование представляет генеративную систему самообучения (MAE), сфокусированную на неречевых здоровых акустических данных, с целью улучшения обобщения в задачах мониторинга здоровья и выявления заболеваний.
Компоненты HeAR
HeAR состоит из трех основных компонентов: курирование данных (включая детектор звуков здоровья), общего обучения для разработки аудиоэнкодера и оценки задач, используя обученные встраивания. Система кодирует двухсекундные аудиофрагменты для генерации встраиваний для последующих задач. Детектор звуков здоровья, сверточная нейронная сеть, идентифицирует шесть неречевых звуков здоровья, таких как кашель и дыхание. HeAR обучен на большом наборе данных (YT-NS) из 313,3 миллионов аудиофрагментов с использованием маскированных автокодировщиков. Он прошел проверку на различных задачах по звукам здоровья, продемонстрировав превосходную производительность по сравнению с передовыми аудиоэнкодерами, такими как TRILL, FRILL и CLAP.
Результаты и перспективы
HeAR превзошел другие модели в 33 задачах на шести наборах данных, достигнув самого высокого среднего рангового коэффициента (0,708) и заняв первое место в 17 задачах. В то время как CLAP преуспел в обнаружении звуков здорья (MRR=0,846), HeAR занял второе место (MRR=0,538), не используя FSD50K для обучения. Производительность HeAR снизилась с увеличением длины последовательностей, вероятно из-за его фиксированных синусоидальных позиционных кодировок. HeAR последовательно превосходил базовые показатели в нескольких категориях для вывода кашля и задач спирометрии, демонстрируя устойчивость и минимальное изменение производительности при использовании различных устройств записи, особенно в сложных наборах данных, таких как CIDRZ и SpiroSmart.
Заключение
Исследование представило и оценило систему HeAR, объединяющую детектор звуков здоровья и обучение аудиоэнкодера на основе генеративного самообучения, обученного на YT-NS без кураторства экспертов. Система продемонстрировала высокую производительность в задачах по звукам здоровья, таких как классификация туберкулеза по звукам кашля и мониторинг функции легких с помощью аудио смартфона. Модель самообучения HeAR оказалась эффективной, несмотря на ограниченные данные, проявив устойчивость при использовании различных устройств записи. Однако требуется дальнейшая валидация, особенно учитывая предвзятость наборов данных и ограничения обобщения. Будущие исследования должны исследовать тонкую настройку модели, обработку на устройстве и устранение предвзятости.
«`