Itinai.com it company office background blured photography by 9691e87f f228 4a59 b0d8 fbfbf8ecaad9 3
Itinai.com it company office background blured photography by 9691e87f f228 4a59 b0d8 fbfbf8ecaad9 3

Модель Google AI для анализа звуков здоровья: помощь в поиске признаков заболеваний.

 Google AI Presents Health Acoustic Representations (HeAR): A Bioacoustic Foundation Model Designed to Help Researchers Build Models that Can Listen to Human Sounds and Flag Early Signs of Disease

«`html

Здоровые акустические данные в медицинском машинном обучении

Звуки, такие как кашель и дыхание, содержат ценную информацию о здоровье, которую необходимо более широко использовать в медицинском машинном обучении. Существующие модели глубокого обучения для этих акустических данных часто ориентированы на конкретные задачи, что ограничивает их обобщаемость. Несемантические атрибуты речи могут помочь в распознавании эмоций и выявлении заболеваний, таких как болезнь Паркинсона и болезнь Альцгеймера. Недавние достижения в области самообучения обещают обеспечить моделям возможность извлекать надежные, общие представления из больших неразмеченных данных. В то время как самообучение прогрессирует в областях, таких как зрение и язык, его применение к здоровым акустическим данным остается практически неизученным.

HeAR: масштабируемая система глубокого обучения

Исследователи из Google Research и Центра исследования инфекционных заболеваний в Замбии разработали HeAR, масштабируемую систему глубокого обучения, основанную на самообучении. HeAR использует маскированные автокодировщики, обученные на массивном наборе данных из 313 миллионов двухсекундных аудиофрагментов. Модель устанавливает себя как передовую в области встраивания звуков здоровья, превосходящую другие модели в 33 задачах по здоровым акустическим данным из 6 наборов данных. Низкоразмерные представления HeAR, полученные из самообучения, обладают сильной переносимостью и обобщением на данные, не входящие в распределение, превосходя существующие модели в функциях, таких как обнаружение звуков здоровья, вывод кашля и спирометрия в различных наборах данных.

Применение самообучения в здоровых акустических данных

Самообучение стало ключевым подходом для разработки общих представлений из больших неразмеченных наборов данных. Различные методы самообучения, такие как контрастные (SimCLR, BYOL) и генеративные (MAE), значительно продвинулись, особенно в обработке аудио. Недавние успехи в аудиоэнкодерах на основе самообучения, таких как Wav2vec 2.0 и AudioMAE, значительно улучшили обучение речевых представлений. В то время как неречевое самообучение, такое как TRILL и FRILL, получило некоторое развитие, неречевые здоровые акустические данные все еще нуждаются в исследовании. Это исследование представляет генеративную систему самообучения (MAE), сфокусированную на неречевых здоровых акустических данных, с целью улучшения обобщения в задачах мониторинга здоровья и выявления заболеваний.

Компоненты HeAR

HeAR состоит из трех основных компонентов: курирование данных (включая детектор звуков здоровья), общего обучения для разработки аудиоэнкодера и оценки задач, используя обученные встраивания. Система кодирует двухсекундные аудиофрагменты для генерации встраиваний для последующих задач. Детектор звуков здоровья, сверточная нейронная сеть, идентифицирует шесть неречевых звуков здоровья, таких как кашель и дыхание. HeAR обучен на большом наборе данных (YT-NS) из 313,3 миллионов аудиофрагментов с использованием маскированных автокодировщиков. Он прошел проверку на различных задачах по звукам здоровья, продемонстрировав превосходную производительность по сравнению с передовыми аудиоэнкодерами, такими как TRILL, FRILL и CLAP.

Результаты и перспективы

HeAR превзошел другие модели в 33 задачах на шести наборах данных, достигнув самого высокого среднего рангового коэффициента (0,708) и заняв первое место в 17 задачах. В то время как CLAP преуспел в обнаружении звуков здорья (MRR=0,846), HeAR занял второе место (MRR=0,538), не используя FSD50K для обучения. Производительность HeAR снизилась с увеличением длины последовательностей, вероятно из-за его фиксированных синусоидальных позиционных кодировок. HeAR последовательно превосходил базовые показатели в нескольких категориях для вывода кашля и задач спирометрии, демонстрируя устойчивость и минимальное изменение производительности при использовании различных устройств записи, особенно в сложных наборах данных, таких как CIDRZ и SpiroSmart.

Заключение

Исследование представило и оценило систему HeAR, объединяющую детектор звуков здоровья и обучение аудиоэнкодера на основе генеративного самообучения, обученного на YT-NS без кураторства экспертов. Система продемонстрировала высокую производительность в задачах по звукам здоровья, таких как классификация туберкулеза по звукам кашля и мониторинг функции легких с помощью аудио смартфона. Модель самообучения HeAR оказалась эффективной, несмотря на ограниченные данные, проявив устойчивость при использовании различных устройств записи. Однако требуется дальнейшая валидация, особенно учитывая предвзятость наборов данных и ограничения обобщения. Будущие исследования должны исследовать тонкую настройку модели, обработку на устройстве и устранение предвзятости.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи