
«`html
BiomedGPT: универсальная модель на основе трансформеров для биомедицинского ИИ с улучшенными мультимодальными возможностями и производительностью
Традиционные биомедицинские модели ИИ часто специализированы и требуют большей гибкости, что делает их менее эффективными для реальных приложений, требующих интеграции различных типов данных. Универсальные модели ИИ, особенно на основе трансформеров, предлагают универсальное решение, обрабатывая текстовые и визуальные данные. Эти модели могут оптимизировать сложные задачи, такие как интерпретация радиологии и клиническое резюмирование, преодолевая ограничения узких, задачно-специфичных систем. В отличие от многих биомедицинских моделей, которые громоздки и закрытого исходного кода, универсальные модели могут упростить развертывание и управление, объединяя несколько функций в единую систему, улучшая эффективность и адаптивность в медицинских установках.
BiomedGPT: инновационная модель для биомедицинских задач
Исследователи из Университета Лихай и других учреждений представляют BiomedGPT, открытую, легковесную модель основанную на визио-языковой основе, разработанную для различных биомедицинских задач. BiomedGPT достиг выдающихся результатов в 16 из 25 экспериментов, сохраняя при этом удобный масштаб моделирования. Человеческие оценки показали надежную производительность в радиологическом вопросно-ответном визуальном тестировании, генерации отчетов и резюмировании, с низкими показателями ошибок и конкурентоспособной способностью к резюмированию. BiomedGPT, обученный на разнообразных междисциплинарных данных, демонстрирует эффективные возможности передачи и обучения без примеров. Несмотря на свой потенциал, требуются дальнейшие улучшения для клинического развертывания, особенно в области безопасности, равенства и учета предвзятости.
Архитектура и возможности BiomedGPT
BiomedGPT использует архитектуру кодировщик-декодер, включающую декодер в стиле BERT и GPT, поддерживающую мультимодальные задачи с улучшенной сходимостью через многоголовое внимание и нормализацию. Модель поставляется в трех размерах (BiomedGPT-S, M и B) и обрабатывает входные данные через единый словарь токенов для текста и изображений. Она проходит предварительное обучение смешанными задачами видения и текста, донастраивается на конкретных наборах данных. Оцениваясь с использованием точности, F1-оценки и ROUGE-L, возможности BiomedGPT включают расширение 3D-изображений и настройку инструкций для задач без примеров.
Применение и результаты BiomedGPT
BiomedGPT использует маскированное моделирование и надзорное обучение во время предварительного обучения, используя 14 разнообразных наборов данных для построения сильных представлений данных. Модель доступна в трех размерах: маленьком (BiomedGPT-S), среднем (BiomedGPT-M) и базовом (BiomedGPT-B). BiomedGPT был адаптирован для нескольких биомедицинских приложений во время донастройки, включая классификацию медицинских изображений, понимание текста, резюмирование, подписывание изображений и визуальное вопросно-ответное тестирование (VQA). Эти приложения направлены на улучшение диагностики заболеваний, клинической документации и разработки чат-ботов для здравоохранения.
В ходе оценок производительности BiomedGPT превзошел другие модели в различных мультимодальных задачах. Он достиг 86,1% точности в VQA на наборе данных SLAKE, превзойдя предыдущий выдающийся результат. BiomedGPT превзошел предыдущие модели в классификации медицинских изображений на семи из девяти наборов данных MedMNIST-Raw. Для понимания текста и резюмирования BiomedGPT-B продемонстрировал превосходные результаты по сравнению с BioGPT и LLaVA-Med. Модель также показала эффективные возможности для задач без примеров в биомедицинском VQA и генерации отчетов, хотя здесь все еще есть потенциал для улучшения. Человеческие оценки производительности BiomedGPT в радиологии указали на высокую точность и конкурентоспособные результаты в генерации радиологических отчетов и резюмировании.
Вызовы и перспективы BiomedGPT
Исследование демонстрирует, что BiomedGPT достигает сильной производительности в передаче знаний в области видения, языка и мультимодальных областей, интегрируя разнообразные биомедицинские данные в единую структуру. Однако существуют вызовы, такие как необходимость высококачественных аннотированных биомедицинских данных и риск негативной передачи при расширении на новые типы данных, такие как 3D-изображения. Оценка сгенерированного текста остается сложной, с появлением метрик, таких как оценка F1-RadGraph, помогающей оценить фактическую точность. Хотя масштабирование улучшает производительность, оно также вносит эффективность и обучающие вызовы. Возможности BiomedGPT, особенно в сценариях без примеров, ограничены текущими ресурсами и стратегиями обучения, хотя донастройка показывает перспективу.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему Telegram-каналу и группе LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему сообществу AI SubReddit с более чем 48 тысячами подписчиков.
Найдите предстоящие вебинары по ИИ здесь.
Arcee AI выпустила DistillKit: открытый инструмент для упрощения модельного сжатия для создания эффективных малых языковых моделей.