Itinai.com beautiful russian high fashion sales representativ 59ba29bc fe25 43a5 bc68 5ce6ebe94a84 0
Itinai.com beautiful russian high fashion sales representativ 59ba29bc fe25 43a5 bc68 5ce6ebe94a84 0

Использование качественных данных для эффективного создания языковой модели белков.

 AMPLIFY: Leveraging Data Quality Over Scale for Efficient Protein Language Model Development

AMPLIFY: Использование качества данных вместо масштаба для эффективной разработки белковых языковых моделей

Практические решения и ценность:

Модели языка белков (pLMs), обученные на базах данных последовательностей белков, направлены на описание ландшафта приспособленности для прогнозирования свойств и задач дизайна. Увеличение масштаба этих моделей стало обычным, но это предполагает, что исходные базы данных точно отражают ландшафт приспособленности, что может быть не так. Понимание функций белков исторически было связано с прогнозированием структуры на основе физических моделей. Однако с развитием методов машинного обучения они оказались более эффективными в моделировании динамических поведений белков. Обрабатывая последовательности белков как естественный язык, pLMs могут выявлять структурные идеи, не полагаясь исключительно на базы данных структур, раскрывая более глубокие функциональные связи.

Исследователи из Chandar Lab, Mila и Amgen разработали AMPLIFY, эффективную pLM, которая значительно снижает затраты на обучение и внедрение по сравнению с предыдущими моделями. В отличие от крупномасштабных моделей, таких как ESM2 и ProGen2, AMPLIFY сосредотачивается на улучшении качества данных, а не на размере модели, достигая превосходной производительности с 43 раза меньшим количеством параметров. Команда оценила три стратегии — качество данных, количество и этапы обучения — выявив, что улучшение только качества данных может создать современные модели. AMPLIFY была открыта для общего доступа, включая свой исходный код, данные и модели, чтобы сделать разработку pLM более доступной.

Для данных валидации последовательностей pLM были созданы путем объединения последовательностей референтного протеома с последовательностями из пространства наблюдаемых антител (OAS) и базы данных структурной классификации белков (SCOP). Цель заключалась в обеспечении задачи-специфической валидации, особенно для областей, определяющих совместимость последовательностей антител и задач последовательность-структура. Высококачественные референтные протеомы были выбраны на основе их оценок полноты BUSCO, обеспечивая представительство в бактериях, археях и эукариотах. Последовательности без экспериментальной проверки или содержащие нестандартные аминокислоты были исключены. Окончательные наборы валидации включали 10 000 случайно выбранных последовательностей из каждого источника после кластеризации для уменьшения избыточности.

Для обучающих данных базы данных UniRef, OAS, SCOP и UniProt были обработаны для удаления последовательностей с неоднозначными аминокислотами и тех, похожих на последовательности валидационного набора. Обучающий набор данных специально использовал сопряженные тяжелые и легкие цепи антител, отформатированные с помощью токена разрыва цепи. Архитектура модели AMPLIFY включала недавние улучшения из крупных языковых моделей в обработке естественного языка, включая функцию активации SwiGLU и механизм внимания, эффективный с точки зрения памяти. Процесс оптимизации включал улучшенный AdamW и косинусный планировщик, с обучением, проводимым с более низкой точностью с использованием передовых техник, таких как DeepSpeed. Словарь был оптимизирован для лучшего учета многозвенных белков, а последовательности длиннее 512 остатков были усечены во время обучения для улучшения эффективности. После начального обучения длина контекста была увеличена до 2048 остатков, за которым последовали дополнительные этапы обучения для обеих моделей AMPLIFY.

Исследование сравнило влияние изменения размера pLM с факторами, такими как содержание, размер и длительность обучающего набора данных. Авторы улучшили свой набор данных валидации, используя последовательности из UniRef100, пары антител из OAS и домены SCOP, стремясь к более представительной выборке. Они обнаружили, что курирование данных значительно улучшает производительность модели, независимо от размера модели или длительности обучения. В отличие от предыдущих результатов, они заметили, что производительность улучшалась за пределами 500 тыс. обновлений, что указывает на важность использования разнообразных обучающих данных. Кроме того, более крупные модели рискуют переобучением, что указывает на необходимость регулярного повторного обучения для адаптации к изменяющемуся качеству и количеству данных.

Недавние достижения в области машинного обучения сосредоточены на масштабировании нейронных сетей, особенно в языковых моделях для текста и белков. Этот тренд делает обучение современных моделей запретно дорогим для многих исследователей, часто приводя к ограниченному доступу. Однако данное исследование предполагает, что экспертиза ученых по белкам может улучшить процесс курирования, обеспечивая конкурентоспособную производительность без необходимости масштабирования. Эффективное курирование зависит от общего понимания белков в сообществе, которое остается ограниченным. Исследование подчеркивает важность коллективной экспертизы и выступает за методы с открытым исходным кодом для облегчения итеративного курирования данных и разработки моделей, в конечном итоге способствуя терапевтическим достижениям.

Бесплатный ИИ: для автоматизации продаж

Умные продажи