Cозданная нейросетью система CRISPR-Cas9 отредактировала геном человеческих клеток

Али Мадани (Ali Madani) с коллегами из компании Profluent представили первый нейросетевой инструмент для создания полностью искусственных систем редактирования генома CRISPR-Cas9. Одну из них успешно испытали на человеческих клетках и выложили в открытый доступ.

В Profluent задействовали большую языковую модель (LLM) ProGen2, созданную ими ранее для нейросетевого дизайна белковых молекул. Для этого они провели систематический сбор данных среди 26,2 трлн пар оснований собранных микробных геномов и метагеномов из разных родов и биомов. Это позволило выявить почти 1 млн с четвертью оперонов CRISPR-Cas разных типов (самый большой их датасет в настоящее время, названный CRISPR-Cas Atlas), включающих эндонуклеазы Cas, последовательности CRISPR, транс-активирующие CRISPR-РНК (tracrРНК) и прилежащие к протоспейсеру мотивы (PAM).

После этого языковую модель на основе ProGen2 настроили на работу с CRISPR-Cas Atlas и с её помощью сгенерировали 4 млн последовательностей, сбалансированных по семействам белков и размеру кластеров. Их распределили по типам CRISPR-Cas и отсеяли заведомо нефункциональные варианты с помощью инструментов BLAST и HMM. Сопоставление с природными CRISPR-Cas с помощью MMseqs2 показало, что сгенерированные последовательности расширили разнообразие в 4.8 раза. Большинство этих последовательностей совпадали с ближайшей природной лишь на 40–60%, однако их конформация, рассчитанная AlphaFold 2, оказалась близкой, что свидетельствовало о потенциальной функциональности. Дальнейшие эксперименты с избранным количеством последовательностей и более точными инструкциями для модели позволили получить разнообразные полноценные эффекторы CRISPR-Cas II типа с совместимыми гидовыми РНК (гРНК).

Чтобы получить Cas9-подобные белки для экспериментальной характеризации, исследователи применили ограниченную стратегию генерирования с использованием либо N-концевых, либо C-концевых последовательностей природного SpCas9, чтобы обеспечить аналогичную с ним совместимость с PAM и гРНК. Для функционального анализа выбрали 209 сгенерированных Cas9-подобных белков. Содержащими их плазмидами и плазмидами с гРНК SpCas9, нацеленными на три известных участка ДНК, трансфицировали человеческие клетки иммортализованной линии HEK293T. Часть Cas9-подобных белков продемонстрировала эффективность, сопоставимую с или превосходящую SpCas9. После этого аналогичный опыт провели с использованием 48 полностью (включая N-концевые и C-концевые последовательности) сгенерированных Cas9-подобных белков, и многие из них показали высокую эффективность и специфичность.

Наилучший из них — PF-CAS-182 — по он-таргетной эффективности был сопоставим с SpCas9, обладая при этом гораздо большей специфичностью (уровень офф-таргетного редактирования ниже на 95%). Его последовательность совпадала с SpCas9 на 71.7%. После успешных испытаний на широком спектре геномных мишеней этот белок назвали OpenCRISPR-1 и выложили его последовательность в открытый доступ. Более того, OpenCRISPR-1 совместили со сгенерированными языковой моделью адениндеаминазами и получили функциональную систему редактирования азотистых оснований, эффективно заменяющую аденин на гуанин в заданных участках ДНК.


Источник: N+1

Дата публикации: 25.04.2024

Первоисточник: bioRxiv.org