Методы расчёта свободной энергии
Молекулярный докинг
МД позволяет в динамике пронаблюдать за связыванием лиганда с ферментом и оценить его силу, однако, применение этого метода невозможно для оценки энергии связывания большого числа молекул-кандидатов в силу значительной вычислительной сложности. Однако, сделав разумные допущения можно прийти к новому методу — молекулярному докингу1.
1 от англ. docking — стыковка
Описание метода
В докинге не делается попытки физичного описания процесса связывания, напротив, от моделирования процесса в динамике переходят к оценке энергии связывания конкретных конформаций молекулы и белка. В простейшем (и самом распространённом) случае, взаимодействие происходит по механизму «дыбы», т.е. моделируется связывание конформационно гибкого лиганда с жёстко фиксированной конформацией белка, называемой рецептором (случае поиск производится по 6ти степеням свободы лиганда: 3м вращательным и 3м поступательным).
Докинг включает 2 этапа: а) генерацию поз (разных конформаций и положений лиганда) вблизи центра связывания (задача семплинга2 или обхода ФП) и б) их упорядочивание по силе связывания (задача оценки силы связывания, или скоринг3). Программы для докинга для каждой молекулы предлагают несколько поз связывания, упорядоченных по его силе, в ~80% случаев поза с самым сильным предсказанным связыванием (скором4) точно совпадает с положением лиганда в кристалле (\(\rm{RMSD} < 2 \; \AA\)) [1]; первые несколько предложенных поз в ~90% содержат экспериментальное положение лиганда.
2 от англ. sampling — выборка, отбор проб
3 от англ. scoring — подсчёт, оценивание
4 от англ. score — оценка, рейтинг
В приведённой выше формулировке для осуществления докинга необходима пространственная структура фермента и знание о положении центра связывания. Информацию о центрах связывания обычно получают из пространственных структур белок—лиганд, иначе эта информация может быть получена анализом гомологичных и аналогичных белков или с помощью программ поиска карманов и полостей на поверхности белка, например, CB-Dock
[2]. Указание положения центров связывания значительно улучшает качество докинга, тем не менее, докинг можно проводить и без этого, этот вариант называется «слепой докинг5. Если экспериментальные структуры белка недоступны, могут использоваться in silico методы их предсказания, например, AlphaFold
[3].
5 от англ. blind docking
Семплинг
Задачу обхода фазового пространства белок—лиганд решают алгоритмы семплинга, которые можно разделить на 3 класса: геометрические6, «из фрагментов»7 и стохастические.
6 англ. matching
7 англ. fragment-based
- Геометрические методы
-
используют фармакофорное8 представление молекул лиганда и белка: рассчитывается матрица расстояний между фармакоформами в белке и лиганде, затем эти расстояния используется как эталонные при генерации различных конформаций лиганда. Преимуществом этого метода является крайняя простота, что позволяет его использование на самых ранних этапах докинга при проверке огромных библиотек химических соединений.
8 обобщённое представление групп атомов: полярный или неполярный, положительно или отрицательно заряженный, крупный или небольшой
- Методы «из фрагментов»
-
конструируют позу путём последовательного построение её из функциональных фрагментов, т.е. молекула лиганда изначально разбивается на части, например, по связям со свободным вращением, полученные фрагменты независимо сопоставляются с разными частями рецептора, затем разорванные связи соединяются образуя молекулу в новой конформации. В разных вариациях этого подхода могут генерироваться не только новые конформации, но и молекулы de novo из заданных функциональных фрагментов. Также во внимание могут приниматься специфические взаимодействия, например, водородные и гидрофобные.
- Стохастические методы
-
строят новые конформации через модификации существующих путём трансляций, вращений в т.ч. вокруг простых связей, затем для каждой конформации рассчитывается энергия напряжения и происходит отсев слишком деформированных структур. В методе Монте-Карло валидные конформации являются затравкой для создания новой через случайные деформации. Конформации генерируются до тех пор, пока их число не достигнет какого-то заданного значения. Другой класс методов построен на генетических алгоритмах, основанных на дарвиновской теории эволюции: степени свободы молекулы представляются в виде одномерного набора чисел (аналог генома), случайные мутации в которых приведут к появлению новой конформации; на каждом шаге алгоритм генерирует ансамбль (популяцию) из нескольких мутантов и даже проводит над нами кроссинговер (обмен участками генома), затем оценивается сила связывания и напряжение (фенотип), конформации делятся на «приспособленные» к рецептору (внешней среде) и «неприспособленные», последние отбрасываются, оставшиеся используются для генерации нового поколения.
Скоринг
Скоринг функции решают задачу оценки «качества» сгенерированной позы. Отметим 3 класса скоринг функций.
- Основанные на силовых полях,
-
в которых сила взаимодействия определяется суммированием попарных взаимодействий атомов (\(i\) и \(j\)) согласно аналитическому выражению потенциала
\[ \begin{multline} U = W_\t{vdw} \sum_{i,j} \left\{ \dfrac{A_{i,j}}{r_{i,j}^{12}} - \dfrac{B_{i,j}}{r_{i,j}^6} \right\} + W_h \sum_{i,j} \left\{ \dfrac{C_{i,j}}{r_{i,j}^{12}} - \dfrac{D_{i,j}}{r_{i,j}^{10}} \right\} + \\ + W_\t{elec} \sum_{i,j} \dfrac{q_i q_j}{\epsilon(r_{i,j}) r_{i,j}} + W_\t{sol} \sum_{i,j} (S_i V_j + S_J V_i) \exp \dfrac{-r_{i,j}^2}{2 \sigma^2}, \end{multline} \tag{7.1}\] куда входят эмпирические коэффициенты \(W_\t{vdw}\), \(W_h\), \(W_\t{elec}\) и \(W_\t{sol}\) для описания соответственно вандерваальсовых, водородных, электростатических и сольватационных взаимодействий;
- Эмпирические [4,5],
-
основанные на различных допущениях и численных аппроксимациях, например, для энергии связывания \[ \begin{multline} \Delta G = \Delta G_0 + \Delta G_\t{rot} \cdot N_\t{rot} + \\ + \Delta G_h \sum f(\Delta R, \Delta \alpha) + \Delta G_i \sum f (\Delta R, \Delta \alpha) + \Delta_\t{ar} G \sum f(\Delta R, \Delta \alpha) + \\ + \Delta G_\t{lip} f^* (\Delta R), \end{multline} \tag{7.2}\] где \(\Delta G_\t{rot}\), \(\Delta G_h\), \(\Delta G_i\), \(\Delta G_\t{ar}\), \(\Delta G_\t{lip}\) и \(\Delta G_0\) — соответственно коэффициенты регрессии для вкладов вращения простых связей, водородных и электростатических взаимодействие, ароматических и неполярных групп, свободного члена; \(N_\t{rot}\) — число связей со свободным вращением; суммирование ведётся по соответствующему типу взаимодействий; \(f\) — штраф за отклонение от оптимального расстояния \(\Delta R\) и угла \(\Delta \alpha\) взаимодействия, \(f^*\) — штраф с поправкой на один аргумент;
- Статистические [6],
-
основанные на апостериорной вероятности различного типа межатомных взаимодействий: из базы данных кристаллических структур извлекается информация о частотах взаимодействия между атомами белка типа \(i\) и атомами лиганда типа \(j\), свободная энергия рассчитывается исходя из эмпирического распределения: \[ F = - k T \int_{0}^{r_{\max}} \sum_{i,j} \ln \left\{f(r) \dfrac{ \rho_{i,j}(r) }{ \rho_{i,j} } \right\} \dd r, \tag{7.3}\] где \(f_j\) — некоторая функция, зависящая от расстояния, \(r_{\max}\) — радиус отсечения, \(\rho_{i,j}(r)\) — эмпирическое число взаимодействий между соответствующими атомами на расстоянии \(r\); \(\rho_{i,j}\) — некоторая нормировка. К достоинствам этого метода можно отнести вычислительную простоту и то, что он позволяет учесть весьма специфические взаимодействия (например, \(\pi\)-катионные), которые в других подходах требовалось бы учитывать явно.