Реферат на тему:


Воспользуйтесь поиском к примеру Реферат        Грубый поиск Точный поиск






Загрузка...
НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК УКРАИНЫ

НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК УКРАИНЫ

Институт биоорганической химии и нефтехимии

Ковалишин Василий Владимирович

УДК 544.165 + 519.688

Прогнозирование биологической активности соединений ЗА ИХ

пространственное строение МЕТОДОМ искусственных нейронных сетей

02.00.10-биоорганическая химия

работа

диссертации на соискание ученой степени

кандидата химических наук

Киев - 2001

Актуальность темы исследования.

Работа выполнена в Институте биоорганической химии и нефтехимии НАН Украины.

Научные руководители: член-корреспондент НАН Украины,

доктор медицинских наук, профессор О.И.Луйк

кандидат химических наук Тетко Игорь Владимирович

Институт биоорганической химии и нефтехимии НАН Украины,

старший научный сотрудник

Официальные оппоненты: доктор химических наук, профессор

Ильченко Андрей Яковлевич

Институт органической химии НАН Украины

ведущий научный сотрудник

доктор физико-математических наук, профессор

Макаренко Александр Сергеевич

Научно - учебный комплекс & ldquo; Институт прикладного системного анализа & rdquo; НАН Украины и Минобразования Украины, доцент кафедры математических методов системного анализа

Ведущая организация: Физико химический институт им. А. В. Богатского НАН Украины, отдел молекулярной структуры., Г. Одесса

Защита состоится & ldquo; 30 & rdquo; Ноябрь 2001 в 10 час. на заседании диссертационного совета Д 26.220.01 в Институте биоорганической химии и нефтехимии НАН Украины (02094, Киев, ул. Мурманская, 1).

С диссертацией можно ознакомиться в библиотеке Института биоорганической химии и нефтехимии НАН Украины (02004, Киев, ул. Мурманская, 1).

Автореферат разослан & ldquo; 30 & rdquo; Октябрь 2001

Ученый секретарь

диссертационного совета Д.М.Федоряк

Общая характеристика Работы

Актуальность темы. Поиск связи между активныеистю различных лекарственных препаратов и структурой молекул является одной из наиболее важных задач современной медицинской химии. В большинстве случаев открытия новой биологически активного соединения в настоящее время является результатом эмпирического скрининга десятков тысяч новых соединений. Несмотря на большие усилия, направленные на изучение механизма действия биологически активных веществ на живые организмы, исследования в этой области пока не дали желаемых результатов. Создание новых лекарственных препаратов требует больших затрат как человеческих, так и материальных ресурсов. Поэтому поиск и использование методов, позволяющих уменьшить эти затраты, является одним из важных направлений исследования при конструировании новых физиологически активных веществ. Актуальность данного исследования определяется интенсивным использованием биологически активных соединений в различных сферах жизнедеятельности человека и необходимостью разработки наиболее оптимальных подходов для прогнозирования их активности и целенаправленного синтеза новых веществ.

Фундаментальные исследования в области изучения количественного связи структура - активность (КЗСА) базируются на комбинированном применении методов теоретической и экспериментальной химии и достижений в области искусственного интеллекта. За последнее десятилетие быстрого развитие получили трехмерные (3D) методы поиска КЗСА, учитывающие пространственную структуру молекулы. Основное внимание в этих методах уделяется выявлению фармакофорные структур, детерминирующих селективность воздействия на рецепторы, определению геометрии биологически активных веществ и моделированию межмолекулярных комплексов. Существует достаточно большое количество методов и моделей для выявления 3D-КЗСА. Использование методов распознавания образов всегда является одним из ключевых этапов при исследовании связи структура - активность. Среди методов распознавания образов, чаще всего применяются для решения пространственных задач, можно отметить метод частичных наименьших квадратов (ЧНК), генетические алгоритмы, метод k-ближайших соседей и методы искусственных нейронных ереж (ИНС). Однако количество публикаций, посвященных использованию этих методов, за исключением ЧНК, очень ограничено. Хотя следует отметить, что использование ИНС является одним из наиболее перспективных подходов для решения задач 3D-КЗСА, поскольку они имеют значительные преимущества перед ЧНК. Эти методы успешно использовались для решения задач распознавания рукописных символов, языка, фильтрации отображения от шума и др. Однако непосредственно применять методы ИНС для решения проблем 3D-КЗСА невозможно, поскольку необходимо анализировать большое количество входных признаков. Скорость обучения ИНС уменьшается пропорционально m или даже m2 (где m - количество входных признаков), поэтому прямое использование ИНС для анализа пространственной структуры молекул, характеризующихся тысячами или десятками тысяч признаков, приведет к длительным вычислений.

В связи с вышеизложенным, актуальной является разработка новых методов основанных на моделях ИНС и способных анализировать большие массивы структурной информации о соединениях без существенной потери надежности модели.

Связь работы с научными программами, планами, темами. Данная работа является развитием исследований в области конструирования новых физиологически активных веществ и анализа связи структура - активность химических соединений.

Работа выполнялась в соответствии с тематикой отдела медико-биологических исследований ИБОНХ НАН Украины (тема № 2.1.10.18 (36) -95 № гос. Регистрации 0195U025780) и международного проекта INTАS - Украина (грант INTAS-UA 95-0060). < / p>

Цель и задачи исследования. Цель работы заключалась в создании принципиально нового метода компьютерного прогнозирования физиологической активности веществ, исходя из их пространственного строения.

Основные задачи исследования:

1) Создать алгоритм обучения ИНС для анализа данных большой размерности.

2) Разработать методы для поиска зон вокруг молекул, отвечающих за активность соединений, и расчетного прогнозирования физиологического действия веществ, исходя из их химической структуры.

3) Создать программу для графического отображениемния полученных результатов и построения карт активности исследуемых соединений.

4) Проверить эффективность разработанных методов на задачах по выявлению активности аминоалкилиндолив и производных N-бензилпиперидинив и сравнить полученные результаты с известными литературными данными.

Объект исследования физиологически активные вещества.

Предмет исследования связь между активностью и пространственным строением ФАР.

Методы исследования. В диссертации использовались методы компьютерного моделирования, в частности, методы расчетного моделирования трехмерной структуры молекул, методы квантовомеханических расчетов параметров молекул, метод искусственных нейронных сетей, кластерного анализа и математической статистики.

Научная новизна полученных результатов. Разработана стратегия, сочетающая в себе преимущества двух типов ИНС для выявления количественного связи структура - активность 3D данных. Предложена методика поиска активных зон в пространстве вокруг молекул с помощью специальных методов отбора признаков ИНС. Создана программа, позволяющая строить и визуально анализировать карты распределения активных зон вокруг молекул. Показаны преимущества нового подхода при решении задач 3D-КЗСА сравнению с методом ЧНК, который традиционно используется в этой области исследований.

Теоретическая ценность полученных результатов. Результаты работы подтверждают целесообразность и рациональность применения предложенных расчетных методов исследования связи структура-активность, основанных на методах ИНС. Предложен новый алгоритм обучения ИНС, использующая информацию о молекулах, на основе их пространственного строения. Созданный метод может использоваться в других областях науки, где требуется анализ данных большого размерности и распределение объектов на классы (распознавание рукописных знаков, речи, изображений и др.).

Практическое значение полученных результатов. Предложенные методы позволяют быстро строить прогнозирующие модели для различных видов биологической активностихимических веществ. Разработанные в рамках данной работы методы отбора и отображения физиологически активных зон соединений исследуемых позволяют визуально анализировать механизмы взаимодействия лигандов с их биологическими мишенями. Созданный метод был успешно использован для анализа и построения карт активности аминоалкилиндолив и производных N-бензилпиперидинив.

Личный вклад соискателя. Компьютерное исследование данных и создания программ анализа и визуализации результатов для 3D-КЗСА данных осуществлены лично соискателем.

Автор искренне благодарен профессору Уильяму Уэлш (Университет м. Сент Луис, США), профессору Жаку Кретьену (Университет м. Орлеан, Франция) за предоставление CoMFA (Comparative Molecular Field Analysis) данных и сотрудникам Физико-химического института им. А.В. Богатского НАН Украины д.х.н. Кузьмину В. Е. и к.х.н. Артеменко А. Г. за расчетное моделирование данных на основе решеточной модели молекул.

Апробация работы. Основные результаты работы были представлены на международном симпозиуме по липофильности (International Symposium on LogP, March 1995, Lausanne, Switzerland) 12 Европейском симпозиуме по исследованию связи структура - активность (12-th European Symposium on Quantitative Structure-Activity Relationships, August 1998, Copengagen, Denmark) пятом Всемирном конгрессе химиков-теоретиков (5-th World Congress of Theoretically Oriented Chemists, WATOC'99, August 1999, London, UK) 13 Европейском симпозиуме по исследованию связи структура - активность (13-th European Symposium on Quantitative Structure-Activity Relationships, August 2000, Dusseldorf, Germany) конференции, посвященной подходам и методам, которые используются в токсикологии и оценке безопасности окружающей среды (Issues and Applications in Toxicology and Risk Assessment, April 2001, Fairborn, USA).

Публикации. Основные результаты работы изложены в 9 статьях (8 в научных журналах) и 7 тезисах докладов.

Структура и объем работы. диссертацийя состоит из введения, обзора литературы (1 глава), описания методов исследований (1 раздел), изложения и обсуждения полученных результатов (2 раздела), заключения и списка литературы, который включает 155 наименований. Работа изложена на 132 страницах машинописного текста (с приложением), иллюстрированная 23 рисунками и 16 таблицами.

Основное содержание работы

1. Разработка алгоритма пространственного обучения искусственных нейронных сетей

1.1. Искусственные нейронные сети с прямым распространением сигналов

Самая составляющая ИНС является искусственный нейрон (рис.1), который отражает свойства биологического аналога - суммирование и нелинейное преобразование сигналов, возможность адаптации связей нейрона. На вход нейрона поступает вектор входных сигналов, каждая компонента которого является выходом другого нейрона. Входящее возбуждения нейрона определяется как взвешенная сумма его входов, где W - вектор весов связей. Для задач поиска связи & ldquo; структура - активность & rdquo; входная информация представляет собой вектор параметров молекулы (каждый нейрон на входном уровне соответствует одному параметру молекулы), а исходная информация является вектор активностей молекулы (каждый нейрон на исходном уровне соответствует одному типу активности молекулы). Входной и целевой вектор составляют учебную пару. При прохождении через скрытые уровне (как правило, используется один такой уровень) входной поток информации нелинейно трансформируется.

Обучение сети состоит в таком регулировании весов (Wj) сети, когда каждое входящее возбуждения (вектор параметров молекулы) приводит к появлению на выходе нейронной сети желаемого целевого вектора (вектора активности молекул). Перед обучением входной набор данных разделяется на два поднаборы - набор обучение и набор контроля. Качество полученных моделей оценивается с помощью метода скользящего контроля (МКК). Прогнозирующая способность нейронных сетей оценивается с помощью коэффициента перекрестной оценки q2, предложенного Крамером и др.

; где Oi - расчетный вектор активности млекулы i; Yi - целевой вектор активности молекулы i; Ymean - среднее значение Yi N - количество соединений.

1.2. Сеть Кохонена

Основное назначение сети Кохонена - это создание нелинейной проекции данных большой мерности на область малой мерности. По сути, она представляет собой двумерный массив элементов, причем каждый элемент связан со всеми n входными узлами (рис.2). Алгоритм Кохонена реализует обучение без учителя. Каждому нейрону j соответствует вектор весовых элементов Wj. Перед обучением каждый компонент вектора весов инициализируется случайным образом. На вход нейрона поступает входной вектор Х, кодирующий строение молекул. Все входные векторы учебного набора по очереди представляются каждому нейрону сети и используются для настройки коэффициентов весов (Wj) сети. Учебный алгоритм настраивает векторы весов нейронов таким образом, чтобы они были максимально похожими на входной вектор Х.

После окончания процесса обучения весь набор данных представляется поочередно каждому нейрону и для каждого входного вектора определяется нейрон-победитель, расстояние между весами (Wj) которого и входным вектором (Xi) наименьшая. Такие нейроны определяют проекции входных данных на двумерную карту Кохонена. Таким образом, в результате процесса самоорганизации сети формируется карта, на которой входные векторы располагаются согласно их близости в многомерном пространстве.

1.3. Описание алгоритма пространственного обучения искусственных нейронных сетей

Алгоритм пространственного обучения (АПН) реализует циклическую итерационную процедуру, которая комбинирует последовательное применение сети Кохонена и искусственных нейронных сетей. Общая блок-схема алгоритма показана на рис. 3.

Процесс анализа данных условно можно разделить на двенадцать шагов. Входные данные, сформированные на шаге 1, поступают на входы сети Кохонена (блоки 3,4). В результате обучения сети на выходе формируется карта распределения признаков на кластеры. Кластеры проверяются на наличие разрывов в геометрическом пространстве (блок 7) и при их наличии осуществляется дополнительная кластеризация методами кластерного анализа. Данные сжимаются путем замены входной выборки среднеарифметическим значением признаков, входящих в кластеры. Полученный кластерный распределение тестируется с помощью ИНС. При этом веса нейронов входного уровня записываются в таблицу, которая используется на следующих циклах обучения вместо входных данных (блок 6). Число рядов и колонок в карте Кохонена уменьшается на единицу (блок 5) и весь процесс сжатия данных повторяется. Предыдущие шаги повторяются до тех пор, пока размер карты Кохонена не уменьшается до минимального размера, равного 8 узлам. Из всех моделей кластерного распределения данных выбирается модель с наименьшей ошибкой (блок 10), которая используется для обучения ИНС и прогнозирования активности новых соединений (блоки 11, 12).

1.4. Разработка методов отбора наиболее информативных признаков

Для того, чтобы оценить информативность найденных кластеров, мы использовали специальные методы отбора признаков, которые известны в литературе как "pruning methods". Удаление наименее информативных признаков повышает надежность результатов и увеличивает скорость обучения ИНС. Методы отбора признаков позволяют также выделить в пространстве вокруг молекул зоны, ответственные за проявление биологической активности.

Адекватность данных методов была проверена на ряде теоретических задач распознавания образов. Положительные результаты такого анализа позволили нам использовать эти методы для нахождения зон активности исследуемых молекул.

2. Анализ и прогнозирование активности химических соединений

2.1 Исследование связи между структурой и биологической активностью аминоалкилиндолив

Эффективность созданного алгоритма была проверена на ряде аминоалкилиндолив (ААИ) производных правадолину. Аминоалкилиндолы представляют собой новый класс агонистов, которые имеют широкий спектр биологической активности и считаются перспективными веществами для поиска новых высокоэффективных лекарственных препаратов. Данные многочисленных наблюдений мидчать, что механизм действия ААИ заключается в связывании с каннабиноидных CB1-рецептором и активации ответы клеточной системой сигнальной трансдукции. В медицине ААИ широко используют как обезболивающие и противовоспалительные препараты, выступают ингибиторами циклооксигеназы мозга.

Выборка данных. В работе использовались две выборки из 70 соединений, выбранных на основе данных литературы. Шесть соединений не включали в набор обучения из них был сформирован тестовый набор, который использовался для оценки качества модели (табл. 1). Степень активности соединений оценивалась величиной константы pKi, характеризующая способность соединения связываться с рецептором. Первый набор состоял из молекул, в которых атом азота морфолина был непротонований, тогда как второй набор содержал протонированные атомы азота. Расчеты параметров проводились с помощью CoMFA и решеточной модели молекул.

Таблица 1

Структуры и значение pKi для AAI, использовавшиеся для тестирования CoMFA-модели и решеточной модели.

Сп. R1 R2 R3 pKi pKi (рассчитана)

Непротоновани ААИ протонованих ААИ

CoMFA-модель решеточной модели CoMFA-модель решеточной модель

АПН2 ЧНК АПН ЧНК АПН ЧНК АПН ЧНК

1 Me p-OМe-фенил H -3,40 -3,0 -3,26 -2,93 -3,21 -2,94 -3,22 -3,01 -3,21

2 H p-OМe-фенил H -2,49 -1,52 -2,02 -2,26 -1,87 -2,26 -2,01 -2,27 -1,81

4 H 7-бензофурил H -1,15 -0,75 -1,51 -1,64 -1,59 -1,60 -1,18 -1,56 -1,70

9 H 1-нафтил H -0,78 -1,38 -1,54 -1,75 -1,47 -1,30 -1,50 -1,47 -1,46

11 Me 1-нафтил H -1,18 -1,46 -1,70 -1,59 -1,35 -1,70 -1,88 -1,62 -1,50

121 H 1-нафтил H -0,38 -0,41 -0,48 -0,65 -1,47 -0,78 -0,36 -0,48 -1,14

1Замисть заместителя 2- (4-морфолинил) этил при атоме N1 использовался [3- (4-Me-морфолинил)] метил.

2Результаты для суммарных наборов данных, полученных методами отбора признаков.

CoMFA модель. Ко всем наборов данных применена стандартная CoMFA-процедура. Каждая из молекул была смоделирована с помощью программы Sybyl 6.3 на рабочей станции Silicon Graphics R4000 Indigo Elan. Начальные конформации лигандов оптимизированы с помощью алгоритма молекулярной механики с использованием силового поля Tripos. Частичные атомные заряды и необходимые вычисления электростатических взаимодействий рассчитывались на основе формул Гастейгера-Марсили. Каждая молекула с фиксированной пространственной структурой умещалась в пространственный параллелепипед, составленный из кубических ячеек размером 2A. Для инвариантного размещения структуры в решетках все молекулы совмещались с молекулой-шаблоном (соединение № 46), которая аккумулирует в себе все ключевые особенности изучаемого ряда. Между каждой молекулой и атомом углерода ( "щупом") с зарядом 1 исчислялась электростатическая и стерически энергия взаимодействия в каждом узле решетки. Стеричного взаимодействие была ограничена величиной 30 ккал / моль, а электростатическая +/- 30 ккал / моль.

решеточных модель.

Загрузка...

Страницы: 1 2 3