![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Пока я тут на лыжах катаюсь, у меня статья вышла: Random drift of HIV populations in culture. Она в свободном доступе, так что читайте.
Я этой статьей особенно горд, потому что я ее практически в одиночку провел от начала до конца. Придумал что и как делать, грант получил под эту идею, эксперименты все сделал, математика нашел данные обрабатывать, статью написал и в журнал заслал, от рецензентов отбился (они хотели больше данных). Если бы я остался в академии, то именно этим бы я сейчас и занимался, а теперь эта работа представляет для меня лишь академический интерес (pun intended).
Если кому интересно о чем статья, то я вкратце под катом напишу. Описание, правда, получилось довольно техническое и скучное. Извините, но расписываться мне сейчас некогда - надо бежать тусоваться с народом.
В почти любой популяции организмов существуют разные варианты одних и тех же генов (аллели). Микроэволюцию можно определить как изменение в пропорциях аллелей в популяции. Например, если в одном поколении аллели A и а были распределены в соотношении 50% на 50%, а в следующем поколении 45% на 55%, то это и есть эволюция.
Есть два основных механизма изменения частот аллелей - естественный отбор и случайный дрейф. Про естественный отбор все наслышаны, а вот случайный дрейф не так широко известен. А зря - он зачастую является более важной движущей силой эволюции, чем отбор.
Что такое случайный дрейф: положим у нас есть популяция, в которой 50% особей имеют аллель A, а другие 50% - аллель a. Положим, что эти аллели совершенно равноценны по своим свойствам. Какова будет частота этих аллелей в следующем поколении? Если популяция бесконечно большая, то так и останется 50/50. Однако если популяция очень маленькая, допустим всего 10 особей, то предсказать частоты становится сложнее - это все равно, что предсказать результат вытаскивания 10 шаров из мешка, в котором половина шаров красные, а половина - черные. Можно вытащить и 5/5, а можно и 4/6 и 10/0. У этих исходов разная вероятность, но все они возможны. Довольно очевидно, что чем меньше популяция, тем больше роль случая в изменении частот аллелей, и тем значительнее изменения в частоте аллелей. Этот процесс описывается тривиальной формулой, в которой вариация (expected variance) частоты аллелей обратно пропорциональна размеру популяции.
Эволюция HIV внутри одного зараженного человека - основная проблема для разработки противовирусных лекарственных препаратов. Вирус мутирует и устойчивые к лекарствам мутанты распространяются в (внутричеловековой) популяции. Поэтому механизмы эволюции HIV активно исследуются. Довольно давно был замечен следующий странный факт: хотя размер популяции HIV внутри одного человека очень велик (10^7-10^8), в его популяции происходит неожиданно активный генетический дрейф. Надо отметить, что в реальных популяциях генетический дрейф всегда немного выше ожидаемого. Однако для HIV разница оказалось очень велика: дрейф там такой, как если бы популяция была 10^3-10^5 (то есть разница между реальным и ожидаемым - 3-4 порядка величины). Для объяснения этого факта были придуманы несколько разных гипотез, между которыми сейчас и идет борьба. Народ дискутирует, собирает данные о генотипах и структуре популяции, моделирует это все математически, и интерпретирует результаты самыми разными образом. Я в них вдаваться не буду, скажу лишь что они достаточно сложны.
В этой статье мы задали простой вопрос: Каково количество генетического дрейфа в популяции HIV в условиях близких к идеальным? В условиях, в которых нет никакой необходимости применять все эти сложные теории?
Я придумал систему, в которой можно достаточно точно измерять размер популяции HIV и происходящий в этой популяции генетический дрейф. Используя эту систему я нашел, что даже в такой простой системе, как культура клеток, наблюдаемый генетический дрейф в 10 раз больше чем можно ожидать исходя из размера вирусной популяции. Пытаясь разобраться почему это так происходит, я выяснил, что достаточно большое влияние оказывает "неодновременность" инфекции. По воле случая некоторые вирусы заражают клетки раньше, чем другие и это уменьшает эффективный размер популяции вирусов. Если инфекцию синхронизировать, то разница уменьшается до 3-х раз. Откуда берутся эти три раза я уже выяснить не смог (кстати, именно этого требовали от меня рецензенты), но могу предположить, что все дело в небольших различиях между заражаемыми клетками. Некоторые из них производят много вирусов, некоторые - мало. Недавно вышла статья, подтверждающая мои предположения. В ней было показано (для другого вируса), что различия между клетками могут быть очень большими - до 4 порядков величины.
Что все это в итоге значит? Это значит, что люди пытающиеся разобраться в том, как эволюционирует популяция HIV, должны принимать во внимание в своих моделях тот факт, что репликация вируса сама по себе является стохастическим процессом и может существенно влиять на генетический дрейф. Вот, собственно, и все :)
Я этой статьей особенно горд, потому что я ее практически в одиночку провел от начала до конца. Придумал что и как делать, грант получил под эту идею, эксперименты все сделал, математика нашел данные обрабатывать, статью написал и в журнал заслал, от рецензентов отбился (они хотели больше данных). Если бы я остался в академии, то именно этим бы я сейчас и занимался, а теперь эта работа представляет для меня лишь академический интерес (pun intended).
Если кому интересно о чем статья, то я вкратце под катом напишу. Описание, правда, получилось довольно техническое и скучное. Извините, но расписываться мне сейчас некогда - надо бежать тусоваться с народом.
В почти любой популяции организмов существуют разные варианты одних и тех же генов (аллели). Микроэволюцию можно определить как изменение в пропорциях аллелей в популяции. Например, если в одном поколении аллели A и а были распределены в соотношении 50% на 50%, а в следующем поколении 45% на 55%, то это и есть эволюция.
Есть два основных механизма изменения частот аллелей - естественный отбор и случайный дрейф. Про естественный отбор все наслышаны, а вот случайный дрейф не так широко известен. А зря - он зачастую является более важной движущей силой эволюции, чем отбор.
Что такое случайный дрейф: положим у нас есть популяция, в которой 50% особей имеют аллель A, а другие 50% - аллель a. Положим, что эти аллели совершенно равноценны по своим свойствам. Какова будет частота этих аллелей в следующем поколении? Если популяция бесконечно большая, то так и останется 50/50. Однако если популяция очень маленькая, допустим всего 10 особей, то предсказать частоты становится сложнее - это все равно, что предсказать результат вытаскивания 10 шаров из мешка, в котором половина шаров красные, а половина - черные. Можно вытащить и 5/5, а можно и 4/6 и 10/0. У этих исходов разная вероятность, но все они возможны. Довольно очевидно, что чем меньше популяция, тем больше роль случая в изменении частот аллелей, и тем значительнее изменения в частоте аллелей. Этот процесс описывается тривиальной формулой, в которой вариация (expected variance) частоты аллелей обратно пропорциональна размеру популяции.
Эволюция HIV внутри одного зараженного человека - основная проблема для разработки противовирусных лекарственных препаратов. Вирус мутирует и устойчивые к лекарствам мутанты распространяются в (внутричеловековой) популяции. Поэтому механизмы эволюции HIV активно исследуются. Довольно давно был замечен следующий странный факт: хотя размер популяции HIV внутри одного человека очень велик (10^7-10^8), в его популяции происходит неожиданно активный генетический дрейф. Надо отметить, что в реальных популяциях генетический дрейф всегда немного выше ожидаемого. Однако для HIV разница оказалось очень велика: дрейф там такой, как если бы популяция была 10^3-10^5 (то есть разница между реальным и ожидаемым - 3-4 порядка величины). Для объяснения этого факта были придуманы несколько разных гипотез, между которыми сейчас и идет борьба. Народ дискутирует, собирает данные о генотипах и структуре популяции, моделирует это все математически, и интерпретирует результаты самыми разными образом. Я в них вдаваться не буду, скажу лишь что они достаточно сложны.
В этой статье мы задали простой вопрос: Каково количество генетического дрейфа в популяции HIV в условиях близких к идеальным? В условиях, в которых нет никакой необходимости применять все эти сложные теории?
Я придумал систему, в которой можно достаточно точно измерять размер популяции HIV и происходящий в этой популяции генетический дрейф. Используя эту систему я нашел, что даже в такой простой системе, как культура клеток, наблюдаемый генетический дрейф в 10 раз больше чем можно ожидать исходя из размера вирусной популяции. Пытаясь разобраться почему это так происходит, я выяснил, что достаточно большое влияние оказывает "неодновременность" инфекции. По воле случая некоторые вирусы заражают клетки раньше, чем другие и это уменьшает эффективный размер популяции вирусов. Если инфекцию синхронизировать, то разница уменьшается до 3-х раз. Откуда берутся эти три раза я уже выяснить не смог (кстати, именно этого требовали от меня рецензенты), но могу предположить, что все дело в небольших различиях между заражаемыми клетками. Некоторые из них производят много вирусов, некоторые - мало. Недавно вышла статья, подтверждающая мои предположения. В ней было показано (для другого вируса), что различия между клетками могут быть очень большими - до 4 порядков величины.
Что все это в итоге значит? Это значит, что люди пытающиеся разобраться в том, как эволюционирует популяция HIV, должны принимать во внимание в своих моделях тот факт, что репликация вируса сама по себе является стохастическим процессом и может существенно влиять на генетический дрейф. Вот, собственно, и все :)
no subject
Date: 2009-03-25 09:19 pm (UTC)no subject
Date: 2009-03-26 03:38 am (UTC)no subject
Date: 2009-03-25 09:50 pm (UTC)Кстати, когда-то давно вы давали ссылку на работу по HIV - там человека вылечили пересадкой клеток КМ от донора с гомозиготной делецией в CCR5. Я тогда писала в комментах, что забавно было бы получить стволовые клетки с этой делецией.
Линий СК с делецией в гетерозиготе я, пошарив в закромах, нашла уже пару десятков. Есть шанс, что и гомозигота найдется. Так вот вопрос - а кто из исследователей был бы в таких линиях заинтересован?
no subject
Date: 2009-03-26 03:40 am (UTC)no subject
Date: 2009-03-26 03:59 am (UTC)(no subject)
From:no subject
Date: 2009-03-26 08:26 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2009-03-25 10:17 pm (UTC)А что вы понимаете под "идеальной" популяцией, разница с которой в "количестве генетического дрифта" остается в 3 раза, если даже "инфекцию синхронизировать"?
no subject
Date: 2009-03-26 03:42 am (UTC)Идеальная популяция в данном случае равнозначна мешку с шарами разных цветов. Есть более серьезные и формальные определения, но в данном случае эта аналогия вполне подходит.
no subject
Date: 2009-03-26 03:47 am (UTC)(филосовское отступление: ваш мешок с шарами такой, что шары вынимаются одновременно, если добавить "непрерывность" времени, то уже появится математически множитель 2).
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2009-03-25 10:33 pm (UTC)no subject
Date: 2009-03-25 11:43 pm (UTC)no subject
Date: 2009-03-26 03:48 am (UTC)Что значит "сидят"?
(no subject)
From:(no subject)
From:no subject
Date: 2009-03-26 03:47 am (UTC)no subject
Date: 2009-03-26 02:21 am (UTC)no subject
Date: 2009-03-26 03:48 am (UTC)Как там вазелин, пригодился?
no subject
Date: 2009-03-26 04:33 am (UTC)no subject
Date: 2009-03-26 04:46 am (UTC)no subject
Date: 2009-03-26 07:22 am (UTC)ПС Дрифт, он все же дрейф.
no subject
Date: 2009-03-26 12:55 pm (UTC)no subject
Date: 2009-03-26 05:39 pm (UTC)И еще, я пропустил как Вы учитываете случайную вариабильность возникаюшую в процедуре заражения малого числа клеток последовательно разведенным вирусом или это почему то представляется Вам неважным?
Об эффективном размере популяции
Date: 2009-03-26 04:30 pm (UTC)Что изучает теоретическая популяционная генетика? Она изучает две вещи. Первое – это абстрактные математические модели изменения частот аллелей в популяции. Второе – связь результатов анализа математических моделей и реальности. Первое – моделирование, второе – верификация модели. Часто, к сожалению, результаты моделирования переносятся на реальные популяции некритически, что я и попытаюсь объяснить.
Одна из самых известных моделей в генетике – модель Фишера-Райта, которая была записана, чтобы учитывать случайные эффекты в измении частот аллелей. Есть несколько совершенно строгих предположений, на которых эта модель основана. Для простоты предположим, что мы рассматриваем нейтральную аллель (отсутствует отбор). Каковы эти предположения: 1) рассматривается популяция постоянного фиксированного размера N (N – это число особей в популяции, пусть опять же для простоты популяция гаплоидная, в книжках обычно рассматривают диплоидные популяции, поэтому число гамет 2N, но у меня будет просто N, для дальнейшего сравнения); 2) рассматриваются неперекрывающиеся поколения: родители дают потомство в размере N и тут же все помирают; 3) потомство получается с помощью выбора с возвращением: пусть есть два аллеля (шары синего и красного цвета), мы вытаскиваем шарик из закрытого мешка, отмечаем его цвет и кладем обратно, и так N раз, в итоге получаем новое поколение (чтобы ввести отбор надо предположить, что шарики, например, синего цвета более предпочтительны для того, кто их вытаскивает). Случайность (тот самый дрифт-дрейф) появляется в модели именно из-за случайного распределения потомков. Математически это так называемое биномиальное распределение, которое задает число данного аллеля в следующем поколении.
Имея модель, теперь мы можем озадачиться разумными вопросами. Например таким: в популяции синих шаров появляется мутант, красный шар. Какова вероятность, что в какой-то момент времени в будущем все потомки будут красными (аллель зафиксируется)? В случае нейтральных аллелей ответ почти очевиден: 1/N (кстати, математически это серьезный результат, там надо по-хорошему мартингалы применять для доказательства и всякие умные теоремы). Если аллели не нейтральны, то точный ответ найти уже для этой модели не удалось! Кимура придумал диффузионное приближение (он построил модель модели) и получил ответ в виде известной формулы, которую я писать не буду, но уверен, что хозяин журнала ее знает. Так же можно вычислить среднее время фиксации единичного мутанта, и много, много разных других вещей... в частности, если у нас есть мутации в популяции, в одном аллели вероятность мутации u, тогда в популяции в каждом поколении будет в среднем Nu мутаций, а так как фиксируется только 1/N часть, то скорость эволюции (среднее число зафиксированных мутаций на единицу времени) есть просто Nu умножить на 1/N равно u! (не зависит от размера популяции в нейтральной модели).
Из формулы для фиксации не нейтрального аллеля следует один очень важный вывод. Если Ns, где s – селективное преимущество, мало, то наши аллели ведут себя в модели Райта-Фишера практически как нейтральные, дрейф все побеждает. Если же Ns не мало (что часто выполняется для больших популяций), то (когда этого аллеля будет много в популяции!) стохастическими эффектами можно пренебречь и рассматривать детерминированные модели, которые анализируются достаточно просто. Итак, влияние дрейфа в модели РФ определяется размером популяции при прочих фиксированных величинах и малых s.
В частности легко вычислить диспесию числа потомков синих шаров в следующем поколении, если в данном поколении частота потомков p (p=k/N, где k – число шаров). Из свойств биномиального распределения следует (таким образом, из модели Райта-Фишера!), что var(X|k)=Np(1-p), то есть частота в следующем поколении будет иметь дисперсию var(p(t+1)|p(t))=p(1-p)/N. Подчеркиваю, что этот результат получен при всех вышеописанных предположениях.
Пока все что я говорил – это о модели Райта-Фишера и ее строгом математическом анализе. Ни о каких абстрактных и идеолизированных популяциях не было сказано ни слова.
Re: Об эффективном размере популяции
Date: 2009-03-26 04:35 pm (UTC)Var(p(поколение позднее)|p(сейчас))=p(1-p)/(2M).
Сравним с моделью РФ. Отличие только в множитиле 2 и обозначении, и если мы заменим численность нашей популяции на число вдвое меньшее, то ответы для дисперсий совпадут.
Внимание, определение (совершенно строгое): variance effective population size (как оно по-русски будет?) модели Морана называется такой размер популяции в модели, что дисперсия числа потомков в следующем поколении совпадает с дисперсией размера числа потомков в следующем поколении в модели Фишера-Райта размера N.
Легко понять, что этот «эффективный размер популяции» равен N/2.
Что здесь важно. Первое – указание какой именно эффективный размер популяции (по отношению к какой характеристике). Второе – эффективный размер чего? Ответ: числа шаров в точно сформулированной модели Морана. Третье: эффективный размер – идиотское название, правильно называть размер популяции модели Райта-Фишера у которой какая-либо характеристика (дисперсия в нашем случае) совпадает с некой характеристикой модели, которую мы изучаем. Модель РФ стала некоторым эталоном только по историческим причинам, есть гораздо более реалистичные модели.
А теперь о ошибках. Эффективный размер популяции не более и не менее, чем я оп исал выше. Вклад дрейфа определяется обычно в модели Райта-Фишера величиной Ns, где s селективное преимущество. Вы анализируете данные и оцениваете дисперсию числа потомков ваших лабораторных вирусов. Отсюда, используя формулу V=p(1-p)/N находите N, так как вроде бы V, p у вас есть. Потом называете эту величину эффективным размером популяции. А потом ссылаетесь на другую формулу, полученную в рамках модели Райта-Фишера, но уже с вашим найденным N. А это делать нельзя. Пример легко привести. Например в модели Морана вероятность фиксации нейтрального мутанта 1/M, эфеективный размер популяции N/2, где N – размер полуяции РФ, вероятность фиксации единичного нейтрального мутанта в модели РФ 1/N, следовательно (вот этот ошибочный линк в цепи рассуждений) вероятность фиксации в модели Морана равна(2/N). Если M=N, то получаем чушь в виде 2=1.
Или, словами, о вкладе генетического дрейфа в вероятность фиксации тех или иных мутантов в вашем опыте с помощью вами же найденного эффективного размера популяции, судить нельзя.
Надеюсь я не был уж очень непонятен и сумел сформулировать то, ради чего затеял этот громадный пост. Для тех, кто хочет точнее разобраться, что же это такое – эффективный размер популяции я рекомендую главу 3.7 классической книги Эванса (второе издание) по популяционной генетике. Требуется серьезная мат. подготовка для чтения.
Re: Об эффективном размере популяции
Date: 2009-03-26 05:56 pm (UTC)Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:О Гиллеспае и Кимуре
From:Re: О Гиллеспае и Кимуре
From:Re: О Гиллеспае и Кимуре
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:Re: Об эффективном размере популяции
From:no subject
Date: 2009-03-26 10:15 pm (UTC)no subject
Date: 2009-03-28 12:46 am (UTC)