Подсчет общего количества возможных филогенетических...

18
Подсчет общего количества возможных филогенетических деревьев Андреев Станислав, группа 6057/4 1

Transcript of Подсчет общего количества возможных филогенетических...

Подсчет общего количества

возможных филогенетических

деревьевАндреев Станислав, группа 6057/4

1

Филогения

Филогения - раздел биологии, изучающий

родственные взаимоотношения разных групп живых

организмов. Филогению отображается обычно в виде

"эволюционных древ" или систематических названий.

Филогенетика (=молекулярная филогенетика) – те

же взаимоотношения, но на уровне отдельных

белковых (генных) семейств

2

Филогенетические деревья

Реальные события : Данные: Построенное дерево

эволюция в природе или в например, древовидный граф,

лаборатории, а.к. последо- вычисленный на основе

компьютерная симуляция вательности данных, может

отражать или не

отражать реальные

события

>Seq1

ASGCTAFKL

. . .

>Seq4

GCGCTGFKI

. . . . .

>Seq3

GCGCTLFKI

3

Филогенетические деревья4

Филогенетические деревья. Подходы при

построении деревьев по молекулярным данным5

Филогенетические деревья. Метод невзвешенного

попарного среднего(UPGMA)6

Филогенетические деревья. Вероятностные модели7

Филогенетические деревья. Вероятностные модели

8

Филогенетические деревья. Байесовский подход

Если последовательностей немного, все деревья легко перечислить. Для каждого дерева можно

выписать правдоподобие как функцию длин ребер, и максимизировать ее подходящим

численным методом.

Но даже при использовании лучшей оптимизационной техники, максимизация правдоподобия

требует больших вычислительных затрат. Для работы с большими объемами данных требуется

иная стратегия. Одним из подходов является использование выборочных методов.

Можем воспользоваться формулой Байеса для вычисления апостериорной вероятности:

P 𝑇, 𝑡 𝑥 =𝑃 𝑥 𝑇, 𝑡 𝑃 𝑇,𝑡

𝑃 𝑥,

где x - данные, для которых строится дерево, T – топология, t – длины ребер.

Апостериорное распределение дает нам ту информацию, которая нам на самом деле

нужна, а именно, насколько вероятна каждая филогенетическая модель при условии

данных

9

Сэпмлирование

Сэмплирование в пространстве деревьев — это выбор случайного дерева с

вероятностью из некоторого распределения, в данном случае —

апостериорного. Если проб было достаточно много, то частота, с которой

среди этих деревьев появляются деревья с каким-либо свойством деревьев,

сходится в пределе по большому количеству проб к апостериорной

вероятности этого свойства при заданной модели. Например, если

определенная топология дерева присутствует в доле f выборки, то f —

оценка апостериорной вероятности этой топологии.

Алгоритм Метрополис создает последовательность деревьев, одно издругого. Предполагается, что механизм может построить одно дерево из

другого случайным образом, сэмплируя из предполагаемого

распределения. Пусть P1 – апостериорная вероятность данного дерева, а

P2 – апостериорная вероятность предлагаемого нового дерева. Правило

Метрополиса состоит в том, что новое дерево принимается в качествеследующего шага, если P2>=P1, а если P2<P1, то оно принимается с

вероятностью P2/P1.

10

Современные веяния в построении

филогенетических деревьев

В настоящее время для построения филогенетических деревьев

используется биологическая информация ископаемых (умерших

видов).

В следствие этого сильно меняется форма возможных

филогенетических деревьев.

В настоящее время достаточно мало сделано, чтобы описать эти

возможные формы. Одной из важных характеристик является общее

количество возможных деревьев для конкретного количества входных

данных.

Сейчас, когда ископаемые могут использоваться для определения

возраста внутренних узлов, априорное распределение должно

учитывать эту дополнительную информацию.

11

Подсчет возможного количества деревьев

Филогенетическое дерево заключает в себе две компоненты – дискретную инепрерывную. Дискретная – топология дерева, непрерывная – время генетическихизменений.

Поскольку, в следствие большого количества данных, мы не имеем возможностьперебрать все деревья и используем искусственные методы (например, алгоритмМетрополиса, описанный ранее) очень важное значение имеет априорноераспределение пространства возможных деревьев.

В случае использования ископаемых и создаваемых вследствие этогодополнительных ограничений на внутренние узлы, важно понимать, насколькоизменится пространство возможных деревьев.

Общее количество деревьев используется как константа в априорном распределении.Она необходима для предсказывания «перспективных» топологических деревьев,удовлетворяющих условиям, наложенных ископаемыми.

12

Виды бинарных деревьев, различающих в

т.ч. и по положению внутренних узлов13

Ранговое дерево

Общее количество вариантов

𝑅 𝑛 =𝑛! 𝑛−1 !

2𝑛−1

Полное ранговое дерево

Полное ранговое дерево

Количество возможных вариантов для филогенетического

дерева такого типа зависит от количества внутренних

узлов:

Дерево с количеством предков у каждого, не

превышающим 2 , но и не обязательное равным двум,

представлено на рисунке справа:

14

Вычисление общего количества

полных ранговых деревьев Нам необходимо подсчитать

Вместо этого будем подсчитывать выражение слева, используя Алгоритм 1.:

Подсчет R(i) требует O(n) шагов, как и подсчет A(J). Таким образом, общая

сложность O(mn).

15

Заключение

Сходство молекулярных механизмов всех изученных организмов позволяет с

большой вероятностью предположить, что у всех организмов на Земле был общий

предок.

Родство может быть представлено в виде филогенетического дерева.

Филогенетические деревья могут быть построены с помощью методов расстояний и

максимальной бережливости, однако наиболее популярными методами сейчас

являются вероятностные модели – метод максимального правдоподобия или

байесовская модель.

В настоящее время для построения филогенетических деревьев используют

ископаемые, которые изменяют традиционный процесс построения дерева. Благодаря

этому возникают и новые задачи, например, такие как подсчет общего количества

возможных деревьев нового типа.

16

Список используемой литературы

Recursive algorithms for phylogenetic tree counting. Alexandra Gavryushkina, David

Welch and Alexei J Drummond

Inferring Phylogenies. Joseph Felsenstein. University of Washington

Анализ биологических последовательностей, Р. Дурбин, ш. Эдди, А. Крог, Г.

Митчисон

Эволюционная биоинформатика и реконструкция филогении. Афонников Д.А., к.б.н.

Лаборатория эволюционной биоинформатики и теоретической генетики

17

Спасибо

За внимание!

18