и графы де Брюина Сборка...

49
Сборка генома и графы де Брюина Сергей Нурк Лаборатория алгоритмической биологии АУ РАН http://bioinf.spbau.ru

Transcript of и графы де Брюина Сборка...

Page 1: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Сборка геномаи графы де Брюина

Сергей Нурк Лаборатория алгоритмической биологии

АУ РАНhttp://bioinf.spbau.ru

Page 2: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Введение

Page 3: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Начало 2000-х: первые NGS технологий

Вместо длинных, но дорогих фрагментов секвенаторы выдают много коротких фрагментов по низкой цене.

NGS революция

Page 4: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn
Page 5: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Сборка

Page 6: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Whole genome shotgun sequencing

Сборка (assembly) -- восстановление участков изначальной последовательности

Page 7: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Задача сборки

Page 8: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

SSP

Дано: множество строк Si

Найти: кратчайшую строку S, содержащую все Si

Задача NP-полная

Основная проблема: решение не имеет отношения к реальности!

Page 9: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Задача сборки

Получить последовательности нуклеотидов (контиги), которые:○ являются фрагментами генома○ подлиннее○ имеют поменьше перекрытий○ получше покрывают геном

Page 10: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

NGS Ассемблеры

○ Velvet○ IDBA○ SOAP-denovo ○ Ray ○ ABySS○ Allpaths○ EULER○ Minia○ SPAdes

Page 11: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

Page 12: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

○ k-мер: последовательность из k нуклеотидов

○ Вершины графа де Брюйна: все k-меры○ Рёбра графа де Брюйна: все (k+1)-меры○ Ребро e соединяет префикс и суффикс e

Page 13: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де БрюйнаВершины: k-меры из геномаРёбра:(k+1)-меры из геномаk=2: 3-мер ACG даёт AC -> CG

Page 14: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

секвенирование

Вершины: k-меры из ридовРёбра:(k+1)-меры из ридовk=2: 3-мер ACG даёт AC -> CG

Page 15: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

Page 16: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

Page 17: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

Page 18: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

Page 19: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Графы де Брюйна

Page 20: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

K имеет значение!

Page 21: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

ALUдлина: 300кратность: 1000000

Проблема повторов

Page 22: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Сжатый граф

ACG CGA GAC

GAA

ACT

AAG

TAC

GACT

GAAG

TACGA

Page 23: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Заметки про граф де Брюйна

1. Склеивает повторы (длиннее k)

2. Геном соответствует циклу в графе

Page 24: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Проблема повторов

Page 25: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Заметки про граф де Брюйна

1. Склеивает повторы (длиннее k)

2. Геном соответствует циклу в графе

3. Ребра сжатого графа можно рассматривать как контиги

Page 26: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

○ Разрывы в покрытии○ Ошибки секвенирования○ Проблемы с ресурсами

○ память○ время

Некоторые проблемы

Page 27: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Разрывы в покрытии

Покрытие конкретого (k+1)-мера — случайная величина

Чтобы снизить вероятность разрыва, приходится использовать k значительно меньше длины рида

Page 28: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Неравномерное покрытие

1. Метагеномные данные

2. RNA-seq

3. Single-cell MDA

Page 29: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Борьба с разрывами

2

Page 30: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Борьба с разрывами

3

Page 31: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

2,3

Page 32: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Ошибки секвенирования

○ Тип и частота зависят от технологий ○ Секвенаторы предоставляют

информацию о качестве каждого нуклеотида в риде

○ Предобработка ридов: Quake, BayesHammer

Page 33: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn
Page 34: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Quake. Надежные k-меры

● "Хорошо" покрытые k-меры объявляются надёжными

● Отсечка определяется исходя из распределения покрытия

Page 35: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Quake. Коррекция ридов

Page 36: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Hammer

Page 37: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

tip

bulge

chimeric connection

Неисправленные ошибки превращаются в "лишние" ребра в графе

Ошибки в графе

Page 38: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn
Page 39: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Техника

Page 40: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Представление графа

○ Память○ Время

Page 41: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Представление графа

Требования:○ Возможность перебрать все k-меры○ Возможность найти соседей k-мера

Пример: Множество всех (k+1)-меров

Page 42: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Фильтр Блума

Page 43: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Вероятостный граф де Брюйна

Page 44: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Точное представление

Page 45: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Хэширование без коллизий

Page 46: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Хэширование без коллизий

Позволяет:○ Хранить информацию в массиве ○ Не хранить ключиТребует:○ Предварительного нахождения

уникальных ключейНе позволяет:○ Проверять наличие произвольного

элемента в множестве

Page 47: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Реализация графа де Брюйна

○ Ключи — k-меры○ Для каждого k-мера хранятся все его

соседи (8 бит)

Page 48: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

1. "Genome Reconstruction: A Puzzle with a Billion Pieces", P.Compeau, P.Pevzner

2. "SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing", A. Bankevich et al.

3. "Quake: quality-aware detection and correction of sequencing errors", D.Kelley et al.

4. "BayesHammer: Bayesian clustering for error correction in single-cell sequencing", S.Nikolenko et al.

5. "Scaling metagenome sequence assembly with probabilistic de Bruijn graphs", Jason Pell et al.

6. "Space-efficient and exact de Bruijn graph representation based on a Bloom filter", Rayan Chikhi, Guillaume Rizk

7. "External Perfect Hashing for Very Large Key Sets", Fabiano C. Botelho, Nivio Ziviani

8. "De novo assembly and genotyping of variants using colored de Bruijn graphs", Z.Iqubal et al.

9. http://bioinf.spbau.ru/en/spades

Ссылки

Page 49: и графы де Брюина Сборка геномаbioinformaticsinstitute.ru/sites/default/files/nurk.pdf · "Scaling metagenome sequence assembly with probabilistic de Bruijn

Вопросы???