голосова 17 niaid

18
Организация анализа NGS (Next-Generation sequencing) данных в UGENE Голосова Ольга ООО НЦИТ «Унипро»

Transcript of голосова 17 niaid

Page 1: голосова 17 niaid

Организация анализа NGS (Next-Generation sequencing)

данных в UGENE

Голосова Ольга

ООО НЦИТ «Унипро»

Page 2: голосова 17 niaid

План• Задача анализа данных секвенирования• О проекте UGENE• Сотрудничество с институтом NIAID• Итоги

Page 3: голосова 17 niaid

СеквенированиеСеквенирование ДНК  — определение  последовательности ДНК, представление ее в цифровом виде.

Page 4: голосова 17 niaid

СеквенированиеВысокоэффективное секвенирование (High-throughput или Next Generation Sequencing) — группа различных методов, позволяющих осуществлять секвенирование ДНК очень большого размера за одну операцию.

Page 5: голосова 17 niaid

Секвенирование

Page 6: голосова 17 niaid

Зачем определять ДНК• Персонализированная медицина

– Определение предрасположенности к болезням– Более качественное проектирование лекарств (в

зависимости от генотипа и т.п.)

• Биоархеология, антропология, миграция• Криминология• Идентификация• И многое другое

Page 7: голосова 17 niaid

NGS данные

Page 8: голосова 17 niaid

UGENEUGENE — свободное кроссплатформенное биоинформационное программное обеспечение [Okonechnikov K.; Golosova O.; Fursov M.; the UGENE team. Unipro UGENE: a unified bioinformatics toolkit ;Bioinformatics 2012 28: 1166-1167].Некоторые возможности:• Редактор последовательностей• Редактор множественных выравниваний• Обозреватель сборок (Assembly Browser)• Множество алгоритмов для анализа данных• Автоматизация анализа (Workflow Designer)

Page 9: голосова 17 niaid

Сотрудничество с NIAID

NIAID (National Institute of Allergy and Infectious Diseases) - один из 27 институтов National Institutes of Health (NIH), USA

http://www.niaid.nih.gov/

Page 10: голосова 17 niaid

Проблемы анализа NGS данных• Разрозненность инструментов• Несовместимость форматов• Трудоемкость конфигурации • Недоступность инcтрументов для разных ОС• Запуск только из командной строки• Много ручной рутинной работы

Page 11: голосова 17 niaid

Цели сотрудничества• NGS Pipelines:

– Variants Calling Pipeline– Tuxedo Pipeline (RNA-Seq)– Cistrome Pipeline (ChIP-Seq)

• Удобство работы:– Pipeline wizards– Dashboard

• Оценка времени выполнения, запуск на Amazon сервере• А также:

– BioMart Integration– DAS Integration– Mobyle Integration

Page 12: голосова 17 niaid

Variants Calling PipelineПоиск вариаций с помощью SAMtools:

Page 13: голосова 17 niaid

Tuxedo PipelineАнализ RNA-Seq данных с помощью инструментов:• TopHat (использует Bowtie, Bowtie2)• Cufflinks• Cuffmerge• Cuffdiff

Page 14: голосова 17 niaid

Cistrome Pipeline

Анализ ChIP-Seq данных с помощью инструментов:• MACS• CEAS• peak2gene• seqpos• go_analysis• conservation plot

Page 15: голосова 17 niaid

Wizards

Page 16: голосова 17 niaid

Dashboard• Workflow Resources:

– workflow name;– workflow start time;– time left (finish time can be shown as a tooltip);– percentage of the workflow running progress;– amount of used memory;– percentage of CPU usage;

• Output Files:– clickable file name;– the name of the workflow element that has produced the file;– is it a temporary or final file;– file status: is written, ready, deleted (for temporary files);

• Common Statistics– number of messages that has been retrieved by an element, etc.;

Page 17: голосова 17 niaid

Промежуточные итоги• NGS Pipelines:

– Variants Calling Pipeline– Tuxedo Pipeline (Linux, Mac OS)– Cistrome Pipeline

• Удобство работы:– Pipeline wizards– Dashboard

• Оценка времени выполнения, запуск на Amazon сервере• А также:

– BioMart Integration– DAS Integration– Mobyle Integration

• Довольный заказчик

Page 18: голосова 17 niaid

Спасибо за внимание