голосова 17 niaid

Post on 16-Jun-2015

51 views 2 download

Tags:

Transcript of голосова 17 niaid

Организация анализа NGS (Next-Generation sequencing)

данных в UGENE

Голосова Ольга

ООО НЦИТ «Унипро»

План• Задача анализа данных секвенирования• О проекте UGENE• Сотрудничество с институтом NIAID• Итоги

СеквенированиеСеквенирование ДНК  — определение  последовательности ДНК, представление ее в цифровом виде.

СеквенированиеВысокоэффективное секвенирование (High-throughput или Next Generation Sequencing) — группа различных методов, позволяющих осуществлять секвенирование ДНК очень большого размера за одну операцию.

Секвенирование

Зачем определять ДНК• Персонализированная медицина

– Определение предрасположенности к болезням– Более качественное проектирование лекарств (в

зависимости от генотипа и т.п.)

• Биоархеология, антропология, миграция• Криминология• Идентификация• И многое другое

NGS данные

UGENEUGENE — свободное кроссплатформенное биоинформационное программное обеспечение [Okonechnikov K.; Golosova O.; Fursov M.; the UGENE team. Unipro UGENE: a unified bioinformatics toolkit ;Bioinformatics 2012 28: 1166-1167].Некоторые возможности:• Редактор последовательностей• Редактор множественных выравниваний• Обозреватель сборок (Assembly Browser)• Множество алгоритмов для анализа данных• Автоматизация анализа (Workflow Designer)

Сотрудничество с NIAID

NIAID (National Institute of Allergy and Infectious Diseases) - один из 27 институтов National Institutes of Health (NIH), USA

http://www.niaid.nih.gov/

Проблемы анализа NGS данных• Разрозненность инструментов• Несовместимость форматов• Трудоемкость конфигурации • Недоступность инcтрументов для разных ОС• Запуск только из командной строки• Много ручной рутинной работы

Цели сотрудничества• NGS Pipelines:

– Variants Calling Pipeline– Tuxedo Pipeline (RNA-Seq)– Cistrome Pipeline (ChIP-Seq)

• Удобство работы:– Pipeline wizards– Dashboard

• Оценка времени выполнения, запуск на Amazon сервере• А также:

– BioMart Integration– DAS Integration– Mobyle Integration

Variants Calling PipelineПоиск вариаций с помощью SAMtools:

Tuxedo PipelineАнализ RNA-Seq данных с помощью инструментов:• TopHat (использует Bowtie, Bowtie2)• Cufflinks• Cuffmerge• Cuffdiff

Cistrome Pipeline

Анализ ChIP-Seq данных с помощью инструментов:• MACS• CEAS• peak2gene• seqpos• go_analysis• conservation plot

Wizards

Dashboard• Workflow Resources:

– workflow name;– workflow start time;– time left (finish time can be shown as a tooltip);– percentage of the workflow running progress;– amount of used memory;– percentage of CPU usage;

• Output Files:– clickable file name;– the name of the workflow element that has produced the file;– is it a temporary or final file;– file status: is written, ready, deleted (for temporary files);

• Common Statistics– number of messages that has been retrieved by an element, etc.;

Промежуточные итоги• NGS Pipelines:

– Variants Calling Pipeline– Tuxedo Pipeline (Linux, Mac OS)– Cistrome Pipeline

• Удобство работы:– Pipeline wizards– Dashboard

• Оценка времени выполнения, запуск на Amazon сервере• А также:

– BioMart Integration– DAS Integration– Mobyle Integration

• Довольный заказчик

Спасибо за внимание