Начальная

Windows Commander

Far
WinNavigator
Frigate
Norton Commander
WinNC
Dos Navigator
Servant Salamander
Turbo Browser

Winamp, Skins, Plugins
Необходимые Утилиты
Текстовые редакторы
Юмор

File managers and best utilites

«Биоинформатика: современное состояние и перспективы». Биоинформатика реферат


Реферат Биоинформатика

скачать

Реферат на тему:

План:

    Введение
  • 1 Основные области исследований
    • 1.1 Анализ генетических последовательностей
    • 1.2 Аннотация геномов
    • 1.3 Вычислительная эволюционная биология
    • 1.4 Оценка биологического разнообразия
    • 1.5 Основные биоинформационные программы
  • 2 Биоинформатика и вычислительная биология
  • 3 Структурная биоинформатика
  • Примечания

Введение

Биоинформа́тика

  1. математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика).
  2. разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика).
  3. исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем [1].

В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях.

1. Основные области исследований

1.1. Анализ генетических последовательностей

Обработка гигантского количества данных, получаемых при секвенировании, является одной из важнейших задач биоинформатики

C тех пор как в 1977 году был секвенирован фаг Phi-X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены Филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить (выровнять) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

1.2. Аннотация геномов

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом (англ. Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

1.3. Вычислительная эволюционная биология

Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

  • изучать эволюцию большого числа организмов, измеряя изменения в их ДНК, а не только в строении или физиологии;
  • сравнивать целые геномы (см. BLAST), что позволяет изучать более комплексные эволюционные события, такие как: дупликация генов, латеральный перенос генов, и предсказывать бактериальные специализирующие факторы;
  • строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
  • отслеживать появление публикаций, содержащих информацию о большом количестве видов.

Область в компьютерных науках, которая использует генетические алгоритмы, часто путают с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диферсификация через рекомбинацию или мутации, и выживании в естественном отборе.

1.4. Оценка биологического разнообразия

Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля. Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как Фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

1.5. Основные биоинформационные программы

  • ACT (Artemis Comparison Tool) — геномный анализ
  • Arlequin — анализ популяционно-генетических данных
  • BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • BioNumerics — коммерческий универсальный пакет программ
  • BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • ClustalX — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP — анализ полиморфизма последовательностей ДНК
  • FigTree — редактор филогенетических деревьев
  • Genepop — популяционно-генетический анализ
  • Genetix — популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade — коммерческая программа для интерктивного эволюционного анализа данных
  • MEGA — молекулярно-эволюционный генетический анализ
  • Mesquite — программа для сравнительной биологии на языке Java
  • Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP — филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP — пакет филогенетических программ
  • Phylo_win — филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene — анализ генетического разнообразия популяций
  • Populations — популяционно-генетический анализ
  • PSI Protein Classifier — обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview — филогенетический анализ (с графическим интерфейсом)
  • Sequin — депонирование последовательностей в GenBank, EMBL, DDBJ
  • SplitsTree
  • T-Coffee — множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW/ClustalX.
  • UGENE — свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.

2. Биоинформатика и вычислительная биология

Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. В свете изменения шифра научных специальностей (03.00.28 "Биоинформатика" превратилась в 03.01.09 "Математическая биология, биоинформатика") поле термина "биоинформатика" расширилось и включает все реализации математических алгоритмов, связанных с биологическими объектами.

Термины биоинформатика и «вычислительная биология» часто употребляются как синонимы, хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.

Биоинформатика использует методы прикладной математики, статистики и информатики. Исследования в вычислительной биологии нередко пересекаются с системной биологией. Основные усилия исследователей в этой области направлены на изучение геномов, анализ и предсказание структуры белков, анализ и предсказание взаимодействий молекул белка друг с другом и другими молекулами, а также реконструкция эволюции.

Биоинформатика и её методы используются также в биохимии, биофизике, экологии и в других областях. Основная линия в проектах биоинформатики — это использование математических средств для извлечения полезной информации из «шумных» или слишком объёмных данных о структуре ДНК и белков, полученных экспериментально.

3. Структурная биоинформатика

К структурной биоинформатике относится разработка алгоритмов и программ для предсказания пространственной структуры белков. Темы исследований в структурной биоинформатике:

  • Рентгеноструктурный анализ (РСА) макромолекул
  • Индикаторы качества модели макромолекулы, построенной по данным РСА
  • Алгоритмы вычисления поверхности макромолекулы
  • Алгоритмы нахождения гидрофобного ядра молекулы белка
  • Алгоритмы нахождения структурных доменов белков
  • Пространственное выравнивание структур белков
  • Структурные классификации доменов SCOP и CATH
  • Молекулярная динамика

Примечания

  1. Ivan Y. Torshin. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, Novapublishers, 2006, ISBN: 1-60021-048-1

wreferat.baza-referat.ru

Реферат Биоинформатике

скачать

Реферат на тему:

План:

    Введение
  • 1 Основные области исследований
    • 1.1 Анализ генетических последовательностей
    • 1.2 Аннотация геномов
    • 1.3 Вычислительная эволюционная биология
    • 1.4 Оценка биологического разнообразия
    • 1.5 Основные биоинформационные программы
  • 2 Биоинформатика и вычислительная биология
  • 3 Структурная биоинформатика
  • Примечания

Введение

Биоинформа́тика

  1. математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика).
  2. разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика).
  3. исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем [1].

В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях.

1. Основные области исследований

1.1. Анализ генетических последовательностей

Обработка гигантского количества данных, получаемых при секвенировании, является одной из важнейших задач биоинформатики

C тех пор как в 1977 году был секвенирован фаг Phi-X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены Филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить (выровнять) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.

Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.

1.2. Аннотация геномов

В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом (англ. Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

1.3. Вычислительная эволюционная биология

Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

  • изучать эволюцию большого числа организмов, измеряя изменения в их ДНК, а не только в строении или физиологии;
  • сравнивать целые геномы (см. BLAST), что позволяет изучать более комплексные эволюционные события, такие как: дупликация генов, латеральный перенос генов, и предсказывать бактериальные специализирующие факторы;
  • строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
  • отслеживать появление публикаций, содержащих информацию о большом количестве видов.

Область в компьютерных науках, которая использует генетические алгоритмы, часто путают с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диферсификация через рекомбинацию или мутации, и выживании в естественном отборе.

1.4. Оценка биологического разнообразия

Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля. Для сбора видовых имён, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как Фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.

1.5. Основные биоинформационные программы

  • ACT (Artemis Comparison Tool) — геномный анализ
  • Arlequin — анализ популяционно-генетических данных
  • BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • BioNumerics — коммерческий универсальный пакет программ
  • BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • ClustalW — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • ClustalX — множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP — анализ полиморфизма последовательностей ДНК
  • FigTree — редактор филогенетических деревьев
  • Genepop — популяционно-генетический анализ
  • Genetix — популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade — коммерческая программа для интерктивного эволюционного анализа данных
  • MEGA — молекулярно-эволюционный генетический анализ
  • Mesquite — программа для сравнительной биологии на языке Java
  • Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP — филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP — пакет филогенетических программ
  • Phylo_win — филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene — анализ генетического разнообразия популяций
  • Populations — популяционно-генетический анализ
  • PSI Protein Classifier — обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview — филогенетический анализ (с графическим интерфейсом)
  • Sequin — депонирование последовательностей в GenBank, EMBL, DDBJ
  • SplitsTree
  • T-Coffee — множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW/ClustalX.
  • UGENE — свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.

2. Биоинформатика и вычислительная биология

Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул (белков и нуклеиновых кислот) с целью получения биологически значимой информации. В свете изменения шифра научных специальностей (03.00.28 "Биоинформатика" превратилась в 03.01.09 "Математическая биология, биоинформатика") поле термина "биоинформатика" расширилось и включает все реализации математических алгоритмов, связанных с биологическими объектами.

Термины биоинформатика и «вычислительная биология» часто употребляются как синонимы, хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, математическое моделирование биологических процессов — это не биоинформатика.

Биоинформатика использует методы прикладной математики, статистики и информатики. Исследования в вычислительной биологии нередко пересекаются с системной биологией. Основные усилия исследователей в этой области направлены на изучение геномов, анализ и предсказание структуры белков, анализ и предсказание взаимодействий молекул белка друг с другом и другими молекулами, а также реконструкция эволюции.

Биоинформатика и её методы используются также в биохимии, биофизике, экологии и в других областях. Основная линия в проектах биоинформатики — это использование математических средств для извлечения полезной информации из «шумных» или слишком объёмных данных о структуре ДНК и белков, полученных экспериментально.

3. Структурная биоинформатика

К структурной биоинформатике относится разработка алгоритмов и программ для предсказания пространственной структуры белков. Темы исследований в структурной биоинформатике:

  • Рентгеноструктурный анализ (РСА) макромолекул
  • Индикаторы качества модели макромолекулы, построенной по данным РСА
  • Алгоритмы вычисления поверхности макромолекулы
  • Алгоритмы нахождения гидрофобного ядра молекулы белка
  • Алгоритмы нахождения структурных доменов белков
  • Пространственное выравнивание структур белков
  • Структурные классификации доменов SCOP и CATH
  • Молекулярная динамика

Примечания

  1. Ivan Y. Torshin. Bioinformatics in the Post-Genomic Era: The Role of Biophysics, Novapublishers, 2006, ISBN: 1-60021-048-1

wreferat.baza-referat.ru

«Биоинформатика: современное состояние и перспективы»

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Выпускная работа по

«Основам информационных технологий»

Магистранта

кафедры генетики

биологического факультета

Панкратова Василия

Руководители:

член-кор. НАН Беларуси, профессор, д.б.н. Давыденко О. Г.,

старший преподаватель Шешко С.М.

Минск – 2010 г.

Оглавление. 2

Список обозначений ко всей выпускной работе. 3

Реферат на тему «Биоинформатика: современное состояние и перспективы». 4

Введение. 4

Глава 1. Обзор литературы.. 5

Работа с геномными и протеомными базами данных. 6

Выравнивание последовательностей. 7

Поиск генов и регуляторных элементов. 9

Моделирование пространственной структуры биомолекул. 10

Поиск лекарственных средств. 13

Молекулярная фиолгения. 13

Обработка цифровых изображений. 15

Системная биология. 16

Глава 2 Методика исследования. 18

Глава 3 Результаты и их обсуждение. 20

Поиск нуклеотидной последовательности гена ND6. 20

Подбор праймеров для амплификации гена ND6. 25

Сравнение полученной последовательности со стандартной. 27

Выявление функциональной значимости найденных замен. 28

Заключение. 32

Список литературы к реферату. 32

Предметный указатель к реферату. 33

Интернет ресурсы в биологии. 34

Ресурсы для поиска биологической информации. 34

http://www.ncbi.nlm.nih.gov/pubmed. 34

http://blast.ncbi.nlm.nih.gov/Blast.cgi 35

http://www.ncbi.nlm.nih.gov/sites/gquery. 35

http://www.mitomap.org/MITOMAP. 36

Ресурсы для работы с нуклеотидными и аминокислотными последовательностями 36

http://www.bioinformatics.org/sms2/ 36

http://expasy.org/tools/ 37

http://biotools.umassmed.edu/bioapps/primer3_www.cgi 38

Действующий личный сайт в WWW... 39

Граф научных интересов. 40

Вопросы по основам информационных технологий. 41

Вопрос по специальности. 41

Вопрос по общему курсу. 42

Презентация магистерской диссертации. 44

Список литературы к выпускной работе. 45

Приложение. 47

Бурное развитие молекулярной биологии и генетики в конце 20го – начале 21го веков привело к накоплению огромного массива экспериментальных данных, в первую очередь последовательностей ДНК, РНК и белков, цифровых биологических изображений и структур сигнальных сетей, хранение и анализ которых не возможен без применения соответствующего ПО. Хотя и раньше информационные технологии использовались биологами, например, для статистической обработки полученных данных, именно бум молекулярной биологии вызвал у специалистов-биологов потребность в специализированных инструментах для решения конкретных задач по обработке биологической информации. Как раз с этим связано возникновение БИ как самостоятельной области науки [6]. Уже сейчас большинство исследователей в области молекулярной биологии и генетики пользуются биоинформационными инструментами на этапе планирования эксперимента и обработки полученных экспериментальных данных. Более того, имеется большое количество опубликованных работ, полностью основанных на применении БИ для решения конкретных биологических проблем [7]. Вполне вероятно, что в перспективе будет возможным компьютерное моделирование биологических систем различной сложности, что позволит вывести биологию на принципиально иной уровень.

Кроме рассмотрения основных направлений развития, достижений и перспектив БИ, данной работе будет представлен конкретный пример использования биоинформатических средств в молекулярно-генетической работе. В рамках данной работы необходимо проверить, имеет ли больной Х мутацию в гене ND2, приводящую к нарушению его функции. Для достижения этой цели необходимо

1. Подобрать праймеры для амлификации и секвенирования гена ND2

2. Провести его амплификацию и секвенирование

3. Сравнить полученную последовательность со стандартной последовательностью гена ND2 человека и выявить отличия

4. Проверить, являются ли эти отличия уже описанными мутациями или полиморфизмами

5. Если найденная мутация окажется ранее не описанной, то необходимо проверить, скажется ли она на функционировании белка

На этапах 1,3,4,5 использовались те или иные биоинформатические инструменты.

Несмотря на непродолжительное время существования БИ, в этой сфере уже выявились конкретные направления и во многих из них уже имеются ощутимые достижения. Далее кратко будут рассмотрены основные задачи, которые могут быть решены с использованием биоинформатического подхода. К их числу относятся следующие [1,5]:

· Работа с геномными и протеомными базами данных

· Выравнивание (alighnment) нуклеотидных или аминокислотных последовательностей

· Поиск генов и различных регуляторных последовательностей в данном геноме

· Моделирование вторичной, третичной и четвертичной структур белков на основании их аминокислотной последовательностей

· Поиск функциональных доменов в молекулах белков (реакционных центров, трансмембранных доменов, сигнальных последовательностей и т.д.)

· Предсказание внутриклеточной локализации белка и характера его взаимодействия с другими белками

· Поиск лекарств

· Молекулярная филогения

· Обработка цифровых изображений

· Системная биология и моделирование биологических систем

Работа с геномными и протеомными базами данных

Первый геном бактерии был полностью секвенирован в 1995 году. С тех пор, благодаря развитию методов секвенирования ДНК, определены нуклеотидные последовательности геном многих видов живых организмов, в том числе человека, шимпанзе, нескольких видов растений, дрозофилы, пекарских дрожжей и многих бактерий.

С точки зрения БИ геном любого живого организма представляет собой последовательность длиной от 106 (бактерии) до 1011 (некоторые растения) символов (нуклеотидов), состоящую из четырех различных нуклеотидов (А, Т, Г и Ц). Очевидно, что само по себе создание геномных баз данных, в которых пользователи могли бы легко найти интересующий их участок генома конкретного организма, – это уже довольно непростая задача [6]. Тем не менее, в настоящее время существует довольно много баз данных, доступных в интернете, позволяющих работать с нуклеотидными последовательностями различных геномов. В зависимости от типа информации, хранящихся в них, все базы данных делятся на архивные, курируемые и интегрированные. В первые из них любой пользователь может добавить определенные им последовательности без какой-либо проверки их достоверности. Соответственно, такая база будет более полной, но менее достоверной. При подаче новой последовательности в курируемую базу происходит оценка достоверности как самой последовательности, так и найденных в ее составе генов и регуляторных последовательностей. Следовательно, такая база будет более надежной. Третий тип, интегрированные базы данных, такие как NCBI Entrez, предоставляют возможности поиска по многим как архивным, так и курируемым базам. Кроме того, базы можно разделить на специализированные, в которых хранятся последовательности генома только одного вида, но по этому геному представлена более подробная информация (например, есть специализированные базы данных по геномам дрозофилы, дрожжей, кишечной палочки и других организмов), и общие – в таких базах можно получить информацию о геномах многих организмов. Работа с геномными базами данных осуществляется через программы, называемыми геномными браузерами, многие из которых доступны он-лайн (например, Ensemble, UCSC Genome Browser и другие). С помощью геномного браузера можно найти участок генома с заданными координатами, ген по его названию или нуклеотидной последовательности, узнать предполагаемую или подтвержденную функцию данного участка ДНК и т.д.

Кроме геномных, существуют еще и протеомные базы данных, хотя иногда два этих типа баз могут быть объединены в один. В протеомных базах данных (наиболее известная и качественная из них – Swiss-Prot) можно найти аминокислотную последовательность белка по его названию и наоборот, вторичную, третичную и четвертичную структуру, если для данного белка они известны, и информацию о функции белка, его внутриклеточном расположении, взаимодействии с другими белками и т.д.

Выравнивание последовательностей

Следующей задачей БИ, для решения которой уже имеется большое количество эффективных программных средств, является выравнивание (в том числе и множественное) нуклеотидных или аминокислотных последовательностей [1,5,6]. Оно представляет собой запись последовательностей друг над другом таким образом, чтобы число соответствий было максимальным. При этом необходимо учитывать, что гомологичные («родственные») последовательности могут отличаться друг от друга в результате замены одного нуклеотида (аминокислоты) на другой или вставки/выпадения нуклеотида или аминокислоты. Решение этой задачи требуется в следующих случаях: для поиска нуклеотидной (аминокислотной) последовательности в геномной (протеомной) базе данных, сравнение двух или нескольких соответствующих последовательностей (при филогенетическом анализе, поиске эволюционно консервативных участков и предсказании функций генов и белков).

mirznanii.com

Реферат Вступление в биоинформатику

Вступление в биоинформатику

Что такое биоинформатика

Проблема укладки.

Анализ последовательностей.

гомологии и аналогии.

1. Что такое биоинформатика

Последние достижения в биологии характеризуются информационной революцией в молекулярной биологии. Это обусловлено развитием быстрых техник сиквенування ДНК и связанных с компьютерами технологий, помогающих работать с растущими потоками информации. В большинстве случаев биоинформатику воспринимают как использование компьютеров для обработки и обработки биологической информации. Для многих биоинформатика - это синоним "компьютерной молекулярной биологии" - использование компьютеров для характеристики молекулярных компонентов живых систем.

В широком смысле биоинформатика означает использование компьютерных технологий для манипуляции и анализа биологических данных. Поэтому она использует подходы и методы многих наук - от искусственного интеллекта и роботизации к анализу генома. Относительно генома термин "биоинформатика" используется для компьютерной манипуляции и анализа массивов данных о последовательности ДНК и белков. В последнее время термин "биоинформатика" начали использовать для манипулирования и анализа трехмерными структурами данных.

Появление биоинформатики обязан двум основным моментам - накоплению информации о первичной структуры нуклеиновых кислот и белков и разработке и распространению благодаря сети Интернет биологических баз данных и программ для оперирования с ними.

Мне симпатичное определение биоинформатики, данное доктором Фрейд Такей из Института Луи Пастера (Париж): это "математические, статистические и компьютерные методы, призванные решать биологические проблемы с использованием сиквенсов ДНК и белков и связанной с этим информации" . Следует добавить еще несколько определений, связанных с современным этапом развития науки.

Медицинская информатика - управление всеми биомедицинскими и экспериментальными данными, связанными с определенными молекулами или пациентами - от масс-спектроскопии к определению клинических побочных эффектов. Это привлечет внимание сотрудников фармацевтических компаний и клинических технологов информации в русло клеточной и молекулярной биологии и мигрировать из коммерческого и клинического к академического сектора.

Компьютерная биология - часть биоинформатики, которая в широком смысле слова близка к классической общей биологии. Компьютерные биологи связывают свои интересы более с эволюционной, популяционной и теоретической биологией, чем с клеточной и молекулярной биологией.

@ Биоинформатика - не является "чистой" наукой в полном смысле слова. Скорее всего - это инструмент для анализа, систематизации и получения знаний о живой материи.

Биоинформатика - используется для:

1 - хранение и манипулирование данными о структуре нуклеиновых кислот и белков - от первичной до третичной

2 - конструирование праймеров

3 - предсказания функций продукта определенного гена

4 - моделирование и предсказания вторичной и третичной структуры белков на основе знания первичной структуры.

Важность биоинформатики

Понять биологическое значение информации о сиквенс - это точная наука. Именно на этом уровне биологическая дисциплина подпадает под определение точной науки. Здесь мы имеем дело с декодированием неизвестного языка. Если имеем дело с белком, то аминокислоты - буквы, которые составляют алфавит, мотивы (домены) составляют слова, а целостная нативная структура - предложение. Сами по себе буквы не имеют высшего смысла, но определенные комбинации дают слова. Иногда замена одной буквы в слове приводит к изменению его значения.

Так же и в белках. Например, простая замена основы в гене, который кодирует полипептид гемоглобина А человека - GAA (кодирует глютаминовую кислоту) на GUA (кодирует валин) приводит к специфическим последствиям. Такая замена приводит к созданию рокового недуга - серповидной анемии.

Наша цель - понять слова в последовательностях предложений, образующих определенную белковую структуру и "вероятно, в один прекрасный день быть способными написать самым свои предложения на языке природы. Сейчас мы понимаем, как написаны предложения, но, зная буквы и слова, мы не понимаем синтаксиса и не можем предсказать третичную структуру ".

2. Проблема укладки

Если в направлении анализа последовательностей уже достигнуты определенные успехи, то в области предсказания высших структур - работы еще на десятилетие. Проблема укладки - центральная тема современной молекулярной биологии. Вопрос - как линейная последовательность аминокислот определяет конечную трехмерную структуру? В 1961 году * продемонстрировал, что рибонуклеаза может быть полностью денатурированная и реконструирована (составлена, заключенная) с восстановлением ферментативной активности и исходной структуры. Отсюда сделан вывод, что первичная структура определяет и трехмерную. Привлекательно установить правила, которые обеспечивают укладку белковой молекулы. Через 40 лет мы можем сказать, что правила укладки белков до конца не выяснены и точное предсказание структуры еще невозможно. В 1998 году метод предсказания вторичной структуры имел надежность у 50-60%.

Существуют три главных подхода для предсказания вторичной структуры:

1 - эмпирические статистические подходы, использующие параметры, полученные из известных трехмерных структур

2 - методы, основанные на физико-химических условиях таких, как степень компактизации, гидрофобность, заряд, потенциал водородных связей и т.д.

3 - алгоритмы предсказания, которые используют известные структуры гомологичных белков для построения вторичной структуры. Один из лучших методов, основывается на стандартных эмпирических методах - Chon i Fasman использует вероятные конформации аминокислот в негомологичных белках. Он также дает относительно невысокую надежность ~ 65%. Это связано с тем, что базы данных, которые используются для оценки конформационных потенциалов, неадекватно малые.

С предсказанием третичной структуры дела значительно хуже, чем с вторичной. Особенно, если она базируется на предположении вторичной, что многие делают. Следует обратить внимание на то, что невозможно предсказать структуру простых белков, не говоря уже о сложных, или случаи, когда задействованы пострансляцийни изменения. На решение проблемы уйдут последующие десятилетия.

Еще одним аргументом против идеи, что первичная последовательность белка содержит всю информацию о укладку белка является наличие чаперонив. Это вспомогательные белки, которые направляют укладку белковой молекулы в нужном русле. Считается, что чапероны блокируют пути некорректного заключения молекул белков, что привело бы к образованию неактивных; предупреждают некорректную агрегацию и преципитации некорректно составленных субъединиц. Они, вероятно, временно связываются с определенными поверхностями белков на ранних стадиях синтеза и укладки. Без чаперонив белки укладываются, но с ошибками. То есть, они обеспечивают высокоэффективную и точную укладку белковой молекулы.

Уровни белковой структуры

Анализ последовательностей

Понятно, что природа информации, закодированной в первичной структуре пока не может быть транслируемая в трехмерную структуру биологических макромолекул или их функции. Поэтому был разработан прямой метод.

Используя техники анализа последовательностей можно установить сходства между новыми сомнительными последовательностями (т.е. структура и функция которых неизвестны) и последовательностями, чьи структура и функции известны из баз данных. Этот прямой метод хуже работает, когда идентичность составляет

В целом анализы можно проводить со снижением надежности в сумеречной зоны. В этой зоне сходство последовательностей (соответствует ~ 10-20% идентичности) в которых выравнивание помогает повысить точность и может дать определенный шанс на успех. Достичь можно глубже в "сумеречную" зону - цель большинства аналитических методов. Для этого разработаны многочисленные подходы. Некоторые включают поиски баз данных с одиночными последовательностями, другие - используют характеристические куски сравниваемых последовательностей или только данные по полученным аминокислотных последовательностях. Каждый из методов дает различные перспективы, в зависимости от типа используемой при поиске информации. Однако, ни один из них не дает правильного ответа или полной картины предела чувствительности методов дальнейшем (рис. 2-1).

4. Гомологии и аналогии

Большинство методов анализа последовательностей основаны на представлении о гомологии. Говорят, что последовательности гомологичны, если они связаны дивергентно и произошли от общего предка.

Понятие о гомологии позволяет ввести концепцию аналогий. Принято считать, что белковые структуры обладают подобные складки, но не проявляют% идентичности сходства в сиквенс. В частности, есть в-бочки найдены в самых разных белках - от водорастворимых сериновых протеаз в интегральных мембранных погрузится. Так ли, как белки, содержащие подобные каталитические остатки с почти точной эквивалентной геометрией, но не имеют сходства ни в последовательности, ни в структуре. Например, каталитическая триада His-Cup-Ser сериновых протеаз обнаружена и в субтализини, трехслойный БВБ-сэндвич и в химотрипсин, и в дводоменному в-бочковой белка. Считается, что такие взаимосвязи образовались в результате конвергенции в подобных биологических решений, но эволюционно различных стартовых позиций. Когда сиквенс и структура разные, а общая укладка подобная, говорят об аналогии. Такое может быть в результате конвергентной эволюции. Следует отметить, что структура гораздо более консервативна, чем последовательности.

Цель многих типов анализа последовательностей - выявление гомологичных последовательностей путем рутинного поиска баз данных. Идентификация таких взаимосвязей относительно проста, когда уровень сходства высокий (> 50%). Когда степень идентичности составляет

Гомология не является показателем сходства, но показывает, что сиквенс имеют скорее дивергентное, чем конвергентный взаимосвязь. Поэтому фразы количественно оценивают гомологию (такие как "сиквенс показали 50% гомологии" или "сиквенс является високогомологичнимы") не имеют смысла и должны избегаться.

Относительно гомологичных последовательностей полезно ввести еще некоторые понятия. Ортологи - белки, которые выполняют ту же функцию у разных видов. Паралогы - белки, которые выполняют различные, но связанные функции в одном организме.

Сравнение последовательностей ортологических белков является основой молекулярной палеонтологии. В частности, конструирование филогенетических деревьев позволяет выявить взаимосвязи, например, между белками бактерий, грибов и млекопитающих или растений. Изучение Паралогическое белков может обеспечить более глубокое понимание процессов эволюции. Паралогическое белки возникающих из одного гена из-за его дупликаций. Дупликовани гены проходят свои эволюционные пути и новые особенности появляются через вариации и адаптации. В качестве примера Паралогическое белков можно привести суперродин подобный родопсина рецепторов, связанных с G-белками. Они включают рецепторы света, запаха, вкуса, гормонов и нейротрансмитарив. Они характеризуются высокой степенью гомологии и, как принято считать, возникшие в результате дупликации генов.

ogorod.net

Биоинформатика

Биоинформатика

Биоинформа́тикаили вычисли́тельнаябиоло́гия— новая ветвь науки, в которой используются методы прикладной математики, статистики и информатикидля решения биологических задач.

Исследования в вычислительной биологии нередко пересекаются с системной биологией. Основные исследовательские усилия в этой области включают:

•построение генома

•обнаружения генов

•анализ и предсказание структуры белков

•предсказания межбелковых взаимодействий

•моделирование эволюции.

Термины биоинформатика и вычислительная биологиячасто взаимозаменяются,

хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы.

Биоинформатика и её методы используются также в биохимии и биофизике. Основная линия в проектах биоинформатики — этоиспользование математических

средств для извлечения полезной информации из «шумных» данных, полученных с помощью биологичеких методов.

Типичные задачи вычислительной биологии включают монтаж высококачественных ДНК-цепей из раздробленных участков, ипредсказание предписаний гена, которые могут быть получены вм-ДНКили посредством массспектрометрии.

Основные области исследований

1.Анализ генетических последовательностей

C тех пор как в 1977 году был секвенирован фаг Phi-X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. (Секвенирование биополимеров (белков и нуклеиновых кислот — ДНК и РНК) — определение их первичной аминокислотной или нуклеотидной последовательности.

Для секвенирования применяются методы Эдмана, Сэнгера и другие; в настоящее время для секвенирования нуклеиновых кислот обычно применяется метод Сэнгера с

дидезоксинуклеозидтрифосфатами (ddNTP).)

Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья).

С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначносопоставить ("выравнять") похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелкихмутаций, таких какзамены отдельных нуклеотидов,вставки нуклеотидов, и их "выпадения" (делеции).

Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенированирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenza) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800нуклеотидов). Концы фрагментов накладываются друг на

друга и, совмещённые должным образом, дают полный геном. Такой метод даёт быстрые результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, иалгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим местом применения биоинформатики в анализе последовательностей является автоматический поиск генов и регулярных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов большие сегменты ДНК явно не кодируют белки, и их функциональная роль не известна. Это так называемая "мусорная ДНК", она может нести ещё не выясненную функциональную нагрузку.Биоинформатика помогает связать геномные и протеомные проекты, к примеру, в использовании последовательности ДНК для идентификации белков.

Аннотация геномов

Вконтексте геномики аннотация — процесс маркировки генов и других объектов

впоследовательности ДНК.

Первая программная система аннотации геномов была создана в 1995 Оуэном Уайтом (Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

Вычислительная эволюционная биология

Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

•в отслеживании эволюции большого числа организмов, измеряя изменения

вих ДНК, а не только в строении или физиологии,

•сравнивать целые геномы (BLAST), что позволяет изучать более комплексные эволюционные события, такие какдупликация генов, латеральный перенос

генов и предсказывать бактериальные специализирующие факторы

•построить комплекс компьютерных моделей популяций, чтобы предсказать поведение системы во времени

•отслеживать и опубликовывать информацию о большом количестве видов и

оргнизмов Область в компьютерных науках, которая использует генетические алгоритмы

часто путают с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диферсификация через рекомбинацию или мутации, и выживании в естественном отборе.

Оценка биологического разнообразия

Биологичеcкое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля.

Для сбора видовых имен, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение

применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям.

Компьютерные симуляторы моделируют такие вещи как популяционную динамику или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК, или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

BLAST (англ. Basic Local Alignment Search Tool) — это алгоритм для сравнения информации о первичных биологических последовательностях, таких как последовательность аминокислот в белках или последовательность нуклеотидов в ДНК. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с библиотекой или банком последовательностей и определить гомологичные последовательности в библиотеке. На сегодняшний день анализ новых последовательностей немыслим без поиск гомологов в банках данных.

ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ ПО ДАННОЙ ПРОБЛЕМЕ.

Таблица “сравнение строения молекул ДНК и РНК”.

Дезоксирибонуклеиновая кислота (ДНК)

Содержит в своём составе углевод - дезоксирибозу

Рибонуклеиновая кислота (РНК)

Содержит в своём составе углевод – рибозу

Содержит три остатка фосфорной кислоты

Содержит три остатка фосфорной кислоты

 

 

 

 

Содержит четыре типа азотистых оснований –

Содержит четыре типа азотистых оснований –

Аденин (А),

Аденин (А),

Цитозин (Ц), Тимин (Т), Гуанин (Г)

Цитозин (Ц), Урацил (У), Гуанин (Г)

 

 

 

 

Молекула двухцепочечная

Молекула одноцепочечная

 

 

Принцип комплиментарности - от латинского комплемент - дополнение, это принцип, согласно которому в молекулах ДНК или РНК водородные связи возникают лишь между следующими парами азотистых оснований и никак иначе:

В молекуле ДНК:

В молекуле РНК:

Аденин – Тимин

Аденин – Урацил

Тимин – Аденин

Урацил – Аденин

Гуанин – Цитозин Гуанин – Цитозин

 

 

 

 

 

Цитозин – Гуанин Цитозин – Гуанин

 

 

 

 

 

 

Таблица “Генетический код”.

 

 

 

 

 

 

 

 

 

 

Первое основание

 

Второе основание

Третье основание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У (А)

Ц (Г)

А (Т)

Г (Ц)

 

 

 

 

 

 

 

 

 

Фен

Сер

Тир

Цис

Фен

Сер

Тир

Цис

Лей

Сер

-

-

Лей

Сер

-

Три

 

 

 

 

 

 

 

 

Лей

Про

Гис

Арг

Лей

Про

Гис

Арг

Лей

Про

Глн

Арг

Лей

Про

Глн

Арг

 

 

 

 

 

 

 

 

Иле

Тре

Асн

Сер

Иле

Тре

Асн

Сер

Иле

Тре

Лиз

Арг

Мет

Тре

Лиз

Арг

 

 

 

 

 

 

 

 

Вал

Ала

Асп

Гли

Вал

Ала

Асп

Гли

Вал

Ала

Глу

Гли

Вал

Ала

Глу

Гли

 

 

 

 

У(А)

Ц(Г)

А(Т)

Г(Ц)

У(А)

Ц(Г)

А(Т)

Г(Ц)

У(А)

Ц(Г)

А(Т)

Г(Ц)

У(А)

Ц(Г)

А(Т)

Г(Ц)

Нужно помнить, что для большей надёжности хранения и передачи наследственной информации в ДНК некоторые аминокислоты закодированы двумя, тремя, четырьмя или даже шестью триплетами азотистых оснований!

Таблица “Двадцать аминокислот, входящих в состав природных белков”

(“волшебные” аминокислоты)

Аминокислота Сокращённое названиеАминокислотаСокращённое название

Аланин

Ала

Лейцин

Лей

 

 

 

 

 

 

 

 

Аргинин

Арг

Лизин

Лиз

 

 

 

 

 

 

 

 

Аспарагин

Асн

Метионин

Мет

 

 

 

 

 

 

 

 

Аспарагиновая кислота

Асп

Пролин

Про

 

 

 

 

 

 

 

 

Валин

Вал

Серин

Сер

 

 

 

 

 

 

 

 

Гистидин

Гис

Тирозин

Тир

 

 

 

 

 

 

 

 

Глицин

Гли

Треонин

Тре

 

 

 

 

studfiles.net

Реферат - Предметная область биоинформатики

Глава 1

ТЕОРЕТИЧЕСКИЕ И МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ БИОИНФОРМАТИКИ

Предметная область биоинформатики

 

Что такое биоинформатика? Часто под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. В современной биологии нашли широкое применение не только теоретические представления кибернетики. Сложность биологических процессов и описывающих их поведение математических моделей с неизбежностью привело к использованию вычислительной техники. Компьютеры все шире используются не только для обработки данных и уточнения параметров моделей, но и для постановки компьютерного эксперимента, во многих случаях призванного заменить дорогостоящий натурный эксперимент. Так возникла биоинформатика. Однако на практике под биоинформатикой понимают только использование компьютеров и математических средств для характеризации молекулярных компонентов клетки, в частности для извлечения информации о структуре ДНК и белков из данных, полученных экспериментально в рамках исследований по геномике или протеомике. Например, проводится анализ генетических последовательностей, осуществляется так называемая аннотация геномов – маркировка генов и других объектов в последовательности ДНК, дается оценка биологического разнообразия. Широкое развитие в рамках этого направления получила также вычислительная эволюционная биология. Следует отметить, что компьютерную эволюционную биологию часто путают с той областью компьютерных наук, которая использует так называемые эволюционные вычисления и генетические алгоритмы [1]. В целом, подробную информацию о биоинформатике в узком смысле можно получить, прочитав книгу С. Игнасимуту «Основы биоинформатики» [2].

Говоря о путанице в терминологии, можно отметить, что часто в литературе встречаются такие словосочетания: «биоинформатика, или вычислительная биология», «биология in Silico (или вычислительная биология)». С 1998 г. в Германии выходит международный научный журнал по вычислительной молекулярной биологии «In Silico Biology» – как электронное Интернет-издание его публикует Bioinformation Systems e. V. (Брауншвейг), его печатную версию готовит издательство IOS Press [3]. Однако такое отождествление неверно. Вычислительная биология – это не область науки, а подход к использованию компьютеров для изучения биологических процессов. Точно так же, как компьютерная алгебра, о биологических приложениях которой мы будем говорить в этой книге, была разработана и используется в основном для решения физических и технических задач.

В Институте цитологии и генетики СО РАН, чтобы уйти от узкой трактовки биоинформатики, предложили новый термин – «информационная биология» (см. сайт кафедры информационной биологии факультета естественных наук Новосибирского университета [4]). Это направление относится к числу высоких технологий современной биологии и обеспечивает информационно-компьютерные и теоретические основы генетики и селекции, молекулярной генетики и биологии, генетической и белковой инженерии, биотехнологии, медицинской генетики, генодиагностики, генотерапии, экологии. Предметом информационной биологии является исследование биологических систем на трех уровнях их организации: молекулярно-генетическом, организменном, популяционном и экосистемном. В такой трактовке наблюдается значительное совпадение с предметом биоинформатики по версии ВАК России [5].

Согласно ВАК России, предметная область биоинформатики в широком смысле – изучение организации и функционирования биологических систем на основе теоретических представлений, методов и технических средств информатики (науки, изучающей все аспекты получения, хранения, преобразования, передачи и использования информации). Для этих целей биоинформатика использует методы прикладной математики, математической статистики и информатики, опирается на теорию информации, теорию динамических систем, математическую логику, системный анализ и др.

Следует подчеркнуть отличие биоинформатики от бионики (от греч. biōn – элемент жизни, буквально – живущий) – науки, пограничной между биологией и техникой. Бионика решает инженерные задачи на основе моделирования структуры и жизнедеятельности организмов. Она тесно связана с биологией, физикой, химией, кибернетикой и инженерными науками, в частности электроникой, связью и др.

Точно так же нельзя смешивать биоинформатику с такой близкой дисциплиной, как биокибернетика. Биокибернетика как научное направление обязана своим рождением проникновению в биологию идей, методов и технических средств кибернетики. Процесс «кибернетизации» биологии осуществляется как в теоретической, так и в прикладной областях. Основная теоретическая задача биокибернетики – изучение общих закономерностей управления, а также хранения, переработки и передачи информации в живых системах.

О фундаментальных и прикладных аспектах и сферах приложения биоинформатики мы расскажем в следующих главах. А пока остановимся на методологических аспектах моделирования, в том числе в биологии.

www.ronl.ru

Биоинформатика

Биоинформатика

Биоинформа́тикаили вычисли́тельнаябиоло́гия— новая ветвь науки, в которой используются методы прикладной математики, статистики и информатикидля решения биологических задач.

Исследования в вычислительной биологии нередко пересекаются с системной биологией. Основные исследовательские усилия в этой области включают:

•построение генома

•обнаружения генов

•анализ и предсказание структуры белков

•предсказания межбелковых взаимодействий

•моделирование эволюции.

Термины биоинформатика и вычислительная биологиячасто взаимозаменяются,

хотя последний чаще указывает на разработку алгоритмов и конкретные вычислительные методы.

Биоинформатика и её методы используются также в биохимии и биофизике. Основная линия в проектах биоинформатики — этоиспользование математических

средств для извлечения полезной информации из «шумных» данных, полученных с помощью биологичеких методов.

Типичные задачи вычислительной биологии включают монтаж высококачественных ДНК-цепей из раздробленных участков, ипредсказание предписаний гена, которые могут быть получены вм-ДНКили посредством массспектрометрии.

Основные области исследований

1.Анализ генетических последовательностей

C тех пор как в 1977 году был секвенирован фаг Phi-X174, последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. (Секвенирование биополимеров (белков и нуклеиновых кислот — ДНК и РНК) — определение их первичной аминокислотной или нуклеотидной последовательности.

Для секвенирования применяются методы Эдмана, Сэнгера и другие; в настоящее время для секвенирования нуклеиновых кислот обычно применяется метод Сэнгера с

дидезоксинуклеозидтрифосфатами (ddNTP).)

Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены филогенетические деревья).

С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначносопоставить ("выравнять") похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелкихмутаций, таких какзамены отдельных нуклеотидов,вставки нуклеотидов, и их "выпадения" (делеции).

Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенированирования» (которая была, например, использована Институтом Генетических Исследований для секвенирования первого бактериального генома, Haemophilus influenza) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800нуклеотидов). Концы фрагментов накладываются друг на

друга и, совмещённые должным образом, дают полный геном. Такой метод даёт быстрые результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифроке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, иалгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.

Другим местом применения биоинформатики в анализе последовательностей является автоматический поиск генов и регулярных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов большие сегменты ДНК явно не кодируют белки, и их функциональная роль не известна. Это так называемая "мусорная ДНК", она может нести ещё не выясненную функциональную нагрузку.Биоинформатика помогает связать геномные и протеомные проекты, к примеру, в использовании последовательности ДНК для идентификации белков.

Аннотация геномов

Вконтексте геномики аннотация — процесс маркировки генов и других объектов

впоследовательности ДНК.

Первая программная система аннотации геномов была создана в 1995 Оуэном Уайтом (Owen White), работавшим в команде, секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов, тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем работают сходным образом, но эти программы постоянно развиваются и улучшаются.

Вычислительная эволюционная биология

Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:

•в отслеживании эволюции большого числа организмов, измеряя изменения

вих ДНК, а не только в строении или физиологии,

•сравнивать целые геномы (BLAST), что позволяет изучать более комплексные эволюционные события, такие какдупликация генов, латеральный перенос

генов и предсказывать бактериальные специализирующие факторы

•построить комплекс компьютерных моделей популяций, чтобы предсказать поведение системы во времени

•отслеживать и опубликовывать информацию о большом количестве видов и

оргнизмов Область в компьютерных науках, которая использует генетические алгоритмы

часто путают с компьютерной эволюционной биологией. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диферсификация через рекомбинацию или мутации, и выживании в естественном отборе.

Оценка биологического разнообразия

Биологичеcкое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, была бы это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля.

Для сбора видовых имен, описаний, ареала распространения, генетической информации используются базы данных. Специализированное программное обеспечение

применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям.

Компьютерные симуляторы моделируют такие вещи как популяционную динамику или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК, или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.

BLAST (англ. Basic Local Alignment Search Tool) — это алгоритм для сравнения информации о первичных биологических последовательностях, таких как последовательность аминокислот в белках или последовательность нуклеотидов в ДНК. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с библиотекой или банком последовательностей и определить гомологичные последовательности в библиотеке. На сегодняшний день анализ новых последовательностей немыслим без поиск гомологов в банках данных.

ТЕОРЕТИЧЕСКИЙ МАТЕРИАЛ ПО ДАННОЙ ПРОБЛЕМЕ.

Таблица “сравнение строения молекул ДНК и РНК”.

Дезоксирибонуклеиновая кислота (ДНК)

Содержит в своём составе углевод - дезоксирибозу

Рибонуклеиновая кислота (РНК)

Содержит в своём составе углевод – рибозу

Содержит три остатка фосфорной кислоты

Содержит три остатка фосфорной кислоты

 

 

 

 

Содержит четыре типа азотистых оснований –

Содержит четыре типа азотистых оснований –

Аденин (А),

Аденин (А),

Цитозин (Ц), Тимин (Т), Гуанин (Г)

Цитозин (Ц), Урацил (У), Гуанин (Г)

 

 

 

 

Молекула двухцепочечная

Молекула одноцепочечная

 

 

Принцип комплиментарности - от латинского комплемент - дополнение, это принцип, согласно которому в молекулах ДНК или РНК водородные связи возникают лишь между следующими парами азотистых оснований и никак иначе:

В молекуле ДНК:

В молекуле РНК:

Аденин – Тимин

Аденин – Урацил

Тимин – Аденин

Урацил – Аденин

Гуанин – Цитозин Гуанин – Цитозин

 

 

 

 

 

Цитозин – Гуанин Цитозин – Гуанин

 

 

 

 

 

 

Таблица “Генетический код”.

 

 

 

 

 

 

 

 

 

 

Первое основание

 

Второе основание

Третье основание

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

У (А)

Ц (Г)

А (Т)

Г (Ц)

 

 

 

 

 

 

 

 

 

Фен

Сер

Тир

Цис

Фен

Сер

Тир

Цис

Лей

Сер

-

-

Лей

Сер

-

Три

 

 

 

 

 

 

 

 

Лей

Про

Гис

Арг

Лей

Про

Гис

Арг

Лей

Про

Глн

Арг

Лей

Про

Глн

Арг

 

 

 

 

 

 

 

 

Иле

Тре

Асн

Сер

Иле

Тре

Асн

Сер

Иле

Тре

Лиз

Арг

Мет

Тре

Лиз

Арг

 

 

 

 

 

 

 

 

Вал

Ала

Асп

Гли

Вал

Ала

Асп

Гли

Вал

Ала

Глу

Гли

Вал

Ала

Глу

Гли

 

 

 

 

У(А)

Ц(Г)

А(Т)

Г(Ц)

У(А)

Ц(Г)

А(Т)

Г(Ц)

У(А)

Ц(Г)

А(Т)

Г(Ц)

У(А)

Ц(Г)

А(Т)

Г(Ц)

Нужно помнить, что для большей надёжности хранения и передачи наследственной информации в ДНК некоторые аминокислоты закодированы двумя, тремя, четырьмя или даже шестью триплетами азотистых оснований!

Таблица “Двадцать аминокислот, входящих в состав природных белков”

(“волшебные” аминокислоты)

Аминокислота Сокращённое названиеАминокислотаСокращённое название

Аланин

Ала

Лейцин

Лей

 

 

 

 

 

 

 

 

Аргинин

Арг

Лизин

Лиз

 

 

 

 

 

 

 

 

Аспарагин

Асн

Метионин

Мет

 

 

 

 

 

 

 

 

Аспарагиновая кислота

Асп

Пролин

Про

 

 

 

 

 

 

 

 

Валин

Вал

Серин

Сер

 

 

 

 

 

 

 

 

Гистидин

Гис

Тирозин

Тир

 

 

 

 

 

 

 

 

Глицин

Гли

Треонин

Тре

 

 

 

 

studfiles.net


Смотрите также

 

..:::Новинки:::..

Windows Commander 5.11 Свежая версия.

Новая версия
IrfanView 3.75 (рус)

Обновление текстового редактора TextEd, уже 1.75a

System mechanic 3.7f
Новая версия

Обновление плагинов для WC, смотрим :-)

Весь Winamp
Посетите новый сайт.

WinRaR 3.00
Релиз уже здесь

PowerDesk 4.0 free
Просто - напросто сильный upgrade проводника.

..:::Счетчики:::..

 

     

 

 

.