Бактерии, которые населяют человеческое тело, держат специальное место для ученых в исследовании метагеномики. Значение метагеномики не может быть недооценено: на грубой оценке бактериальные клетки в нашем теле превосходят численностью наше собственное порядком величины, и большинство из них расположено в пищеварительном тракте. Различные глобальные проекты, такие как «Человеческий Проект Микробиома», показали, что состав бактериального сообщества затрагивает наш риск болезни, выбор оптимальной диеты, настроения и даже креативности.
Перемена верна – состав этих микроорганизмов чувствителен к процессам, происходящим в теле. Таким образом, сравнивая типового пациента с людьми со здоровым метагеномом кишечника, в долгосрочной перспективе будет возможно в будущем оценить риск опасных болезней, таких как диабет или воспалительное заболевание кишечника.
Традиционный подход к анализу метагенома должен сравнить образцы на основе их таксономического состава: проценты для каждой микробной разновидности найдены. Чтобы определить состав образца, его генетические последовательности по сравнению с базой данных известных бактериальных геномов, названных множеством элементарных исходов. Однако у этого подхода есть несколько недостатков. Во-первых, справочные геномы часто неточны, так как состав справочного генома – в вычислительном отношении сложная и отнимающая много времени задача, специально для разновидностей, которые трудно вырастить; и геномы разновидностей, изолированных в лаборатории, могут нести ряд генов, который существенно отличается от тех же самых разновидностей, живущих в окружающей среде.
Во-вторых, не все организмы обычно собираются в справочных геномах; примеры таких организмов – вирусы. Поэтому та часть типовой последовательности, которая не соответствует справочному образцу, просто не принята во внимание во время анализа, несмотря на то, что это может быть довольно большим и значительным. Между тем метод на основе сравнения k-mer частот не требует обращения за помощью к справочному образцу или существованию никакой информации об организмах, изученных, и, поэтому, все последовательности в образце подвергнуты анализу, который дает лучшие результаты.Метод основан на представлении для организма геномная последовательность как набор со всеми случаями нуклеотида «слова» указанной длины «k», названный k-mers.
Поскольку геном – уникальная последовательность для каждого организма, наборы таких «слов» также отличаются между отдельными организмами. Таким образом набор всего k-mers для метагенома может быть рассмотрен как ряд наборов, а именно, его учредительных организмов. Это позволяет нам оценить различия в бактериальном составе, сравнивая образцы.
Чтобы проверить эффективность k-mer техники по сравнению с традиционными подходами, два набора данных о метагеноме использовались – ряд реальных данных и ряда искусственно произведенных данных. Искусственные данные (созданный из геномов, с пропорциями, известными заранее), удобны, чтобы использовать, проверяя метод, поскольку мы знаем последовательность точно и можем оценить результат, полученный, сравнив его с априорным правильным значением. Метагеномы кишечника от жителей Соединенных Штатов и Китая использовались в качестве реальных данных.Известно, что бактериальные сообщества кишечника значительно отличаются между различным населением, и алгоритмы утверждали, что позволили нам находить, точно те индикаторы, которые показывают различие в составе.
Поэтому критерий оценки эффективности метода, который рассмотрели, был степенью, до которой можно отличить метагеномы, именно так очень китайские метагеномы отличаются в целом от американских.Метод показал лучшие результаты в обоих типах данных, выдержав сравнение k-mers, используя традиционное отображение со множеством элементарных исходов. Кроме того, используя реальные данные, несоответствие между результатами кишечника для k-mer и традиционных подходов позволило нам обнаруживать другой важный компонент метагенома кишечника, а именно, бактериальный фаг crAssphage, который избежал уведомления об исследователях, использующих традиционный метод. По словам автора статьи, Дмитрия Алексеева: «Интересно, гены могут быть рассмотрены не только как сегменты ДНК с белками, закодированными в них, но также и как информация в целом.
Именно это информационное различие позволило нам определять новые сегменты ДНК, не описанной в каталоге известных генов. Интересно видеть, как этот подход будет использоваться другими исследовательскими группами».
Развитая техника позволяет нам более эффективно, и точно найдите различия между метагеномами для множества бактериальных сообществ, которые могут помочь изучить, диагностировать и лечить много человеческих заболеваний.