Лучший способ понять ‘Большие данные?’

Но просто наличие большого количества данных не является тем же самым как пониманием его. Все больше и больше новые математические инструменты необходимы, чтобы извлечь значение из огромных наборов данных. В работе, изданной онлайн сегодня, два исследователя в Cold Spring Harbor Laboratory (CSHL) теперь бросают вызов новым достижениям в этой области, используя классическое математическое понятие, чтобы заняться нерешенными проблемами в анализе Больших данных.Что означает проанализировать Большие данные?

Главная цель состоит в том, чтобы найти образцы между на вид несвязанными количествами, такими как показатели рака и доход. Многие наиболее распространенные статистические инструменты только в состоянии выявить закономерности, если у исследователя есть некоторое ожидание об отношениях между количествами.

Часть приманки Больших данных – то, что она может показать совершенно новые, неожиданные образцы. Поэтому ученые и исследователи работали, чтобы разработать статистические методы, которые раскроют эти новые отношения.В 2011 выдающаяся группа исследователей из Гарвардского университета опубликовала очень влиятельную работу в журнале Science, который продвинул просто такой инструмент. Но в работе, опубликованной сегодня на Слушаниях Национальной академии наук, CSHL, Количественный Товарищ Биологии Джастин Кинни и доцент CSHL Гуриндер «Микки» Атвал демонстрируют, что этот новый инструмент критически испорчен. «У их статистического инструмента нет математических свойств, которые требовались», говорит Кинни.

Кинни и Атвал показывают, что правильный инструмент скрывался в простом виде все время. Решением, они говорят, является известная математическая мера, названная «взаимная информация», сначала описанный в 1948. Это первоначально использовалось, чтобы определить количество объема информации, который мог быть передан в электронном виде через телефонный кабель; понятие теперь лежит в основе дизайна телекоммуникационной инфраструктуры в мире. «Что мы нашли в нашей работе, то, что это то же самое понятие может также использоваться, чтобы найти образцы в данных», объясняет Кинни.

Относившийся Большие данные, взаимная информация в состоянии показать образцы в больших списках чисел. Например, это может использоваться, чтобы проанализировать образцы в наборах данных на многочисленных бактериальных разновидностях, которые помогают нам еда обзора. «Этот конкретный инструмент идеально подходит для нахождения образцов в исследованиях человеческого микробиома среди многих других вещей», говорит Кинни.

Значительно, взаимная информация обеспечивает способ определить все типы образцов в данных без уверенности относительно любых предшествующих предположений. «Наша работа показывает, что взаимная информация очень естественно решает эту критическую проблему в статистике», говорит Кинни. «У этого красивого математического понятия есть потенциал, чтобы значительно принести пользу современному анализу данных в биологии и в биологии и многих других важных областях.