Google Cloud Dataflow Now Available на искре Apache

cloud

Новый «бегун» разрешит разработчикам предназначаться для конвейера Потока данных для исполнения в кластере Искры, сообщил Клоудера.Гугл заявил об Облачном Потоке данных в прошлом июне как об управляемом обслуживании, созданном, чтобы оказать помощь компаниям поглотить и проанализировать огромные наборы данных и в пакетной обработке данных и в реальном времени в потоковом режиме.

В декабре компания выпустила Облачный Набор разработчика ПО Потока данных в сообщество разработчиков ПО с открытым исходным кодом, чтобы призвать разработчиков ПО писать приложения, которые объединяются легко с управляемым обслуживанием, и вдобавок с другими средами исполнения.Одним из достигнутых результатов того перемещения есть версия Облачного Потока данных, что трудится на распределении Клоудерой механизма Искры Apache с открытым исходным кодом для широкомасштабной обработки данных.

Новый Поток данных «бегун» заявил 20 января Cloudera, и Гугл разрешит разработчикам предназначаться для конвейера Потока данных для исполнения на размещенном облаком либо собственном кластере Искры, и вдобавок на управляемом обслуживании Гугл.Одним из самых востребованных качеств Облачного Потока данных есть собственная помощь конвейерной логики, которая может выполниться и в пакетном и потоковом режиме, Джош Виллс, главный директор науки о данных в Cloudera, сообщил в сообщении в блоге компании, объявляющем о новой разработке.Облачные возможности потоковой передачи Потока данных более усовершенствованы, чем дешёвые с Потоковой передачей Искры, тогда как ее пакетный механизм исполнения оптимизирует выполнение конвейеров, которые не обрабатывают эти потоковой передачи, было сообщено в Завещаниях.Облачный Поток данных комбинирует пару основных разработок, которые Гугл применял внутренне в течение многих лет для широкомасштабной обработки данных, включая MapReduce, механизм пакетной обработки данных FlumeJava и механизм обработки потока MillWheel. «Поток данных есть синтезом отечественных инвестиций», в разработках обработки данных, сообщил Эрик Шмидт, менеджер по продукту с Облачной командой Платформы Гугл. «С позиций разработчика это – управляемое обслуживание и модель программирования», сообщил он.

Облачный SDK Потока данных, что Гугл, выпущенный в прошлом декабре, дает разработчикам метод записать приложения громадных данных, которые комбинируют потоковые возможности и партию обработки без потребности в отдельных моделях программирования либо отдельных инфраструктурах для исполнения их.«Что они должны были бы сделать, ранее выполняется разный SDK», для каждого режима Шмидт сообщил. «У Вас либо был бы последовательность пользователей, делающих статическое пакетное задание MapReduce, либо у Вас будет второй лагерь [выполнением аналитики потоковой передачи]», сообщил он. «Мы желали объединить и поток и партию и иметь объединенную инфраструктуру обслуживания того» для исполнения обоих, сообщил он.Гугл выпустил SDK в сообщество разработчиков ПО с открытым исходным кодом в декабре, чтобы обеспечивать, что Поток данных портирован к вторым средам исполнения, также, сообщил он.

Объявление Искры Apache Cloudera есть одним примером направления, которое Гугл имеет в виду для Потока данных, сообщил он.Один из главных вопросов, когда Гугл сперва заявил о Потоке данных, был, будут ли разработчики, применяющие модель программирования, заблокированы в инфраструктуру Гугл для исполнения их конвейеров. «Отечественная стратегия была в том, чтобы увеличить SDK до открытого исходного кода, так, они могут увеличить его до вторых сред», сообщил Шмидт.С объявлением во вторник Облачный Поток данных сейчас может трудиться на инфраструктуре Гугл, кластере Искры либо локальной машине, сообщил он.Перемещения Гугл созданы для лучше размещения компании в развивающийся рынок для технологий и услуг, которые могут оказать помощь фирмам извлечь сокровище бизнеса из больших наборов данных.

За эти годы довольно много компаний поправились при сборе урожая всех видов данных от совокупностей обработки транзакций, маршрутов перемещения, системных изданий, датчиков автомобили, других источников и мобильных устройств. Но они приложив все возможные усилия пробовали извлечь цена из него, и из-за ограничений классических разработок управления базой данных и из-за сложности, вовлеченной в создание инфраструктуры обработки данных для наборов громадных данных.