1 (1)

Текст Лилия Земнухова | 28.10.2013

О Big Data сегодня слышали все, кто хоть сколько-нибудь интересуется информационными технологиями и новыми трендами. И, хотя понятию всего лишь 5 лет, оно уже стало тем самым buzzword, которое перестает обозначать что-либо конкретное. Что происходит?

Несколько слов об истории Big Data

Понятие было предложено Клиффордом Линчем, который использовал его первоначально, скорее, как метафору, обозначающую феномен роста объемов и усложнение данных. Но сам феномен был зафиксирован еще в 2001 году исследовательской компанией Gartner и описан в виде трехсоставной модели «3Vs»: большой объем данных (Volume), скорость их обработки (Velocity) и разнообразие их типов и источников (Variety). В прошлом году Gartner подтвердила актуальность этой модели для описания Big Data, и подчеркнула тенденцию усиления процессов: «high volume, high velocity, high variety».

Как видим, феномен «больших данных» существовал задолго до появления самого понятия. Эти потоки данных появились вместе с Интернетом, но до некоторого времени не возникало необходимости обозначать их определенным образом.

Вячеслав Шебанов: «Что значит Big Data? Это значит много данных. Много – это сколько? Когда начинается Big Data? Это понятие, видимо, пришло из науки, когда говорили об обработке очень большого массива информации. Как, например, у Google есть BigTable, где, в общем-то, содержится весь Интернет. Эти обозначения придумали в тот момент, когда появился такой объем операций, что обычные способы обработки и взаимодействия с данными перестали действовать, а, точнее, оказались слишком медленными. Разработчики стали оптимизировать работу с этим огромным количеством сведений, решать задачи по-другому, а технические евангелисты и маркетологи – сообщать об этом на конференциях».

Поскольку Big Data остается сложным феноменом, работа с этими данными требует разных подходов. Методов и техник анализа становится все больше. Глобальный институт McKinsey выделил 26 техник, среди которых: интеллектуальный анализ (Data Mining), аутсорсинг, машинное обучение, распознавание образов, прогнозная аналитика, статистический анализ, визуализация аналитических данных и другие. Они во многом пересекаются, часто на основе нескольких создаются новые. Интересным кейсом является Data Mining.

1 (1)

О том, что происходит с Big Data и Data Mining рассказывает PhpStorm Product Marketing Manager в компании JetBrains Михаил Винк

Почему это в тренде?

«Понятие Big Data было и раньше. Просто, оно не было популяризировано маркетологами и менеджерами, о нём не знала общественность. Сейчас это тренд, хотя сложно само понятие назвать чем-то принципиально новым.

Big Data обычно связаны с корпорациями и большим объемом данных, которые там собираются. Примерами может быть любая статистика: проходимость пешеходов по улицам и заездов машин в торговые центры. Сейчас такое время (и это будет еще усугубляться), что количество и скорость накопления информации очень быстро увеличиваются (здесь можно провести аналогию с классическим Законом Мура – «количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца»). И всё это нужно каким-то образом хранить и обрабатывать».

Что такое Data Mining?

«Data Mining представляет собой область знаний (включающую алгоритмы, процедуры и т.д.), связанные с интеллектуальной обработкой больших массивов данных. К примеру, это может быть статистическая информация об использовании тех или иных функций в программных продуктах, как в случае JetBrains — в IDE, анонимная статистика использования функций, которой собирается с явного согласия пользователя и её применений может быть достаточно много.

К примеру, можно проследить некоторые шаблоны использования наборов функций и сделать из этого выводы, которые скажутся на юзабилити продукта. Большое количество статистики от разных пользователей помогает проверить некоторые гипотезы и, конечно же, делает задачу достаточно трудоемкой — нужны эффективные алгоритмы для быстрого анализа больших массивов данных.

Если говорить о более доступных примерах, то стоит вспомнить о Яндкес.Пробках, куда постоянно поступают и анализируются сведения о загруженности дорог. В итоге, на сервере составляется понятная карта с детальной информацией о текущей ситуации с пробками в тот или иной момент времени и на основе полученных данных строится прогноз».

Как это работает?

«Если у нас есть огромный массив данных (Big Data), мы можем более менее точно проверить на разных выборках то гипотезу, которая у нас есть. Но не обязательно сразу иметь конкретное предположение, можно определенным образом выявлять закономерности в поведении человека на основе статистики каких-либо его активностей.

В принципе, в области Data Mining есть огромное количество алгоритмов. Они есть очень давно и все еще активно используются и, конечно, совершенствуются.

Один из современных трендов в Big Data — это очень быстрое наращивание емкости хранилищ данных. Это очень важно, ведь, как мы уже выяснили, информации становится все больше. Закономерно, что если есть спрос, то существуют и компании, которые производят определенные Hardware или Software Solutions, связанные с хранением и обработкой таких больших массивов данных.

В частности, компания EMC², офис которой есть в Питере, уже многие годы занимается созданием различных решений в области хранения и архивирования данных. Потребность в подобных решениях существует уже давно, но сейчас, как раз, наступают те времена, когда подобные системы используются всё чаще — опять же, благодаря тренду. Анализировать эти сведения можно и потом, но хранить нужно сейчас, притом так, чтобы они были надежно защищены. Именно поэтому в EMC² и других компаниях производятся продукты, специально на это нацеленные».

Применение

«То, как используется эта информация, можно наблюдать на примере банковской сферы. Сначала продвинутые банки (например, Тинькофф Кредитные Системы), а теперь и классические (Сбербанк) стали практиковать автоматические решения по кредитам на основе некоторых паттернов (если говорить правильными словами, то это скоринг  — автоматическая система оценки кредитоспособности заемщиков). Результат, который рассчитывается на больших данных, выдается в течение 5 минут.

У банков формируется сложные системы, по которым они выдают кредиты. Существуют записи о том, что при конкретных условиях они выдали 100000 кредитов, это значит, что с известной вероятностью можно кредитовать снова. Для оценки рисков аналитиками используются достаточно сложные алгоритмы, строятся нечеткие модели условий, когда совпадают не все факторы, а только некоторые – на основе совокупности этих факторов скоринговая система может рекомендовать решение по кредиту. Таким образом, можно проверять многие гипотезы, находя ответы: дать или отказать в выдаче денег, сумма, условия».

Вот еще примеры использования Big Data

• Компания Munsanto купила Climate Corporation, с целью применения анализа данных о предстоящей погоде. Технологическая платформа, разработанная в Climate Corporation, использует мониторинг и моделирование данных по изменению погодных условий, чтобы помочь фермерам самостоятельно ориентироваться и оценивать продуктивность периодов для работы.

• В ресторанном бизнесе Objective Logistics выясняют спрос на определенные товары, блюда и напитки, и даже зависимость потребления от погоды.

• В здравоохранении некоммерческая организация Prize4Life помогает  анализировать и прогнозировать ход болезни Лу Герига.

• Отдельным кейсом работы с Big Data является биоинформатика, о которой я напишу в следующий раз.

More…

Лекции на Coursera

Лекции в Computer Science Center

Big Data University

Книги на GoodReads

_________________________

Фотографии предоставлены http://vk.com/mvink 

Обложка — оригинал