Добавить новость
Другие новости Москвы и Московской области на этот час
Добавь свою новость бесплатно - здесь
Актуальные новости сегодня от ValueImpression.com


Опубликовать свою новость бесплатно - сейчас


Почему большие данные — это непросто

Алёна Игнатьева, редактор-фрилансер, специально для блога Нетологии написала колонку о том, почему большие данные - все еще загадка для бизнеса.

У начинающих аналитиков и ученых, работающих с большими данными, часто возникает вопрос: "У меня есть набор данных. Как его расшифровать?". Если нужно решить конкретную и хорошо поставленную задачу, то, как правило, это не вызывает трудностей. Но что если конкретной задачи не стоит, и ваша цель - изучить данные и найти что-то интересное?

Офлайн-курс: "Data Scientist"

Что такое большие данные

Большие данные - термин, который описывает большие объемы информации, структурированной и неструктурированной.

Большие данные в бизнесе могут использоваться для анализа, разработки стратегий и принятия правильных решений.

Объем данных, которые созданы и хранятся на мировом уровне, продолжает расти с каждым днем. Ежедневно создается 2,5 эксабайта (1 эксабайт = миллиард гигабайт): таким образом, 90% всех данных создано в последние 2 года. Используя их, компании смогут значительно ускорить развитие. Проблема в том, что лишь малая часть этих данных подвергается анализу.

Не так важно количество данных, как то, как вы их используете.

Можно получать данные из любого источника и анализировать их, чтобы найти ответы, которые позволят сократить затраты или разработать новые продукты и приложения, понять своих покупателей.

О чем могут рассказать большие данные

Так как же найти в данных именно то, что поможет принять верное решение? Это сложный вопрос, и на него, к сожалению, нет однозначного ответа. Ученые решают эту проблему с помощью такого метода:

  • создать прогноз работы системы на основании уже имеющихся знаний (теории);
  • изучить данные и проверить, соответствуют ли они прогнозу;
  • если нет, то глубже изучить предмет и найти новую теорию;
  • сделать новый прогноз на основе этой теории;
  • повторить цикл.

Аналитики и специалисты по работе с большими данными могут действовать иначе.

  1. До того как изучать данные, составьте список того, что ты ожидаете обнаружить: распределение переменных, отношения между ними и т. д.
  2. Затем проанализируйте данные. Нарисуйте графики, схемы - всё, что необходимо, чтобы проверить, насколько данные соответствуют ожиданиям.
  3. Проверьте, есть ли что-то, что кажется странным или бессмысленным.
  4. Сфокусируйтесь на этом моменте и попробуйте понять, что именно вызывает такое расхождение с прогнозом. Этот шаг является ключевым. Благодаря ему вы получите действительно ценные находки.

Например, у вас есть данные о покупках в магазине. Известно, сколько людей совершило покупки, и сколько денег каждый из них потратил. Мы предполагаем какую-то среднюю величину чека, около которой колеблется большинство значений. Также будут значения, которые сильно отклоняются в большую или меньшую степень. В таком случае график этого распределения выглядит примерно так:

Но когда мы проанализировали данные, то увидели следующую картину:

Откуда же взялся этот непонятный пик справа?

Предположим, что это крупный магазин детских игрушек в Москве, где типичные покупатели - мамы с детьми, и данные о покупках были предоставлены за один месяц - ноябрь. Таким образом наш подозрительный пик может иллюстрировать, что именно перед новым годом в этот магазин приехали владельцы магазинов поменьше из регионов, чтобы потом перепродать эти игрушки в своих магазинах. Это означает, что данные покупатели не имеют отношения к постоянным клиентам магазина, и в другие месяцы такого скачка может не наблюдаться.

Можно анализировать эти данные и увидеть, какие конкретно игрушки пользовались наибольшим спросом, какие акции можно провести, чтобы привлечь больше таких клиентов. Это всё можно выяснить, основываясь на простом графике.

С какими проблемами сталкивается бизнес при работе с большими данными

В интернете можно найти множество историй успеха, когда компании с помощью больших данных увеличили прибыль или решили различные проблемы. Вдохновленные этими историями, компании выделяют огромные бюджеты и нанимают специалистов по работе с большими данными. Однако, использование больших данных не всегда может привести к успеху. Рассмотрим, какие проблемы могут встретиться при начале работы с большими данными.

1. Отсутствие бизнес-кейса

Согласно статье, опубликованной на IBM Big Data & Analytics Hub, понимание больших данных сильно затрудняется при отсутствии четко сформулированного бизнес-кейса. Правильно построенный бизнес-кейс показывает, какие проблемы необходимо решить и какие инструменты и параметры должны быть задействованы.

2. Неподготовленные данные

Компании, проигнорировавшие шаг подготовки данных перед началом работы, могут получить искаженные результаты, которые приведут к неправильным решениям.

3. Применение больших данных не по назначению

Например, попытка собрать как можно больше данных для своих исследований не всегда оправдана, так как большие объемы данных могут служить источником возникновения ложных связей.

4. Недостаточные аналитические и технические навыки

Согласно исследованию, примерно половина опрошенных говорят о недостатке аналитических или технических знаний для работы с большими данными. И хотя на рынке сейчас довольно много специалистов по большим данным, всё равно спрос превышает предложение. И в данном случае лучше сфокусироваться на обучении уже существующего персонала, чем открывать новые вакансии.

5. Надежда только на большие данные

Некоторые руководители, увидев первые результаты работы больших данных, начинают обдумывать, как сократить штат и заменить сотрудников на роботов. Но здесь не все так прозрачно.

С помощью больших данных можно обнаружить проблему и найти пути её решения, но именно люди будут решать эту проблему и настраивать работу компании. Важно правильно разделять задачи: машина анализирует, а человек прогнозирует.

Показательный пример Google

Умение задавать правильные вопросы - неотъемлемый навык при работы с большими данными. В 2008 году Google запустил проект Google Flu Trends (GFT), целью которого было предсказание вспышки эпидемии гриппа до того, как об этом объявит Центр по контролю и профилактике заболеваний США (CDC).

Специалисты Google обратили внимание на то, что примерно за две недели до вспышки эпидемии гриппа происходит всплеск поисковых запросов, связанных со здоровьем. Именно это предположение и было положено в основы анализа. Однако позже, при сравнении данных с CDC было обнаружено, что GFT пропустил эпидемию "свиного гриппа" в 2009 году и почти на 50% преувеличил размах эпидемий в 2012 и 2013 годах.

В 2013 году проект Google Flu Trends был приостановлен, так как он не справлялся со своей основной задачей. Некоторые считают, что выборка данных была некорректна, кто-то говорит, что заданный вопрос: "Когда произойдет следующая эпидемия гриппа?" - был некорректен с учетом сбора нетрадиционных данных.

Большие данные не являются заменой традиционных методов, скорее их нужно использовать как вспомогательный инструмент.

В отличие от традиционных данных, большие данные не могут дать точный ответ на традиционно поставленный вопрос. Вместо этого они определяют те сферы, которые требуют более детального изучения для обнаружения проблемы.

Если бы Google Flu Trends отвечал на вопрос: "О чем говорят нам частота и количество поисковых вопросов?" - поле для анализа возможной проблемы было значительно шире.

Заключение

Перед тем как начать работать с большими данными, нужно определиться с целями, которые нужно достичь и в зависимости от этого определиться, какую именно информацию и в каком количестве нужно собрать. Чем глубже вы знаете область, из которой получены данные, тем точнее будет ваш прогноз и тем интереснее будут факты, которые вы найдете.

Читать ещё: "Шесть мифов о Big Data"

Недостаточно просто уметь работать с данными, нужно понимать, откуда эти данные происходят. Чем больше вы понимаете в работе бизнеса, тем весомее будет ваш вклад, и тем сильнее вы сможете повлиять на качество работы всей компании.


Мнение автора и редакции может не совпадать. Хотите написать колонку для "Нетологии"? Читайте наши условия публикации.

Читайте на сайте

Другие проекты от 123ru.net








































Другие популярные новости дня сегодня


123ru.net — быстрее, чем Я..., самые свежие и актуальные новости Москвы — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 123ru.net.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Москвы или других населённых пунктов Московской области мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Москве можно самостоятельно через форму.



Новости 24/7 Все города России




Загрузка...


Топ 10 новостей последнего часа в Москве и Московской области






Персональные новости

123ru.net — ежедневник главных новостей Москвы и Московской области. 123ru.net - новости в деталях, свежий, незамыленный образ событий дня, аналитика минувших событий, прогнозы на будущее и непредвзятый взгляд на настоящее, как всегда, оперативно, честно, без купюр и цензуры каждый час, семь дней в неделю, 24 часа в сутки. Ещё больше местных городских новостей Москвы — на порталах News-Life.pro и News24.pro. Полная лента региональных новостей на этот час — здесь. Самые свежие и популярные публикации событий в России и в мире сегодня - в ТОП-100 и на сайте Russia24.pro. С 2017 года проект 123ru.net стал мультиязычным и расширил свою аудиторию в мировом пространстве. Теперь нас читает не только русскоязычная аудитория и жители бывшего СССР, но и весь современный мир. 123ru.net - мир новостей без границ и цензуры в режиме реального времени. Каждую минуту - 123 самые горячие новости из городов и регионов. С нами Вы никогда не пропустите главное. А самым главным во все века остаётся "время" - наше и Ваше (у каждого - оно своё). Время - бесценно! Берегите и цените время. Здесь и сейчас — знакомства на 123ru.net. . Разместить свою новость локально в любом городе (и даже, на любом языке мира) можно ежесекундно (совершенно бесплатно) с мгновенной публикацией (без цензуры и модерации) самостоятельно - здесь.



Загрузка...

Загрузка...

Экология в Москве




Путин в Москве

Лукашенко в Беларуси и мире



123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.






Здоровье в Москве


Частные объявления в Москве, в Московской области и в России






Загрузка...

Загрузка...





Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net