Top.Mail.Ru
Списки и рейтинги

Мария Анисимова (ДИТ Москвы) – о поиске решений потребностей горожан на основе прогноза их реакции на Big Data Conference

Списки и рейтинги
Наиль Байназаров
Наиль Байназаров

Редактор медиа РБ.РУ

Наиль Байназаров

По итогам прошедшей 15 сентября 2017 года Big Data Conference, организованной Rusbase и Global Innovation Labs, публикуем подробные отчеты с выступлений всех спикеров.

В рамках конференции в трёх залах были представлены кейсы в «Бизнес-треке», технологические решения в «Техническом треке» и доклады на «Научном семинаре». Общий отчет с мероприятия можно найти по ссылке.

Мария Анисимова (ДИТ Москвы) – о поиске решений потребностей горожан на основе прогноза их реакции на Big Data Conference

Мария Анисимова из Департамента информационных технологий города Москвы рассказала о методе поиска оптимального решения выявленной потребности жителя города на основе прогноза его реакции.

Благодаря сервису Penxy вы можете посмотреть и послушать выступление Марии Анисимовой на Big Data Conference:

 

После доклада аудитория задавала вопросы спикеру через сервис WhenSpeak. Ниже публикуем вопросы и ответы.


В чем глобальная цель?

Глобальная цель — в оптимизации временных затрат, которые пользователи несут при поиске какой-либо городской информации для решения так называемых бытовых вопросов. Чем больше у жителя остается времени на развитие себя, своего окружения, тем быстрее и эффективнее развивается сам город.

Вы объединяете профили пользователей из разных ваших ресурсов в какой-то единый материнский профиль?

Нет, это затруднительно, да и нецелесообразно. Помимо того, что статус пользователей постоянно изменяется из-за различных жизненных событий, профиль может использоваться для разных городских «маркетинговых» кампаний – где-то это рассылка, где-то персонализация контента на интернет-ресурсе, то есть необходимо представление профиля в различных плоскостях в зависимости от бизнес-задачи, а от этого изменяется и профильный набор характеристик.

В целом мы создаем набор правил построения, которые уже использует каждая информационная система самостоятельно для структурирования своих данных.

Возможно ли использовать созданные профили жителей для выявления каких-то уголовных преступлений, например, выявлять профили преступников, грабителей банка?

В мировой практике, безусловно, есть исследовательские работы на предмет выявления интересов к проявлению агрессии – опять же, это возможно на основе анализа сайтов, имеющих в своем контенте освещение различных преступных событий. Мы же этой темы не касались, такие профили не строили.

Какие инструменты используете для анализа?

Если говорить про матаппарат, то набор весьма стандартный (пока):

  • для задач кластеризации – методы PCA (главных компонент) и DBSCAN;
  • для задач классификации и прогнозирования поведения – градиентный бустинг над деревьями/случайный лес и логистическую регрессию, графовые связи;
  • для задач семантического анализа и другого анализа текстовой информации – VSM, k-средние, наивный байесовский классификатор, метод максимальной энтропии.

Если говорить про технический инструментарий – то все это Hadoop (с базовой HDFS, Hivе, HBase, Spark для ML и так далее).

Отдаёте ли вы данные в рекламу (DMP, DSP)?

Редко прибегаем к такому инструментарию. Если и работаем по такой схеме, то только при обмене предиктивными профилями, то есть сложными синтетическими атрибутами (профиль интересов, к примеру).

Система жители-город имеет обратные связи. Есть понимание, где жители формируют город, а где город должен формировать жителей? Есть области, где социуму должны задаваться определенные правила, а не наоборот?

Безусловно есть такие области, мы не говорим об их исключении. Этот вопрос больше относится к нормативно-правовому полю, нежели к аналитике. Продемонстрированный процесс показывает возможность, которая позволяет городу быстрее реагировать на запросы жителей, но не исключает и не пытается заменить городские (и мировые) процессы по систематизации жизни социума.

Сформирован ли какой-то реестр потенциальных потребностей жителей? Как он пополняется? Экспертно или есть какая-то математическая модель, которая анализирует запросы жителей в разных системах и понимает, что такая потребность характерна для многих, и добавляет ее в реестр?

К автоматическому формированию реестров предоставляемых услуг мы еще не пришли, так как здесь задействовано множество органов исполнительной власти города Москвы, которые эти услуги предоставляют. Представленный механизм позволяет выявлять потенциальную потребность в использовании имеющихся городских электронных услуг и сервисов.

Два года назад сменилось место жительства (прописки). На выборах меня нет ни в одном списке избирателей: по старой прописке исключили, по новой не включили. Налог приходит на старый адрес, счета и штрафы – на новый. У меня в профиле только новый адрес. В датасете, похоже, есть «мусор»... Как вы с этим боретесь?

Не боремся, адаптируемся. Учимся нормализовывать, выявляем выбросы. Но, безусловно, основным триггером для выявления такого «мусора» является прямая обратная связь от пользователя. Обязательно пишите о проблеме – это позволяет нам оптимизировать работу наших информационных систем, и электронных ресурсов в том числе.

В презентации есть слова о потенциальном получении водительского удостоверения. Приведите пример, как что вы фактически делаете в помощь таким людям? Или аналогичные приземлённые примеры.

Идея в том, что не все жители знают о возможности записаться на получение водительского удостоверения или на медкомиссию для получения справки в ГИБДД, используя электронные сервисы. Цель – уметь по профилю выявлять тех, кому это может быть необходимо, и предоставлять соответствующую информацию, приоритезировав относительно остального контента.

Приведённые сценарии не похожи на большие данные. Это типичная аналитика на истории поведения конкретного пользователя. Как вы думаете?

Это типичная аналитика на больших данных. Анализ больших данных не всегда характеризуется сложностью используемых математических моделей, а также сложностью обработки огромных массивов различных по структуре и составу данных.

Кроме того, цель – обеспечить подготовку информации в риалтайме, так как лаг в несколько месяцев, даже недель, недопустим ввиду того, что информация теряет актуальность. И, на самом деле, относительно типичности тоже можно поспорить.

Задача же — не только в выявлении закономерности или построении корреляционных связей, задача в том, чтобы понять, как эту информацию использовать далее, как на ней возможно спрогнозировать аналогичное поведение другим пользователем при потреблении отличного по тематике контента.

Как вы узнаете, сообщил ли отец сыну об изменении маршрута? То есть выполнил ли свою роль лидер мнения?

Обратная связь, появление новых связей в графах отношений, увеличение частоты посещений целевой аудитории релевантных разделов на сайтах.

Где вы видите точки контакта с жителями города? Персонализируете ли вы интерфейсы по профилю пользователя?

Да, сейчас как раз тестируем разные подходы к персонализации интерфейсной части. Пока результаты радуют, но все же это пилотные проекты. Собственно, примеры таких проектов приведены и в презентации, и в ответах на вопросы выше. Если говорить именно про интерфейсную часть, то цель – как персонализировать статичную контентную часть (приоритезация новостей, инструкций, другой информации), так и выводить подсказки в момент времени, когда это наиболее необходимо пользователю.


Смотреть все презентации.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Информационные войны в соцсетях – 3 кейса от основателя MDK
  2. 2 Специалист по кибербезопасности рассказал, как хакеры голосуют на выборах вместо нас
  3. 3 Зачем в Украине внедрять блокчейн на госуровне
  4. 4 Big Data Conference — итоговый отчет
  5. 5 Андрей Шумов (Vizex) – о геймификации больших данных на Big Data Conference