Карта преступности в Атырау

Для примера представляю работу студента четвертого курса Университета Сулеймана Демиреля, который нашел дату из открытых источников и систематизировал их. На предыдущем занятии, как пример структурирования данных, мы работали с программой Open Refine (ранее Google Refine). Помимо этого, рассмотрели функцию картографирования и визуализации дата в приложении  Google  Drive.

Ниже представлена работа студента четвертого курса Баубека Сагындык. 

Прежде всего Баубек загрузил из сайта data.egov.kz файл преступности в Атырау в формате .xls. Что интересно, в файле «Преступность в Атырау» за первое полугодие 2016 года указаны данные, по какой статье осужден преступник, в каком месяце было совершено преступление, дата и место регистрации. 

Далее он структурировал этот файл с помощью программы Open Refine. Структурировать дата – значит привести похожие данные в порядок. Бывает так, что в одной и той же таблице одни числа написаны через запятую, другие – с точкой. Open Refine позволяет легко найти такие несоответствия. К примеру, в одной и той же таблице название города может быть указано в вариантах:  «Атырау қаласы»,  «қ.Атырау», «город Атырау», «Атырау қ-сы». В некоторых случаях возможны опечатки. 

После этого в дата ищем географические сведения, такие как названия улиц и номера домов. Поскольку мы работаем с картой Google, желательно, чтобы названия совпадали с данными Google Map.  

После того, как наша таблица Excel приведена в соответствующий вид, приступаем к сопоставлению чисел. Обычно прибегаем к статистическим методам, как определения самого большого, меньшего и среднего показателя. Таким образом, находим то значение, которое отклоняется от среднего показателя. Это можно сделать в таблице Excel. Нужный столбец выделяем и изменяем с помощью фильтра AZ, в результате видим самое большое и самое меньшее значения. Программы типа SPSS, R помогут вычислить статистическую значимость показателей (p value). Они выяснят, имеют ли данные статистическую значимость перед практической проверкой вывода.  

Именно поэтому важно, чтобы дата-журналист прошел пусть не полный, но вводный курс статистики. При необходимости он может обратиться к специалисту за консультацией.  

После того как пропустим свои данные через так называемый статистический фильтр, можем обнаружить в них интересные истории. Если у нас на руках есть готовые инструменты визуализации, можем посмотреть, что в итоге получится. К примеру, Баубек свои данные визуализировал в картах Google Map с помощью Fusion Table, в результате мы увидели, в каком районе Атырау чаще регистрируются преступления.  

Если мы опубликуем эту карту в том виде, в котором видим ее мы, читатель может прийти к выводу, что «В Атырау сплошь и рядом совершаются преступления». На самом деле это не означает, что все эти преступления совершены одновременно. Мы должны учитывать, что преступления совершаются в разных местах, в разное время. Для этого необходимо выделить при визуализации значения цветом, чтобы данные стали понятны читателю. 

При работе над дата-проектами одно из наиболее часто встречающихся заблуждений возникает по причине не учитывания статистическиз высчетов. К примеру, между увеличением количества преступлений и смертностью может быть статистическая связь, но нет реальной связи. То есть нельзя делать выводы, что увеличение количества преступлений приводит к увеличению числа смертности или наоборот.