Атыраудың қылмыс картасы

Сүлейман Демирел университетіндегі студенттеріме ашық дереккөзден дата тауып, оны сұрыптауға тапсырма бердім. Бұған дейінгі сабақта деректерді сұрыптаудың мысалы ретінде Open Refine (бұрынғы Google Refine) бағдарламасымен жұмыс істеген едік. Одан бөлек Google-дың Drive қосымшасында датаны картаға түсіріп, визуализациялау функциясын қарастырдық.

Төменде төртінші курс студенті Баубек Сағындықтың жұмысын көріп отырсыз. 

Баубек ең әуелі data.egov.kz сайтынан Атыраудағы қылмыс файлын .xls форматындағы нұсқасымен жүктеп алды. Бір қызығы, «Атырау қылмысы» файлында 2016 жылдың алғашқы жарты жылында қылмыскер қандай баппен жазаға тартылғаны, қылмыс қай айда жасалғаны, тіркелген уақыты, мекені көрсетілген.

Кейін ол файлды Open Refine бағдарламасының көмегімен реттеді. Датаны реттеу дегеніміз – ұқсас мәліметтерді бір ізге келтіру. Бір кестедегі санды да кейде үтірмен, ал кейде нүктемен жазады. Open Refine осы әртүрлілікті оңай жолмен табуға көмектеседі. Нәтижесінде тізімдегі барлық атау бірдей жазылады. Мәселен, бір кестеде «Атырау қаласы» деп тұрса, енді бір жерде «қ.Атырау», «город Атырау», «Атырау қ-сы» деп әртүрлі кездесуі мүмкін. Кейбір жағдайда кестеге мәлімет дұрыс түспеген болуы мүмкін немесе нүкте, үтір ұмытылған болуы мүмкін.

Бұдан кейін датаның ішіндегі көше атаулары мен үйдің нөмірі тәрізді географикалық мәліметті реттестіреміз. Себебі біз Google-дың картасымен жұмыс істейтін болғандықтан, атауларымыз Google Map атауымен сәйкескені жөн. 

Excel кестеміз реттелген соң ішіндегі сандарды салыстырамыз. Әдетте ең үлкен, ең аз, орташа көрсеткіші қайсы деген тәрізді статистикалық амалдарға жүгінеміз. Бұл арқылы орташа көрсеткіштен ауытқып тұрғаны қайсы немесе ең кіші мәліметке иесі қайсы екенін көреміз. Бұны Excel кестесінде жасауға болады. Қажетті бағанды ерекшелеп, AZ фильтрі арқылы өзгертесіз. Нәтижесінде ең кіші және жоғарғы көрсеткішті көресіз. SPSS, R тәрізді бағдарламалар көрсеткіштердің статиcтикалық маңыздылығын (p value) есептеп береді. Тұжырымды практикалық түрде тексеріп көрмес бұрын деректердің статистикалық маңызы бар-жоғын анықтайды.

Сол себепті дата журналист статистиканың күрделі деңгейін оқымаса да, статистиканың кіріспе курсынан хабары болғаны дұрыс. Қажетті жағдайда арнайы маманға барып, кеңес сұрай алады. 

Деректеріміз статистикалық сүзгіден өткен соң арасындағы қызықты жайттарды көре аламыз. Егер дайын визуализациялау құралдары болса, соған салып көруге болады. Мәселен, Баубек өзінің деректерін Fusion Table көмегімен Google Map картасына салды. Нәтижесінде Атыраудың қай ауданында қылмыстың жиі тіркелгенін көрдік. 

Бұл картаны осы күйінде жарияласақ, оқырман «Атырау қаласы қылмыстан аяқ алып жүргісіз екен» деген ойда қалады. Шындығында бұл бір сәтте осынша қылмыс болды деген сөз емес. Әр қылмыс әртүрлі уақытта, әр мезгілде болғанын ескеруіміз керек. Ол үшін визуализациялағанда қылмыстың түрі, уақыты, мезгілін әртүрлі түспен бояп, оқырманның өзіне деректі түсінуге мүмкіндік беру керек.  

Дата жобамен жұмыс істегенде жиі кездесетін шатасудың бірі осы статистикалық есепті дұрыс ескермегендіктен болып жатады. Мәселен, қылмыс санының көбеюі мен өлім санының артуы арасында статистикалық байланыс болғанымен, шынайы байланыс болмауы мүмкін. Яғни, өлім санының артуына қылмыстың көп болуы қатыссыз болуы мүмкін немесе өлім көп болғандықтан қылмыс жиі болады деген қорытынды жасауға болмайды.