Датаны қайдан табамыз?

Датаға қойылатын айрықша талап бар. Датаны компьютер бағдарламалары түсіне алуы тиіс. 

Көбіне дата журналистер .xls, .csv немесе .json тәрізді сандар мен кестелерге толы құжаттармен жұмыс істейді. Оны әдетте компьютердегі файлдың сипаттамасынан анықтайсыз. Мысалы, Google іздеу жүйесіне «мектеп .xls» деп жазсаңыз, интернеттен «мектеп» сөзі кездесетін Excel кестесіндегі файлдарды көресіз. 

Енді тура осы сөзді жазып, соңына .csv деген сөзді қосып көріңіз. Файлдың түрлері деректерді сараптаудағы ерекшеліктері тұрғысынан ажыратылады. .xls кестелі деректермен жұмыс істесе, .csv үтір арқылы бөлінген мәліметтерді саралайды, ал .json интерактивке көбірек мән береді. 

Бұдан бөлек, журналистер датаны шартты түрде ашық, жабық, жүйеленген және жүйеленбеген деп бөледі. 

Ашық деректерге ресми сайттардағы барлық мәліметті жатқызуға болады. Мысалы, data.egov.kz жүйесіндегі барлық мәліметті ашық датаға жатқызамыз. Ол сайтта еліміздің ресми ұйымдары жинақтаған деректер тақырыптар бойынша бөлініп, ұсынылған. 

Жабық деректерге заң жүзінде жүгінуге тыйым салынған. Дата журналистер қауымдастығы бұл тұрғыда жабық деректерді қолданғанда «журналист әдебіне» қатысты ұстанымдарды ескерген жөн деп санайды. Себебі жабық деректерді арнайы бағдарламалау тілін білетін адам жинақтай алады. Бірақ бұл әрекетті заң бұзушылыққа жатқызатындар бар. 

Мәліметтер кестеде рет-ретімен, атауымен жүйеленіп тұрса, онымен жұмыс істеу жеңіл. Бұл жүйеленген дерекке жатады. Алайда ашық дереккөздегі мәліметті кейде қолмен реттеп, бір жүйеге келтіретін кездер де болады. Мысалы, ашық дереккөзде Алматы қаласындағы көлік апаты туралы мәлімет болмауы мүмкін. Бірақ ондай ақпаратты интернет сайттардан, газеттерден жиі көреміз. 

Дата журналист осы мәліметті бір кестеге жинақтап, жүйелеген соң Алматыда қай айда, қай көшеде көлік апаты жиі болатынын анықтай алады. Kino.kz сайтындағы Алматы кинотеатрларындағы киноның кестесі мен атауы ашық дерек болғанымен, жүйеленбеген. Ондай жағдайда Python, MySQL тәрізді деректерді сұрыптайтын компьютер бағдарламаларын қолдануға болады. Нәтижесінде сайттағы деректер кесте күйінде түзіліп, әрі қарай есептеуге дайындалады. 

MRF (Machine Readable Format) – дата журналистикада жиі естілетін сөз. Себебі дата компьютер түсінетін форматтың бірінде болмаса, онымен анализ жасау мүмкін емес.