Где искать дата?

К дата предъявляется особое требование. Они должны быть машиночитаемыми. 

В большинстве случаев журналисты работают с документами в формате .xls, .csv или .json. В данном случае определяете характер файла в компьютере. К примеру, если в поисковой системе Google наберете «школа .xls», вам будут предоставлены файлы в формате таблицы Excel, в которых встречается слово «школа».  

Теперь попробуйте написать то же самое слово, но добавить .csv в конце. Виды файлов отличаются по особенностям анализа различных данных.  .xls работает с данными в таблицах, .csv анализирует данные, разделенные через запятую, тогда как .json больше внимания уделяет интерактиву. 

Помимо этого, журналисты классифицируют дата как открытые, закрытые, систематизированные и несистематизированные. 

К открытым данным можно отнести все сведения на официальных сайтах. Например, информация на data.egov.kz. На указанном сайте все данные, собранные официальными организациями Казахстана, предоставлены по разным темам и рубрикам.  

Использовать закрытые базы данных запрещено на законодательном уровне. Сообщество дата-журналистов считает, что при обращении к закрытым данным, нужно придерживаться принципов «журналистской этики». Потому что сбором указанных данных может заниматься только человек, владеющий специальными языками программирования. И очень часто подобные действия признаются неправомерными.  

С систематизированными данными, предоставленными по порядку и в таблице, легче работать. Но бывают случаи, когда данные из открытых источников приходится приводить в порядок и систематизировать вручную. К примеру, в открытых источниках сгруппированные базы данных о ДТП в городе Алматы могут отсутствовать.

Однако мы часто встречаем подобную информацию в газетах и на сайтах.  

Собрав эти данные в одну таблицу и систематизировав их, дата-журналист может выяснить, где и на какой улице в Алматы чаще случаются дорожно-транспортные происшествия. Так, график сеансов и названия фильмов на сайте Kino.kz относятся к открытым, но не систематизированным данным. В таком случае можно прибегнуть к помощи кодов, написанных с помощью компьютерных программ, которые помогут отсортировать и систематизировать данные, такие как Python, MySQL. В результате, данные с сайта будут представлены в виде удобной для дальнейшего анализа таблицы. 

MRF – (Machine Readable Format) часто встречающееся в дата-журналистике выражение. Потому что, если дата не представлены в одном из машиночитаемых форматов, их невозможно анализировать.