Тема 2.3
Где брать данные? Open Data
Работа с данными - это такая же работа с источником информации, как и с другими, более традиционными ресурсами. Работа с данными похожа на подготовку к интервью. Сначала строится гипотеза, затем ищутся наборы релевантных (подходящих, отражающих нужные стороны) данных, цифры структурируются в таблицы, подготавливаются, анализируются, а потом из них выстраивается история. Историю можно подкрепить комментариями, интервью, другими видами журналистской информации. Затем данные визуализируются и к ним составляется текст.

Одним из очень важных этапов в Дата-сторителлинге является формулировка гипотезы. Гипотеза - это предположение, утверждение, требующее доказательства. С помощью данных гипотезу подтверждают или опровергают. Сильная гипотеза выражает точное измерение проблемы, ее причин или факторов влияния. При написании материала необходимо удостовериться, что данные как аргумент проверки гипотезы существуют, доступны, надежны. И что очень важно, что гипотеза отражает проблему общественно значимую.

Процесс в Дата- журналистике выглядит следующим образом:
1.определить
2.найти
3.проверить
4.очистить
5.проанализировать
6.представить

При поиске данных для журналистского исследования, существует целый спектр возможностей для нахождения подходящих массивов информации:

1. Поиск данных через стандартные поисковые машины в Интернете (Google, Yandex, Yahoo и другие). Помимо стандартного поиска данных по основной теме, существует возможность найти базы данных, используя более точечные поисковые запросы, учитывающие особенности работы поисковых машин. В частности, через Google с использованием специальных поисковых команд возможно искать данные на определенном портале (на котором хранится большой массив открытых данных), можно искать в сети только файлы определенного типа (скажем, только представленные в виде таблиц Excel).
О. Хоменок: 3 совета журналистам, начинающих работать с данными
Все большее распространение концепции открытых данных и открытого правительства позволяет найти достаточно большой объем данных на официальных сайтах государственных органов.

Используя представленные ресурсы, можно найти целый ряд документов и баз данных, которые журналисту можно использовать для достаточно комплексного анализа выбранных вопросов. Если говорить о зарубежных источниках, посвященных сбору открытых данных, то следует в первую очередь выделить американский портал data.gov и британский data.gov.uk, на которых в открытом виде выложены сотни баз данных, информация об экономических показателях, цифры о количестве и качестве образования в различных регионах, экологические данные и так далее. Помимо точечных, официальных веб-ресурсов с открытыми данными, существуют также международные агрегаторы дата-сетов, скажем, datacatalogs.org, Guardian World Government Data, The Data Hub, ScraperWiki, BuzzData, Datamarket, Google Freebase и многие другие. Используя данные системы, можно найти открытые данные по странам мира, полученные совершенно из разных источников, включая данные, полученные от пользователей. В этой связи, при работе с данными, журналисту требуется также особенное внимание уделять проверке качества полученных данных и достоверности источников, поскольку любой неофициальный портал (в первую очередь — данные, выложенные пользователями) является потенциально рискованным источником открытой информации.

Помимо порталов и агрегаторов открытых данных, одним из способов поиска данных служит поиск по форумам на тематических ресурсах. Основные порталы, на которых можно найти активных членов из сообщества журналистов, постоянно работающих с данными (и, потенциально, имеющими доступ к закрытым источникам данных) — Get The Data и Quora. На таких форумах возможно не только запросить и получить определенный сет данных, но также спросить у пользователей советов по наилучшим инструментам для очистки конкретной базы данных или ее визуализации.
Поиск по Google с использованием операторов
Подписка на рассылки ключевых сообществ об открытых данных. Так, например, ключевое международное сообщество, занимающееся вопросами открытой информации, Open Knowledge Foundation регулярно проводит рассылку с информацией о новых актуальных крупных базах открытых данных и открытой информации, которая становится доступна для всех подписчиков. Помимо Open Knowledge Foundation существует также ряд других организаций, связанных с журналистикой данных и открытыми данными, которые также проводят регулярный мониторинг и рассылку обновлений баз открытых данных: Data Driven Journalism List1 , the NICAR-L2 и другие.

Запрос в официальные структуры или к экспертам. В большинстве случаев, при точном понимании темы исследования, журналисту также ясны и те структуры, или те эксперты, у которых должны быть в наличии необходимые данные. В случае обращения за данными к экспертам (которые могут иметь доступ к данным, представляющим коммерческую тайну или к государственным данным, не предполагающим публичного распространения), следует учитывать, что журналист при работе с ними рискует нарушением законов и в каждом отдельном случае потребуется юридическая консультация о правомерности использования соответствующего набора данных. Доступ к данным через API (интерфейс программирования приложений). Используя навыки программирования (или воспользовавшись услугами специалистов), становится возможным получить доступ к данным, которые не выложены в Интернете в удобном для доступа и скачивания виде.

Скажем, если государственное ведомство предоставляет отчетность в формате интерактивного графика, то с использованием технологий парсинга (захвата) данных становится возможным получить полноценный, структурированный набор данных там, где их использование третьими лицами изначально не предполагалось (однако и не запрещалось).
Что такое скрейпинг
Скрейпинг с помощью Дата майнинг
Как подготовить данные
к журналистскому анализу
Необходимость в очистке данных (процессе поиска и корректировки неверных или неточных элементов базы данных, который нужен для последующей работы с базой данных) возникает при работе практически с любыми данными, полученными из открытых источников. Ввиду того, что в каждой организации выставляются свои требования к оформлению данных и к контролю за качеством вносимых в базы данных сведений, журналисту в любом случае придется изучить полученную базу данных, а в случае ее слияния с другими — еще и привести к единому форматированию. Так, в разных таблицах, или даже в пределах одной базы данных часто встречаются примеры, когда одни и те же графы оказываются закодированы по-разному. Журналисту приходится приводить к единому формату самые разные столбцы: от кодировок стран (которые можно закодировать двумя буквами, можно цифрами, можно полными названиями стран и так далее) до самой простой графы — «пол», которую можно обозначить либо цифрами, либо словами, либо сокращениями. Другая потенциальная проблема — использование синонимов или неточных определений, которые также усложняют верную обработку данных (скажем, использование в рамках одного столбца кодировок «студент», «учащийся», «школьник»). В этом случае требуется либо привести все названия к единому виду, либо упростить базу данных в этом пункте, чтобы избежать неточностей при дальнейшем представлении. В связи с этим, при работе с крупными базами данных, стандартом стала подготовка «словаря» для универсального представления ключевых значений как между разными таблицами, так и в рамках одного массива данных.

В рамках такого словаря данных, подготавливается описание для каждого из используемых кодов, чтобы избежать различных трактовок одних и тех же значений и неточностей при работе над проектом целой команды (качественно разработанные таблицы с открытыми данными часто сопровождаются документом с описанием каждого из кодов). Однако даже в случае работы с данными, к которым прилагается «словарь» с расшифровкой всех кодов, журналисту следует быть внимательным к спорным пунктам. Так, газета Miami Herald была вынуждена опубликовать опровержение к одному из своих материалов, построенных на базе статистики о судейских вердиктах за вождение в нетрезвом виде. Журналисты исследовали наказания, которые получали подсудимые за вождение в нетрезвом виде и, судя по полученными ими данными, в 1-2% случаев судьи не выносили подсудимым наказания ни в виде штрафа, ни в виде тюремного срока. Однако, по законам штата, судья обязан был выписать наказание водителю, управлявшим транспортным средством в нетрезвом виде, и своим материалом Miami Herald по сути обвинила судей в нарушений закона. При детальном изучении дела, выяснилось, что эти 1-2% случаев были вызваны тем, что подсудимый, которому выносился штраф, был малоимущим и не мог его выплатить, а значит – ему полагались общественные работы вместо штрафа. Вследствие того, что данного комментария не было в «словаре» к базе данных по судейским вердиктам, газета ошибочно вменила судьям нарушение закона штата и была вынуждена опубликовать опровержение в следующем номере. Впрочем, для стандартной очистки базы данных, не учитывая специфику, в которой следует разбираться именно журналисту или исследователю, на этапе очисти данных вполне можно использовать бесплатные инструменты, скажем, Google Refine. Используя эту утилиту, журналист даже с базовыми знаниями по части работы с таблицами, может автоматически привести текстовое представление данных в таблицу, автоматически исправить ячейки с данными, введенными с ошибкой (используя анализ по тому, как часто используются какие слова в определенных строках / столбцах и так далее). Google Refine пользуются многие издания и организации, начиная от Chicago Tribune и заканчивая государственными структурами, работающими с данными, скажем, data.gov.uk
Более сложная программа Open Refine. Но для качественной очистки данных вполне достаточно владеть навыками работы в Exel.

Полноценный функционал по очистке больших массивов данных доступен в более комплексном ПО, с использованием языков программирования: Python, R и другие решения для работы с данными дают пользователю практически неограниченные возможности по очистке данных, в том числе и для их последующей визуализации.
Визуализация.
Как добавить эмоции к сухим цифрам?
Несмотря на то, что основным способом представления большого объема данных в журналистике служит визуализация (в форматах от инфографии до интерактивных веб-приложений), во многих случаях важнее оказывается трактовка полученных данных. Будь это аналитический материал или пояснительная записка к визуализации, часто именно журналистская трактовка и аналитика полученных результатов позволяет раскрыть картину происходящего. Таким образом, многие журналисты признают, что в ряде случаев, разумнее пренебречь полноценной визуализацией, особенно в случаях, когда для ее качественной разработки недостаточно ресурсов. Вместо этого возможно опубликовать вместе с журналистским материалом либо «сырые» данные, либо представить выводы в более традиционном формате, со статичными графиками и аналитикой. Многие западные издания отмечают, что, несмотря на множество бесплатных, недорогих или условно-бесплатных инструментов для визуализации (Many Eyes, Overview Project, Tableau, Dipity, Google Fusion Tables), все они не могут сравниться с теми возможностями, которые получает журналист при работе с отдельной дизайн-командой . Основная проблема бесплатных инструментов заключается в том, что большая их часть заточена под всего один или несколько стандартных вариантов визуализации и не может дать необходимой гибкости в работе для создания качественного визуального проекта, заточенного под требования конкретного журналистского материала. В многочисленных подборках лучших инструментов для визуализации, большую часть представляют дополнительные библиотеки или надстройки для профессионалов JavaScript, HTML5, Ruby и других языков программирования, которыми активно пользуются крупнейшие медиа и организации по всему миру, от New York Times до UNESCO. Учитывая наличие тысяч примеров визуализации с D3 (крупная библиотека с шаблонами для визуализации на базе JavaScript), использовать этот инструмент в журналистике становится еще удобнее. Во многом именно появление бесплатных инструментов визуализации спровоцировало в журналистских кругах дискуссии о примерах «плохой визуализации» — использовании неточных, примитивных и / или шаблонных вариантов для изображения информации в журналистских материалах.

Вот пример некачественной визуализации
Журналисты сходятся во мнении, что для поиска наилучшего решения по визуализации (а также принятия решения о том, необходима ли она в принципе), следует создать множество черновых, вспомогательных графиков, и лишь после жесткого их отбора выбрать наилучший способ представления информации. Таким образом, на выходе, в журналистском материале не должно быть неинформативной визуализации или непроработанных графиков (без указания точной «легенды», подписей к осям и так далее). При работе с открытыми данными, безусловно важным аспектом каждой визуализации является требование публикации исходных данных и таблиц, которые использовались при исследовании выбранной темы.

При этом, эксперты отмечают, что вместе с результатами исследования (будь это визуализация или же просто материал на основе анализа открытых данных), публиковать требуется не первичные данные, не прошедшие очистку, а именно тот материал, который журналист использовал в финальной версии проекта, включая наличие подписей и словарей используемых в таблицах кодов для обозначения переменных. Таким образом, несмотря на то, что бесплатные инструменты для визуализации иногда используются также и крупными СМИ, в большинстве случаев, приоритет отдается именно внутренним разработкам, которые осуществляют внешние или штатные команды дизайнеров и разработчиков. На основе полученных после обработки объема данных результатов, они также могут принимать решение как о необходимости визуализации в принципе, так и о наилучших способах ее реализации.
Глоссарий

Атрибуция - указание на источник информации в материале.
Журналистика , основанная на данных , часто сокращаемая до «ddj», термин, используемый с 2009 года, - это журналистский процесс, основанный на анализе и фильтрации больших наборов данных с целью создания или повышения качества новостей.

Машиночитаемые данные - это данные в формате, который может обрабатывать компьютер . Машиночитаемые данные должны быть структурированными данными .

Модель данных - это абстрактная модель, которая организует элементы данных и стандартизирует их связь друг с другом и со свойствами реальных сущностей. Например, модель данных может определять, что элемент данных, представляющий автомобиль, состоит из ряда других элементов, которые, в свою очередь, представляют цвет и размер автомобиля и определяют его владельца.


Очистка данных (англ. Data cleansing) — процесс выявления и исправления ошибок, несоответствий данных с целью улучшения их качества, иногда классифицируется как составная часть интеллектуального анализа данных.

Визуализация данных — это представление данных в виде, который обеспечивает наиболее эффективную работу человека по их изучению.

Веб-скрейпинг (или скрепинг, или скрапинг← англ. web scraping) — это технология получения веб-данных путем извлечения их со страниц веб-ресурсов. Веб-скрейпинг может быть сделан вручную пользователем компьютера, однако термин обычно относится к автоматизированным процессам


Самостоятельная работа
Задание для самостоятельной работы (не оценивается):

Вопросы:
  1. Проанализируйте инфографику выше и перечислите ее минусы.
  2. Сформулируйте гипотезу и опишите перечень данных для ее проверки
  3. Найдите на открытых ресурсах базу данных по определенному вопросу и проведите очистку данных, создайте дата-сет по определенному вопросу.