Необходимость в очистке данных (процессе поиска и корректировки неверных или неточных элементов базы данных, который нужен для последующей работы с базой данных) возникает при работе практически с любыми данными, полученными из открытых источников. Ввиду того, что в каждой организации выставляются свои требования к оформлению данных и к контролю за качеством вносимых в базы данных сведений, журналисту в любом случае придется изучить полученную базу данных, а в случае ее слияния с другими — еще и привести к единому форматированию. Так, в разных таблицах, или даже в пределах одной базы данных часто встречаются примеры, когда одни и те же графы оказываются закодированы по-разному. Журналисту приходится приводить к единому формату самые разные столбцы: от кодировок стран (которые можно закодировать двумя буквами, можно цифрами, можно полными названиями стран и так далее) до самой простой графы — «пол», которую можно обозначить либо цифрами, либо словами, либо сокращениями. Другая потенциальная проблема — использование синонимов или неточных определений, которые также усложняют верную обработку данных (скажем, использование в рамках одного столбца кодировок «студент», «учащийся», «школьник»). В этом случае требуется либо привести все названия к единому виду, либо упростить базу данных в этом пункте, чтобы избежать неточностей при дальнейшем представлении. В связи с этим, при работе с крупными базами данных, стандартом стала подготовка «словаря» для универсального представления ключевых значений как между разными таблицами, так и в рамках одного массива данных.
В рамках такого словаря данных, подготавливается описание для каждого из используемых кодов, чтобы избежать различных трактовок одних и тех же значений и неточностей при работе над проектом целой команды (качественно разработанные таблицы с открытыми данными часто сопровождаются документом с описанием каждого из кодов). Однако даже в случае работы с данными, к которым прилагается «словарь» с расшифровкой всех кодов, журналисту следует быть внимательным к спорным пунктам. Так, газета Miami Herald была вынуждена опубликовать опровержение к одному из своих материалов, построенных на базе статистики о судейских вердиктах за вождение в нетрезвом виде. Журналисты исследовали наказания, которые получали подсудимые за вождение в нетрезвом виде и, судя по полученными ими данными, в 1-2% случаев судьи не выносили подсудимым наказания ни в виде штрафа, ни в виде тюремного срока. Однако, по законам штата, судья обязан был выписать наказание водителю, управлявшим транспортным средством в нетрезвом виде, и своим материалом Miami Herald по сути обвинила судей в нарушений закона. При детальном изучении дела, выяснилось, что эти 1-2% случаев были вызваны тем, что подсудимый, которому выносился штраф, был малоимущим и не мог его выплатить, а значит – ему полагались общественные работы вместо штрафа. Вследствие того, что данного комментария не было в «словаре» к базе данных по судейским вердиктам, газета ошибочно вменила судьям нарушение закона штата и была вынуждена опубликовать опровержение в следующем номере. Впрочем, для стандартной очистки базы данных, не учитывая специфику, в которой следует разбираться именно журналисту или исследователю, на этапе очисти данных вполне можно использовать бесплатные инструменты, скажем, Google Refine. Используя эту утилиту, журналист даже с базовыми знаниями по части работы с таблицами, может автоматически привести текстовое представление данных в таблицу, автоматически исправить ячейки с данными, введенными с ошибкой (используя анализ по тому, как часто используются какие слова в определенных строках / столбцах и так далее). Google Refine пользуются многие издания и организации, начиная от Chicago Tribune и заканчивая государственными структурами, работающими с данными, скажем, data.gov.uk
Более сложная программа Open Refine. Но для качественной очистки данных вполне достаточно владеть навыками работы в Exel.
Полноценный функционал по очистке больших массивов данных доступен в более комплексном ПО, с использованием языков программирования: Python, R и другие решения для работы с данными дают пользователю практически неограниченные возможности по очистке данных, в том числе и для их последующей визуализации.