Ma’lumotlarni tozalash zarurati (ma’lumotlar bazasi bilan keyingi ishlash uchun zarur bo’lgan ma’lumotlar bazasining noto’g’ri yoki noto’g’ri elementlarini topish va tuzatish jarayoni) ochiq manbalardan olingan deyarli har qanday ma’lumotlar bilan ishlashda yuzaga keladi. Ma’lumotlarni loyihalashtirish va ma’lumotlar bazalariga kiritilgan ma’lumotlar sifatini nazorat qilish bo’yicha har bir tashkilot o’z talablarini qo’yganligi sababli, jurnalist har qanday holatda ham olingan ma’lumotlar bazasini o’rganishi kerak va agar ular birlashtirilsa, shuningdek, yagona formatga keltirishi kerak bo’ladi. Shunday qilib, turli xil jadvallarda yoki hattoki bir xil ma’lumotlar bazasida bir xil grafikalar turli usullar bilan kodlangan bo’lishiga ko’plab misollar mavjud. Jurnalist turli xil ustunlarni bitta formatga o’tkazishi kerak bo’ladi: mamlakat kodlaridan (ikki harf bilan kodlanishi mumkin, raqamlar bo’lishi mumkin, mamlakatlarning to’liq ismlari bo’lishi mumkin va hokazo) tortib eng oddiy "jinsi" ustunigacha - uni raqamlar, so’zlar yoki qisqartmalar bilan belgilash mumkin. Yana bir potensial muammo - bu sinonimlardan yoki aniq bo’lmagan ta’riflardan foydalanish, bu ham ma’lumotlarning to’g’ri ishlashini murakkablashtiradi (masalan, xuddi shu ustun ichida "talaba", "o’quvchi", "maktab o’quvchisi" kodlarini ishlatish). Bunday holda, barcha nomlarni bitta shaklga keltirish yoki ushbu xatboshidagi ma’lumotlar bazasini soddalashtirish, keyinchalik taqdim etishda noaniqliklarga yo’l qo’ymaslik kerak. Shu munosabat bilan, katta ma’lumotlar bazalari bilan ishlashda turli xil standart jadvallar o’rtasida ham, bir xil ma’lumotlar to’plamida ham asosiy qiymatlarni universal tarzda namoyish qilish uchun "lug’at" ni tayyorlash standart bo’lib qoldi.
Tozalangan va tozalanmagan ma’lumotlar rasmini toping va oldingi hamda keyingi shtorkani yarating
Bunday ma’lumotlar lug’ati doirasida butun jamoaning loyihasi ustida ishlashda bir xil qiymatlarni va noaniqliklarni har xil talqin qilinishiga yo’l qo’ymaslik uchun foydalanilgan kodlarning har biri uchun tavsif tayyorlanadi (sifatli tayyorlangan ochiq ma’lumotlar jadvallari ko’pincha kodlarning har birini tavsiflovchi hujjat bilan birga keladi). Biroq, barcha kodlarning talqini bilan kelgan "lug’at" bilan ishlashda ham, jurnalist bahsli jihatlarga diqqatli bo’lishi kerak. Masalan, Miami Herald gazetasi mast holda transport vositasini boshqarganligi uchun chiqarilgan sud hukmi to’g’risidagi statistik ma’lumotlarga asoslanib, uning materiallaridan biriga raddiya e’lon qilishga majbur bo’ldi. Jurnalistlar sudlanuvchilarning mast holda transport vositasini boshqargani uchun olgan jazolarini o’rganib chiqdilar va olingan ma’lumotlarga ko’ra, ko’rib chiqilgan ishlarning 1-2 foizida sudlanuvchilarga jarima yoki qamoq jazosi shaklidagi jazo tayinlanmagan. Biroq, shtat qonunchiligiga binoan sudya transport vositasini mast holatda boshqargan haydovchiga jazo yozishi shart edi va uning materiali bilan Miami Herald sudyalarni qonunni buzishda aybladi. Ishni batafsil o’rganib chiqqandan so’ng, ushbu 1-2% hollarda jarima solingan sudlanuvchilarning kambag’alligi va uni to’lay olmasligi sabab bo’lganligi aniqlandi, bu ularning jamoat huquqiga ega ekanligini va ular jarima o’rniga muayyan xizmat qilib berishi lozimligini anglatadi. Ushbu sharh sud qarorlari ma’lumotlar bazasining "lug’atida" bo’lmaganligi sababli, gazeta sudyalarni davlat qonunlarini buzganligi bo’yicha ayblovini rad etdi va bu rad etishini keyingi sonida nashr etishga majbur bo’ldi. Biroq, ma’lumotlar bazasini standart tozalash uchun, jurnalist yoki tadqiqotchi tushunishi kerak bo’lgan xususiyatlarni hisobga olmasdan, ma’lumotlarni tozalash bosqichida bepul vositalardan, masalan, Google Refine dan foydalanish mumkin. Ushbu yordamchi dasturdan foydalanib, jurnalist, jadvallar bilan ishlash bo’yicha dastlabki bilimlarga ega bo’lsa ham, ma’lumotlarni matnli ko’rinishini jadvalga avtomatik ravishda kiritishi, xatolar bilan kiritilgan katakchalarni avtomatik ravishda tuzatishi mumkin (ba’zi qatorlar/ustunlar va boshqalarda qaysi so’zlarning ishlatilishi tahlilidan foydalangan holda). Google Refine ko’plab nashrlar va tashkilotlar tomonidan, Chikago Тribundan tortib, ma’lumotlar bilan ishlaydigan davlat idoralarigacha, masalan, data.gov.uk tomonidan qo’llaniladi.
Yanada murakkabroq bo’llgan Open Refine dasturi. Biroq ma’lumotlarni sifatli tozalash uchun Exel bilan ishlash ko’nikmalariga ega bo’lish yetarli bo’ladi.
PDF formatidagi hujjatni biriktirish.
Katta hajmdagi ma’lumotlarni tozalash bo’yicha to’liq funksional yanada murakkab dasturiy ta’minotlarda mavjud: Python, R va boshqalarda. Ma’lumotlar bilan ishlash uchun mo’ljallangan boshqa yechimlar foydalanuvchiga ma’lumotlarni tozalash uchun deyarli cheksiz imkoniyatlarni beradi, shu jumladan ularni keyinchalik vizuallashtirish uchun.