قسمت پنجم
اول از همه اجازه بدید درباره یک مثالی صحبت کنیم که ربطی به دادهنگاری و داده ندارد شاید به صورت کلی بتوانیم بگیم جمع شدن دو قابلیت استفاده از عدد و کلمه کار سادهای نیست. دادهنگارها هم باید روایتگرهای خوبی باشن هم از پس فهم عدد و رقم بر بیان
در این مثال واضحه که روزنامهنگار به اعداد دقت نکرده. چون هیچکدام از این عددها به هم نمیخورن
جمع ۱۲۰ هزار و ۹۸۰ هزار یک میلیون و سیصدهزار نمیشود و سه برابر ۱۲۰ هزار ۹۸۰ هزار نیست. اما اگر ۱۲۰ هزار رو به سیصد و بیست هزار تغییر دهیم اون وقت اعداد معنی دار میشود. این اشتباهی است که یک دادهنگار نمیتواند مرتکب شود چون این اشتباه وقتی به صورت یک گراف یا نمودار نمایان شود دیگر یک اشتباه ساده تایپی نیست.
اما دادههای بد، دادههایی غیرقابل اطمینان هستند.
به قول متخصین این حوزه، به صورت عمومی میتونیم بگیم که دادهها، کثیف هستن. دادههای کثیف یا نامرتب را می شه با استفاده از ابزارهای مختلف تمیز یا مرتب کرد. اما این که تشخیص بدیم از چه ابزار و به چه صورتی استفاده کنیم در گرو فهم درست ما از مجموعه دادههاست. به صورت عمومی میتونیم بگیم دادههای خام هرگز به صورت تمیز و مرتب و ایدهآل وجود ندارن و این وظیفه ماست که آنها را تمیز و تصفیه کنیم. اما پیش از ان باید مطمئن بشیم که اول چنین کاری ارزشش را داره؟ یعنی دادههای ما قابل اعتماده و دوم این که چنین چیزی شدنیه؟
برای قسمت اول در قسمت توضیحات چک لیست دانشکده روزنامهنگاری دانشگاه بوستون قرار میدیم که البته به فارسی ترجمه شده و هفده سوال اساسی رو که باید از خودتون و مجموعه دادهتون بپرسید رو نشون میده.
قسمت دوم کار اما تکنیکیتر میشه. ما ابزارهای زیادی برای تمیز کردن اطلاعات داریم. معمولا دیتابیسها پر هستن از اطلاعات تکراری، شبیه به هم و همین طور قسمتهایی که خالیه تصور کنید در یک مجموعه اطلاعات از سه عنوان نزدیک به هم استفاده شده مثلا بیمارستان مدرس، یا بیمارستان شهید مدرس، یا بیمارستان شهید مدرس (ره) شما دوست دارید در مجموعه اطلاعات این سه داده، برابر هم گرفته بشه اما دوست ندارید این عنوان با عنوان بیمارستان شهید مدرسی اشتباه گرفته بشه. وقتی با هزاران هزار داده در یک مجموعهی بزرگ از دادهها سر و کله میزنید این نکات اهمیت حیاتی دارن.
از ابزارهایی که اطلاعات رو میتونید با آن تمیز کنید غیر از نرمافزارهایی نظیر اکسل یا نرمافزارهای مربوط به مدیریت دیتا بیسها، گوگل ریفاین یا اوپن ریفاین هست. ابزاری بینهایت مفید که کار کردن با آن هم نسبتا ساده ست
ریفاین برنامه رایگانیه که قبلا پروژه گوگل بود اما الان به صورت مستقل کار میکنه، ابزاریه که به شما اجازه تصفیه دادههای خام رو میده. از ادغام دادههای شبیه به هم تا تغییر فرمت دادهها، ریفاین کارهای زیادی میکنه.
ویدیوی بعدی ما درباره نرمافزارهایی هست که در این حوزه ازشون استفاده میشه.
از بخش پاسخگویی دیدن کنید
در این بخش ایران وایر میتوانید با مسوولان تماس بگیرید و کارزار خود را برای مشکلات مختلف راهاندازی کنید
ثبت نظر