close button
آیا می‌خواهید به نسخه سبک ایران‌وایر بروید؟
به نظر می‌رسد برای بارگذاری محتوای این صفحه مشکل دارید. برای رفع آن به نسخه سبک ایران‌وایر بروید.
صفحه‌های ویژه

داده‌های کثیف برای دیتاژورنالیست‌ها کدام است؟

۱۷ اردیبهشت ۱۳۹۶
علی تهرانی
خواندن در ۲ دقیقه

قسمت پنجم

 

اول از همه اجازه بدید درباره  یک مثالی صحبت کنیم که ربطی به داده‌نگاری و داده ندارد شاید به صورت کلی بتوانیم بگیم جمع شدن دو قابلیت استفاده از عدد و کلمه کار ساده‌ای نیست. داده‌نگارها هم باید روایت‌گرهای خوبی باشن هم از پس فهم عدد و رقم بر بیان

در این مثال واضحه که روزنامه‌نگار  به اعداد دقت نکرده. چون هیچ‌کدام از این عددها به هم نمی‌خورن

 

جمع ۱۲۰ هزار و ۹۸۰ هزار یک میلیون و سیصدهزار نمی‌شود و سه برابر ۱۲۰ هزار ۹۸۰ هزار نیست. اما اگر ۱۲۰ هزار رو به سیصد و بیست هزار تغییر دهیم اون وقت اعداد معنی دار می‌شود. این اشتباهی است که یک داده‌نگار نمی‌تواند مرتکب شود چون این اشتباه وقتی به صورت یک گراف یا نمودار نمایان شود دیگر یک اشتباه ساده تایپی نیست.

 

اما داده‌های بد، داده‌هایی  غیرقابل اطمینان هستند.

به قول متخصین این حوزه،  به صورت عمومی می‌تونیم بگیم که داده‌ها، کثیف هستن.  داده‌های کثیف یا نامرتب را می شه با استفاده از ابزارهای مختلف تمیز یا مرتب کرد. اما این که تشخیص بدیم از چه ابزار و به چه صورتی استفاده کنیم  در گرو فهم درست ما از مجموعه داده‌هاست. به صورت عمومی می‌تونیم بگیم   داده‌های خام هرگز به صورت تمیز و مرتب و ایده‌آل وجود ندارن و این وظیفه ماست که آنها را تمیز و تصفیه کنیم. اما پیش از ان باید مطمئن بشیم که اول چنین کاری ارزشش را داره؟ یعنی داده‌های ما قابل اعتماده و دوم این که چنین چیزی شدنیه؟

برای قسمت اول  در قسمت توضیحات  چک لیست دانشکده روزنامه‌نگاری دانشگاه بوستون قرار می‌دیم که البته به فارسی ترجمه شده و هفده سوال اساسی رو که باید از خودتون و مجموعه داده‌تون بپرسید رو نشون می‌ده.

قسمت دوم کار اما تکنیکی‌تر می‌شه. ما ابزارهای زیادی برای تمیز کردن اطلاعات داریم. معمولا دیتابیس‌ها پر هستن از اطلاعات تکراری، شبیه به هم  و همین طور قسمت‌هایی که خالیه تصور کنید در یک مجموعه اطلاعات از سه عنوان نزدیک به هم استفاده شده مثلا بیمارستان مدرس، یا بیمارستان شهید مدرس، یا بیمارستان شهید مدرس (ره) شما دوست دارید در مجموعه اطلاعات این سه داده، برابر هم گرفته بشه اما دوست ندارید این عنوان با عنوان بیمارستان شهید مدرسی اشتباه گرفته بشه. وقتی با هزاران هزار  داده در یک مجموعه‌ی بزرگ از داده‌ها سر و کله می‌زنید این نکات اهمیت حیاتی دارن.

از ابزارهایی که اطلاعات رو می‌تونید با آن تمیز کنید غیر از نرم‌افزارهایی نظیر اکسل یا نرم‌افزارهای مربوط به مدیریت دیتا بیس‌ها، گوگل ریفاین یا اوپن ریفاین هست. ابزاری بی‌نهایت مفید  که کار کردن با آن هم نسبتا ساده ست

ریفاین برنامه رایگانیه که قبلا پروژه گوگل بود اما الان به صورت مستقل کار می‌کنه، ابزاریه که به شما اجازه تصفیه داده‌‌های خام رو می‌ده. از ادغام داده‌های شبیه به هم تا تغییر فرمت داده‌ها، ریفاین کارهای زیادی می‌کنه.

ویدیوی بعدی ما درباره نرم‌افزارهایی هست که در این حوزه ازشون استفاده می‌شه.


 

از بخش پاسخگویی دیدن کنید

در این بخش ایران وایر می‌توانید با مسوولان تماس بگیرید و کارزار خود را برای مشکلات مختلف راه‌اندازی کنید

صفحه پاسخگویی

ثبت نظر

استان‌وایر

محسن هاشمی سرلیست «شهرسبز» اصلاح‌طلبان می شود

۱۷ اردیبهشت ۱۳۹۶
خواندن در ۱ دقیقه
محسن هاشمی سرلیست «شهرسبز» اصلاح‌طلبان می شود