«بزرگداده» اصطلاحی فنی و پاسخی متناسب با همه اندازهها(سه برابر XL) در جهان تکنولوژی برای حل دشوارترین مسائل دنیا است.
این اصطلاح معمولا برای شرح هنر و علم تحلیل مقادیر عظیمی از اطلاعات برای تشخیص الگوها، جمعآوری بینشها و پیشبینی پاسخ برای پرسشهای پیچیده به کار میرود. ممکن است کمی کسلکننده به نظر برسد؛ اما برای حامیان بزرگداده از متوقف کردن تروریستها گرفته تا پایان دادن به فقر و نجات سیاره زمین، هیچ مسالهای چندان بزرگ نیست.
به گزارش افتانا (پایگاه خبری امنیت فناوری اطلاعات)، ویکتور مایر شونبرگر و کنت کاکییر میگویند: «مزایای بزرگداده برای جامعه بیشمار خواهد بود؛ چون بزرگداده بخشی از راهحل مشکلات جهانی مثل رسیدگی به تغییرات آب و هوایی، ریشهکن کردن بیماریها و ترغیب به حکمرانی درست و توسعه اقتصادی شده است.» آنها بزرگداده را انقلابی که زندگی، کار و تفکر ما را دگرگون خواهد کرد، مینامند.
به اندازه کافی ارقام برای پردازش وجود دارد. ارقامی مانند دادههای آیفون، خرید از سوپرمارکت یا سوابق سلامت در یک کشور، دریافتهایی که از طریق توانایی محاسبه جمعآوری میشود تا رمزگشایی از این دادههای خام بیحد و حصر است.
حتی دولت باراک اوباما رییسجمهوری ایالات متحده، از فرصت استفاده کرده و در تاریخ ۹ مه دادههایی را که قبلا غیرقابل دسترسی یا غیرقابل کنترل بود، برای کارآفرینان، محققان و عموم منتشر کرده است.
اوباما در این باره گفت: «یکی از اقداماتی که برای شکوفا کردن نوآوری و اکتشاف در بخش خصوصی میکنیم این است که برای نخستینبار در تاریخ، دسترسی به حجم عظیمی از دادههای آمریکا را آسان و آزاد میکنیم. کارآفرینان با استعداد با این دادهها کارهای فوقالعادهای انجام میدهند.»
اما آیا بزرگداده همانقدر که باید ستودنی است؟ آیا میتوان اطمینان کرد که هزاران صفر و یک، جهان مخفی رفتار انسان را شرح خواهد داد؟
با وجود دادههای کافی، ارقام نیازی به توضیح ندارند
حامیان بزرگداده میخواهند باور کنیم که پشت صفی از کدها و پایگاه دادهها بینش عینی و جامعی از الگوهای رفتاری انسان، ازجمله هزینه مصرفکنندگان، اقدامات جنایتکارانه یا تروریستی یا بهرهوری کارکنان قرار گرفته است؛ اما بسیاری از مروجان بزرگداده نقطه ضعفهای آن را جدی نمیگیرند. ارقام نمیتوانند بینیاز از توضیح باشند و مجموعه دادهها حاصل طراحی انسان هستند.
ابزار علم بزرگداده مانند چارچوب نرمافزاری آپاچی هادوپ ما را از تحریفها، شکافها و مفروضات نادرست مصون نمیکند.
این عوامل به ویژه زمانی قابلتوجه هستند که بزرگداده تلاش میکند جهان اجتماعی را که در آن زندگی میکنیم منعکس کند؛ اما اغلب به غلط تصور میکنیم نتایج تحلیل بزرگداده عینیتر از نظریه انسانها است.
در بزرگداده نیز به اندازه تفسیر و تجارب اشخاص تعصب و نقاط کور وجود دارد؛ اما یک باور نادرست وجود دارد که دادههای بزرگتر همیشه دادههای بهتری هستند و این ارتباط رابطه علت و معلولی است.
برای مثال، رسانههای اجتماعی منبع خوبی برای تحلیل بزرگداده هستند و مطمئنا اطلاعات بسیاری برای استخراج در آنها وجود دارد. دادههای توئیتر نشان میدهند مردم زمانی که از خانه دورند شادترند و پنجشنبه شبها به شدت غمگین هستند؛ اما باید پرسید که این داده واقعا چه چیزی را منعکس میکند.
در درجه اول، براساس آمار مرکز تحقیقات پیو میدانیم که تنها ۱۶ درصد از کاربران بزرگسال در ایالات متحده از توئیتر استفاده میکنند و به هیچ وجه نمونه آماری معرف به شمار نمیروند، زیرا بیشتر معرف کاربران جوانتر و شهری هستند تا کل جمعیت. علاوه براین، میدانیم که بسیاری از حسابهای کاربری توئیتر در واکنش خودکار به برنامههای موسوم به بوت ساخته میشوند و حسابهای غیرواقعی به شمار میروند.
برآوردهایی که به تازگی انجام شده است نشان میدهند ۲۰ میلیون حساب کاربری غیرواقعی وجود دارد. بنابراین حتی پیش از آن که به حوزه متدولوژی چگونگی ارزیابی احساسات در توئیتر وارد شویم، باید این پرسش را مطرح کنیم که این احساسات توسط افراد بیان شدهاند یا فقط الگوریتمهای خودکار هستند، اما حتی اگر متقاعد شویم که اکثریت مطلق کاربران توئیتر مردم واقعی هستند، مساله تایید تمایل پیش میآید.
برای مثال، برای تعیین این مساله که در مسابقات تنیس آزاد ۲۰۱۳ استرالیا در شبکههای اجتماعی کدام بازیکن به طور مثبت مورد توجه است، دانشگاه آیبیام توئیتهای مربوط به بازیکنان را از طریق شاخص اعتماد اجتماعی، در مقياس بزرگ مورد تحلیل قرار داد.
نتایج این تحلیل نشان داد که ویکتوریا آزارنکا در صدر فهرست قرار دارد، اما بسیاری از افرادی که در توئیتر از آزارنکا نام بردند منتقدان استفاده او از تایماوت پزشکی بودند؛ بنابراین باید نتیجه گرفت که توییتر آزارنکا را دوست دارد یا خیر؟ نمیتوان اطمینان حاصل کرد که الگوریتم دانشگاه آیبیام این مساله را روشن کرده است.
زمانی که بر مشکل دادههای نادرست غلبه کنیم، میتوانیم روشهایی را که براساس آن خود الگوریتمها جانبدارانه رفتار میکنند بررسی کنیم. سایتهای خوراکخوان که اولویتهای شخصی را به کار میبرند تا آخرین مطالب موضوع مورد علاقه را پیدا کنند نیز از مفروضاتی استفاده میکنند.
برای مثال، فرض بر این است که تکرار برابر با اهمیت است یا داستانهایی که در شبکههای اجتماعی بیشتر به اشتراک گذاشته شدهاند، مورد علاقه دیگران هم هستند. به دلیل این که الگوریتمها از انبوه دادهها عبور میکنند، قوانینی را به کار میبرد مبنی بر اینکه جهان چگونه به نظر میرسد. کاربران متوجه این قوانین نیستند، اما همین قوانین ادراک آنان را شکل میدهد.
برخی از دانشمندان علم کامپیوتر در حال رسیدگی به این نگرانیها هستند.
ادفلتن، استاد دانشگاه پرینستون و تکنولوژیست ارشد کمیسیون تجارت فدرال آمریکا، به تازگی آزمایشی را برای بررسی جانبداری الگوریتمها ارائه کرده است، به ویژه آن دسته از الگوریتمهایی که دولت آمریکا برای ارزیابی وضعیت افراد همچون فهرست «پرواز ممنوع» که افبیآی و اداره امنیت حملونقل براساس منابع بزرگداده گردآوری کردهاند و بخشی از برنامه امنیتی فرودگاهها است.