انقلاب صفر و یک

«بزرگ‌داده» اصطلاحی فنی و پاسخی متناسب با همه اندازه‌ها(سه برابر XL) در جهان تکنولوژی برای حل دشوارترین مسائل دنیا است.
این اصطلاح معمولا برای شرح هنر و علم تحلیل مقادیر عظیمی از اطلاعات برای تشخیص الگوها، جمع‌آوری بینش‌ها و پیش‌بینی پاسخ برای پرسش‌های پیچیده به کار می‌رود. ممکن است کمی کسل‌کننده به نظر برسد؛ اما برای حامیان بزرگ‌داده از متوقف کردن تروریست‌ها گرفته تا پایان دادن به فقر و نجات سیاره زمین، هیچ مساله‌ای چندان بزرگ نیست.

به گزارش افتانا (پایگاه خبری امنیت فناوری اطلاعات)، ویکتور مایر شونبرگر و کنت کاکییر می‌گویند: «مزایای بزرگ‌داده برای جامعه بی‌شمار خواهد بود؛ چون بزرگ‌داده بخشی از راه‌حل مشکلات جهانی مثل رسیدگی به تغییرات آب و هوایی، ریشه‌کن کردن بیماری‌ها و ترغیب به حکمرانی درست و توسعه اقتصادی شده است.» آنها بزرگ‌داده را انقلابی که زندگی، کار و تفکر ما را دگرگون خواهد کرد، می‌نامند.

به اندازه کافی ارقام برای پردازش وجود دارد. ارقامی مانند داده‌های آی‌فون، خرید از سوپرمارکت یا سوابق سلامت در یک کشور، دریافت‌هایی که از طریق توانایی محاسبه جمع‌آوری می‌شود تا رمزگشایی از این داده‌های خام بی‌حد و حصر است.

حتی دولت باراک اوباما رییس‌جمهوری ایالات متحده، از فرصت استفاده کرده و در تاریخ ۹ مه داده‌هایی را که قبلا غیرقابل دسترسی یا غیرقابل کنترل بود، برای کارآفرینان، محققان و عموم منتشر کرده است.
اوباما در این باره گفت: «یکی از اقداماتی که برای شکوفا کردن نوآوری و اکتشاف در بخش خصوصی می‌کنیم این است که برای نخستین‌بار در تاریخ، دسترسی به حجم عظیمی از داده‌های آمریکا را آسان و آزاد می‌کنیم. کارآفرینان با استعداد با این داده‌ها کارهای فوق‌العاده‌ای انجام می‌دهند.»

اما آیا بزرگ‌داده همان‌قدر که باید ستودنی است؟ آیا می‌توان اطمینان کرد که هزاران صفر و یک، جهان مخفی رفتار انسان را شرح خواهد داد؟

با وجود داده‌های کافی، ارقام نیازی به توضیح ندارند

حامیان بزرگ‌داده می‌خواهند باور کنیم که پشت صفی از کدها و پایگاه داده‌ها بینش عینی و جامعی از الگوهای رفتاری انسان، ازجمله هزینه مصرف‌کنندگان، اقدامات جنایتکارانه یا تروریستی یا بهره‌وری کارکنان قرار گرفته است؛ اما بسیاری از مروجان بزرگ‌داده نقطه ضعف‌های آن را جدی نمی‌گیرند. ارقام نمی‌توانند بی‌نیاز از توضیح باشند و مجموعه داده‌ها حاصل طراحی انسان هستند.

ابزار علم بزرگ‌داده مانند چارچوب نرم‌افزاری آپاچی هادوپ ما را از تحریف‌ها، شکاف‌ها و مفروضات نادرست مصون نمی‌کند.
این عوامل به ویژه زمانی قابل‌توجه هستند که بزرگ‌داده تلاش می‌کند جهان اجتماعی را که در آن زندگی می‌کنیم منعکس کند؛ اما اغلب به غلط تصور می‌کنیم نتایج تحلیل بزرگ‌داده عینی‌تر از نظریه انسان‌ها است.

در بزرگ‌داده نیز به اندازه تفسیر و تجارب اشخاص تعصب و نقاط کور وجود دارد؛ اما یک باور نادرست وجود دارد که داده‌های بزرگ‌تر همیشه داده‌های بهتری هستند و این ارتباط رابطه علت و معلولی است.
برای مثال، رسانه‌های اجتماعی منبع خوبی برای تحلیل بزرگ‌داده هستند و مطمئنا اطلاعات بسیاری برای استخراج در آنها وجود دارد. داده‌های توئیتر نشان می‌دهند مردم زمانی که از خانه دورند شادترند و پنج‌شنبه شب‌ها به شدت غمگین هستند؛ اما باید پرسید که این داده واقعا چه چیزی را منعکس می‌کند.

در درجه اول، براساس آمار مرکز تحقیقات پیو می‌دانیم که تنها ۱۶ درصد از کاربران بزرگسال در ایالات متحده از توئیتر استفاده می‌کنند و به هیچ وجه نمونه آماری معرف به شمار نمی‌روند، زیرا بیشتر معرف کاربران جوان‌تر و شهری هستند تا کل جمعیت. علاوه براین، می‌دانیم که بسیاری از حساب‌های کاربری توئیتر در واکنش خودکار به برنامه‌های موسوم به بوت ساخته می‌شوند و حساب‌های غیرواقعی به شمار می‌روند.

برآوردهایی که به تازگی انجام شده است نشان می‌دهند ۲۰ میلیون حساب کاربری غیرواقعی وجود دارد. بنابراین حتی پیش از آن که به حوزه متدولوژی چگونگی ارزیابی احساسات در توئیتر وارد شویم، باید این پرسش را مطرح کنیم که این احساسات توسط افراد بیان شده‌اند یا فقط الگوریتم‌های خودکار هستند، اما حتی اگر متقاعد شویم که اکثریت مطلق کاربران توئیتر مردم واقعی هستند، مساله تایید تمایل پیش می‌آید.

برای مثال، برای تعیین این مساله که در مسابقات تنیس آزاد ۲۰۱۳ استرالیا در شبکه‌های اجتماعی کدام بازیکن به طور مثبت مورد توجه است، دانشگاه آی‌بی‌ام توئیت‌های مربوط به بازیکنان را از طریق شاخص اعتماد اجتماعی، در مقياس بزرگ مورد تحلیل قرار داد.

نتایج این تحلیل نشان داد که ویکتوریا آزارنکا در صدر فهرست قرار دارد، اما بسیاری از افرادی که در توئیتر از آزارنکا نام بردند منتقدان استفاده او از تایم‌اوت پزشکی بودند؛ بنابراین باید نتیجه گرفت که توییتر آزارنکا را دوست دارد یا خیر؟ نمی‌توان اطمینان حاصل کرد که الگوریتم دانشگاه آی‌بی‌ام این مساله را روشن کرده است.

زمانی که بر مشکل داده‌های نادرست غلبه کنیم، می‌توانیم روش‌هایی را که براساس آن خود الگوریتم‌ها جانبدارانه رفتار می‌کنند بررسی کنیم. سایت‌های خوراک‌خوان که اولویت‌های شخصی را به کار می‌برند تا آخرین مطالب موضوع مورد علاقه را پیدا کنند نیز از مفروضاتی استفاده می‌کنند.

برای مثال، فرض بر این است که تکرار برابر با اهمیت است یا داستان‌هایی که در شبکه‌های اجتماعی بیشتر به اشتراک گذاشته شده‌اند، مورد علاقه دیگران هم هستند. به دلیل این که الگوریتم‌ها از انبوه داده‌ها عبور می‌کنند، قوانینی را به کار می‌برد مبنی بر اینکه جهان چگونه به نظر می‌رسد. کاربران متوجه این قوانین نیستند، اما همین قوانین ادراک آنان را شکل می‌دهد.

برخی از دانشمندان علم کامپیوتر در حال رسیدگی به این نگرانی‌ها هستند.
ادفلتن، استاد دانشگاه پرینستون و تکنولوژیست ارشد کمیسیون تجارت فدرال آمریکا، به تازگی آزمایشی را برای بررسی جانبداری الگوریتم‌ها ارائه کرده است، به ویژه آن دسته از الگوریتم‌هایی که دولت آمریکا برای ارزیابی وضعیت افراد همچون فهرست «پرواز ممنوع» که اف‌بی‌آی و اداره امنیت حمل‌و‌نقل براساس منابع بزرگ‌داده گردآوری کرده‌اند و بخشی از برنامه امنیتی فرودگاه‌ها است.