چگونه میتوان از بزرگ دادهها برای حل معضلات اجتماعی استفاده کرد؟
منبع : روزنامه دنیای اقتصاد
هر روز ۵/۲ کوانتیلیون (عدد یک با ۱۸ صفر به توان ۲) بایت داده تولید میشوند.این دادهها از تصاویر،ویدئوها،مطالب اینترنتی منتشره در سایتهای رسانههای اجتماعی، حسگرهای هوشمند، رکورد تراکنشهای خرید، سیگنالهای جی.پی.اس تلفن همراه و ... ناشی میشوند. اینها «بزرگ دادهها » هستند.
به گزارش افتانا (پایگاه خبری امنیت فناوری اطلاعات)، بر اساس یک پژوهش انجام شده توسط دفتر کسب و کار تکنولوژی مک کینزی، سود بزرگی هم برای جوامع تحقیقی و هم برای جوامع تجاری، پیرامون دادههای بزرگ وجود دارد. پیشبینی شده است که«تحلیل بزرگ دادهها به پایهای کلیدی برای رقابت، موج جدید رشد بهرهوری، نوآوری و مازاد مصرف کننده تبدیل خواهد شد.»
اما ظاهرا افراد بسیار کمی به اینکه چگونه میتوان از بزرگ دادهها برای حل معضلات اجتماعی استفاده کرد، توجه دارند. در واقع، اغلب کارهای انجام شده در این جهت نیست. چرا چنین است؟ در محافل پژوهشی بینالمللی چه کاری میتوان کرد تا از اثر برخی از برجستهترین ایدهها روی موضوعهای اجتماعی، اطمینان حاصل کرد؟
من از محققان و حرفهایهای بسیار مشهور برای حضور در پانلی به منظور بحث درباره این موضوع دعوت کردهام. «راجر بارگا»، رهبر گروه ایکستریم کامپیوتینگ؛ «لورا هاآس»، مدیر موسسه تودههای داده؛ «الانهای وی»، پژوهشگر گوگل و رییس گروه استراکچرد دیتای ایالات متحده آمریکا؛ «پُل میلر»، مشاور شرکت کلود دیتای بریتانیا کارشناسان حاضر در این پانل هستند. مشروح این پانل را پیش رو دارید:
سوال اول: به نظر شما، میتوان از برخی از پژوهشهای کنونی و آینده درباره بزرگ دادهها به منظور دستیابی به سرمایه اجتماعی استفاده کرد؟
الان: بله، بزرگ دادهها تنها نشانه اندازه و حجم یکسری داده منفرد نیست،بلکه مجموعهای از داده است که به صورت آنلاین در اختیار ما قرار دارد. (به طور مثال، دادههای دولتی، نهادهای غیردولتی، دولتهای محلی و روزنامه نگاران) با در کنار هم قرار دادن این دادهها ما میتوانیم به گفتن روایتی از این دادهها کمک کرده و آنها را برای جمعیتی بزرگتر ارزشمند و سودده کنیم.
به عنوان نمونه،جایزه اخیر روزنامه نگاری «دنیش» به ارائه روایتی زیبا از دادهها اعطا شد.دادههایی درباره این که کدام دکترها از سوی صنعت پزشکی حمایت میشوند. توانمند کردن مردم برای برقراری ارتباط با این دادهها بخشی از دستور کار بزرگ دادهها است.
لورا: دقیقا؛ در واقع، بسیاری از تلاشهایی که امروزه به آنها اشتغال داریم، کاملا در این جهت هستند. بخش عمدهای از پژوهشهای ما درباره «سیاره هوشمندتر» پیرامون استفاده هوشمندانهتر مقادیر زیاد دادههای ناشی از اندازهگیری، مشاهده و کسب اطلاعات هم درباره پدیدههای طبیعی و هم پدیدههای دست ساخت بشر روی سیاره زمین است.
پل: نکته اول اهمیت تشخیص پیشرفتهای تکنولوژیکی، تکنولوژیهای جدید و شیوههای جدید کاری است که اغلب هم منافع اجتماعی ملموس و هم منافع اجتماعی غیرملموس را به عنوان پیامد ناخواسته یا فرعی چیزی دیگر منتقل میکند.
«رابرت اُون» و همتایانش در اواخر قرن هجدهم و اوایل قرن نوزدهم احتمالا دارای انگیزههای اصلی برای دستیابی به رفاه اجتماعی و برنامههای آموزشی که به کارگران خود ارائه میکردند، بودند؛ اما موفقیت تجاری کارخانههای آنها بود که امکان و هزینه اقدامات بشردوستانه را فراهم کرد.
البته پس از مدتی، کودکان دارای تحصیلات بهتربه کارگران کارآمدتر کارخانه تبدیل شدند. از اینرو، این کار کاملا نوعدوستانه هم نبود. به روشنی زمینه مناسبی برای رشد و گسترش بزرگ دادهها در ارائه منافع مستقیم به حوزههایی که به جامعه کمک میکنند،وجود دارد.
«سرویس اینترنتی گوگل فلو ترندز» شاید مشهورترین مثال باشد:تحلیل میلیونها جستوجوی اصطلاحات مرتبط با آنفلوانزا (علائم، درمانها و ...) به بنیاد غیر انتفاعی گوگل این توانایی را میدهد تا رویتپذیری بیماری را به شیوههایی که میتوانند یا باید بتوانند به سیستمهای بهداشت محلی کمک کنند، فراهم کند.
موتور جستوجوی گوگل درباره آنفلوانزا نیست و نشانههایش برای کشف یا پیشگیری از آنفلوانزا نیستند؛ این بخش از ارزشهای اجتماعی در واقع از «خروجی داده»های همه کسانی که در سایتی واحد جستوجو میکنند، بیرون میآید. «روندهای آنفلوانزا» تنها مورد نیست؛ پژوهشگران دانشگاه هاروارد دریافتند که دادههای توئیتر میتوانند برای پیگیری دامنه شیوع «وبا» در هائیتی به شیوهای مورد تجزیه و تحلیل قرار گیرند که سریعتر از تکنیکهای سنتی هستند.
بر اساس گزارش تحقیقی «متیو اینگرام» «آنچه که پژوهش هاروارد و نقشه سلامت نشان میدهد این است که تحلیل دادههای به دست آمده از مجموعههای بزرگ مانند توئیتهای مرتبط با هائیتی نه تنها برای پیگیری الگوها یا بررسی روابط پس از یک رویداد خوب هستند، بلکه میتوانند در حالی که رویدادها در حال وقوع هستند، مورد استفاده محققان جهان باشند. راجر: کاملا، ما تا کنون چندین نمونه مانند اینها را دیدهایم. نمونه دیگر در علوم همکاری «جیمگری و آلکس شاللی» برای ساخت یک رصد خانه مجازی است که تکنولوژی ارتباطی پایگاه داده را ارتقا داد. نمونه تازهتر دیگر سیستم ترجمه زبان است که پژوهشگران در«مایکروسافت ریسرچ» با هدف کمک به کارگران نجات یافته از زمین لرزه سال ۲۰۱۰ هائیتی این سیستم را ساختند. ماشینی که در ۴ روز و ۱۷ ساعت و ۳۰ دقیقه ساخته و به منظور کمک به کارگران هائیتی ارائه شد.
سوال دو: به نظر شما بزرگ دادهها در چه حوزههایی میتوانند بر سرمایه اجتماعی اثر واقعی داشته باشند؟ الان: بزرگ دادهها، اطلاعاتی را آشکار میکنند که از منظر چشمان مشتاق عامه مردم پنهان میشوند. استفادهکنندگان اطلاعات و روزنامه نگاران در سراسر جهان باید به سادگی بتوانند مجموعههای داده را کشف کنند، آنها را به شیوهای با معنی با هم ادغام کنند و گزارشهایی درباره مسائلی که مورد توجه مردم هستند، ارائه دهند. به عنوان مثال، کمک به مردم در شرایط واکنش به بحران، پتانسیلی عظیم برای تولید اطلاعات دارد.
مردم پس از زمین لرزه سال ۲۰۱۱ ژاپن و قبل از طوفان نیویورک در یک سال پس از این زمین لرزه، از «جداول جوش هستهای گوگل» به منظور تولید [اطلاعات در قالب] نقشههایی دارای اطلاعات اساسی استفاده کردهاند.
لورا: مساله سلامت نیز از چنین پتانسیلی برخوردار است. از آنجا که در حال حاضر مقادیر زیادی از اطلاعات ژنتیکی از طریق ثبت رکوردهای افراد تولید میشود، ادبیات علم پزشکی میتواند به ما در فراهم آوردن مشهورترین درمانها برای فرد بیمار کمک کند. یا در کشف درمانهای جدیدی که شاید موثرتر از درمانهایی که هم اینک انجام میشوند، به ما کمک کند. مثلا، ما تا کنون روی ارتقای بزرگ دادهها و پیشبینی بهترین رژیمهای درمانی برای بیماران مبتلا به ایدز کار کردهایم.
ما همچنین میتوانیم پدیدههای دست ساخت بشر را نیز مورد بررسی قرار دهیم، به طور مثال، میتوانیم الگوهای ترافیکی را درک کرده و در پی آن برای کاهش ترافیک در ساعتهای پرترافیک برنامهریزی بهتری داشته باشیم. مثالهای بسیار دیگری نیز میتوان درباره استفاده از بزرگ دادهها در بهبود شرایط این سیاره ارائه کرد.
پُل: این فرصتها حتما باید بزرگ باشند؟ هر موضوع بزرگی روی جامعه اثر میگذارد، از تغییر زیست محیطی تا رشد جمعیت، تا نیاز به آب تمیز، غذا و بهداشت؛ همه اینها روی گروههای بزرگ تاثیر میگذارد. حجم، ثبات و تنوع دادهها در بسیاری از این حوزهها احتمالا فرصتهای چالش برانگیز پژوهشی ایجاد میکند.
راجر: ارتقا بخشی پژوهشهای علمی همواره به eScience (علوم الکترونیکی) که از ستاره شناسی و اقیانوس شناسی گرفته تا علوم اجتماعی و اقتصاد را پوشش میدهد، ارجاع داده شده است. توانایی ما در کسب و تحلیل مقادیر زیادی از دادههای بیسابقه و جدید، پتانسیل اثرگذاری ژرف روی علوم را دارد.
سوال سوم: چالشهای عمده در این حوزهها چیست؟
الان: کشف دادهها (چگونگی یافتن دادههای باکیفیت از میان مجموعه دادههایی که روی وب قرار دارند)یک چالش بزرگ است. تعیین کیفیت دادهها و ارتباط آنها با موضوعهای ویژه و ترکیب چند مجموعه داده توسط افرادی که دانش اندکی درباره تکنیکهای پایگاه داده دارند،چالشی دائمی است.
لورا: درهر پروژه مرتبط با بزرگ دادهها، موضوعهای یکسان متعددی وجود دارند. من سه دسته بندی عمده از این موضوعها را در اینجا ارائه میدهم: موضوعهایی که به دادهها مربوط هستند، موضوعهایی که به فرآیند استخراج بینش و کسب منفعت از دادهها ارتباط دارند و سرانجام، دادههایی که به موضوعهای مدیریت مانند حریم داده، امنیت و حاکمیت مرتبط هستند.
در فضای اطلاعات، ما درباره چهار نوع داده سخن میگوییم. حجم( پرداختن به اندازه و حجم خالص دادهها)، تنوع (اداره کردن تعدد انواع دادهها و منابع و فرمتهای آنها)، شتاب (واکنش به سیل اطلاعات در زمان مورد نیاز) و صحت دادهها.
چالشهای مرتبط با استخراج و نتیجهگیری از دادهها عبارتند از: جمعآوری دادهها، مرتب کردن دادههای به دست آمده از منابع مختلف، تبدیل دادهها به شکلی مناسب برای تحلیل،مدل سازی دادهها به صورت ریاضی یا برخی شیوههای دیگر مانند شبیه سازی و.... و سپس دریافت خروجی و محصول.
و امر نظارت نیز یکی دیگر از چالشها است؛ اطمینان از اینکه دادهها به درستی استفاده میشوند، بررسی شیوهای که دادهها به کار گرفته میشوند، استخراج میشوند و... ضوابط پژوهشی در همه این حوزهها وجود دارد.
پُل: دسترس پذیری دادهها یکی دیگر از چالشها است؛ اینکه آیا اساسا دادهها در دسترس هستند؟ پاسخ مثبت است. اما پوشش و جامعیت آنها اغلب کامل نیستند. معمولا اگر در یک فرآیند خوب،تصمیمگیری بر اساس دادههای بد یا ناقص باشد، تصمیمهای بد و ناقص حاصل خواهند شد. کیفیت داده نیز چالش دیگری است؛ دادهها تا چه حد خوب هستند؟ گستره پوشش دادهها تا چه حد وسعت دارد؟
دقت نمونه گیری تا چه حد خوب است؟ تفسیرها و خوانشها تا چه حد به موقع هستند؟ تا چه حد نمونهگیریها دارای سوگیری هستند؟ به طور مثال، مفاهیم نهفته در یک تسونامی که چند کشور حاشیه اقیانوس آرام را تحت تاثیر قرار داد، چه هستند؟ اطلاعات شخصی چالشی دیگر است. اطلاعاتی که اغلب درباره افراد است.آیا ما میتوانیم بدون به خطر انداختن حریم خصوصی افراد، و در عین حال به منظور کمک به افراد اطلاعات شخصی کافی استخراج کنیم؟
شاید به جای پوشاندن سیاستهای حریم خصوصی، مصرفکنندگان، قانونگذاران و شرکتهای نرمافزاری باید به برخی از اشکال توافق دست یابند؛ اگر شما اجازه دسترسی به اطلاعات الف، ب، ج مرتبط با خود را بدهید، من از آنها برای اهداف ح، ط و ی استفاده خواهم کرد و شما نیز منافع یا خدمات ک،ل و ن را به دست خواهید آورد. دو بخش نخست به طور فزایندهای بجا و مناسب هستند، البته به طور غیررسمی.
راجر: نخستین گام مهم پذیرش دیدگاه داده محور است.هدف صرفا ذخیره داده برای جامعهای خاص نیست، بلکه بهبود کیفیت داده و ارائه آن به عنوان خدمتی دقیق و صحیح و مطابقت دادهها با سیستمهای عملیاتی است.در واقع،موضوع برقراری رابطه عمودی بین منابع بسیار متفاوت دادهای نیست، بلکه عملکردی کیفی است که باید به کار برده شود و تطبیق دادن همه دادهها با هم است. پژوهشگران در واقع به داده نیازی ندارند، بلکه آنها برای پشتیبانی از اثر خود به پایگاههای اطلاعاتی مبتنی بر این دادهها نیاز دارند.
سوال چهار: چه مشکلات و موانعی جامعه ما را از کار کردن روی پروژههای سرمایه اجتماعی باز میدارد؟
الان: از چشمانداز فنی تصور نمیکنم موانع خاصی وجود داشته باشند.شاید مهمترین مانع ایدههایی مرتبط با به کارگیری این تکنولوژی و اثر اجتماعی گذاشتن است. معمولا این ایدهها برآمده از جامعه فنی نیست، از این رو، ما نیازمند اظهارنظرهای شاغلان در این حوزه هستیم.
لورا: تامین بودجه و قابلیت دسترسی دادهها دو موضوع حائز اهمیت در اینجا هستند. بیشتر سرمایهگذاریها روی پروژههای سرمایه اجتماعی از سوی دولتها صورت میگیرد و ما میدانیم که این سرمایهگذاریها بخش کوچکی از بودجه کل است. افزون بر این، بازار ابزارهای جدید و مواردی از این دست که ممکن است در این فضاها ایجاد شوند نسبتا محدود هستند، از این رو، این بخش همیشه برای شرکتهای خصوصی جذاب نیست تا روی آن سرمایهگذاری کنند.
در حالی که امروزه بسیاری از دادهها به طور عمومی در دسترس هستند، اما اغلب قطعههای کلیدی مفقود هستند یا به طور شخصی نگه داری میشوند یا نمیتوان به صورت قانونی به آنها دست یافت مانند حریم خصوصی افراد یا منافع ملی یک کشور.
راجر: شاید بزرگترین مانع،مانعی اجتماعی باشد.چنین پروژههایی نیازمند آگاهی جامعه به منظور واداشتن افراد به کنش است و اغلب یک قهرمان این چالشهای فنی را به شیوهای که برای جامعه دستیافتنی است، مطرح میکند. این پروژهها احتمالا به همکاری نزدیک میان جامعه فنی و کسانی که به این مشکل آشنایی دارند، نیاز خواهد داشت.
سوال پنج: به منظورپشتیبانی از ابتکار عملها برای دادههای بزرگ پایدار چه کاری میتوانیم بکنیم؟
الان: ساخت مجموعهای از دادههای بسیار با کیفیت که به طور گسترده در دسترس هستند، میتواند به عنوان ستون فقرات برای بسیاری از پروژههای ویژه داده خدمت کند.به طور مثال، مجموعههای دادهای که مرزهای کشور/شهرستان و سایر مناطق حکومتی را در برمی گیرد.
لورا: به طور روز افزونی، ما شاهد اتحاد کنسرسیومهای موسسات به منظور انجام کار مشترک روی برخی از این مسائل هستیم. این مراکز احتمالا داده و پایگاههای اطلاعاتی برای کارهای مبتنی بر دادههای زیاد و فشرده فراهم میآورند،و برخی از چالشهایی که پیش ازاین ذکر شد، رابا کسب و مدیریت داده کاهش میدهند، ابزارها و محیط لازم را ایجاد میکنند، ابزارهایی را برای حاکمیت فراهم میکنند و...گروه من در حال ایجاد چنین پایگاههایی با هدف تسهیل این همکاریهای مشترک است.
پُل:بسیاری از حوزهها به پژوهشگران یا شرکتهای دارای مهارت/ تولید نیازمند هستند. فعالیتهایی مانند «بیگ دیدتا ویک هکتونز» [برنامه یک هفتهای که طی آن برنامه نویسهای کامیپوتری برای حل برخی مشکلات اجتماعی دور هم جمع شده و به همفکری پرداختند] میتواند راهی برای تشویق سازمان دهندهها به منظور برگزاری «هکتون»های دیگر و رقابتهایی که به طور مشخص روی یک مشکل اجتماعی هدفگذاری میشود.
به ترغیب انتشار«اُپن دیتا» از مجموعه دادههای کلیدی عمومی ادامه دهید.با آژانسهایی که در این حوزهها کار میکنند و مشکلات را درک میکنند، گفت و گو کنید.شیوههای را برای کمک به آنها بیابید و آنها را در کاری که میخواهند انجام دهند یاری دهید و در این راه اعتماد و تفاهم ایجاد کنید.
راجر: ابزارها و منابعی را به منظور ادامه پژوهش فراهم کنید. امروزه، تنها بخشی از دانشمندان و مهندسان از دسترسی عادی به منابع دارای کارآیی بالا و محاسبه فشرده داده به منظور پردازش و تحلیل مقادیر بسیار زیاد دادهها و اجرای مدلها و شبیه سازیها بهره میبرند. واقعیت برای اغلب جوامع علمی این است که سرعت کشف کردن اغلب مانع میشود، هنگامی که آنها باید برای دسترسی به منابع محدود در نوبت قرار گیرند یا هنگامی که آنها مجبورند چشم انداز پژوهش را در تطابق با قدرت پردازشگر به تدریج کاهش دهند.
این مشکل به ویژه در موسسههای پژوهشی کوچکتر حاد است. موسسههایی که دنبالههای جامعه پژوهشی را نمایندگی میکنند. دانشگاههای درجه یک و برخی دانشگاههای درجه دو زیرساختهای لازم و بودجه کافی برای تامین و پشتیبانی منابع محاسبه را دارند، درحالی که موسسههای پژوهشی کوچکتر در حال کشمکش بر سر این موضوع هستند. شرکتها و آژانسهای سرمایهگذاری ما باید منابع را به منظور حمایت از پژوهشگران به ویژه کسانی که به منابع کافی دسترسی ندارند فراهم کند.
سوال شش:آیا از وجود پروژهها یا ابتکارهایی برای بزرگ دادهها پایدار خبر دارید؟
لورا: بله. زیاد! مرکز پژوهش آی.بی.ام به تنهایی در هریک از حوزههایی که پیش از این گفته شد و در حوزههای متعدد دیگر تلاشهایی کرده است. به طور مثال،ما روی مدل سازی سیل در شهر «ریو» در برزیل؛ کار کردهایم. مانیتور نوزادان نارس در بخش نوزادان بیمارستان تورنتو نیز از جمله یکی از کارهای ما است که امکان تشخیص عفونتهای تهدید کننده زندگی را تا ۲۴ ساعت زودتر را میدهد.