در شماره ی گذشته از استفاده های شگفت انگیز بیگ دیتای حاصل از شبکه های اجتماعی مجازی در زمینه های مختلف گفتیم. اما همان طور که اشاره شد، هنگام استفاده از این اطلاعات با چالش هایی نیز مواجه می شویم که در این شماره از برخی مهم ترین های آن ها سخن می گوییم. یکی […]

در شماره ی گذشته از استفاده های شگفت انگیز بیگ دیتای حاصل از شبکه های اجتماعی مجازی در زمینه های مختلف گفتیم. اما همان طور که اشاره شد، هنگام استفاده از این اطلاعات با چالش هایی نیز مواجه می شویم که در این شماره از برخی مهم ترین های آن ها سخن می گوییم.

یکی از مهم ترین مشکلاتی که در استفاده ازاطلاعات حاصل از شبکه های اجتماعی مجازی با آن روبرو می شویم، شناسایی کاربران می باشد. در روش های سنتی جمع آوری اطلاعات، همچون مصاحبه ، مشخصات و اطلاعات نسبتا کامل و قابل قبولی از افراد همچون سن ، جنسیت ، درآمد و … در دسترس قرار می گیرد، در حالی که بسیاری از منابع بیگ دیتا و اطلاعات شبکه های اجتماعی مجازی این اطلاعات جمعیتی را شامل نمی شوند که بدون در اختیار داشتن چنین اطلاعاتی،نتیجه ی تحقیقات ممکن است جانبدارانه باشد. به عنوان مثال اکثر کاربران واقعی خدمات شبکه های اجتماعی مجازی از قشر جوان جامعه می باشند و اطلاعات جمع آوری شده تنها شامل نمونه ی کوچکی از کل جمعیت می باشد. بنابراین تحقیقات بیشتری برای درک درست از منابع بیگ دیتا و سرویس های متفاوت شبکه های مجازی مورد نیاز است.

یکی دیگر از چالشهای اصلی تحقیقات کلان داده ها، ادغام اطلاعات جغرافیایی در مقیاس های مختلف نقشه (کشورها ، شهرها ، کد پستی ، آدرسهای خیابان و نقاط GPS) است. برای مثال، تنها حدود 1-4% اطلاعات حاصل از شبکه های اجتماعی دارای برچسب مکان (نقاط دقیق حاصل از GPS) می باشد اگرچه حدود 70-80% این داده ها حاوی اطلاعات مکانی در حد مشخص بودن شهر صاحب پروفایل یا شهر محل ارسال پیام می باشد. اکثر محققان تنها از اطلاعاتی استفاده می کنند که برچسب مکانی دقیق داشته باشد که این خود چالشی بزرگ در راه ارائه ی یک قالب جامع به منظور جمع آوری اطلاعات با دقت های متفاوت می باشد. نرم افزارهای مکان یابی فعلی قابلیت پشتیبانی از چنین قالب جامعی را ندارند.

محافظت از حریم شخصی کاربران در دنیای مجازی هنگام استفاده از کلان داده ها نیز مشکل دیگری است که محققان با آن روبرو هستند. نگرانی های مربوط به رعایت حریم خصوصی کابران و خطرات مربوط به افشای اطلاعات آن ها یک نگرانی عمده و البته مشترک بین محققان و عموم افراد جامعه است. خطر افشای اطلاعات هنگامی بیشتر به چشم می آید که مردم از وسایل ارتباطی هوشمندشان برای چک کردن شبکه های اجتماعی استفاده می کنند که خود موجب فاش شدن موقعیت مکانی آن ها می شود. مسئله ی حفظ حریم شخصی و خصوصی افراد در مورد پرونده ی پزشکی آن ها نیز مطرح می باشد به طوری که بسیاری از داده های بهداشت عمومی در دسترس دانشمندان علم داده ها نبوده و محققان علوم پزشکی و بهداشتی نیز امکان بررسی این اطلاعات را ندارند.

در این بین از اختلالات موجود در کلان داده ها نمی توان چشم پوشی کرد. منابع زیادی برای بروز اختلال در اطلاعات و خصوصا اطلاعات حاصل از شبکه های اجتماعی مجازی وجود دارد که از جمله ی آن ها می توان به تبلیغات ، پیام های بازاریابی ، ربات ها و مکالمات غیرمرتبط اشاره کرد. بسیاری از مطالعات در مورد شبکه های اجتماعی نشان دهنده ی این امر می باشد که بیش از 70  درصد از مجموعه اطلاعات اولیه ، احتمالا دارای اختلال (نویز) بوده و یا پیام هایی غیرمرتبط با موضوع مورد نظر دارند که باعث نیاز به استفاده از فیلترهای مناسب و روش های پاک سازی اطلاعات ضروری به نظر می رسد، که این فیلترگذاری ها و تعریف پروسه های طبقه بندی اطلاعات می تواند به صورتی دستی بوده و یا به وسیله ی کامپیوتر اعمال شود.

با توجه به موارد فوق و بسیاری مسائل دیگر که در این نوشته فرصت پرداختن به آن ها فراهم نشد، اگرچه دنیای علم داده ها روز به روز در حال پیشرفت بوده و برای چالش ها و مشکلات ذکر شده ، راه حل های متفاوتی ارائه می شود، اما محققان همچنان برای حل این مسائل راه طولانی و پر رمز و رازی پیش رو دارند.