میگویند داده نفت جدید است. در جایگاه چندنفری که بهدلیل علاقه به شعر و ادبیات دور هم جمع شدیم و از روی کنجکاوی اشعاری را که جمع شده بود تحلیل کردیم شاهدیم که بیراه هم نگفتهاند که داده نفت جدید است! دیگر همه ما این جمله را شنیدیم که میگویند آخر انتگرال و مشتقی را که در مدرسه خواندیم در کجای این زندگی به کار ما آمده ؟ شاید کم کم داریم به عصری نزدیک میشویم و یا شدهایم و حتی کمی از آن عبور هم کردهایم (و ما مثل همیشه عقب ماندهایم) که کمکم باید بپذیریم این شوخی دارد به سوال مهمی تبدیل میشود که منتظر جوابهای جدی باید باشد. در عصری هستیم که کمی کردن اطلاعات اطرافمان دیگر در بطن زندگی جا خوش کرده. حرف از حضور داده در صنعت و علم نمیزنیم این دایرهالمعارف مد نظر ماست که پدیده زبان را از منظر داده بررسی کرده اما اکنون میبینیم نه تنها زبان بلکه بسیاری از موضوعات اجتماعی و فرهنگی را هم میتوان از دلش بیرون کشید. از دل این دادههای کم و پُرخطا!
چرا از شبکهی اجتماعی برای گردآوری داده استفاده کردیم؟
راستش را بخواهید تهیه پرسشنامه در مقیاس مورد نظر ما بسیار سخت بود! در دسترسترین، سریعترین و مقیاسپذیرترین راهی که برای جمعآوری دادهها در دسترس داشتیم شبکههای اجتماعی بود. منبعی که امروزه از همه اقشار مختلف جامعه در آن حضور دارند. ما را به شهر یا خطه خاصی محدود نمیکند. در سریعترین زمان ممکن از سراسر دنیا توانستیم دادهها را جمعآوری کنیم. البته میدانیم در نظر گرفتن سلیقههای مختلف مخاطبان در دادههای ما عاری از خطا و کاستی نیست اما به هر حال خوشبختانه بهدلیل فعالیتهای پوریا عالمی در زمینههای گوناگون از طنزنویسی روزنامه تا فعالیت در حوزه کودکان مخاطبانش فقط محدود به علاقهمندان و پیگیران حوضه شعر نیستند.
با چه چالشهایی روبهرو بودیم و چه فرضیاتی را در نظر گرفتیم؟
بزرگترین چالش ما این است که در حوزه ادبیات فارسی تحقیقی انجام دادیم اما مجبوریم از اصطلاحاتی مانند لایک و کامنت و … استفاده کنیم! بگذریم…. با توجه به ماهیت شبکههای اجتماعی و مفهوم لایک کردن همنظری مخاطب و نویسنده را نشان میٔدهد، ما این فرض را در نظر گرفتیم که تعداد لایکهای یک شعر به نوعی تکرار آمدن آن شعر در کامنتها محسوب میشود. یکی از چالشهایی که در جمعآوری داده از شبکههای اجتماعی با آن روبهرو هستیم الگوریتم نمایش کامنتها است که بر روی تعداد لایکهای آن کامنت تاثیر مستقیم دارد. همین امر باعث میشود غیرمنصفانه بعضی از کامنتها به کاربران بیشتر نشان داده شوند و بعضی از کامنتها به غیر از خود نویسنده توسط کاربر دیگری اصلا دیده نشود که بخواهد خوانده و مورد استقبال قرار گیرد که لایک بیشتری بگیرید. از چند عاملی که ما متوجه تاثیرگذاری بر روی تعداد لایکها شدیم میتوانیم به این موارد اشاره کرد: زمان ثبت نظر، محبوبیت صفحه کاربری که نظر را ثبت کرده (مثل زیاد بودن دنبالکنندگانش)، وابستگی نمایش کامنتها به هر کاربر بر اساس صفحه شخصی او و کسانی که دنبال میکند یا دنبالکننده او هستند. متاسفانه در فرصت کم ما مجالی برای بررسی و تحقیق بیشتر در مورد این موارد نبود همچنین منبع معتبر برای فرضگذاری در دسترس نداشتیم برای همین از سادهترین فرضیات استفاده کردیم و بر غیردقیقبودن آنها مشرفیم و امیدواریم در نسخههای آینده بتوانیم این خطاها را اصلاح نماییم. مورد دیگر که برخوردیم کاربرانی بودند که در یک کامنت بیتهای مربوط به دو یا چند شعر را نوشتند چند کامنت در نظر گرفتیم. در موارد زیادی کاربران اشکال مختلفی برای یک شعر را نوشته بودند مثلا ترتیب کلمات متفاوت بود یا از تصحیحهای مختلف ابیات استفاده شده بود. در این مورد ما یک نسخه که بیشترین تکرار را داشت معیار تحلیل قرار دادیم. در بررسی موضوعات اشعار از هوش مصنوعی استفاده کردیم و چون مدل زبانی دقیقی بر روی شعر و ادبیات فارسی نیافتیم و به مدلهای موجود اکتفا کردیم پس انتظار خطا در این مرحله را داریم. همچنین برای بررسی پراکندگی کلمات مجبور بودیم در نسخهای متفاوت اشعار را تصحیح و ویرایش کنیم. برای مثال «دلم» را به صورت «دل من» در نظر گرفتیم تا بتوانیم ضمیر من را شمارش کنیم. این مرحله یکی از دشوارترین مراحل کار بود زیرا این دست موارد مختص ضمایر نبود بلکه شکلهای متفاوت نوشتاری (نهانخانه یا نهانخانه) و زمانهای مختلف افعال (گذشت یا میگذرد) و… پیچیدگیهای زیادی داشتند.