کتاب‌ها در پی‌نوشت ادامه می‌یابند
    درباره‌مابا هم آشنا شویمارتباط با پی‌نوشت
    فرآیند ایجاد صفحه کتاب جدید در پی‌نوشتقوانین و مقررات استفاده از پی‌نوشتتعرفه‌ها
    ما را در شبکه‌های اجتماعی دنبال کنید
    این سایت در بستر پلتفرم پی‌نوشت ارائه و پشتیبانی شده است
    اینجا کتاب‌ها ادامه می‌یابند ...
    دایره‌المعارف شعر فارسی - فصل۱: غمروش کار ما چطور بود؟ (یاسمن یکتائیان)

    {روش کار ما چطور بود؟ (یاسمن یکتائیان)}


    به‌گزارش یاسمن یکتائیان

    اهمیت داده در چیست؟

    می‌گویند داده نفت جدید است. در جایگاه چندنفری که به‌دلیل علاقه به شعر و ادبیات دور هم جمع شدیم و از روی کنجکاوی اشعاری را که جمع شده بود تحلیل کردیم شاهدیم که بیراه هم نگفته‌اند که داده نفت جدید است!
    دیگر همه ما این جمله را شنیدیم که می‌گویند آخر انتگرال و مشتقی را که در مدرسه خواندیم در کجای این زندگی به کار ما آمده ؟ شاید کم کم داریم به عصری نزدیک می‌شویم و یا شده‌ایم و حتی کمی از آن عبور هم کرده‌ایم (و ما مثل همیشه عقب مانده‌ایم) که کم‌کم باید بپذیریم این شوخی دارد به سوال مهمی تبدیل می‌شود که منتظر جواب‌های جدی باید باشد.
    Screenshot 2024-12-10 001307.png در عصری هستیم که کمی کردن اطلاعات اطرافمان دیگر در بطن زندگی جا خوش کرده. حرف از حضور داده در صنعت و علم نمی‌زنیم این دایره‌المعارف مد نظر ماست که پدیده زبان را از منظر داده بررسی کرده اما اکنون می‌بینیم نه تنها زبان بلکه بسیاری از موضوعات اجتماعی و فرهنگی را هم می‌توان از دلش بیرون کشید. از دل این داده‌های کم و پُرخطا!


    چرا از شبکه‌ی اجتماعی برای گردآوری داده استفاده کردیم؟

    راستش را بخواهید تهیه پرسشنامه در مقیاس مورد نظر ما بسیار سخت بود! در دسترس‌ترین، سریع‌ترین و مقیاس‌پذیرترین راهی که برای جمع‌آوری داده‌ها در دسترس داشتیم شبکه‌های اجتماعی بود. منبعی که امروزه از همه اقشار مختلف جامعه در آن حضور دارند. ما را به شهر یا خطه خاصی محدود نمی‌کند. در سریع‌ترین زمان ممکن از سراسر دنیا توانستیم داده‌ها را جمع‌آوری کنیم.
    البته می‌دانیم در نظر گرفتن سلیقه‌های مختلف مخاطبان در داده‌های ما عاری از خطا و کاستی نیست اما به هر حال خوشبختانه به‌دلیل فعالیت‌های پوریا عالمی در زمینه‌های گوناگون از طنزنویسی روزنامه تا فعالیت در حوزه کودکان مخاطبانش فقط محدود به علاقه‌مندان و پیگیران حوضه شعر نیستند.

    با چه چالش‌هایی روبه‌رو بودیم و چه فرضیاتی را در نظر گرفتیم؟

    بزرگترین چالش ما این است که در حوزه ادبیات فارسی تحقیقی انجام دادیم اما مجبوریم از اصطلاحاتی مانند لایک و کامنت و … استفاده کنیم! بگذریم….
    با توجه به ماهیت شبکه‌های اجتماعی و مفهوم لایک کردن هم‌نظری مخاطب و نویسنده را نشان می‌ٔدهد، ما این فرض را در نظر گرفتیم که تعداد لایک‌های یک شعر به نوعی تکرار آمدن آن شعر در کامنت‌ها محسوب می‌شود.
    یکی از چالش‌هایی که در جمع‌آوری داده از شبکه‌های اجتماعی با آن روبه‌رو هستیم الگوریتم نمایش کامنت‌ها است که بر روی تعداد لایک‌های آن کامنت تاثیر مستقیم دارد. همین امر باعث می‌شود غیرمنصفانه بعضی از کامنت‌ها به کاربران بیشتر نشان داده شوند و بعضی از کامنت‌ها به غیر از خود نویسنده توسط کاربر دیگری اصلا دیده نشود که بخواهد خوانده و مورد استقبال قرار گیرد که لایک بیشتری بگیرید.
    از چند عاملی که ما متوجه تاثیرگذاری بر روی تعداد لایک‌ها شدیم می‌توانیم به این موارد اشاره کرد: زمان ثبت نظر، محبوبیت صفحه کاربری که نظر را ثبت کرده (مثل زیاد بودن دنبال‌کنندگانش)، وابستگی نمایش کامنت‌ها به هر کاربر بر اساس صفحه شخصی او و کسانی که دنبال می‌کند یا دنبال‌کننده او هستند. متاسفانه در فرصت کم ما مجالی برای بررسی و تحقیق بیشتر در مورد این موارد نبود همچنین منبع معتبر برای فرض‌گذاری در دسترس نداشتیم برای همین از ساده‌ترین فرضیات استفاده کردیم و بر غیردقیق‌بودن آنها مشرفیم و امیدواریم در نسخه‌های آینده بتوانیم این خطاها را اصلاح نماییم. مورد دیگر که برخوردیم کاربرانی بودند که در یک کامنت بیت‌های مربوط به دو یا چند شعر را نوشتند چند کامنت در نظر گرفتیم.
    در موارد زیادی کاربران اشکال مختلفی برای یک شعر را نوشته بودند مثلا ترتیب کلمات متفاوت بود یا از تصحیح‌های مختلف ابیات استفاده شده بود. در این مورد ما یک نسخه که بیشترین تکرار را داشت معیار تحلیل قرار دادیم. در بررسی موضوعات اشعار از هوش مصنوعی استفاده کردیم و چون مدل زبانی دقیقی بر روی شعر و ادبیات فارسی نیافتیم و به مدل‌های موجود اکتفا کردیم پس انتظار خطا در این مرحله را داریم. همچنین برای بررسی پراکندگی کلمات مجبور بودیم در نسخه‌ای متفاوت اشعار را تصحیح و ویرایش کنیم. برای مثال «دلم» را به صورت «دل من» در نظر گرفتیم تا بتوانیم ضمیر من را شمارش کنیم. این مرحله یکی از دشوارترین مراحل کار بود زیرا این دست موارد مختص ضمایر نبود بلکه شکل‌های متفاوت نوشتاری (نهانخانه یا نهان‌خانه) و زمان‌های مختلف افعال (گذشت یا می‌گذرد) و… پیچیدگی‌های زیادی داشتند.