نوع مقاله : مقاله پژوهشی
نویسنده
عضو هیئت علمی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران، ایران
چکیده
کلیدواژهها
موضوعات
عنوان مقاله [English]
نویسنده [English]
Topic extraction and classification of Hafez's poetry have long been a focus of scholarly attention, with existing studies primarily adopting either historical periodization approaches or relying on expert interpretations from Persian literature specialists. This study presents a novel computational methodology for identifying and categorizing topics in Hafez's Divan using artificial intelligence and text mining techniques, completely independent of human expert judgment. Following text preprocessing and feature extraction, our analysis revealed eight principal topics within the Divan. These topics were automatically labeled based on their most characteristic vocabulary using AI assistance: 1) Anguish and Ardor, 2) Panegyric and Praise, 3) Separation and Reunion, 4) Beauty and Allure, 5) Revelry and Intoxication, 6) The Mystery of Love, 7) Mysticism and Spirituality, and 8) Bohemianism and Libertarianism. Each poem was systematically classified according to its strongest topic association, with threshold-based analysis employed to determine significant thematic connections. Our completely automated, machine learning-driven approach to lexical pattern analysis in Hafez’s work demonstrates a reproducible methodology applicable to other literary corpora.
کلیدواژهها [English]
دیوان حافظ، مجموعه اشعار خواجه شمسالدین محمد حافظ شیرازی، نهتنها اثری برجسته در ادبیات فارسی و میراث فرهنگی ایران است، که گنجینهای بیبدیل و غنی از مضامین عمیق عرفانی، اجتماعی و فلسفی محسوب میشود. این دیوان در سطح جهانی نیز نمادی از عرفان، فلسفه و زیباییشناسی به شمار میآید. حافظ، که به «لسانالغیب» مشهور است، با هنرمندی تمام مضامین عرفانی، عاشقانه، فلسفی و اجتماعی را در هم آمیخته و اثری ماندگار خلق کرده است که قرنها پس از او، همچنان مورد توجه پژوهشگران، ادیبان و علاقهمندان به ادبیات و عرفان قرار دارد.
مضامین متنوعی در اشعار حافظ دیده میشود که عرفان، وجه غالب آنهاست. موضوعاتی همچون پرهیز از ریا و دورویی، نقد زهد و فخرفروشی، دعوت به عشق و محبت، توصیف زیباییهای طبیعت، قدرشناسی و اهمیت زمان در اشعار او به چشم میخورند. این مضامین گاه بهصورت مستقل در چند بیت نمود پیدا میکنند و گاه ترکیبی از آنها در یک غزل جای میگیرد. اگرچه پژوهشهای متعددی از منظر حافظشناسان به دستهبندی و تحلیل این مضامین پرداختهاند، در بیشتر آنها نظر شخصی پژوهشگر بهعنوان صاحبنظر ادبی دخیل بوده است. این مسئله اگرچه گاهی سودمند است، ممکن است در مواردی بهدلیل سوگیری محقق، به نتایج نادرست بینجامد. ازاینرو، شناسایی و دستهبندی موضوعات دیوان حافظ بدون اتکا به نظر افراد خبره میتواند افق تازهای از اندیشههای این شاعر بزرگ را پیشِ روی علاقهمندان بگشاید.
برای درک اندیشة ناب این شاعر بزرگ، دیوان اشعار او تنها ابزار مطمئن است. شرط موفقیت در این مسیر، پرهیز از هرگونه پیشداوری و عدم تأثیر سلیقة شخصی در تفسیر دیدگاههای اوست (هومن، 1353). از همین رو، در این مقاله تلاش شده است تا با بهرهگیری از تکنیکهای متنکاوی[1] و پردازش زبان طبیعی[2] و مستقل از نظر خبرگان به استخراج موضوعات و دستهبندی اشعار حافظ پرداخته شود.
در ادامة این پژوهش، ابتدا مطالعات پیشین درزمینة استخراج موضوعات از متون (با تأکید بر متون ادبی) ارائه خواهد شد. سپس، روش پژوهش بهتفصیل شرح داده میشود. بخش بعدی مقاله به استخراج موضوعات موجود در دیوان حافظ اختصاص دارد که در آن پس از تعیین تعداد موضوعات، با استفاده از هوش مصنوعی به نامگذاری آنها و دستهبندی اشعار دیوان حافظ در موضوعات شناساییشده پرداخته خواهد شد. درنهایت، بخش نهایی مقاله به نتیجهگیری خواهد پرداخت.
پژوهشهای مختلفی درزمینة شناسایی و استخراج موضوعات از متون فارسی، بهویژه متون علمی انجام شده است. برای مثال میتوان به استخراج موضوعات از پایاننامههای حوزههای محیط زیست، مدیریت، مهندسی صنایع و... اشاره کرد (Rabiei et al., 2021). این مطالعات که در زمرة مطالعات علمسنجی جای میگیرند، با شناسایی موضوعات موجود در متنهای علمی، روند انجام پژوهشهای مختلف را تحلیل کرده و ظهور موضوعات جدید را نیز بررسی میکنند (Bagherini et al., 2024). بااینحال، استفاده از تکنیکهای متنکاوی، پردازش زبان طبیعی (NLP) و هوش مصنوعی (AI) برای تحلیل متون ادبی سابقة چندانی ندارد و کمتر به آن توجه شده است. یکی از دلایل این موضوع، آشنایی محدود متخصصان حوزة ادبیات با ابزارهای هوش مصنوعی است.
مطالعات سنتی دربارة دیوان حافظ عمدتاً بر تفسیر ابیات و استخراج مفاهیم عرفانی، فلسفی و اجتماعی متمرکز بودهاند. برای مثال، دکتر عبدالحسین زرینکوب در کتاب از کوچه رندان: دربارة زندگی و اندیشة حافظ، به بررسی زندگی حافظ و مضامین عمیق موجود در اشعار او پرداخته است. ازنظر زرینکوب، موضوعات اصلی دیوان حافظ شامل سه دستة زیر هستند:
دستهبندی دکتر محمود هومن نیز در بسیاری از پژوهشهای مرتبط بهعنوان یک مرجع معتبر پذیرفته شده است. این دستهبندی بر اساس ۶ دورة زمانی زندگی حافظ شکل گرفته است:
این دستهبندی اگرچه میتواند اشعار حافظ را براساس دورههای زمانی زندگی او بررسی کند، اما مانند سایر دستهبندیهای تاریخی (Rahgozar, 2020) صرفاً به روند زمانی اشعار پرداخته است؛ چنانکه اشعار حافظ را براساس دوران حکومت حاکمان زمان او دستهبندی کرده و 12 غزل را به پیش از امیرمبارزالدین، 63 غزل را به دوران حکمرانی امیرمبارزالدین، 133 غزل را به زمان حکومت شاه شجاع و 25 غزل را به پس از شاه شجاع نسبت داده است. این نوع دستهبندیها، موضوعات محتوایی موجود در اشعار حافظ را طبقهبندی نکردهاند.
برخی پژوهشها به تحلیل اشعار حافظ در موضوعی خاص پرداختهاند. این مطالعات با تمرکز بر یک حوزة موضوعی، اشعار مرتبط با مضامین مختلف آن حوزه را از دیوان حافظ استخراج کردهاند. برای نمونه، اشعار حافظ در حوزه تربیتی گردآوری شده و در این زمینه، مضامینی مانند ناپایداری جهان، حقیقت جویی و دوری از ریا، توکل، پندپذیری، بلندنظری و وسعت دید در طریق معرفت، دوستی، مقام رضا، حُسن سلوک در زندگی، وطن، وقتشناسی و صبر و ثبات در کارها و درنهایت امید استخراج شده است. شیوة استخراج این موضوعات براساس دانش و بررسی اشعار از منظر مؤلف بوده است (صالحی خلفی و همکاران، 1402). موضوع تساهل و مدارا در دیوان حافظ در پژوهشی مورد بررسی قرار گرفته و ابیات مرتبط با آن استخراج و تحلیل شدهاند (بخشاییزاده، 1388). همچنین، پژوهشی مشابه، به کاوش تساهل و تسامح در دیوان حافظ و ابیات متناظر با آن پرداخته است (نیکداراصل، 1388). افزونبر این، مفاهیم عرفان و رندی در شعر حافظ مورد توجه برخی پژوهشها بوده است. این مطالعات به بررسی و استخراج این دو موضوع در دیوان حافظ و تحلیل ارتباط و درهمتنیدگی مفاهیم مستخرج از آنها پرداختهاند و درنهایت، ابیات دیوان حافظ را با هدف استخراج این موضوعات تحلیل کردهاند (آشوری، 1400).
با پیشرفت فناوریهای دیجیتال و هوش مصنوعی، رویکردهای نوینی برای تحلیل متون ادبی پدید آمده است. این روشها با استفاده از الگوریتمهای متنکاوی و پردازش زبان طبیعی، به استخراج خودکار مفاهیم و موضوعات از متون میپردازند. برای نمونه، در پژوهشی با استفاده از مدلسازی موضوعی، اشعار حافظ دستهبندی شد که در آن هر شعر بهعنوان یک سند در نظر گرفته شده بود (Rahgozar, 2020).
پژوهش دیگری رویکردی نوین برای طبقهبندی متنهای فارسی با استفاده از مدلهای موضوعی ارائه داده است تا محدودیتهای روش سنتی سبد کلمات (BOW[3]) را برطرف کند. پژوهشگران سپس با بهکارگیری مدلسازی موضوعی، بهبودهای چشمگیری در صحت طبقهبندی به دست آوردند. روش آنها از انسجام معنایی بین کلمات بهره میبرد، هزینههای محاسباتی را کاهش میدهد و صحت را برای متنهای فارسی افزایش میدهد (Ahmadi et al., 2016).
بررسی پژوهشهای پیشین درزمینة شناسایی موضوعات و دستهبندی اشعار حافظ نشان میدهدکه در بیشتر پژوهشهای سنتی، پژوهشگر خود در جایگاه صاحبنظر در حوزة ادبیات فارسی یا حافظشناس، نظر و تحلیل شخصی خود را در دستهبندی اعمال کرده است؛ اگرچه در تحلیل متون ادبی فارسی که سرشار از آرایههای ادبی مختلفی است که تحلیل آن توسط ماشین میتواند پیچیده باشد، نظر یک فرد خبره میتواند راهگشا باشد، اما این رویکرد ممکن است به سوگیری در دستهبندی منجر شود. همچنین، بیشتر این دستهبندیها مبتنیبر دورههای زندگی شاعر یا تحولات سیاسی و تاریخی عصر او بوده است. این در حالی است که شاعر ممکن است در یک دورة زمانی و در یک عصر سیاسی خاص، مضامین مختلفی را براساس حالات درونی خود یا رسالت ادبیاش ارائه دهد. در این پژوهش تلاش شده است تا بدون استفاده از نظر افراد خبره و با در نظر گرفتن استقلال معنایی بیت در کنار غزل، به شناسایی و استخراج موضوعات موجود در اشعار حافظ پرداخته شود.
دادهکاوی بهمثابه دانشی میانرشتهای، حوزههای متنوعی ازجمله هوش مصنوعی، مدیریت پایگاه دادهها، بصریسازی دادهها، یادگیری ماشین، الگوریتمهای محاسباتی و آمار را در بر میگیرد. رشد سریع این حوزه ناشی از نیاز فزاینده به تحلیل، درک و بصریسازی حجم انبوه دادههای ذخیرهشده در پایگاههای اطلاعاتی تجاری و علمی است (Bagherini et al., 2024). شایان ذکر است که بخش عمدهای از این دادهها بهصورت متنی هستند و حجم بسیاری از دانش بشری نیز در قالب کتابها و مقالات علمی ارائه شدهاند که تحلیل آنها تنها ازطریق روشهای متنکاوی امکانپذیر است (Zong et al., 2021).
دیوان حافظ دارای نسخههای متعددی است که ازنظر تعداد و محتوای اشعار تفاوتهایی با یکدیگر دارند. برخی از این اشعار به حافظ منسوب هستند و دربارة اصالت آنها میان پژوهشگران اختلاف نظر وجود دارد. بااینحال، این اختلافات عمدتاً به کمتر از ۱۰ شعر از مجموع حدود ۵۰۰ شعر دیوان حافظ محدود میشود.
ازآنجاکه هدف این پژوهش، ارزیابی اصالت اشعار نیست و وجود یا عدموجود چند شعر خاص تأثیر معناداری بر نتایج کلی پژوهش نخواهد داشت، در این مطالعه از نسخة استاندارد دیوان حافظ موجود در وبسایت گنجور[4] استفاده شده است. این نسخه شامل ۴۹۵ شعر در قالب ۴۱۹۲ بیت است که بهعنوان منبعی معتبر در تحقیقات ادبی شناخته میشود.
مدلسازی موضوعی ازجمله روشهای کارآمد در تحلیل متن است که بهصورت خودکار متون را به زیرمجموعههای معنادار به نام «موضوع» (Topic) گروهبندی میکند. این روش با حداقل دخالت انسانی، امکان تحلیل حجم انبوهی از متون را فراهم میسازد. در مدلسازی موضوعی، برخلاف روشهای سنتی که از عناوین ازپیشتعیینشده استفاده میکنند، تنها با تعیین تعداد موضوعات، زیرمجموعههای معنایی استخراج میشوند و میزان ارتباط هر سند (مانند یک شعر) با هر موضوع نیز محاسبه میشود (Velonis, 2022).
روشهای استخراج موضوع بر این فرض استوارند که عبارتهای موجود در یک متن ازنظر معنایی به هم وابستهاند و معنای یک مستند از مجموعة عبارتهای موجود در متن آن به دست آمده است. بهعبارتدیگر، صرفنظر از معانی یا موقعیت قرارگیری عبارت در متن، همرخدادی آنها مورد نظر قرار میگیرد و اسناد بهصورت مجموعهای از عبارتها در نظر گرفته میشوند. در این روش، فرضهای زیر لحاظ میشوند (Blei et al., 2003):
دو فرض اول، که ترتیب مستندات در پیکره و ترتیب عبارتها در یک مستند را نادیده میگیرند، منجر به خلق مفهوم «سبد واژگان» میشوند. این مفهوم در روشهای متنکاوی، بهعنوان نمایندهای از یک مستند در نظر گرفته میشود (Wallach, 2006). فرضهای سوم و چهارم، مفهوم «موضوع» را تبیین میکنند که درواقع توزیعی از عبارتهای موجود در یک بانک واژگان است. برای مثال، عبارتهای با احتمال بالای حضور در موضوع «ورزش» میتواند شامل «فوتبال»، «والیبال»، «کشتی»، «پرسپولیس»، «علی دایی» و... باشند. نامگذاری موضوعات معمولاً براساس کلمات پرتکرار هر موضوع یا با کمک خبرگان صورت میگیرد.
در این پژوهش، از زبان برنامهنویسی R و الگوریتم تخصیص دیریکله نهفته (LDA[5]) برای مدلسازی موضوعی استفاده شده است. LDA که توسط Blei و همکاران در سال ۲۰۰۳م. ارائه شد، پرکاربردترین روش در مدلسازی موضوعی محسوب میشود (Blei et al., 2003). این الگوریتم براساس این دو اصل بنا نهاده شده است که هر سند (مانند یک غزل) ترکیبی از چند موضوع است و هر موضوع نیز توزیعی از کلمات پرتکرار است.
خروجی LDA، احتمال تعلق هر سند به هر موضوع (مقداری بین ۰ تا ۱) است. برای نامگذاری موضوعات استخراجشده از ابزار هوش مصنوعی DeepSeek-V3[6] بهره گرفته شده است.
در گام نخست، اشعار دیوان حافظ از وبسایت گنجور استخراج و در قالب یک فایل اکسل ساختاردهی شد. این فایل شامل دو ستون اصلی بود:
(برای مشاهده ساختار دادهها به جدول 1 مراجعه شود).
جدول 1. جدول دادههای آمادهشده از دیوان حافظ
|
ردیف |
غزل |
بیت |
تعداد واژه |
|
1 |
1 |
الا یا ایها الساقی ادر کاسا و ناولها # که عشق آسان نمود اول ولی افتاد مشکلها |
16 |
|
2 |
1 |
به بوی نافهای کاخر صبا زان طره بگشاید # ز تاب جعد مشکینش چه خون افتاد در دلها |
17 |
|
… |
|||
|
8 |
2 |
صلاح کار کجا و من خراب کجا # ببین تفاوت ره کز کجاست تا به کجا |
15 |
|
9 |
2 |
دلم ز صومعه بگرفت و خرقه سالوس # کجاست دیر مغان و شراب ناب کجا |
14 |
|
… |
|||
|
4191 |
495 |
آن طره که هر جعدش صد نافه چین ارزد # خوش بودی اگر بودی بوییش ز خوش خویی |
17 |
|
4192 |
495 |
هر مرغ به دستانی در گلشن شاه آمد # بلبل به نواسازی حافظ به غزل گویی |
15 |
در اولین گام پیشپردازش، لازم است تا کلماتی که فراوانی بسیار بالایی در متن دارند، اما ارزش محتوایی چندانی ندارند مانند حروف ربط (از، که، با، و...) که در ادبیات متنکاوی از آنها بهمثابه ایستواژه[7] یاد میشود، حذف شوند. باید توجه کرد که برخی از ایستواژههای رایج در متنکاوی مانند لب (به معنای کنار، مجاور)، روی (به معنی بالا)، می (بهعنوان پیشوند فعل مضارع) و مانند اینها در شعر معانی دیگری نیز دارند. به همین دلیل، این موارد نباید از متن حذف شوند. ازطرف دیگر، واژههای «حافظ» و «حافظا» نیز بهمنزلة ایستواژه در نظر گرفته شد.
پس از این مرحله، نوبت به نرمالسازی متن میرسد. منظور از نرمالسازی، یکسانسازی فرمهای مختلف کلمات و جایگزینی آنها با ریشة اصلیشان است، برای نمونه، کلماتی مانند «دلم، دلت، دلی، ایدل، دلا» با واژة «دل» جایگزین میشوند. درنهایت، ماتریس مستند-واژه[8] تشکیل خواهد شد. در این ماتریس، هر سطر نشاندهندة یک غزل و هر ستون نشاندهندة یک واژه است. سلول حاصل از تقاطع هر سطر و ستون، تعداد دفعات تکرار[9] این واژه در غزل مربوطه را نشان میدهد.
بلندترین شعر حافظ، غزل شمارة 329 است که با مطلع «جوزا سحر نهاد حمایل برابرم / یعنی غلام شاهم و سوگند میخورم» آغاز میشود و 25 بیت دارد. پس از آن، غزل شمارة 362 با مطلع «دیدار شد میسر و بوس و کنار هم / از بخت شکر دارم و از روزگار هم»، 16 بیت را در بر میگیرد. بهجز این دو غزل با اندازة غیرمعمول، سایر غزلهای حافظ بین 5 تا 14 بیت هستند، از مجموع 495 غزل، 369 غزل (نزدیک به سهچهارم غزلها) بین 7 تا 9 بیت دارند.
ازنظر تعداد واژة بهکارگرفتهشده در هر بیت، کوتاهترین بیت دیوان حافظ شامل 7 واژه است: «میان جعفرآباد و مصلا / عبیرآمیز میآید شمالش». این بیت در غزل شمارة 279 با مطلع «خوشا شیراز و وضع بیمثالش / خداوندا نگه دار از زوالش» آمده است. بلندترین بیت دیوان حافظ نیز شامل 23 واژه است: «دگر حور و پری را کس نگوید با چنین حسنی /که این را این چنین چشم است و آن را آن چنان ابرو». این بیت در غزل شمارة 412 با مطلع «مرا چشمیست خون افشان ز دست آن کمان ابرو / جهان بس فتنه خواهد دید از آن چشم و از آن ابرو» قرار دارد. بهطور متوسط، تعداد واژگان بهکاررفته در هر بیت دیوان حافظ، کمتر از 15 واژه (14.9) است. کوتاهترین غزل دیوان حافظ ازنظر تعداد واژگان ، غزل شمارة 453 با مطلع «ای که دایم به خویش مغروری / گر تو را عشق نیست معذوری» است که 54 واژه دارد. بلندترین شعر دیوان حافظ از این منظر نیز همان غزل 329 با مطلع «جوزا سحر نهاد حمایل برابرم / یعنی غلام شاهم و سوگند میخورم» با 354 واژه است. میانگین تعداد واژگان غزلهای دیوان حافظ 127 واژه است.
جدول 2 فراوانی کلمات بهکارگرفتهشده در دیوان حافظ را نشان میدهد. در این جدول، 20 واژة پرتکرار به همراه تعداد دفعات تکرار آنها آمده است.
جدول 2. بیست واژة پرتکرار دیوان حافظ
|
ردیف |
واژه |
تعداد تکرار |
ردیف |
واژه |
تعداد تکرار |
|
1 |
دل |
638 |
11 |
جهان |
141 |
|
2 |
عشق |
301 |
12 |
کار |
135 |
|
3 |
می |
259 |
13 |
راه |
131 |
|
4 |
جان |
228 |
14 |
خاک |
129 |
|
5 |
دست |
204 |
15 |
جام |
129 |
|
6 |
چشم |
199 |
16 |
دوست |
125 |
|
7 |
گل |
190 |
17 |
کس |
119 |
|
8 |
یار |
189 |
18 |
خون |
116 |
|
9 |
زلف |
149 |
19 |
آب |
114 |
|
10 |
غم |
146 |
20 |
لب |
114 |
همانطور که در این جدول مشخص است، واژة «دل» بیش از هر واژة دیگری در شعر حافظ به کار رفته است. تکرار زیاد واژههای «دل» و «عشق»، مؤید غلبة مضمون عرفانی-عاشقانه در دیوان حافظ است.
تعداد کلمات ماتریس مستند-واژه، 8018 واژه بود. ازآنجاکه شمار زیادی از این کلمات، واژههای نادری هستند که فقط در برخی از ابیات به کار رفتهاند، لازم است تا صرفاً روی واژههای پرکاربردتر تمرکز شود. این رویکرد بهمنظور شناسایی موضوعات و دستهبندی ابیات ازطریق اشتراک واژهها در ابیات مختلف صورت میگیرد. با محدودکردن واژهها به آنهایی که فراوانی بیش از 4 تکرار دارند، شمار واژگان به 1470 کلمه کاهش یافت.
اولین پارامتر ورودی LDA، ماتریس سند- واژه است که پیشتر توضیح داده شد. پارامتر ورودی مهم دیگر LDA، تعداد موضوعات مدنظر (k) است. روشهای مختلفی برای تعیین تعداد موضوعات وجود دارد (Hall et al., 2008). مزیت انتخاب تعداد موضوعات زیاد این است که تمامی حوزههای موضوعی پوشش داده خواهد شد، ازطرفی مزیت تعداد حوزههای محدود این است که تفسیر و تحلیل موضوعات را آسانتر میکند (Hall et al., 2008; Rabiei et al., 2021). ازاینرو، انتخاب معیاری مناسب برای تعیین k بسیار ضروری است. برای این منظور از معیار سرگشتگی (Perplexity) استفاده میشود. سرگشتگی، معیار اندازهگیری در مدلهای آماری است که برای ارزیابی میزان مناسببودن یک توزیع احتمالی یا پیشبینی مدل احتمالی یک نمونه به کار میرود. هرچه مقدار این معیار کمتر باشد، نشاندهندة عملکرد بهتر مدل و قابلیت تعمیمپذیری بالاتر آن است. در مقابل، مقدار بالاتر سرگشتگی نشاندهندة این است که عبارتها در زمان یادگیری مدل به موضوعات مناسبی تخصیص نیافتهاند (De Battisti et al., 2015). برای انتخاب مقدار مناسب k، 80 درصد دادهها برای آموزش مدل و 20 درصد آن برای آزمون مدل استفاده میشوند. مدل با مقادیر مختلف k (از 2 تا 30) آموزش داده شد و مقدار سرگشتگی برای هر حالت روی دادههای آزمون محاسبه شد. ازآنجاکه اجرای مدلسازی موضوعی ازنظر پردازشی بسیار پرهزینه است، این فرایند با استفاده از الگوریتمهای پردازش موازی انجام شد. شکل 1 مقادیر سرگشتگی را برای تعداد موضوعات بین 2 تا 30 نمایش میدهد. واضح است که مقدار سرگشتگی برای حالتی که تعداد موضوعات بهاندازة تعداد مستندات باشد برابر صفر است؛ زیرا در این صورت هر مستند یک موضوع مستقل خواهد بود، اما ازآنجاکه هدف یافتن تعداد محدودی از موضوعات قابل درک و تفسیر است، از این معیار برای تعیین تعداد بهینة موضوعات استفاده میشود.
شکل 1. مقدار سرگشتگی(Perplexity) برای تعداد موضوعات (k) مختلف
همانطور که در این شکل مشخص است، مقدار سرگشتگی تا 8 موضوع بهصورت کاهشی است و پس از آن شیب نمودار کم میشود؛ ازاینرو، عدد 8 برای تعداد موضوعات انتخاب شد.
پس از استخراج موضوعات دیوان حافظ، برای درک بهتر و سهولت ارجاع، میتوان برای هر موضوع عنوانی برگزید. این فعالیت معمولاً توسط خبرگان موضوعی انجام میشود؛ اما در این پژوهش با استفاده از کلمات پرکاربرد هر موضوع و به کمک هوش مصنوعی DeepSeek-V3 ، برچسبی برای هریک انتخاب شده است. ممکن است بتوان برچسبهای بهتری هم برای این موضوعات انتخاب کرد، اما از آنجا که هدف اصلی این پژوهش تمرکز بر محتوای موضوعات است، برچسب آنها اهمیت چندانی ندارد و صرفاً برای ملموسترشدن بررسی انجام شده است. جدول 3 موضوعات استخراجشده و کلمات پرکاربرد هریک را نمایش میدهد.
جدول 3. موضوعات استخراجشده در دیوان حافظ
|
موضوع |
برچسب موضوع |
واژههای پرکاربرد |
|
موضوع 1 |
سوز و گداز |
دل، جان، شمع، آتش، شب، دیده، درد، خال، سینه، کام، مسکین، اشک، دعا، سوز، غریب |
|
موضوع 2 |
مدح و ستایش |
حضرت، دولت، لطف، رب، مهر، شاه، عالم، بنده، عهد، خورشید، ملک، قدر، قبول، غلام، خدمت |
|
موضوع 3 |
فراق و وصال |
یار، غم، پرده، شکر، آه، فراق، شوق، وصال، خیال، رخ، کام، عقل، غصه، نور، دیدار |
|
موضوع 4 |
زیبایی و دلربایی |
دل، چشم، زلف، خون، نرگس، ابرو، امید، دام، سحر، غمزه، هوا، سلامت، نسیم، بند، تیر |
|
موضوع 5 |
عیش و مستی |
می، جام، ساقی، باده، مست، قدح، باغ، عیش، توبه، نوش، ساغر، چنگ، شراب، خنده، طرب |
|
موضوع 6 |
راز عشق |
عشق، دوست، خاک، نظر، معما، جان، خیال، مراد، نسیم، راز، اسرار، دامن، حکایت، بلا، فدا |
|
موضوع 7 |
طریقت و عرفان |
راه، یاد، آب، ماه، دور، خواب، خرقه، خرابات، ناله، منزل، خراب، طریق، آفتاب، پاک، نیک |
|
موضوع 8 |
رندی و آزادگی |
جهان، پیر، خدا، خرابات، اهل، مغان، رند، قصه، عیب، آزادگی، حاجت، خیر، ملامت، دریغ، گدا |
همانطور که در جدول 3 مشاهده میشود، برخی واژهها در بیش از یک موضوع تکرار شدهاند. این ویژگی بهدلیل این است که تمام واژهها با توزیع احتمالی به موضوعات مختلف نسبت داده میشوند. به همین ترتیب، همة مستندات (اشعار) نیز با توزیع احتمالی مختلف به هشت موضوع استخراجشده مرتبط خواهند بود. با تمرکز روی واژههای پرکاربرد هر موضوع، میتوان ارتباط میان واژهها و نزدیکی معنایی و فضای حاکم بر هر موضوع را دریافت. شاید این پدیده در موضوع 5 که کلیدواژههای آن بیشتر بر عناصر، ابزار و مفاهیم فیزیکی و قابللمس مرتبط با عیش و مستی تأکید دارند، بیش از سایر موضوعات ملموس باشد.
تعیین موضوع هر شعر براساس مدلسازی موضوعی اشعار به دو شیوه امکانپذیر است: در یک روش میتوان موضوعی که بیشترین ارتباط را با یک شعر دارد و توزیع احتمالی آن برای آن موضوع بیش از دیگر موضوعات است را بهعنوان موضوع اصلی آن شعر در نظر گرفت (Error! Reference source not found.). در این حالت هر شعر تنها در یک موضوع توصیف خواهد شد. روش دیگر به این شکل است که اشعاری که توزیع احتمالی ارتباط آنها به یک موضوع از یک حدآستانه[10] بیشتر است را مرتبط با آن موضوع دانست. در حالت دوم ممکن است یک شعر توسط بیش از یک موضوع توصیف شود یا حتی برخی اشعار با هیچیک از موضوعات مرتبط دانسته نشوند. جدول 4 تعداد اشعار دیوان حافظ را براساس هریک از دو روش نمایش میدهد.
جدول 4. توزیع اشعار حافظ در موضوعات استخراجشده
|
موضوع |
برچسب موضوع |
تعداد غزل |
||||
|
بیشترین ارتباط |
حدآستانه 0.15 |
حدآستانه 0.20 |
حدآستانه 0.25 |
حدآستانه 0.30 |
||
|
موضوع 1 |
سوز و گداز |
67 |
100 |
30 |
10 |
6 |
|
موضوع 2 |
مدح و ستایش |
64 |
105 |
27 |
6 |
3 |
|
موضوع 3 |
فراق و وصال |
61 |
102 |
26 |
8 |
5 |
|
موضوع 4 |
زیبایی و دلربایی |
64 |
108 |
35 |
15 |
4 |
|
موضوع 5 |
عیش و مستی |
75 |
120 |
39 |
9 |
1 |
|
موضوع 6 |
راز عشق |
45 |
94 |
24 |
10 |
4 |
|
موضوع 7 |
طریقت و عرفان |
52 |
97 |
29 |
14 |
7 |
|
موضوع 8 |
رندی و آزادگی |
67 |
99 |
33 |
8 |
3 |
ازآنجاکه هشت موضوع استخراج شده است، هر مستند (شعر) دستکم به یک موضوع با بیش از میزان حد آستانه 8/1 مرتبط است. به همین دلیل، از حد آستانههای بالاتر استفاده شده است. در حد آستانة 0.15، تعداد 486 شعر دستکم با یک موضوع توصیف شدهاند. با افزودن حدآستانه تا میزان 0.2، تعداد اشعار توصیفشده با موضوعات استخراجشده به 235 مورد میرسد. حدآستانة 0.25، موجب شناسایی 80 شعر در دیوان حافظ خواهد شد و تنها 33 شعر با توزیع احتمالی بیش از 0.3 به موضوعات شناساییشده مرتبط خواهند بود.
غزل شمارة 175 حافظ تنها غزلی است که با این توزیع احتمالی به موضوع 5 با عنوان «عیش و مستی» است مرتبط شده است. این غزل برای نمونه در ادامه آمده است:
صبا به تهنیت پیر می فروش آمد # که موسم طرب و عیش و ناز و نوش آمد
هوا مسیح نفس گشت و باد نافه گشای # درخت سبز شد و مرغ در خروش آمد
تنور لاله چنان برفروخت باد بهار # که غنچه غرق عرق گشت و گل به جوش آمد
به گوش هوش نیوش از من و به عشرت کوش # که این سخن سحر از هاتفم به گوش آمد
ز فکر تفرقه بازآی تا شوی مجموع # به حکم آن که چو شد اهرمن سروش آمد
ز مرغ صبح ندانم که سوسن آزاد # چه گوش کرد که با ده زبان خموش آمد
چه جای صحبت نامحرم است مجلس انس # سر پیاله بپوشان که خرقه پوش آمد
ز خانقاه به میخانه میرود حافظ # مگر ز مستی زهد ریا به هوش آمد
پژوهشهای متعددی به بررسی اشعار شاعران با رویکرد تحلیل موضوعی پرداختهاند. در مطالعات مربوط به شناسایی و دستهبندی موضوعی اشعار حافظ، عمدتاً از نظرات خبرگان ادبیات فارسی و بررسی موردی اشعار استفاده شده است. بااینحال، بیشتر دستهبندیهای موجود براساس دورههای زندگی شاعر یا رویدادهای تاریخی همعصر او انجام گرفتهاند. در سایر دستهبندیهای موضوعی نیز، اگرچه نظر متخصصان بهدلیل تسلط آنان بر ادبیات فارسی ارزشمند است، دخالت سلیقة شخصی پژوهشگر و ماهیت چندپهلو و ایهامآمیز اشعار – بهویژه ظرافتهای هنری و دقت حافظ در انتخاب واژگان - همواره جای بحث و نقد باقی گذاشته است. این پژوهش با کنار گذاشتن نظر خبرگان و باتکیهبر تکنیکهای پردازش زبان طبیعی و متنکاوی، به شناسایی موضوعات و دستهبندی اشعار دیوان حافظ پرداخته است.
برای دستیابی به این هدف، ابتدا پایگاه دادة مناسبی از اشعار ایجاد شد و پیشپردازشهای لازم روی آنها صورت گرفت. سپس، ویژگیهای ظاهری اشعار دیوان حافظ استخراج و واژگان پرکاربرد آن شناسایی شدند. در ادامه، با بهکارگیری تکنیک مدلسازی موضوعی روی ماتریس مستند-واژه (که در آن هر شعر سندی مستقل در نظر گرفته شد) و با استفاده از معیار سرگشتگی، تعداد بهینة موضوعات تعیین شد. درنهایت، مدلسازی موضوعی به شناسایی هشت موضوع اصلی در دیوان حافظ منجر شد که واژگان پرکاربرد هر موضوع نیز استخراج شد. هوش مصنوعی برای این هشت موضوع، عناوین «سوز و گداز»، «مدح و ستایش»، «فراق و وصال»، «زیبایی و دلربایی»، «عیش و مستی»، «راز عشق»، «طریقت و عرفان» و «رندی و آزادگی» را پیشنهاد داد.
اگرچه موضوعات شناساییشده ممکن است تا حدی با یکدیگر همپوشانی داشته باشند، واژگان مشخصشده برای هر موضوع، همبستگی معناداری بین عناصر تشکیلدهندة آن را نشان میدهد. این امر بهویژه در موضوعاتی مانند «عیش و مستی» با واژگانی همچون «می، جام، ساقی، باده، مست، قدح، باغ، عیش، توبه، نوش، ساغر، چنگ، شراب، خنده، طرب» و یا موضوع «مدح و ستایش» با واژگانی مانند «حضرت، دولت، لطف، رب، مهر، شاه، عالم، بنده، عهد، خورشید، ملک، قدر، قبول، غلام، خدمت» به وضوح قابل مشاهده است.
برای تعیین تعلق اشعار به موضوعات مختلف، از توزیع احتمالی هر شعر استفاده شد. باتوجهبه اینکه هر شعر با درجات متفاوتی به تمام موضوعات مرتبط است، موضوعی که بیشترین احتمال تعلق را داشت بهعنوان موضوع اصلی انتخاب شد. البته میتوان با تعیین حد آستانه، روش جایگزینی نیز برای این منظور به کار برد. برایناساس، بیشترین تعداد غزلها (۷۵ غزل) به موضوع «عیش و مستی» تعلق داشت و موضوعات «رندی و آزادگی» و «سوز و گداز» هرکدام با ۶۷ غزل در رتبههای بعدی قرار گرفتند.
این پژوهش با رویکردی مبتنیبر متنکاوی به بررسی دیوان حافظ پرداخته است. نگارنده باوجود نداشتن تخصص دانشگاهی در حوزة ادبیات فارسی، کوشیده است تا با واکاوی متنی و محتوایی، جنبههای جدیدی از این اثر ارزشمند را بررسی کند. بیتردید، تحلیل و درک عمیق این شاهکار ادبی به دانشی ژرف و ابزارهایی بسیار پیشرفتهتر از روشهای صرفاً متنی نیاز دارد. بااینحال، رویکرد ارائهشده در این تحقیق که عاری از هرگونه تفسیر و سلیقة شخصی است، میتواند الگویی برای پژوهشگران و علاقهمندان به تحلیل سایر متون ادبی نیز باشد.
|
«همتم بدرقه راه کن ای طایر قدس! |
|
که دراز است ره مقصد و من نوسفرم.» |
[1].Text Mining
[2]. Natural Language Processing
[3]. Bag of Words
[4]. https://ganjoor.net/hafez/ghazal
[5]. Latent Dirichlet Allocation
[6]. https://www.deepseek.com
[7]. Stop Words
[8]. Document-Term-Matrix
[9]. Term Frequency
[10]. Threshold