شناسایی و دسته‌بندی موضوعی اشعار حافظ با استفاده از هوش مصنوعی و متن‌کاوی

نوع مقاله : مقاله پژوهشی

نویسنده

عضو هیئت علمی پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران، ایران

10.22108/jpll.2025.144858.1914

چکیده

شناسایی و دسته‌بندی موضوعی اشعار دیوان حافظ همواره مورد توجه حافظ‌پژوهان بوده و مطالعات گوناگونی دراین‌باره انجام گرفته است. عمدة این پژوهش‌ها، اشعار را براساس تقسیم‌بندی تاریخی یا دورة زندگی شاعر دسته‌بندی کرده‌اند یا از نظرات کارشناسان و خبرگان حوزة ادبیات فارسی بهره برده‌اند. این پژوهش با شناسایی موضوعات اشعار دیوان حافظ براساس هوش مصنوعی و متن‌کاوی صورت گرفته و نظرات کارشناسان در آن دخالتی نداشته است. در این مطالعه، پس از بیان ویژگی‌های ظاهری و انجام پیش‌پردازش‌های لازم روی اشعار، هشت موضوع اصلی در دیوان حافظ شناسایی شده است. سپس، باتکیه‌بر واژگان پرکاربرد هر موضوع و استفاده از هوش مصنوعی، این موضوعات نام‌گذاری شده‌اند.‌ موضوعات استخراج‌شده شامل «سوز و گداز»، «مدح و ستایش»، «فراق و وصال»، «زیبایی و دلربایی»، «عیش و مستی»، «راز عشق»، «طریقت و عرفان» و «رندی و آزادگی» است. در ادامه، اشعار حافظ براساس این موضوعات دسته‌بندی شده‌اند و میزان ارتباط هر شعر با هر موضوع، برپایة بیشترین ارتباط و یا برخورداری از حدآستانه ارتباط، استخراج شده است. روش به‌کارگرفته‌شده در این پژوهش، مستقل از نظر خبرگان و کاملاً مبتنی‌بر یادگیری ماشین و هوش مصنوعی است. این رویکرد با واکاوی واژگان به بررسی و شناسایی موضوعات موجود در دیوان حافظ پرداخته است و قابلیت تعمیم به دیگر متون ادبی را نیز دارد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Topic Identification and Classification of Hafez’s Poems Using Artificial Intelligence and Text Mining

نویسنده [English]

  • Mohammad Rabiei
Research Institute for Information Science and Technology (IranDoc), Tehran, Iran
چکیده [English]

Topic extraction and classification of Hafez's poetry have long been a focus of scholarly attention, with existing studies primarily adopting either historical periodization approaches or relying on expert interpretations from Persian literature specialists. This study presents a novel computational methodology for identifying and categorizing topics in Hafez's Divan using artificial intelligence and text mining techniques, completely independent of human expert judgment. Following text preprocessing and feature extraction, our analysis revealed eight principal topics within the Divan. These topics were automatically labeled based on their most characteristic vocabulary using AI assistance: 1) Anguish and Ardor, 2) Panegyric and Praise, 3) Separation and Reunion, 4) Beauty and Allure, 5) Revelry and Intoxication, 6) The Mystery of Love, 7) Mysticism and Spirituality, and 8) Bohemianism and Libertarianism. Each poem was systematically classified according to its strongest topic association, with threshold-based analysis employed to determine significant thematic connections. Our completely automated, machine learning-driven approach to lexical pattern analysis in Hafez’s work demonstrates a reproducible methodology applicable to other literary corpora.

کلیدواژه‌ها [English]

  • Hafez'
  • s Divan
  • Topic Modeling
  • Text Mining
  • Natural Language Processing (NLP)
  • Persian Poetry

- مقدمه

دیوان حافظ، مجموعه اشعار خواجه شمس‌الدین محمد حافظ شیرازی، نه‌تنها اثری برجسته در ادبیات فارسی و میراث فرهنگی ایران است، که گنجینه‌ای بی‌بدیل و غنی از مضامین عمیق عرفانی، اجتماعی و فلسفی محسوب می‌شود. این دیوان در سطح جهانی نیز نمادی از عرفان، فلسفه و زیبایی‌شناسی به شمار می‌آید. حافظ، که به «لسان‌الغیب» مشهور است، با هنرمندی تمام مضامین عرفانی، عاشقانه، فلسفی و اجتماعی را در هم آمیخته و اثری ماندگار خلق کرده است که قرن‌ها پس از او، همچنان مورد توجه پژوهشگران، ادیبان و علاقه‌مندان به ادبیات و عرفان قرار دارد.

مضامین متنوعی در اشعار حافظ دیده می‌شود که عرفان، وجه غالب آن‌هاست. موضوعاتی همچون پرهیز از ریا و دورویی، نقد زهد و فخرفروشی، دعوت به عشق و محبت، توصیف زیبایی‌های طبیعت، قدرشناسی و اهمیت زمان در اشعار او به چشم می‌خورند. این مضامین گاه به‌صورت مستقل در چند بیت نمود پیدا می‌کنند و گاه ترکیبی از آن‌ها در یک غزل جای می‌گیرد. اگرچه پژوهش‌های متعددی از منظر حافظ‌شناسان به دسته‌بندی و تحلیل این مضامین پرداخته‌اند، در بیشتر آن‌ها نظر شخصی پژوهشگر به‌عنوان صاحب‌نظر ادبی دخیل بوده است. این مسئله اگرچه گاهی سودمند است، ممکن است در مواردی به‌دلیل سوگیری محقق، به نتایج نادرست بینجامد. ازاین‌رو، شناسایی و دسته‌بندی موضوعات دیوان حافظ بدون اتکا به نظر افراد خبره می‌تواند افق تازه‌ای از اندیشه‌های این شاعر بزرگ را پیشِ روی علاقه‌مندان بگشاید.

برای درک اندیشة ناب این شاعر بزرگ، دیوان اشعار او تنها ابزار مطمئن است. شرط موفقیت در این مسیر، پرهیز از هرگونه پیش‌داوری و عدم تأثیر سلیقة شخصی در تفسیر دیدگاه‌های اوست (هومن، 1353). از همین رو، در این مقاله تلاش شده است تا با بهره‌گیری از تکنیک‌های متن‌کاوی[1] و پردازش زبان طبیعی[2] و مستقل از نظر خبرگان به استخراج موضوعات و دسته‌بندی اشعار حافظ پرداخته شود.

در ادامة این پژوهش، ابتدا مطالعات پیشین درزمینة استخراج موضوعات از متون (با تأکید بر متون ادبی) ارائه خواهد شد. سپس، روش پژوهش به‌تفصیل شرح داده می‌شود. بخش بعدی مقاله به استخراج موضوعات موجود در دیوان حافظ اختصاص دارد که در آن پس از تعیین تعداد موضوعات، با استفاده از هوش مصنوعی به نام‌گذاری آن‌ها و دسته‌بندی اشعار دیوان حافظ در موضوعات شناسایی‌شده پرداخته خواهد شد. درنهایت، بخش نهایی مقاله به نتیجه‌گیری خواهد پرداخت.

2- پیشینه پژوهش

پژوهش‌های مختلفی درزمینة شناسایی و استخراج موضوعات از متون فارسی، به‌ویژه متون علمی انجام شده است. برای مثال می‌توان به استخراج موضوعات از پایان‌نامه‌های حوزه‌های محیط زیست، مدیریت، مهندسی صنایع و... اشاره کرد (Rabiei et al., 2021). این مطالعات که در زمرة مطالعات علم‌سنجی جای می‌گیرند، با شناسایی موضوعات موجود در متن‌های علمی، روند انجام پژوهش‌های مختلف را تحلیل کرده و ظهور موضوعات جدید را نیز بررسی می‌کنند (Bagherini et al., 2024). بااین‌حال، استفاده از تکنیک‌های متن‌کاوی، پردازش زبان طبیعی (NLP) و هوش مصنوعی (AI) برای تحلیل متون ادبی سابقة چندانی ندارد و کمتر به آن توجه شده است. یکی از دلایل این موضوع، آشنایی محدود متخصصان حوزة ادبیات با ابزارهای هوش مصنوعی است.

مطالعات سنتی دربارة دیوان حافظ عمدتاً بر تفسیر ابیات و استخراج مفاهیم عرفانی، فلسفی و اجتماعی متمرکز بوده‌اند. برای مثال، دکتر عبدالحسین زرین‌کوب در کتاب از کوچه رندان: دربارة زندگی و اندیشة حافظ، به بررسی زندگی حافظ و مضامین عمیق موجود در اشعار او پرداخته است. ازنظر زرین‌کوب، موضوعات اصلی دیوان حافظ شامل سه دستة زیر هستند:

  • مفاهیم عرفانی (مانند عشق الهی، وحدت وجود، رندی و قلندری)؛
  • مفاهیم فلسفی (مانند تقدیر و اختیار، پوچی و معنای زندگی)؛
  • مفاهیم اجتماعی و انتقادی (مانند نقد ریاکاری، عدالت و آزادی) (زرین‌کوب، 1402).

دسته‌بندی دکتر محمود هومن نیز در بسیاری از پژوهش‌های مرتبط به‌عنوان یک مرجع معتبر پذیرفته شده است. این دسته‌بندی بر اساس ۶ دورة زمانی زندگی حافظ شکل گرفته است:

  • ۳۸ غزل دورة جوانی،
  • ۲۵ غزل پس از جوانی،
  • ۷۹ غزل بزرگ‌سالی،
  • ۶۶ غزل میان‌سالی،
  • ۲۸ غزل پیش از پیری،
  • ۱۳ غزل سال‌خوردگی (Ruma et al., 2022؛ هومن، 1353).

این دسته‌بندی اگرچه می‌تواند اشعار حافظ را براساس دوره‌های زمانی زندگی او بررسی کند، اما مانند سایر دسته‌بندی‌های تاریخی (Rahgozar, 2020) صرفاً به روند زمانی اشعار پرداخته است؛ چنان‌که اشعار حافظ را براساس دوران حکومت حاکمان زمان او دسته‌بندی کرده و 12 غزل را به پیش از امیرمبارزالدین، 63 غزل را به دوران حکمرانی امیرمبارزالدین، 133 غزل را به زمان حکومت شاه شجاع و 25 غزل را به پس از شاه شجاع نسبت داده است. این نوع دسته‌بندی‌ها، موضوعات محتوایی موجود در اشعار حافظ را طبقه‌بندی نکرده‌اند.

برخی پژوهش‌ها به تحلیل اشعار حافظ در موضوعی خاص پرداخته‌اند. این مطالعات با تمرکز بر یک حوزة موضوعی، اشعار مرتبط با مضامین مختلف آن حوزه را از دیوان حافظ استخراج کرده‌اند. برای نمونه، اشعار حافظ در حوزه تربیتی گردآوری شده و در این زمینه، مضامینی مانند ناپایداری جهان، حقیقت جویی و دوری از ریا، توکل، پندپذیری، بلندنظری و وسعت دید در طریق معرفت، دوستی، مقام رضا، حُسن سلوک در زندگی، وطن، وقت‌شناسی و صبر و ثبات در کارها و درنهایت امید استخراج شده است. شیوة استخراج این موضوعات براساس دانش و بررسی اشعار از منظر مؤلف بوده است (صالحی خلفی و همکاران، 1402). موضوع تساهل و مدارا در دیوان حافظ در پژوهشی مورد بررسی قرار گرفته و ابیات مرتبط با آن استخراج و تحلیل شده‌اند (بخشایی‌زاده، 1388). همچنین، پژوهشی مشابه، به کاوش تساهل و تسامح در دیوان حافظ و ابیات متناظر با آن پرداخته است (نیکداراصل، 1388). افزون‌بر این، مفاهیم عرفان و رندی در شعر حافظ مورد توجه برخی پژوهش‌ها بوده است. این مطالعات به بررسی و استخراج این دو موضوع در دیوان حافظ و تحلیل ارتباط و درهم‌تنیدگی مفاهیم مستخرج از آنها پرداخته‌اند و درنهایت، ابیات دیوان حافظ را با هدف استخراج این موضوعات تحلیل کرده‌اند (آشوری، 1400).

با پیشرفت فناوری‌های دیجیتال و هوش مصنوعی، رویکردهای نوینی برای تحلیل متون ادبی پدید آمده است. این روش‌ها با استفاده از الگوریتم‌های متن‌کاوی و پردازش زبان طبیعی، به استخراج خودکار مفاهیم و موضوعات از متون می‌پردازند. برای نمونه، در پژوهشی با استفاده از مدل‌سازی موضوعی، اشعار حافظ دسته‌بندی شد که در آن هر شعر به‌عنوان یک سند در نظر گرفته شده بود (Rahgozar, 2020).

پژوهش دیگری رویکردی نوین برای طبقه‌بندی متن‌های فارسی با استفاده از مدل‌های موضوعی ارائه داده است تا محدودیت‌های روش سنتی سبد کلمات (BOW[3]) را برطرف کند. پژوهشگران سپس با به‌کارگیری مدل‌‌سازی موضوعی، بهبودهای چشمگیری در صحت طبقه‌بندی به دست آوردند. روش آن‌ها از انسجام معنایی بین کلمات بهره می‌برد، هزینه‌های محاسباتی را کاهش می‌دهد و صحت را برای متن‌های فارسی افزایش می‌دهد (Ahmadi et al., 2016).

بررسی پژوهش‌های پیشین درزمینة شناسایی موضوعات و دسته‌بندی اشعار حافظ نشان می‌دهدکه در بیشتر پژوهش‌های سنتی، پژوهشگر خود در جایگاه صاحب‌نظر در حوزة ادبیات فارسی یا حافظ‌شناس، نظر و تحلیل شخصی خود را در دسته‌بندی اعمال کرده است؛ اگرچه در تحلیل متون ادبی فارسی که سرشار از آرایه‌های ادبی مختلفی است که تحلیل آن توسط ماشین می‌تواند پیچیده باشد، نظر یک فرد خبره می‌تواند راهگشا باشد، اما این رویکرد ممکن است به سوگیری در دسته‌بندی منجر شود. همچنین، بیشتر این دسته‌بندی‌ها مبتنی‌بر دوره‌های زندگی شاعر یا تحولات سیاسی و تاریخی عصر او بوده است. این در حالی است که شاعر ممکن است در یک دورة زمانی و در یک عصر سیاسی خاص، مضامین مختلفی را براساس حالات درونی خود یا رسالت ادبی‌اش ارائه دهد. در این پژوهش تلاش شده است تا بدون استفاده از نظر افراد خبره و با در نظر گرفتن استقلال معنایی بیت در کنار غزل، به شناسایی و استخراج موضوعات موجود در اشعار حافظ پرداخته شود.

3- روش پژوهش

داده‌کاوی به‌مثابه دانشی میان‌رشته‌ای، حوزه‌های متنوعی ازجمله هوش مصنوعی، مدیریت پایگاه داده‌ها، بصری‌سازی داده‌ها، یادگیری ماشین، الگوریتم‌های محاسباتی و آمار را در بر می‌گیرد. رشد سریع این حوزه ناشی از نیاز فزاینده به تحلیل، درک و بصری‌سازی حجم انبوه داده‌های ذخیره‌شده در پایگاه‌های اطلاعاتی تجاری و علمی است  (Bagherini et al., 2024). شایان ذکر است که بخش عمده‌ای از این داده‌ها به‌صورت متنی هستند و حجم بسیاری از دانش بشری نیز در قالب کتاب‌ها و مقالات علمی ارائه شده‌اند که تحلیل آن‌ها تنها ازطریق روش‌های متن‌کاوی امکان‌پذیر است (Zong et al., 2021).

دیوان حافظ دارای نسخه‌های متعددی است که ازنظر تعداد و محتوای اشعار تفاوت‌هایی با یکدیگر دارند. برخی از این اشعار به حافظ منسوب هستند و دربارة اصالت آن‌ها میان پژوهشگران اختلاف نظر وجود دارد. بااین‌حال، این اختلافات عمدتاً به کمتر از ۱۰ شعر از مجموع حدود ۵۰۰ شعر دیوان حافظ محدود می‌شود.

ازآنجاکه هدف این پژوهش، ارزیابی اصالت اشعار نیست و وجود یا عدم‌وجود چند شعر خاص تأثیر معناداری بر نتایج کلی پژوهش نخواهد داشت، در این مطالعه از نسخة استاندارد دیوان حافظ موجود در وب‌سایت گنجور[4] استفاده شده است. این نسخه شامل ۴۹۵ شعر در قالب ۴۱۹۲ بیت است که به‌عنوان منبعی معتبر در تحقیقات ادبی شناخته می‌شود.

3-1 مدل‎سازی موضوعی

مدل‌سازی موضوعی ازجمله روش‌های کارآمد در تحلیل متن است که به‌صورت خودکار متون را به زیرمجموعه‌های معنادار به نام «موضوع» (Topic) گروه‌بندی می‌کند. این روش با حداقل دخالت انسانی، امکان تحلیل حجم انبوهی از متون را فراهم می‌سازد. در مدل‌سازی موضوعی، برخلاف روش‌های سنتی که از عناوین ازپیش‌تعیین‌شده استفاده می‌کنند، تنها با تعیین تعداد موضوعات، زیرمجموعه‌های معنایی استخراج می‌شوند و میزان ارتباط هر سند (مانند یک شعر) با هر موضوع نیز محاسبه می‌شود (Velonis, 2022).

روش‌های استخراج موضوع بر این فرض استوارند که عبارت‌های موجود در یک متن ازنظر معنایی به هم وابسته‌اند و معنای یک مستند از مجموعة عبارت‌های موجود در متن آن به دست آمده است. به‌عبارت‌دیگر، صرف‌نظر از معانی یا موقعیت قرارگیری عبارت در متن، هم‌رخدادی آن‌ها مورد نظر قرار می‌گیرد و اسناد به‌صورت مجموعه‌ای از عبارت‌ها در نظر گرفته می‌شوند. در این روش، فرض‌های زیر لحاظ می‌شوند (Blei et al., 2003):

  • ترتیب مستندات در پیکره متنی تأثیری بر نتایج ندارد.
  • ترتیب کلمات در هر سند بی‌اهمیت است (فرضیه سبد واژگان).
  • هر موضوع، یک توزیع چندجمله‌ای از کلمات پرتکرار در بانک واژگان است.
  • کلمات هر سند از ترکیبی از موضوعات پنهان در آن سند نشأت می‌گیرند.

دو فرض اول، که ترتیب مستندات در پیکره و ترتیب عبارت‌ها در یک مستند را نادیده می‌گیرند، منجر به خلق مفهوم «سبد واژگان» می‌شوند. این مفهوم در روش‌های متن‌کاوی، به‌عنوان نماینده‌ای از یک مستند در نظر گرفته می‌شود (Wallach, 2006).  فرض‌های سوم و چهارم، مفهوم «موضوع» را تبیین می‌کنند که درواقع توزیعی از عبارت‌های موجود در یک بانک واژگان است. برای ‌مثال، عبارت‌های با احتمال بالای حضور در موضوع «ورزش» می‌تواند شامل «فوتبال»، «والیبال»، «کشتی»، «پرسپولیس»، «علی دایی» و... باشند. نام‌گذاری موضوعات معمولاً براساس کلمات پرتکرار هر موضوع یا با کمک خبرگان صورت می‌گیرد.

در این پژوهش، از زبان برنامه‌نویسی R و الگوریتم تخصیص دیریکله نهفته (LDA[5]) برای مدل‌سازی موضوعی استفاده شده است. LDA که توسط Blei و همکاران در سال ۲۰۰۳م. ارائه شد، پرکاربردترین روش در مدل‌سازی موضوعی محسوب می‌شود (Blei et al., 2003). این الگوریتم براساس  این دو اصل بنا نهاده شده است که هر سند (مانند یک غزل) ترکیبی از چند موضوع است و هر موضوع نیز توزیعی از کلمات پرتکرار است.

خروجی LDA، احتمال تعلق هر سند به هر موضوع (مقداری بین ۰ تا ۱) است. برای نام‌گذاری موضوعات استخراج‌شده از ابزار هوش مصنوعی DeepSeek-V3[6]  بهره گرفته شده است.

3ـ2 آماده‌سازی داده‌ها و پیش‌پردازش

در گام نخست، اشعار دیوان حافظ از وب‌سایت گنجور استخراج و در قالب یک فایل اکسل ساختاردهی شد. این فایل شامل دو ستون اصلی بود:

  • شمارة غزل (به‌عنوان شناسة منحصربه‌فرد)
  • متن تک‌تک ابیات (به‌صورت مجزا برای هر بیت)

(برای مشاهده ساختار داده‌ها به جدول 1 مراجعه شود).

جدول 1. جدول داده‌های آماده‌شده از دیوان حافظ

ردیف

غزل

بیت

تعداد واژه

1

1

الا یا ایها الساقی ادر کاسا و ناولها # که عشق آسان نمود اول ولی افتاد مشکل‌ها

16

2

1

به بوی نافه‌ای کاخر صبا زان طره بگشاید # ز تاب جعد مشکینش چه خون افتاد در دل‌ها

17

8

2

صلاح کار کجا و من خراب کجا # ببین تفاوت ره کز کجاست تا به کجا

15

9

2

دلم ز صومعه بگرفت و خرقه سالوس # کجاست دیر مغان و شراب ناب کجا

14

4191

495

آن طره که هر جعدش صد نافه چین ارزد # خوش بودی اگر بودی بوییش ز خوش خویی

17

4192

495

هر مرغ به دستانی در گلشن شاه آمد # بلبل به نواسازی حافظ به غزل گویی

15

در اولین گام پیش‌پردازش،‌ لازم است تا کلماتی که فراوانی بسیار بالایی در متن دارند، اما ارزش محتوایی چندانی ندارند مانند حروف ربط (از، که،‌ با،‌ و...) که در ادبیات متن‌کاوی از آنها به‌مثابه ایست‌واژه[7] یاد می‌شود، حذف شوند. باید توجه کرد که برخی از ایست‌واژه‌های رایج در متن‌کاوی مانند لب (به معنای کنار،‌ مجاور)،‌ روی (به معنی بالا)، می (به‌عنوان پیشوند فعل مضارع) و مانند اینها در شعر معانی دیگری نیز دارند.‌ به همین دلیل، این موارد نباید از متن حذف شوند. ازطرف دیگر، واژه‌های «حافظ» و «حافظا» نیز به‌منزلة ایست‌واژه در نظر گرفته شد.

پس از این مرحله، نوبت به نرمال‌سازی متن می‌رسد. منظور از نرمال‌سازی، یکسان‌سازی فرم‌های مختلف کلمات و جایگزینی آن‌ها با ریشة اصلی‌شان است، برای نمونه، کلماتی مانند «دلم، دلت، دلی، ایدل، دلا» با واژة «دل» جایگزین می‌شوند. درنهایت، ماتریس مستند-واژه[8] تشکیل خواهد شد. در این ماتریس، هر سطر نشان‌دهندة یک غزل و هر ستون نشان‌دهندة یک واژه است. سلول حاصل از تقاطع هر سطر و ستون، تعداد دفعات تکرار[9] این واژه در غزل مربوطه را نشان می‌دهد.

3ـ3 ویژگی‌های ظاهری اشعار دیوان حافظ

بلندترین شعر حافظ، غزل شمارة 329 است که با مطلع «جوزا سحر نهاد حمایل برابرم / یعنی غلام شاهم و سوگند می‌خورم» آغاز می‌شود و 25 بیت دارد. پس از آن، غزل شمارة 362 با مطلع «دیدار شد میسر و بوس و کنار هم / از بخت شکر دارم و از روزگار هم»، 16 بیت را در بر می‌گیرد. به‌جز این دو غزل با اندازة غیرمعمول، سایر غزل‌های حافظ بین 5 تا 14 بیت هستند، از مجموع 495 غزل، 369 غزل (نزدیک به سه‌چهارم غزل‌ها) بین 7 تا 9 بیت دارند.

ازنظر تعداد واژة به‌کارگرفته‌شده در هر بیت، کوتاه‌ترین بیت دیوان حافظ شامل 7 واژه است: «میان جعفرآباد و مصلا / عبیرآمیز می‌آید شمالش». این بیت در غزل شمارة 279 با مطلع «خوشا شیراز و وضع بی‌مثالش / خداوندا نگه دار از زوالش» آمده است. بلندترین بیت دیوان حافظ نیز شامل 23 واژه است: «دگر حور و پری را کس نگوید با چنین حسنی /که این را این چنین چشم است و آن را آن چنان ابرو». این بیت در غزل شمارة 412 با مطلع «مرا چشمیست خون افشان ز دست آن کمان ابرو / جهان بس فتنه خواهد دید از آن چشم و از آن ابرو» قرار دارد. به‌طور متوسط، تعداد واژگان به‌کاررفته در هر بیت دیوان حافظ، کمتر از 15 واژه (14.9) است. کوتاه‌ترین غزل دیوان حافظ ازنظر تعداد واژگان ،‌ غزل شمارة 453 با مطلع «ای که دایم به خویش مغروری / گر تو را عشق نیست معذوری» است که 54 واژه دارد. بلندترین شعر دیوان حافظ از این منظر نیز همان غزل 329 با مطلع «جوزا سحر نهاد حمایل برابرم / یعنی غلام شاهم و سوگند می‌خورم» با 354 واژه است. میانگین تعداد واژگان غزل‌های دیوان حافظ 127 واژه است.

جدول 2 فراوانی کلمات به‌کارگرفته‌شده در دیوان حافظ را نشان می‌دهد. در این جدول، 20 واژة پرتکرار به همراه تعداد دفعات تکرار آن‌ها آمده است.

جدول 2. بیست واژة پرتکرار دیوان حافظ

ردیف

واژه

تعداد تکرار

ردیف

واژه

تعداد تکرار

1

دل

638

11

جهان

141

2

عشق

301

12

کار

135

3

می

259

13

راه

131

4

جان

228

14

خاک

129

5

دست

204

15

جام

129

6

چشم

199

16

دوست

125

7

گل

190

17

کس

119

8

یار

189

18

خون

116

9

زلف

149

19

آب

114

10

غم

146

20

لب

114

همان‌طور که در این جدول مشخص است، واژة «دل» بیش از هر واژة‌ دیگری در شعر حافظ به کار رفته است. تکرار زیاد واژه‌های «دل» و «عشق»، مؤید غلبة مضمون عرفانی-عاشقانه در دیوان حافظ است.

4- استخراج موضوعات موجود در دیوان حافظ

تعداد کلمات ماتریس مستند-واژه، 8018 واژه بود. ازآنجاکه شمار زیادی از این کلمات، واژه‌های نادری هستند که فقط در برخی از ابیات به کار رفته‌اند، لازم است تا صرفاً روی واژه‌های پرکاربردتر تمرکز شود. این رویکرد به‌منظور شناسایی موضوعات و دسته‌بندی ابیات ازطریق اشتراک واژه‌ها در ابیات مختلف صورت می‌گیرد. ‌با محدودکردن واژ‌ه‌ها به آنهایی که فراوانی بیش از 4 تکرار دارند، شمار واژگان به  1470 کلمه کاهش یافت.

4ـ1 تعیین تعداد موضوعات

اولین پارامتر ورودی LDA، ماتریس سند- واژه است که پیش‌تر توضیح داده شد. پارامتر ورودی مهم دیگر LDA، تعداد موضوعات مدنظر (k) است. روش‌های مختلفی برای تعیین تعداد موضوعات وجود دارد (Hall et al., 2008). مزیت انتخاب تعداد موضوعات زیاد این است که تمامی حوزه‌های موضوعی پوشش داده خواهد شد، ازطرفی مزیت تعداد حوزه‌های محدود این است که تفسیر و تحلیل موضوعات را آسان‌تر می‌کند (Hall et al., 2008; Rabiei et al., 2021). ازاین‌رو، انتخاب معیاری مناسب برای تعیین k بسیار ضروری است. برای این منظور از معیار سرگشتگی (Perplexity) استفاده می‌شود. سرگشتگی، معیار اندازه‌گیری در مدل‌های آماری است که برای ارزیابی میزان مناسب‌بودن یک توزیع احتمالی یا پیش‌بینی مدل احتمالی یک نمونه به کار می‌رود. هرچه مقدار این معیار کمتر باشد، نشان‌دهندة عملکرد بهتر مدل و قابلیت تعمیم‌پذیری بالاتر آن است. در مقابل، مقدار بالاتر سرگشتگی نشان‌دهندة این است که عبارت‌ها در زمان یادگیری مدل به موضوعات مناسبی تخصیص نیافته‌اند (De Battisti et al., 2015). برای انتخاب مقدار مناسب k، 80 درصد داده‌ها برای آموزش مدل و 20 درصد آن برای آزمون مدل استفاده می‌شوند. مدل با مقادیر مختلف k (از 2 تا 30) آموزش داده شد و مقدار سرگشتگی برای هر حالت روی داده‌های آزمون محاسبه شد. ازآنجاکه اجرای مدل‌سازی موضوعی ازنظر پردازشی بسیار پرهزینه است، این فرایند با استفاده از الگوریتم‌های پردازش موازی انجام شد. شکل 1 مقادیر سرگشتگی را برای تعداد موضوعات بین 2 تا 30 نمایش ‌می‌دهد. واضح است که مقدار سرگشتگی برای حالتی که تعداد موضوعات به‌اندازة تعداد مستندات باشد برابر صفر است؛ زیرا در این صورت هر مستند یک موضوع مستقل خواهد بود، اما ازآنجاکه هدف یافتن تعداد محدودی از موضوعات قابل درک و تفسیر است، از این معیار برای تعیین تعداد بهینة موضوعات استفاده می‌شود.

شکل 1. مقدار سرگشتگی(Perplexity) برای تعداد موضوعات (k) مختلف

همان‌طور که در این شکل مشخص است، مقدار سرگشتگی تا 8 موضوع به‌صورت کاهشی است و پس از آن شیب نمودار کم می‌شود؛ ازاین‌رو، عدد 8 برای تعداد موضوعات انتخاب شد.

4ـ2 نام‌گذاری موضوعات استخراج‌شده از دیوان حافظ

پس از استخراج موضوعات دیوان حافظ، برای درک بهتر و سهولت ارجاع، می‌توان برای هر موضوع عنوانی برگزید. این فعالیت معمولاً توسط خبرگان موضوعی انجام می‌شود؛ اما در این پژوهش با استفاده از کلمات پرکاربرد هر موضوع و به کمک هوش مصنوعی DeepSeek-V3 ، برچسبی برای هریک انتخاب شده است. ممکن است بتوان برچسب‌های بهتری هم برای این موضوعات انتخاب کرد، اما از آنجا که هدف اصلی این پژوهش تمرکز بر محتوای موضوعات است، برچسب آن‌ها اهمیت چندانی ندارد و صرفاً برای ملموس‌ترشدن بررسی انجام شده است. جدول 3 موضوعات استخراج‌شده و کلمات پرکاربرد هریک را نمایش می‌دهد.

جدول 3. موضوعات استخراج‌شده در دیوان حافظ

موضوع

برچسب موضوع

واژه‌های پرکاربرد

موضوع 1

سوز و گداز

دل، جان، شمع، آتش، شب، دیده، درد، خال، سینه، کام، مسکین، اشک، دعا، سوز، غریب

موضوع 2

مدح و ستایش

حضرت، دولت، لطف، رب، مهر، شاه، عالم، بنده، عهد، خورشید، ملک، قدر، قبول، غلام، خدمت

موضوع 3

فراق و وصال

یار، غم، پرده، شکر، آه، فراق، شوق، وصال، خیال، رخ، کام، عقل، غصه، نور، دیدار

موضوع 4

زیبایی و دلربایی

دل، چشم، زلف، خون، نرگس، ابرو، امید، دام، سحر، غمزه، هوا، سلامت، نسیم، بند، تیر

موضوع 5

عیش و مستی

می، جام، ساقی، باده، مست، قدح، باغ، عیش، توبه، نوش، ساغر، چنگ، شراب، خنده، طرب

موضوع 6

راز عشق

عشق، دوست، خاک، نظر، معما، جان، خیال، مراد، نسیم، راز، اسرار، دامن، حکایت، بلا، فدا

موضوع 7

طریقت و عرفان

راه، یاد، آب، ماه، دور، خواب، خرقه، خرابات، ناله، منزل، خراب، طریق، آفتاب، پاک، نیک

موضوع 8

رندی و آزادگی

جهان، پیر، خدا، خرابات، اهل، مغان، رند، قصه، عیب، آزادگی، حاجت، خیر، ملامت، دریغ، گدا

همان‌طور که در جدول 3  مشاهده می‌شود، برخی واژه‌ها در بیش از یک موضوع تکرار شده‌اند. این ویژگی به‌دلیل این است که تمام واژه‌ها با توزیع احتمالی به موضوعات مختلف نسبت داده می‌شوند. به همین ترتیب، همة مستندات (اشعار) نیز با توزیع احتمالی مختلف به هشت موضوع استخراج‌شده مرتبط خواهند بود. با تمرکز روی واژه‌های پرکاربرد هر موضوع، می‌توان ارتباط میان واژه‌ها و نزدیکی معنایی و فضای حاکم بر هر موضوع را دریافت. شاید این پدیده در موضوع 5 که کلیدواژه‌های آن بیشتر بر عناصر، ابزار و مفاهیم فیزیکی و قابل‌لمس مرتبط با عیش و مستی تأکید دارند، بیش از سایر موضوعات ملموس باشد.

4ـ3 موضوع اشعار دیوان حافظ

تعیین موضوع هر شعر براساس مدل‌سازی موضوعی اشعار به دو شیوه امکان‌پذیر است: در یک روش می‌توان موضوعی که بیشترین ارتباط را با یک شعر دارد و توزیع احتمالی آن برای آن موضوع بیش از دیگر موضوعات است را به‌عنوان موضوع اصلی آن شعر در نظر گرفت (Error! Reference source not found.). در این حالت هر شعر تنها در یک موضوع توصیف خواهد شد. روش دیگر به این شکل است که اشعاری که توزیع احتمالی ارتباط آنها به یک موضوع از یک حدآستانه[10] بیشتر است را مرتبط با آن موضوع دانست. در حالت دوم ممکن است یک شعر توسط بیش از یک موضوع توصیف شود یا حتی برخی اشعار با هیچ‌یک از موضوعات مرتبط دانسته نشوند. جدول 4 تعداد اشعار دیوان حافظ را براساس هریک از دو روش نمایش می‌دهد.

جدول 4. توزیع اشعار حافظ در موضوعات استخراج‌شده

موضوع

برچسب موضوع

تعداد غزل

بیشترین ارتباط

حدآستانه 0.15

حدآستانه 0.20

حدآستانه 0.25

حدآستانه 0.30

موضوع 1

سوز و گداز

67

100

30

10

6

موضوع 2

مدح و ستایش

64

105

27

6

3

موضوع 3

فراق و وصال

61

102

26

8

5

موضوع 4

زیبایی و دلربایی

64

108

35

15

4

موضوع 5

عیش و مستی

75

120

39

9

1

موضوع 6

راز عشق

45

94

24

10

4

موضوع 7

طریقت و عرفان

52

97

29

14

7

موضوع 8

رندی و آزادگی

67

99

33

8

3

ازآنجاکه هشت موضوع استخراج ‌شده است، هر مستند (شعر) دست‌کم به یک موضوع با بیش از میزان حد آستانه 8/1 مرتبط است. به همین دلیل، از حد آستانه‌‌های بالاتر استفاده شده است. در حد آستانة 0.15، تعداد 486 شعر دست‌کم با یک موضوع توصیف شده‌اند. با افزودن حدآستانه تا میزان 0.2، تعداد اشعار توصیف‌شده با موضوعات استخراج‌شده به 235 مورد می‌رسد. حدآستانة 0.25، موجب شناسایی 80 شعر در دیوان حافظ خواهد شد و تنها 33 شعر با توزیع احتمالی بیش از 0.3 به موضوعات شناسایی‌شده مرتبط خواهند بود.

 غزل شمارة 175 حافظ تنها غزلی است که با این توزیع احتمالی به موضوع 5 با عنوان «عیش و مستی» است مرتبط شده است. این غزل برای نمونه در ادامه آمده است:

صبا به تهنیت پیر می فروش آمد # که موسم طرب و عیش و ناز و نوش آمد

هوا مسیح نفس گشت و باد نافه گشای # درخت سبز شد و مرغ در خروش آمد

تنور لاله چنان برفروخت باد بهار # که غنچه غرق عرق گشت و گل به جوش آمد

به گوش هوش نیوش از من و به عشرت کوش # که این سخن سحر از هاتفم به گوش آمد

ز فکر تفرقه بازآی تا شوی مجموع # به حکم آن که چو شد اهرمن سروش آمد

ز مرغ صبح ندانم که سوسن آزاد # چه گوش کرد که با ده زبان خموش آمد

چه جای صحبت نامحرم است مجلس انس # سر پیاله بپوشان که خرقه پوش آمد

ز خانقاه به میخانه می‌رود حافظ # مگر ز مستی زهد ریا به هوش آمد

5- نتیجه‌گیری

پژوهش‌های متعددی به بررسی اشعار شاعران با رویکرد تحلیل موضوعی پرداخته‌اند. در مطالعات مربوط به شناسایی و دسته‌بندی موضوعی اشعار حافظ، عمدتاً از نظرات خبرگان ادبیات فارسی و بررسی موردی اشعار استفاده شده است. بااین‌حال، بیشتر دسته‌بندی‌های موجود براساس دوره‌های زندگی شاعر یا رویدادهای تاریخی هم‌عصر او انجام گرفته‌اند. در سایر دسته‌بندی‌های موضوعی نیز، اگرچه نظر متخصصان به‌دلیل تسلط آنان بر ادبیات فارسی ارزشمند است، دخالت سلیقة شخصی پژوهشگر و ماهیت چندپهلو و ایهام‌آمیز اشعار – به‌ویژه ظرافت‌های هنری و دقت حافظ در انتخاب واژگان - همواره جای بحث و نقد باقی گذاشته است. این پژوهش با کنار گذاشتن نظر خبرگان و باتکیه‌بر تکنیک‌های پردازش زبان طبیعی و متن‌کاوی، به شناسایی موضوعات و دسته‌بندی اشعار دیوان حافظ پرداخته است.

برای دستیابی به این هدف، ابتدا پایگاه دادة مناسبی از اشعار ایجاد شد و پیش‌پردازش‌های لازم روی آن‌ها صورت گرفت. سپس، ویژگی‌های ظاهری اشعار دیوان حافظ استخراج و واژگان پرکاربرد آن شناسایی شدند. در ادامه، با به‌کارگیری تکنیک مدل‌سازی موضوعی روی ماتریس مستند-واژه (که در آن هر شعر سندی مستقل در نظر گرفته شد) و با استفاده از معیار سرگشتگی، تعداد بهینة موضوعات تعیین شد. درنهایت، مدل‌سازی موضوعی به شناسایی هشت موضوع اصلی در دیوان حافظ منجر شد که واژگان پرکاربرد هر موضوع نیز استخراج شد. هوش مصنوعی برای این هشت موضوع، عناوین «سوز و گداز»، «مدح و ستایش»، «فراق و وصال»، «زیبایی و دلربایی»، «عیش و مستی»، «راز عشق»، «طریقت و عرفان» و «رندی و آزادگی» را پیشنهاد داد.

اگرچه موضوعات شناسایی‌شده ممکن است تا حدی با یکدیگر هم‌پوشانی داشته باشند، واژگان مشخص‌شده برای هر موضوع، همبستگی معناداری بین عناصر تشکیل‌دهندة آن را نشان می‌دهد. این امر به‌ویژه در موضوعاتی مانند «عیش و مستی» با واژگانی همچون «می، جام، ساقی، باده، مست، قدح، باغ، عیش، توبه، نوش، ساغر، چنگ، شراب، خنده، طرب» و یا موضوع «مدح و ستایش» با واژگانی مانند «حضرت، دولت، لطف، رب، مهر، شاه، عالم، بنده، عهد، خورشید، ملک، قدر، قبول، غلام، خدمت» به وضوح قابل مشاهده است.

برای تعیین تعلق اشعار به موضوعات مختلف، از توزیع احتمالی هر شعر استفاده شد. باتوجه‌به اینکه هر شعر با درجات متفاوتی به تمام موضوعات مرتبط است، موضوعی که بیشترین احتمال تعلق را داشت به‌عنوان موضوع اصلی انتخاب شد. البته می‌توان با تعیین حد آستانه‌، روش جایگزینی نیز برای این منظور به کار برد. براین‌اساس، بیشترین تعداد غزل‌ها (۷۵ غزل) به موضوع «عیش و مستی» تعلق داشت و موضوعات «رندی و آزادگی» و «سوز و گداز» هرکدام با ۶۷ غزل در رتبه‌های بعدی قرار گرفتند.

این پژوهش با رویکردی مبتنی‌بر متن‌کاوی به بررسی دیوان حافظ پرداخته است. نگارنده باوجود نداشتن تخصص دانشگاهی در حوزة ادبیات فارسی، کوشیده است تا با واکاوی متنی و محتوایی، جنبه‌های جدیدی از این اثر ارزشمند را بررسی کند. بی‌تردید، تحلیل و درک عمیق این شاهکار ادبی به دانشی ژرف و ابزارهایی بسیار پیشرفته‌تر از روش‌های صرفاً متنی نیاز دارد. بااین‌حال، رویکرد ارائه‌شده در این تحقیق که عاری از هرگونه تفسیر و سلیقة شخصی است، می‌تواند الگویی برای پژوهشگران و علاقه‌مندان به تحلیل سایر متون ادبی نیز باشد.

«همتم بدرقه راه کن ای طایر قدس!

 

که دراز است ره مقصد و من نوسفرم.»

[1].Text Mining

[2]. Natural Language Processing

[3]. Bag of Words

[4].  https://ganjoor.net/hafez/ghazal

[5]. Latent Dirichlet Allocation

[6]. https://www.deepseek.com

[7]. Stop Words

[8]. Document-Term-Matrix

[9]. Term Frequency

[10]. Threshold

آشوری، داریوش (1401). ع‍رف‍ان‌ و رن‍دی‌ در ش‍ع‍ر ح‍اف‍ظ (ب‍ازن‍گ‍ری‍س‍ت‍ة ه‍س‍ت‍ی‌ش‍ن‍اس‍ی‌ ح‍اف‍ظ). نشر مرکز.
بخشایی‌زاده، محمد (1388). تساهل و مدارا در دیوان حافظ [پایان‌نامه کارشناسی ارشد، دانشگاه بیرجند]. گنج.
زرین‌کوب، عبدالحسین (1402). از ک‍وچ‍ه‌ رن‍دان‌: درب‍اره‌ زن‍دگ‍ی‌ و ان‍دی‍ش‍ه‌ ح‍اف‍ظ. علمی.
صالحی خلفی، اسماعیل، ظهیری، قاسم، و ظهیری، حسن (1402). بررسی و تحلیل موضوعات تربیتی در غزلیات حافظ. همایش پژوهش های مدیریت و علوم انسانی در ایران مجموعه مقالات سیزدهمین کنفرانس بین‌المللی پژوهش‌های مدیریت و علوم انسانی در ایران.  https://civilica.com/doc/1773784
نیکداراصل، محمدحسین (1388). تساهل و تسامح در دیوان حافظ. شعرپژوهی، 1(2)، 179-206.
هومن، محمود (1353). حافظ. طهوری
دوره 19، شماره 1 - شماره پیاپی 54
هوش معنوی و هوش مصنوعی (تعامل ادبیات عرفانی و هوش مصنوعی)
شهریور 1404
صفحه 91-116
  • تاریخ دریافت: 18 فروردین 1404
  • تاریخ بازنگری: 15 اردیبهشت 1404
  • تاریخ پذیرش: 04 خرداد 1404