فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

کاربردهای خلاصه سازی خودکار متن

خلاصه سازی شخصی سازی شده یا مبتنی بر کاربر
به دلیل افزایش حجم انبوه اطلاعات موجود، خلاصه سازی متن طی سال های اخیر بسیار مورد توجه قرار گرفته است. کاربران سیستم های خلاصه سازی متن بسیار زیاد بوده و از افرادی که کارشان وب گردیست تا افرادی که دانشمند و محقق هستند ، همگی کاربر اینترنت می باشند. در سیستم های قدیمی بین کاربران تفاوتی فرض نمی شد و همه کاربران با یک دید نگریسته می شدند، به این معنا که یک متن بدون در نظر گرفتن ویژگی ها و اطلاعات پس زمینه ی خواننده آن خلاصه می شد و این در حالی است که هنگامیکه انسان ها خلاصه سازی می کنند، اطلاعاتی را که مرتبط با علایق خودشان باشند را به عنوان خلاصه بر می گزینند.
به عبارتی دیگر، خلاصه سازی فقط تابعی از اسناد ورودی نمی باشد ، بلکه پارامتر دومی هم که یک مدل از رفتار و دانش فرد می باشد را نیز شامل می شود. به عنوان مثال فردی که سال ها در زمینه ی خاصی مثل " شبکه های بیسیم" به تحقیق و مطالعه پرداخته است زمانی که بخواهد یک خلاصه از یک کتاب در این زمینه برای خود تهیه کند ، مطمئنا مفاهیم اولیه شبکه های بیسیم را در این خلاصه لحاظ نخواهد کرد و این در حالی است که یک فرد که به تازگی در این زمینه تحقیق می کند احتمالا این مفاهیم اولیه را در خلاصه مخصوص خودش قرار می دهد.


تحقیقات آماری صورت گرفته در این زمینه هم ، اثبات کننده این ادعاست. به عنوان مثال Marcu در سال 1997 [1] نشان داد که میزان تفاهم یا تطابق 13 نفر از جامعه علمی کشور ایلات متحده برروی 5 متن انتخاب شده 71 درصد می باشد. Rath در سال 1961 در مقاله ای[2] که منتشر کرد نشان داد که خلاصه های تولید شده توسط چهار فرد متفاوت ، تنها 25 درصد با هم همپوشانی دارند. Salton هم در سال 1997 [3] دریافت که مهمترین 20 پاراگرافی که توسط دو کاربر انتخاب شد، تنها 46 درصد با هم همپوشانی دارند. این نتایج بیانگر این مطلب است که افراد مختلف دیدگاههای متفاوتی روی متن های مشابه دارند و زمانی که افرادی با پس زمینه اطلاعاتی و تخصص های متفاوت ، اسناد مشابه ای را خلاصه می کنند ، محتواهای متفاوتی را بر می گزینند که انعکاس دهنده ی پس زمینه ی اطلاعاتی آنها می باشد.
با توجه به موارد ذکر شده ، مدل کردن رفتار امری ضروری می باشد. اما این مدل سازی پیچیدگی ها و دشواری های خاص خود را دارد. اما به هر حال، هدف اصلی کسانی که در این زمینه فعالیت می کنند این است که با مدل کردن بخشی از رفتار کاربران ، خلاصه هایی با کیفیت بیشتر نسبت به خلاصه هایی که بدون در نظر گرفتن دانش کاربر تولید می شد ایجاد نمایند. به عنوان مثال ، بنا برتحقیقات صورت گرفته در سال 2003 ، چناچه بتوانیم با استفاده از شخصی سازی مناسب زمانی کاربران برای جستجو در موتور جستجوی گوگل صرف می کنند را تنها 1 درصد کاهش دهیم ، بیشتر از 187000 انسان-ساعت که معادل 21 سال است صرفه جویی خواهد شد. در همین راستا فعالیت های زیادی برای مدل کردن رفتار کاربران صورت گرفته که به صورت کلی می توان آنها را به چهار دسته زیر تقسیم بندی نمود :
• مدل کردن بر اساس تاریخچه پرس و جو های کاربر
• مدل کردن بر اساس داده های کلیک
• مدل کردن بر اساس زمان توجه کاربران
• مدل کردن براساس سایر عکس العمل های ضمنی که از کاربران گرفته می شود
اکثر روش های خلاصه سازی مبتنی بر کاربر را می توان در یکی از این چهار دسته کلی اشاره شده قرار داد. در ادامه به صورت مفصل تر و با ذکر نمونه مقاله به شرح این چهار دسته کلی می پردازیم.

مدل کردن بر اساس تاریخچه پرس و جو های کاربر
یکی از روش های مهم و پر کاربرد شخصی سازی ، استفاده ازتاریخچه پرس و جو ها می باشد[4]. یکی از مباحث مطرح در زمینه ی موتورهای جستجو ، بحث شخصی سازی وب می باشد. بدلیل قرابت این بحث با بحث شخصی سازی در خلاصه سازی ، می توان از مقالات مطرح در این زمینه نیز در بحث شخصی سازی خلاصه سازی استفاده نمود. سرویس جستجوی شخصی سازی شده ی گوگل یک نمونه ی کاربردی از این موتورهای جستجو می باشد که به کاربران این امکان را می دهد تا تاریخچه جستجوهای خود را بروی سرورهای گوگل با شماره شناسای gmail ذخیره کنند تا گوگل با استفاده از آن بتواند جستجوهای دقیق تری در آینده بر اساس فرآیند شخصی سازی انجام دهد.
در حالت کلی دو کلاس عمده از روش ها برای استفاده از تاریخچه پرس و جو های برای شخصی سازی موجود می باشد: آنهایی که مبتنی بر کل تاریخچه جستجوهای کاربر هستند و آنهایی که مبتنی بر تاریخچه جستجوی کاربر در یک جلسه جستجو خاص می باشند. برای روش اول ، معمولا یک پروفایل برای کاربر تولید می شود که نشانگر اولویت های جستجوی وی می باشد. به عنوان مثال Liu در [4] از این روش برای شخصی سازی استفاده می کند. Speretta و Gauch در [5] ثابت کرده اند که استفاده از پروفایل کاربر می تواند به طرز قابل ملاحظه ای در افزایش کارایی موتورهای جستجو تاثیر داشته باشد. تاریخچه جستجو در یک نشست هم که گاهی زنجیره پرس و جو هم نامیده می شود در مقاله شماره [6] مورد استفاده قرار گرفته است. زنجیره پرس و جو ها برای پیشنهاد کردن و یا کامل تر کردن یک پرس و جو با استفاده از تاریخچه جستجوی موجود در آن نشست استفاده می شود.

مدل کردن بر اساس داده های کلیک
داده های کلیک نوع دیگری از فیدبک های ضمنی کاربران می باشند که به طور قابل ملاحظه ای مورد استفاده قرار گرفته اند.[8][7] ایده ی اصلی این روش این است که زمانی که کاربر بروی یک سند از مجموعه اسناد استخراج شده توسط یک موتور جستجو کلیک می کند ، به این معناست که آن سند به علایق فرد نزدیک تر است تا اسنادی که کاربر برروی ان کلیک نمی کند. به عنوان مثال فرض کنید یک موتور جستجو برای پرس و جو کاربر 20 صفحه را به ترتیب اولویت استخراج می کند. وقتی کاربر از بین این 20 صفحه برروی صفحه شماره 5 کلیک می کند این به این معناست که موتور جستجو برای این کاربر، باید صفحه 5 را در بالاترین اولویت قرار می داد. از همین اصل در بسیاری از موتورهای جستجو استفاده می شود. به عنوان مثال در موتور جستجوگر گوگل شما می توانید قبل از جستجو با ID گوگل وارد شده و از موتور جستجو بخواهید که جستجوی شخصی سازی شده انجام دهد.
اما روش های زیادی برای استنتاج علایق کاربر از داده های کلیک وجود دارد ( بعضی از موتور های جستجو داده های کلیک را در اختیار عموم قرار می دهند). یکی از ساده ترین راهکارها ، مثالی بود که در بالا اشاره کردیم. یعنی وقتی کاربر برروی لینک شماره i ام در یک لیست رنک شده کلیک می کند ، می توانیم نتیجه بگیریم که اسناد تا شماره i-1 اهمیت کمتری نسبت به سند شماره i ام دارند. در ادامه به یک نمونه از مقالاتی که از داده های کلیک برای افزایش کیفیت جستجو استفاده کرده ، اشاره شده است.
مشکلات داده های کلیک : اما در مواجه به داده های کلیک به دو مشکل عمده برخورد می کنیم. اولا برای یک پرس و جو ، کاربر برروی تعداد بسیار محدودی از اسناد کلیک می کند که بنابراین داده های کلیک کامل نیستند که به این مسئله ، مشکل کلیک های ناکامل می گویند. در ثانی ، برای بسیاری از پرس و جو ها و اسناد ، داده های کلیک موجود نمی باشد که این مسئله هم مشکل کلیک های ناپیدا نامیده می شود. بنابراین به آسانی می توان دید که داده های کلیک برای بیشتر اسناد کوتاه و یا خالی می باشد. اگرچه که در بعضی از مقالات مشاهده می کنیم که از همین داده های خام برای استخراج ویژگی های کلیک استفاده می شود[10][9]، اما محدودیت این روش ها به دلایل زیر بسیار زیاد می باشد : 1) – با کلیک های ناکامل ، ویژگی های مربوط به کلیکی که می توان برای زوج سند – پرس و جو تولید کرد ناکامل و غیر قابل اعتماد خواهد بود. 2) – برای کلیک های ناپیدا ، ویژگی های کلیکی نمی توان تولید نمود.
در کارهایی که در گذشته صورت گرفته [10][9] برای این نوع از داده های کلیک ( کلیک های ناپیدا) مقدار صفر برای ویژگی کلیک در نظر گرفته می شد. که این مقدار صفر تفاوت زیادی بین این اسناد و سایر اسناد ایجاد کرده و عملا آنها را از دور رقابت خارج می کرد و این در حالی است که واقعیت چیز دیگری است. یک سند ممکن است بنابه دلایل مختلف کلیک نشده باشد اما سند بسیار مناسبی برای کاربر باشد.
اما برای دو مشکل ارائه شده ، راه کارهای نیز پیشنهاد شده است. مرجع شماره [11] به طور کامل به این دو مشکل پرداخته و راه کاری برای آن معرفی نموده است. در این مقاله ، نویسندگان مساله را به مساله تعیین فرکانس یا احتمال رویدادها دیده نشده [12] تشبیه کرده و از راهکارهایی که برای آن ارائه شده ، برای حل مساله خود استفاده کرده اند. به طور خیلی خلاصه ، این مقاله داده های کلیک را در دو جهت هموار و یا صاف می کند : با کلاستر بندی پرس و جو های مشابه و با تخصیص مقادیر غیر صفر برای ویژگی کلیک اسنادی که برای آنها داده کلیک موجود نمی باشد. کلاسترینگ روی پرس و جو ها از طریق روش پیاده روی رندوم روی گراف داده های کلیک و استفاده از یک تابع کاهنده الهام گرفته شده از تخمین زننده تورینگ [13]صورت می گیرد. روش پیاده روی رندوم برای حل مشکل داده های ناکامل استفاده می شود و برای داده های ناپیدا نمی توان از این روش استفاده نمود. برای اسنادی که برای آنها داده های کلیک موجود نباشد ازتابع تخمین زننده[13] استفاده شده است. آمار های ارائه شده در مقاله بیانگر پیشرفت قابل توجه در بازیابی اطلاعات نسبت به روش های قبلی می باشد. برای اطلاعات کامل تر می توانید به مرجع شماره [11] مراجعه نمایید.

مدل کردن بر اساس زمان توجه کاربران
زمان توجه که گاهی اوقات زمان نمایش و یا زمان مطالعه هم نامیده می شود یکی از روش های جدید شناخته شده از انواع فیدبک های ضمنی کاربران می باشد که علی رغم اینکه هنوز قابلیت اعتماد آن در حد بالایی نیست ، اما شهرت روزافزونی بافته است. از یک طرف افرادی مثل Kelly و Belkin معتقدند که رابطه قابل اعتمادی بین زمان توجه و میزان جزابیت یک سند وجود ندارد [14] . Kelly و Belkin در مطالعه خود زمان نمایش را متوسط زمان مطالعه دسته ای از کاربران برروی تعدادی از مقالات موجود در وب که در موضوعات متفاوتی بودند، در نظر گرفته اند.
از طرف دیگر دسته ای از افراد مثل Halabi et al [15] معتقد هستند که برای تعداد ثابتی از کاربران در یک نشست پرس و جو مشخص ، زمان توجه کاملا نشانگر علاقه کاربر می باشد. هر چه قدر کاربر زمان بیشتری را صرف مطالعه یک سند می کند ، آن سند برای وی با اهمیت تر خواهد بود. البته به نظر می رسد این تفاوت نظرها تناقضی با هم نداشته باشند چراکه زمان نمایش در این دو به شکلی متفاوت محاسبه می شود. در ادامه به ذکر یک نمونه از مقالاتی که در این زمینه ارائه شده است می پردازیم.

مدل کردن براساس سایر عکس العمل های ضمنی که از کاربران گرفته می شود
سایر روش های فیدبک ضمنی کاربر شامل زمان نمایش، scrolling، استفاده از نشانه گذاری ها و bookmark ها و استفاده از اطلاعات موجود در مورد کاربر در وب می باشد. بعضی از پژوهشگران جدیدا تعدادی از این روش ها را با هم ترکیب کرده و نتایج خوبی هم بدست آورده اند[16]. در مرجع شماره [17] مطالعه ی جامعی در این باره صورت گرفته است. (بازگشت ... )


[1] - D.Marcu. From Discourse Structures to Text Summaries.Proceedings of the 14th National Conference on Artificial Intelligence AAAI-97

[2] - GJ Rath, A Resnick, TR Savage. The formation of abstracts by the selection of sentences. American Documentation, 12(2): 139143, April 1961.

[3] - G Salton, A Singhal, M Mitra, C Buckley. Automatic text structuring and summarization. Information Processing and Management,33(2): 193-207, 1997.
[4] - F. Liu, C. Yu, and W. Meng. Personalized web search by mapping user queries to categories. In CIKM ’02: Proceedings of the 11th ACM International Conference on Information and Knowledge Management, pages 558–565, New York, NY, USA, 2002. ACM
[5] - M. Speretta and S. Gauch. Personalized search based on user search histories. In WI ’05: Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence, pages 622–628, Washington, DC, USA,2005. IEEE Computer Society.
[6] - F. Radlinski and T. Joachims. Query chains: learning to

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد