دانلود پایان نامه مهندسی فناوری اطلاعات: چارچوبی جدید برای تشخیصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسی

دانشگاه قم

پایان‏نامه کارشناسی ارشد

مهندسی فناوریِ اطلاعات،گرایشِ تجارتِ الکترونیک

عنوان

چارچوبی جدید برای تشخیصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسی

 

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

چکیده :

پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصه‏سازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هم‏مرجع را بررسی نماید، کمک شایانی به انجامِ موفقیت‏آمیز این وظایف خواهد نمود. روش‏های تشخیص مرجع‏مشترک را می‏توان به دو دسته‏ی روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم نمود. روش‏های زبان‏شناسی بیشتر به اطلاعات زبان‏شناسی نیاز دارند، البته مشکل این روش‏ها این است که پر خطا و طولانی می‏باشند. از طرف دیگر روش‏های یادگیری ماشین کمتر به اطلاعات زبان‏شناسی نیاز دارند و نتایج حاصل از آنها قابل اعتماد‏تر است. در این پایان‏نامه  تلاش می‏کنیم تا فرآیند تشخیص مرجع‏مشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره‏ها، عبارت‏های هم‏مرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه‏گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیش‏بینی عبارت‏های اسمی هم‏‏مرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکره‏ای با نشانه‏هایی شامل محدوده‏ی اشاره، نوع اشاره، هسته‏ی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه می‏کنیم، این پیکره می‏تواند به عنوان اولین پیکره دارای نشانه‏های اشاره و هم‏مرجعی، مبنای کار بسیاری از پژوهش‏های مربوط به شناسایی و کشف اشاره و تحلیل هم‏مرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویت‏های میان اشاره‏ها، سیستمی ارائه می‏کنیم که اشاره‏های موجود در متن را شناسایی کرده و سپس نمونه‏های مثبت و منفی را از پیکره لوتوس استخراج می‏کند. در نهایت نیز با استفاده از الگوریتم‏های یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه‏های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان می‏دهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.

کلمات کلیدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی

 

فهرست مطالب
عنوان صفحه

فصل ۱: آشنایی با تشخیص مرجع مشترک……………………… ………………………… ………………………… ……………………………………………………..۱

1-۱. مقدمه و بیان مسئله………………………………………………………………………………………………………. 1

1-2. بررسی ارتباطات هم‏مرجعی………………………………………………………………………………………….. 6

   1-2-1. هم‏مرجع در مقابل پیشایند………………………………………………………………………………….. 9

      1-۲-1-۱. ارتباط هم‏مرجع………………………………………………………………………………………… ۱0

  1-۲-1-2. ارتباط پیشایندی………………………………………………………………………………………… 11

1-۲-۲. تحلیل پیشایند……………………………………………………………………………………………………. 16

   1-۲-۳. تحلیل مرجع مشترک………………………………………………………………………………………… 16

  1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی…………………………………………….. ۱7

1-3.جمع‏بندی……………………………………………………………………………………………………………………… 20

فصل 2 : بخش اول……………………………………………………………………………………… 21

2-1-۱. پیشینه تشخیص مرجع مشترک…………………………………………………………………………… 21

2-1-۲. روش‏های زبان‏شناسی…………………………………………………………………………………………….. 22

     2-1-۲-1. فاکتورهای حذف کننده…………………………………………………………………………….. 23

2-1-۳-۲-۱. تطبیق جنس و عدد……………………………………………………………………….. 23

            2-1-۳-۲-۱. تطبیق معنایی…………………………………………………………………………………. 24

2-1-۲-۲. فاکتورهای امتیاز دهنده ……………………………………………………………………………. 24

2-1-۳-۲-۱. مشابهت نحوی…………………………………………………………………………………. 24

2-1-۳-۲-۱. مشابهت معنایی……………………………………………………………………………….. 25

2-1-۳-۲-۱. بارز بودن…………………………………………………………………………………………… 25

2-1-۳. روش‏های یادگیری ماشین……………………………………………………………………………………… 27

     2-1-۳-۱. ویژگی‏ها………………………………………………………………………………………………………. 28

     2-1-۳-۲. مدل‏های جفت اشاره………………………………………………………………………………….. 28

2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی…………………………………………………… 32

2-1-۳-۲-۱-1. درخت تصمیم………………………………………………………………………… 33

2-1-۳-۲-۲.افراز……………………………………………………………………………………………………… 35

            2-1-۳-۲-۲-۱.درختِ بل………………………………………………………………………………….. 36

2-1-۳-۲-۲-۲. افراز گراف……………………………………………………………………………….. 38

     2-1-۳-۳. روش‏های مبتنی بر پیکره………………………………………………………………………………. 40

2-1-۳-۴. روش‏های جایگزین………………………………………………………………………………………….. 44

2-1-۳-۴-۱. روش هم‏آموزی…………………………………………………………………………………….. 44

2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول……………………………………………………………………. 46

         2-1-۳-۴-۳. رتبه‏بندی………………………………………………………………………………………………. 47

      2-1-۳-۴-۴. فیلدهای تصادفی شرطی……………………………………………………………………… 49

2-1-۳-۴-۵. خوشه‏بندی………………………………………………………………………………………….. 51

2-1-۴. جمع‏بندی………………………………………………………………………………………………………………… 56

فصل 2: بخش دوم…………………………………………………………………………………….. 57

2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع…………………………………………………. 58

2-2-۲. پیکره بیژن‏خان……………………………………………………………………………………………………………. 59

2-2-۳. پیکره لوتوس……………………………………………………………………………………………………………….. 60

2-2-۴.شیوه‏های نشانه‏گذاری پیکره لوتوس…………………………………………………………………………… 62

2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها…………………………………………………………………………… 62

      2-2-۴-۱-۱. موجودیت شخص……………………………………………………………………………………… 64

      2-2-۴-۱-۲. موجودیت سازمان……………………………………………………………………………………… 64

2-2-۴-۱-۳. موجودیت مکان…………………………………………………………………………………………. 66

      2-2-۴-۱-۴. موجودیت سیاسی……………………………………………………………………………………… 66

2-2-۴-۲.کلاس هر موجودیت……………………………………………………………………………………………. 68

       2-2-۴-۲-۱.غیر ارجاعی……………………………………………………………………………………………….. 69

       2-2-۴-۲-۲.ارجاعی………………………………………………………………………………………………………. 69

          2-2-۴-۲-۲-۱.ارزیابی به شکل منفی……………………………………………………………………… 69

          2-2-۴-۲-۲-۲.ارجاعی خاص………………………………………………………………………………….. 70

          2-2-۴-۲-۲-۳.ارجاعی عمومی……………………………………………………………………………….. 70

2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده………………………………………………………………. 70

2-2-۴-۳.انواع اشاره/سطوح اشاره……………………………………………………………………………………… 71

2-2-۴-۳-۱.اشاره ساده………………………………………………………………………………………………….. 72

          2-2-۴-۳-۱-۱.محدوده اشاره………………………………………………………………………………….. 72

2-2-۴-۳-۱-۲. هسته اشاره…………………………………………………………………………………….. 72

2-2-۴-۳-۱-۳.انواع اشاره ساده………………………………………………………………………………. 72

2-2-۴-۳-۲.ساختارهای پیچیده………………………………………………………………………………………. 74

2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل………………………………………………………… 75

2-2-۵.جمع‏بندی……………………………………………………………………………………………………………………… 75

فصل 3: الگوریتم­های پیشنهادی………………………………………………………………… 76

3-۱. رده بندی دودویی……………………………………………………………………………………………………………. 76

   3-1-1.جدا کننده‏های خطی………………………………………………………………………………………………. 77

      3-1-1-1 پرسپترون……………………………………………………………………………………………………….. 78

      3-1-1-2 ماشین بردار پشتیبان…………………………………………………………………………………….. 80

      3-1-1-3 درخت تصمیم………………………………………………………………………………………………… 85

3-۲.خوشه‏بندی………………………………………………………………………………………………………………………… 88

    3-2-1 .الگوریتم‏های افراز بسته‏ای……………………………………………………………………………………. 89

       3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا……………………………………………………. 90

3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی…………………………………………….. 93

3-3.جمع‏بندی………………………………………………………………………………………………………………………….. 96

فصل 4: سیستم ارزیابی…………………………………………………………………………….. 97

4-۱.مقدمه…………………………………………………………………………………………………………………………………. 97

4-۲.سیستم شناسایی اشاره لوتوس……………………………………………………………………………………….. 98

    4-2-1 .بانک اطلاعاتی……………………………………………………………………………………………………….. 98

4-2-2.سیستم شناسایی اشاره………………………………………………………………………………………. 102

4-3.تشخیص اشاره‏های هم مرجع……………………………………………………………………………………….. 103

4-3-1 ویژگی‏ها……………………………………………………………………………………………………………….. 104

4-3-2.الگوریتم یادگیری………………………………………………………………………………………………… 105

    4-3-3.معیار ارزیابی………………………………………………………………………………………………………… 107

4-3-4.نتیجه ارزیابی……………………………………………………………………………………………………….. 110

       4-3-4-1.نتایج بدست آمده……………………………………………………………………………………….. 110

       4-3-4-.2چالش‏ها و تحلیل خطا……………………………………………………………………………….. 112

4-4.جمع‏بندی……………………………………………………………………………………………………………………….. 115

فصل 5 :نتیجه گیری و پیشنهادها……………………………………………………………… 116

5-۱.نتیجه‏گیری……………………………………………………………………………………………………………………… 116

5-2.پیشنهادها………………………………………………………………………………………………………………………… 118

فصل .6 منابع………………………………………………………………………………………….. 121

 

 

 

فهرست جدول‏ها
عنوان صفحه

جدول 1-۱: مقایسه ویژگی‏های دو ارتباط هم‏مرجع وپیشایند…………………………… ۱1

جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک…………………………………………….. 23

جدول 2-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک…………………… 30

جدول 2-۳: معرفی برخی از پژوهش‏هایی که از خوشه‏بندی استفاده کرده‏اند…………………… 55

جدول 2-4: مشخصات مربوط به انواع موجودیت‏ها……………………………………………………………….. 62

جدول2-5: زیر گروه‏های موجودیت مشخص………………………………………………………………………….. 64

جدول2-6: زیر گروه‏های موجودیت سازمان……………………………………………………………………………. 65

جدول 2-7: زیر گروه‏های موجودیت مکان …………………………………………………………………………….. 66

جدول 2-8: زیر گروه‏های موجودیت سیاسی…………………………………………………………………………. 67

جدول 2-9: حالت‏های خاص موجودیت‏های سیاسی…………………………………………………………….. 68

جدول 2-10: انواع طبقه‏بندی اشاره………………………………………………………………………………………. 71

جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان……………………………………….. 100

جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشاره‏ها……………………………………… 101

جدول 4-3: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک………………………… 106

جدول 4-4: حالت‏های ممکن نتایج یک ماشین یادگیر……………………………………………………… 108

جدول 4-5: نتایج ارزیابی الگوریتم‏های پایه مورد بررسی…………………………………………………… 110

جدول 4-6: نتایج ارزیابی الگوریتم SVM با هسته‏های متفاوت………………………………………… 111

جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدل‏های متفاوت………………………………. 112

 

 


فهرست شکل‏ها
عنوان صفحه

شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی ……………………………………………………………. 12

شکل1-۲. میزان ارتباط میان حوزه‏ها با انواع دانش‏های زبان‏شناسی و واژگانی………………….. ۱6

شکل2-۱. نمونه‏ای از نمونه‏های مثبت و منفی که توسط ۴.5C تولید شده است……………… 31

شکل2-۲. درختِ بل به ازای سه عبارت اسمی ……………………………………………………………………. 37

شکل2-3. شمایی از نشانه‏گذاری پیکره بیژن‏خان………………………………………………………………….. 60

شکل2-4. شمایی از نشانه‏گذاری اشاره‏های هم مرجع در پیکره لوتوس……………………………… 62

شکل3-۱. شمایی از داده‏های خطی و غیر خطی جدایی‏پذیر………………………………………………. 77

شکل3-۲. الگوریتم پرسپترون میانگین‏دار……………………………………………………………………………… 80

شکل3-3. نمونه‏ای از یک درخت تصمیم‏گیری……………………………………………………………………… 86

شکل3-4.الگوریتم C5 ……………………………………………………………………………………………………………. 88

شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارت‏های اسمی هم‏مرجع……………………. 92

شکل3-6. الگوریتم خوشه‏بندی سلسله مراتبی پایین به بالا                                       93

شکل3-7.الگوریتم آموزش خوشه‏بندی حریصانه      ………………………………….. 94

شکل3-8.الگوریتم بروزرسانی ………………………………………………………..   96

شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس…………………………………………………. 99

شکل4-2 :شمای کلی سیستم شناسایی اشاره……………………………………………………………………. 102

شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره……………………………………………….. 102

شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان…………………………………………….. 103

شکل4-5: شمایی از نمایش خروجی تعیین نمونه‏های مثبت و منفی………………………………. 107

شکل4-6: نمودار مقایسه الگوریتم‏های پایه مورد بررسی……………………………………………………. 111

 

۱-۱.مقدمه و بیان مسئله

امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبیعی[1]»شاخه‏ای از علم «هوش مصنوعی[2]» است که به ماشینی کردن فرآیند زبان شناسی سنتی می‏پردازد. به این ترتیب با استفاده از رایانه می‏توان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده کند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[

در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون[3]، برچسب‏گذاری ادات سخن[4]، تعیین و ابهام‏زدایی از معانی واژگان[5] و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامی این حوزه‏های جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.

برای دانلود متن کامل پایان نامه اینجا کلیک کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *