ژوئن 28

دانلود پایان نامه مهندسی فناوری اطلاعات: چارچوبی جدید برای تشخیصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسی

دانشگاه قم

پایان‏نامه کارشناسی ارشد

مهندسی فناوریِ اطلاعات،گرایشِ تجارتِ الکترونیک

عنوان

چارچوبی جدید برای تشخیصِ مرجعِ‏ مشترک و اسمِ اشاره در متون پارسی

 

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

چکیده :

پردازش زبان طبیعی شامل وظایفی همچون استخراج اطلاعات، خلاصه‏سازی متن، پرسش و پاسخ می باشد که همگی نیاز دارند تا تمام اطلاعاتی که در مورد یک موجودیت در متن وجود دارد شناسایی شوند. بنابراین وجود سیستمی که بتواند مسئله هم‏مرجع را بررسی نماید، کمک شایانی به انجامِ موفقیت‏آمیز این وظایف خواهد نمود. روش‏های تشخیص مرجع‏مشترک را می‏توان به دو دسته‏ی روش‏های زبان‏شناسی و روش‏های یادگیری ماشین تقسیم نمود. روش‏های زبان‏شناسی بیشتر به اطلاعات زبان‏شناسی نیاز دارند، البته مشکل این روش‏ها این است که پر خطا و طولانی می‏باشند. از طرف دیگر روش‏های یادگیری ماشین کمتر به اطلاعات زبان‏شناسی نیاز دارند و نتایج حاصل از آنها قابل اعتماد‏تر است. در این پایان‏نامه  تلاش می‏کنیم تا فرآیند تشخیص مرجع‏مشترک را مورد مطالعه قرار دهیم و چارچوبی ارائه دهیم تا بتواند علاوه بر شناسایی اشاره‏ها، عبارت‏های هم‏مرجع را نیز تشخیص دهد. به همین منظور باید سه رکن اساسی کار را که پیکره نشانه‏گذاری شده، سیستم شناساییِ اشاره و محدوده آن، و الگوریتم پیشنهادی پیش‏بینی عبارت‏های اسمی هم‏‏مرجع را مبنای کار قرار دهیم. درهمین راستا، در قدم اول، پیکره‏ای با نشانه‏هایی شامل محدوده‏ی اشاره، نوع اشاره، هسته‏ی اشاره، نوع موجودیت، نوع زیر گروه موجودیت، کلاس موجودیت تهیه می‏کنیم، این پیکره می‏تواند به عنوان اولین پیکره دارای نشانه‏های اشاره و هم‏مرجعی، مبنای کار بسیاری از پژوهش‏های مربوط به شناسایی و کشف اشاره و تحلیل هم‏مرجعی قرار گیرد. همچنین با استفاده از این پیکره و بررسی قوانین و اولویت‏های میان اشاره‏ها، سیستمی ارائه می‏کنیم که اشاره‏های موجود در متن را شناسایی کرده و سپس نمونه‏های مثبت و منفی را از پیکره لوتوس استخراج می‏کند. در نهایت نیز با استفاده از الگوریتم‏های یادگیری پایه درخت تصمیم، شبکه عصبی و ماشین بردار پشتیبان، نمونه‏های حاصله را مورد ارزیابی و مقایسه قرار دادیم. نتایج حاصل نشان می‏دهد که یادگیر شبکه عصبی، نسبت به سایرین عملکرد بهتری دارد.

کلمات کلیدی: پردازش زبان طبیعی، تحلیل مرجع مشترک، شناسایی اشاره، استخراج اطلاعات، پیکره زبان پارسی

 

فهرست مطالب
عنوان صفحه

فصل ۱: آشنایی با تشخیص مرجع مشترک……………………… ………………………… ………………………… ……………………………………………………..۱

1-۱. مقدمه و بیان مسئله………………………………………………………………………………………………………. 1

1-2. بررسی ارتباطات هم‏مرجعی………………………………………………………………………………………….. 6

   1-2-1. هم‏مرجع در مقابل پیشایند………………………………………………………………………………….. 9

      1-۲-1-۱. ارتباط هم‏مرجع………………………………………………………………………………………… ۱0

  1-۲-1-2. ارتباط پیشایندی………………………………………………………………………………………… 11

1-۲-۲. تحلیل پیشایند……………………………………………………………………………………………………. 16

   1-۲-۳. تحلیل مرجع مشترک………………………………………………………………………………………… 16

  1-۲-۴. تقابل تحلیل مرجع مشترک و تحلیل پیشایندی…………………………………………….. ۱7

1-3.جمع‏بندی……………………………………………………………………………………………………………………… 20

فصل 2 : بخش اول……………………………………………………………………………………… 21

2-1-۱. پیشینه تشخیص مرجع مشترک…………………………………………………………………………… 21

2-1-۲. روش‏های زبان‏شناسی…………………………………………………………………………………………….. 22

     2-1-۲-1. فاکتورهای حذف کننده…………………………………………………………………………….. 23

2-1-۳-۲-۱. تطبیق جنس و عدد……………………………………………………………………….. 23

            2-1-۳-۲-۱. تطبیق معنایی…………………………………………………………………………………. 24

2-1-۲-۲. فاکتورهای امتیاز دهنده ……………………………………………………………………………. 24

2-1-۳-۲-۱. مشابهت نحوی…………………………………………………………………………………. 24

2-1-۳-۲-۱. مشابهت معنایی……………………………………………………………………………….. 25

2-1-۳-۲-۱. بارز بودن…………………………………………………………………………………………… 25

2-1-۳. روش‏های یادگیری ماشین……………………………………………………………………………………… 27

     2-1-۳-۱. ویژگی‏ها………………………………………………………………………………………………………. 28

     2-1-۳-۲. مدل‏های جفت اشاره………………………………………………………………………………….. 28

2-1-۳-۲-۱. رده بندی جفت عبارت‏های اسمی…………………………………………………… 32

2-1-۳-۲-۱-1. درخت تصمیم………………………………………………………………………… 33

2-1-۳-۲-۲.افراز……………………………………………………………………………………………………… 35

            2-1-۳-۲-۲-۱.درختِ بل………………………………………………………………………………….. 36

2-1-۳-۲-۲-۲. افراز گراف……………………………………………………………………………….. 38

     2-1-۳-۳. روش‏های مبتنی بر پیکره………………………………………………………………………………. 40

2-1-۳-۴. روش‏های جایگزین………………………………………………………………………………………….. 44

2-1-۳-۴-۱. روش هم‏آموزی…………………………………………………………………………………….. 44

2-1-۳-۴-۲. مدل احتمالاتی مرتبه اول……………………………………………………………………. 46

         2-1-۳-۴-۳. رتبه‏بندی………………………………………………………………………………………………. 47

      2-1-۳-۴-۴. فیلدهای تصادفی شرطی……………………………………………………………………… 49

2-1-۳-۴-۵. خوشه‏بندی………………………………………………………………………………………….. 51

2-1-۴. جمع‏بندی………………………………………………………………………………………………………………… 56

فصل 2: بخش دوم…………………………………………………………………………………….. 57

2-2-۱. پیکره نشانه گذاری شده توسط اطلاعات هم‏مرجع…………………………………………………. 58

2-2-۲. پیکره بیژن‏خان……………………………………………………………………………………………………………. 59

2-2-۳. پیکره لوتوس……………………………………………………………………………………………………………….. 60

2-2-۴.شیوه‏های نشانه‏گذاری پیکره لوتوس…………………………………………………………………………… 62

2-2-۴-۱. نشانه‏گذاری انواع موجودیت‏ها…………………………………………………………………………… 62

      2-2-۴-۱-۱. موجودیت شخص……………………………………………………………………………………… 64

      2-2-۴-۱-۲. موجودیت سازمان……………………………………………………………………………………… 64

2-2-۴-۱-۳. موجودیت مکان…………………………………………………………………………………………. 66

      2-2-۴-۱-۴. موجودیت سیاسی……………………………………………………………………………………… 66

2-2-۴-۲.کلاس هر موجودیت……………………………………………………………………………………………. 68

       2-2-۴-۲-۱.غیر ارجاعی……………………………………………………………………………………………….. 69

       2-2-۴-۲-۲.ارجاعی………………………………………………………………………………………………………. 69

          2-2-۴-۲-۲-۱.ارزیابی به شکل منفی……………………………………………………………………… 69

          2-2-۴-۲-۲-۲.ارجاعی خاص………………………………………………………………………………….. 70

          2-2-۴-۲-۲-۳.ارجاعی عمومی……………………………………………………………………………….. 70

2-2-۴-۲-۲-۴.ارجاعی زیر مشخص شده………………………………………………………………. 70

2-2-۴-۳.انواع اشاره/سطوح اشاره……………………………………………………………………………………… 71

2-2-۴-۳-۱.اشاره ساده………………………………………………………………………………………………….. 72

          2-2-۴-۳-۱-۱.محدوده اشاره………………………………………………………………………………….. 72

2-2-۴-۳-۱-۲. هسته اشاره…………………………………………………………………………………….. 72

2-2-۴-۳-۱-۳.انواع اشاره ساده………………………………………………………………………………. 72

2-2-۴-۳-۲.ساختارهای پیچیده………………………………………………………………………………………. 74

2-2-۴-4-۲-۱.ساختارهای عطف بیان یا بدل………………………………………………………… 75

2-2-۵.جمع‏بندی……………………………………………………………………………………………………………………… 75

فصل 3: الگوریتم­های پیشنهادی………………………………………………………………… 76

3-۱. رده بندی دودویی……………………………………………………………………………………………………………. 76

   3-1-1.جدا کننده‏های خطی………………………………………………………………………………………………. 77

      3-1-1-1 پرسپترون……………………………………………………………………………………………………….. 78

      3-1-1-2 ماشین بردار پشتیبان…………………………………………………………………………………….. 80

      3-1-1-3 درخت تصمیم………………………………………………………………………………………………… 85

3-۲.خوشه‏بندی………………………………………………………………………………………………………………………… 88

    3-2-1 .الگوریتم‏های افراز بسته‏ای……………………………………………………………………………………. 89

       3-2-1-1 .خوشه‏بندی سلسله مراتبی پایین به بالا……………………………………………………. 90

3-2-1-2 .آموزش الگوریتم خوشه‏بندی سلسله مراتبی…………………………………………….. 93

3-3.جمع‏بندی………………………………………………………………………………………………………………………….. 96

فصل 4: سیستم ارزیابی…………………………………………………………………………….. 97

4-۱.مقدمه…………………………………………………………………………………………………………………………………. 97

4-۲.سیستم شناسایی اشاره لوتوس……………………………………………………………………………………….. 98

    4-2-1 .بانک اطلاعاتی……………………………………………………………………………………………………….. 98

4-2-2.سیستم شناسایی اشاره………………………………………………………………………………………. 102

4-3.تشخیص اشاره‏های هم مرجع……………………………………………………………………………………….. 103

4-3-1 ویژگی‏ها……………………………………………………………………………………………………………….. 104

4-3-2.الگوریتم یادگیری………………………………………………………………………………………………… 105

    4-3-3.معیار ارزیابی………………………………………………………………………………………………………… 107

4-3-4.نتیجه ارزیابی……………………………………………………………………………………………………….. 110

       4-3-4-1.نتایج بدست آمده……………………………………………………………………………………….. 110

       4-3-4-.2چالش‏ها و تحلیل خطا……………………………………………………………………………….. 112

4-4.جمع‏بندی……………………………………………………………………………………………………………………….. 115

فصل 5 :نتیجه گیری و پیشنهادها……………………………………………………………… 116

5-۱.نتیجه‏گیری……………………………………………………………………………………………………………………… 116

5-2.پیشنهادها………………………………………………………………………………………………………………………… 118

فصل .6 منابع………………………………………………………………………………………….. 121

 

 

 

فهرست جدول‏ها
عنوان صفحه

جدول 1-۱: مقایسه ویژگی‏های دو ارتباط هم‏مرجع وپیشایند…………………………… ۱1

جدول 2-۱: فاکتورهای متداول برای تشخیص مرجع مشترک…………………………………………….. 23

جدول 2-۲: برخی از ویژگی‏های ارائه شده در تحلیل مرجع مشترک…………………… 30

جدول 2-۳: معرفی برخی از پژوهش‏هایی که از خوشه‏بندی استفاده کرده‏اند…………………… 55

جدول 2-4: مشخصات مربوط به انواع موجودیت‏ها……………………………………………………………….. 62

جدول2-5: زیر گروه‏های موجودیت مشخص………………………………………………………………………….. 64

جدول2-6: زیر گروه‏های موجودیت سازمان……………………………………………………………………………. 65

جدول 2-7: زیر گروه‏های موجودیت مکان …………………………………………………………………………….. 66

جدول 2-8: زیر گروه‏های موجودیت سیاسی…………………………………………………………………………. 67

جدول 2-9: حالت‏های خاص موجودیت‏های سیاسی…………………………………………………………….. 68

جدول 2-10: انواع طبقه‏بندی اشاره………………………………………………………………………………………. 71

جدول 4-1: بانک اطلاعاتی سیستم کشف اشاره: جدول واژگان……………………………………….. 100

جدول 4-2: بانک اطلاعاتی سیستم کشف اشاره: جدول اشاره‏ها……………………………………… 101

جدول 4-3: فهرست ویژگی‏های به کار رفته در تشخیص مرجع مشترک………………………… 106

جدول 4-4: حالت‏های ممکن نتایج یک ماشین یادگیر……………………………………………………… 108

جدول 4-5: نتایج ارزیابی الگوریتم‏های پایه مورد بررسی…………………………………………………… 110

جدول 4-6: نتایج ارزیابی الگوریتم SVM با هسته‏های متفاوت………………………………………… 111

جدول 4-7: نتایج ارزیابی الگوریتم شبکه عصبی با مدل‏های متفاوت………………………………. 112

 

 


فهرست شکل‏ها
عنوان صفحه

شکل1-۱. انواع روابط ممکن میان دو عبارت اسمی ……………………………………………………………. 12

شکل1-۲. میزان ارتباط میان حوزه‏ها با انواع دانش‏های زبان‏شناسی و واژگانی………………….. ۱6

شکل2-۱. نمونه‏ای از نمونه‏های مثبت و منفی که توسط ۴.5C تولید شده است……………… 31

شکل2-۲. درختِ بل به ازای سه عبارت اسمی ……………………………………………………………………. 37

شکل2-3. شمایی از نشانه‏گذاری پیکره بیژن‏خان………………………………………………………………….. 60

شکل2-4. شمایی از نشانه‏گذاری اشاره‏های هم مرجع در پیکره لوتوس……………………………… 62

شکل3-۱. شمایی از داده‏های خطی و غیر خطی جدایی‏پذیر………………………………………………. 77

شکل3-۲. الگوریتم پرسپترون میانگین‏دار……………………………………………………………………………… 80

شکل3-3. نمونه‏ای از یک درخت تصمیم‏گیری……………………………………………………………………… 86

شکل3-4.الگوریتم C5 ……………………………………………………………………………………………………………. 88

شکل3-5. مثالی از نمودار دندوگرام در تشخیص عبارت‏های اسمی هم‏مرجع……………………. 92

شکل3-6. الگوریتم خوشه‏بندی سلسله مراتبی پایین به بالا                                       93

شکل3-7.الگوریتم آموزش خوشه‏بندی حریصانه      ………………………………….. 94

شکل3-8.الگوریتم بروزرسانی ………………………………………………………..   96

شکل4-1 :شمای کلی از جداول این بانک اطلاعاتی لوتوس…………………………………………………. 99

شکل4-2 :شمای کلی سیستم شناسایی اشاره……………………………………………………………………. 102

شکل4-3 :شمایی از نمایش خروجی سیستم نمایش اشاره……………………………………………….. 102

شکل4-4: شمایی از نمایش خروجی سیستم نمایش واژگان…………………………………………….. 103

شکل4-5: شمایی از نمایش خروجی تعیین نمونه‏های مثبت و منفی………………………………. 107

شکل4-6: نمودار مقایسه الگوریتم‏های پایه مورد بررسی……………………………………………………. 111

 

۱-۱.مقدمه و بیان مسئله

امروزه رایانه در تمام لایه‏های زندگی بشر نفوذ کرده است. بطوریکه استفاده از فناوری رایانه در حوزه زبان‏شناسی، بیش از پیش احساس می‏شود. «پردازش زبان طبیعی[1]»شاخه‏ای از علم «هوش مصنوعی[2]» است که به ماشینی کردن فرآیند زبان شناسی سنتی می‏پردازد. به این ترتیب با استفاده از رایانه می‏توان «زبان گفتاری ونوشتاری» را پردازش نمود، به طوریکه رایانه‏ها نیز قادر باشند زبان انسان را درک کرده و بتوانند از زبان طبیعی به عنوان ورودی وخروجی استفاده کند. به این ترتیب یک رایانه، درهنگام دریافت ورودی، نیاز به «درک» و درهنگام ارسال خروجی، نیاز به «تولید» زبان طبیعی دارد. ]81[

در زمینه پردازش زبان طبیعی پژوهش‏هایی مانند طبقه‏بندی متون[3]، برچسب‏گذاری ادات سخن[4]، تعیین و ابهام‏زدایی از معانی واژگان[5] و… انجام شده است که تنها بر روی یک حوزه خاص تمرکز داشته‏اند و در نتیجه راه حل‏هایی جزئی در راستای اهداف کلی پردازش زبان طبیعی محسوب می‏‏‏شوند. تمامی این حوزه‏های جزئی باید حل شوند تا در نهایت رایانه بتواند همانند انسان واژگان و جملات را پردازش کرده و یا آنها را بسازد.

برای دانلود متن کامل پایان نامه اینجا کلیک کنید



همه حقوق محفوظ است

Posted ژوئن 28, 2016 by 92 in category "پایان نامه ها", "مقالات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *