دانشگاه شیراز

دانشکده­ مهندسی

پایان­ نامه کارشناسی ارشد در رشته­ مهندسی کامپیوتر (هوش مصنوعی)

عنوان:

جستجوی الگوهای نوظهور با ویژگی های جریانی

استاد راهنما:

دکتر ستار هاشمی

نام نگارنده و استاد راهنما داخل فایل اصلی موجود است

تکه هایی از متن پایان نامه به عنوان نمونه :

(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)

فهرست مطالب:

فصل اول ……………………………………………………………………………………………………………………………….. 1

1- مقدمه ……………………………………………………………………………………………………………………………….. 2

1-1 مقدمه …………………………………………………………………………………………………………………… 2

1-2 مفهوم الگوهای نوظهور …………………………………………………………………………………………. 3

1-3 مفهوم ویژگی های جریانی ……………………………………………………………………………………. 5

1-4 چالش های موجود در استخراج الگوهای نوظهور ……………………………………………………. 6

1-5 الگوریتم های استخراج الگوهای نوظهور ……………………………………………………………….. 8

1-6 ایده اصلی تحقیق …………………………………………………………………………………………………. 11

1-7 نگاهی کلی به فصول رساله …………………………………………………………………………………… 13

فصل دوم ……………………………………………………………………………………………………………………………….. 14

2- پیشینه تحقیق ………………………………………………………………………………………………………………….. 15

2-1 مقدمه ………………………………………………………………………………………………………………….. 15

2-2 روش های مبتنی بر قانون …………………………………………………………………………………….. 15

2-2-1 روش Classification Based on Association (CBA) ………………………………

2-2-2 روش کلاسه بندی Classification based on Multiple-class Association Rule (CMAR)……….

2-2-3 روش کلاسه بندی Classification based on Prediction Association Rule (CPAR)………………

2-3 روش های استخراج الگوها …………………………………………………………………………………… 17

2-3-1 روش مبتنی بر مرز ………………………………………………………………………………………… 17

2-3-2 روش مبتنی بر محدودیت ………………………………………………………………………………. 17

2-3-3 الگوریتم استخراج درخت الگوی تقابل CP-tree …………………………………………….

2-3-4 روش استخراج با کمک دیاگرام دودویی صفر ZBDD Miner …………………………

2-3-5 روش استخراج الگوهای نوظهور متمایز DP-Miner ……………………………………….

2-4 روش های کلاسه بندی مبتنی بر الگوهای نوظهور ………………………………………………………… 20

2-4-1 روش کلاسه بندی مبتنی بر اساس مجموع الگوهای نوظهور CAEP ………………………………..

2-4-2 الگوریتم کلاسه بندی بر پایه تئوری اطلاعات iCAEP ……………………………………………………

2-4-3 روش کلاسه بندی بر پایه الگوهای نوظهور جهشی JEPs-classifier …………………………….

2-4-4 روش کلاسه بندی بر پایه الگوهای نوظهور جهشی قوی ………………………………………………… 21

2-4-5 روش تصمیم گیری مبتنی بر نمونه DeEPs ………………………………………………………………….

2-4-6 روش کلاسه بندی توسط مجموعه راست نمایی PCL …………………………………………………….

فصل سوم ………………………………………………………………………………………………………………….. 23

3- دانش اولیه ………………………………………………………………………………………………………………. 24

3-1 الگوهای نوظهور …………………………………………………………………………………………………… 24

3-2 درخت الگوی مکرر دینامیک DFP-tree ………………………………………………………………

فصل چهارم ……………………………………………………………………………………………………………….. 33

4- راهکارهای ارائه شده برای استخراج الگوهای نوظهور قوی مبتنی بر ویژگی های جریانی ………. 34

4-1 مقدمه ………………………………………………………………………………………………………………….. 34

4-2- درخت الگوی مکرر دینامیک نامرتب Unordered Dynamic FP-tree …………………………

4-3 درخت الگوی مکرر دینامیک مرتب Ordered Dynamic FP-tree ……………………………….

4-4 روش استخراج الگوها SEP-Miner …………………………………………………………………….

فصل پنجم …………………………………………………………………………………………………………………… 62

5- آزمایشات تجربی ………………………………………………………………………………………………………. 63

5-1 مقدمه ………………………………………………………………………………………………………………….. 63

5-2 کلاسه بندها ………………………………………………………………………………………………………… 63

5-2-1 کلاسه بند درخت تصمیم C4.5 ……………………………………………………………………

5-2-2 کلاسه بند SVM …………………………………………………………………………………………

5-2-3 کلاسه بند بیزین ساده ……………………………………………………………………………….. 65

5-2-4 کلاسه بند نزدیکترین همسایه ……………………………………………………………………. 66

5-2-5 الگوریتم AdaBoost………………………………………………………………………………….

5-3 تست های آماری ………………………………………………………………………………………… 68

5-3-1 تست آماری جفت شده t-tets …………………………………………………………………………

5-3-2 تست آماری Wilcoxon ………………………………………………………………………………..

5-3-3 تست آماری فردمن ………………………………………………………………………………………. 69

5-4 تنظیمات تجربی ………………………………………………………………………………………………….. 71

5-5 مقایسه دقت پیش بینی ……………………………………………………………………………………….. 73

5-6 مقایسه تعداد الگوها ……………………………………………………………………………………………. 81

5-7 مقایسه زمان اجرا ………………………………………………………………………………………………… 83

5-8 تحلیل اثر ترتیب در ساخت درخت الگوی مکرر دینامیک ……………………………………… 86

5-9 چگونگی تعیین کردن حداقل آستانه فراوانی نسبی ………………………………………………. 88

5-10 تحلیل حساسیت روی حداقل آستانه های نرخ رشد ………………………………………………. 89

5-11 مقایسه کارایی DFP-SEPSF بدون دانستن کل فضای ویژگی ها …………………………. 90

5-12 خلاصه نتایج تجربی ……………………………………………………………………………………. 94

فصل ششم ……………………………………………………………………………………………………………. 96

6- نتیجه گیری و کارهای آینده …………………………………………………………………………………. 97

اختصارات ……………………………………………………………………………………………………………. 99

واژه نامه فارسی به انگلیسی ………………………………………………………………………………….. 100

واژه نامه انگلیسی به فارسی ………………………………………………………………………………… 108

فهرست منابع …………………………………………………………………………………………………. 116

چکیده:

استخراج الگوهای مفید از مجموعه داده ها، یکی از موضوعات چالش برانگیز در داده کاوی است. از طرفی در داده ها با ابعاد بالا، استخراج مجموعه کوچکی از الگوهای نوظهور با قابلیت پیش بینی قوی، از مسائل مهم در ایجاد یک کلاسه بند بر پایه الگوهای نوظهور است. در دنیای واقعی، ویژگی ها همیشه بطور کامل در دسترس نیستند؛ بر این اساس، مسئله سخت تر می شود وقتی که مجموعه ویژگی ها قبل از شروع فرآیند یادگیری ناشناخته باشد. ویژگی های جریانی عنوان ویژگی هایی است که بصورت برخط تولید می شوند و در همان زمان تولید پردازش می شوند. در این طرح، ویژگی ها یکی یکی به مرور زمان پدیدار می شوند بجای اینکه تمام ویژگی ها قبل از فرآیند یادگیری آماده باشند.

در این مطالعه، ما ساختار دینامیک از درخت الگوی مکرر پیشنهاد می دهیم تا درخت به محض ورود ویژگی های جدید ساخته شود و استخراج الگوهای نوظهور بصورت برخط صورت گیرد. DFP-SEPSF، یک روش موثر پایین به بالا ارائه می دهد تا یک درخت الگوی مکرر دینامیک نامرتب UDFP-tree و یک درخت الگوی مکرر دینامیک مرتب ODFP-tree بسازد. اولین روش ترتیب آیتم ها را در نظر نمی گیرد، در حالیکه دومین روش ترتیب آیتم ها را اعمال می کند.

بعلاوه، چارچوب پیشنهادی الگوهای نوظهور قوی را استخراج می کند تا یک کلاسه بند قوی و سریع ایجاد کند که می تواند با نویز مقابله کند.

روش پیشنهادی فضای جستجوی الگوهای نوظهور را بطور قابل توجهی کاهش می دهد و الگوهای نوظهور با قدرت تمایز قوی را با کمک حذف الگوهای بی فایده استخراج می کند.

روش ارائه شده الگوهای نوظهور را برای هر کلاس بصورت همزمان کشف می کند و بعلاوه، فرآیند تولید درخت های الگوی مکرر را بصورت کارایی در راستای کاهش محاسبات، هدایت می کند.

ارزیابی تجربیات ما بر روی محدوده وسیعی از داده ها، اثربخشی روش پیشنهادی را در مقایسه با دیگر روش های شناخته شده از نظر دقت پیش بینی، تعداد الگوهای استخراجی و زمان اجرا نشان می دهد.

فصل اول: مقدمه

1-1- مقدمه

کلاسه بندی[1] یکی از وظایف اساسی در داده کاوی[2] است که بطور وسیعی در زمینه یادگیری ماشین[3]، شبکه های عصبی[4] و تشخیص الگو[5] مورد مطالعه واقع شده است. ورودی، مجموعه ای از نمونه های آموزشی[6] است که شامل چندین ویژگی[7] است. ویژگی ها با توجه به دامنه مقادیرشان به دو دسته ویژگی های گسسته[8] و ویژگی های پیوسته[9]قابل تفکیک هستند. در حالت کلی، یک کلاسه بند[10]، توصیف مختصر و معنادار (مدل[11]) برای هر برچسب کلاس[12] در رابطه با ویژگی ها تولید می کند. سپس، مدل برای پیش بینی برچسب کلاس نمونه های ناشناخته[13] بکار می رود. کلاسه بندی همچنین بعنوان یادگیری با ناظر[14] نیز شناخته می شود که در آن هر نمونه آموزشی دارای برچسب کلاس است. در حالی که، یادگیری بدون ناظر[15] یا خوشه بندی[16] جستجو می کند و گروه های همگن از اشیا را بر اساس مقادیر ویژگی هایشان دسته بندی می کند؛ در واقع، نمونه ها دارای برچسب کلاس نیستند. کلاسه بندی در محدوده وسیعی از کاربردها از جمله آزمایشات علمی[17]، تشخیص دارو[18]، پیش بینی آب و هوا[19]، تایید اعتبار[20]، تقسیم بندی مشتری[21]، بازاریابی هدف[22] و تشخیص تقلب[23] بطور موفقیت آمیزی بکار می رود.

برای دانلود متن کامل پایان نامه اینجا کلیک کنید