دانلود پایان نامه مهندسی فناوری اطلاعات: استفاده از داده­ کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی

دانشگاه قم

دانشکده فنی­ومهندسی

پایان­نامه دوره کارشناسی­ارشد مهندسی­فناوری­اطلاعات (IT)

عنوان:

استفاده از داده­کاوی برای ارائه چارچوبی جهت کشف الگوهای پزشکی و ایجاد یک سیستم تشخیص، تصمیم و تجویز، مطالعه موردی: بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س)

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

 

چکیده

بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماری­ها هستند که از طریق درگیر کردن بخش یا قسمت­هایی از دستگاه تنفس باعث اختلال در عملکرد ریه­ها می­گردند. ریه­ها مهم­ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت­های مختلف بدن و دفع دی­اکسیدکربن نقش دارند. بیماری­های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می­کنند که باعث کاهش سطح عملکرد فرد در فعالیت­های روزمره می­گردند. بیماری­های دستگاه تنفسی در انگلستان شایع­ترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری­های ریوی می­توانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند. بیماری­های ریوی یکی از عوامل مهم مرگ­و­میر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری­ها در همان ابتدای روزهای بستری است. تکنیک­های داده­کاوی می­توانند دانش نهفته در پایگاه­های داده را استخراج و در پیش­گیری، تشخیص و معالجه­ی این بیماری­ها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسه­ی سیستم­های رده­بندی متفاوت و مقایسه­ی روش­های یادگیری داده­های نامتوازن با الگوریتم پایه، در نهایت، سیستم رده­بندی ارائه شده که می­تواند در تشخیص انواع بیماری­های تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماری­های تنفسی پرداخته شده است.

 

کلمات کلیدی: داده­کاوی پزشکی، رده­بندی، تشخیص بیماری­های تنفسی، مجموعه داده­های نامتوازن.

 

 

فهرست مطالب

عنوان                                                                                                         صفحه

فصل1: مقدمه…………………………………………………………………………………………………………….1

1-1. موضوع تحقیق…………………………………………………………………………………………..2

1-2. اهمیت و ضرورت تحقیق…………………………………………………………………………….3

1-3. قلمرو تحقیق……………………………………………………………………………………………..4

1-4. فرضیه­های تحقیق………………………………………………………………………………………4

1-5. سوالات تحقیق………………………………………………………………………………………….5

1-6. اهداف و کاربردهای تحقیق…………………………………………………………………………5

1-7. نوآوری در تحقیق……………………………………………………………………………………..6

1-7-1. موضوع و داده­های استفاده شده در تحقیق……………………………………………..6

1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب……………………………………………..6

1-8.. محدودیت­های تحقیق………………………………………………………………………………..6

1-9. ساختار پایان­نامه…………………………………………………………………………………………7

فصل2: ادبیات تحقیق…………………………………………………………………………………………………..8

2-1. مقدمه………………………………………………………………………………………………………9

2-2. داده­کاوی…………………………………………………………………………………………………9

2-2-1. مفهوم داده­کاوی……………………………………………………………………………….9

2-2-2. مراحل داده­کاوی…………………………………………………………………………….10

2-2-3. پیش­پردازش…………………………………………………………………………………..10

2-2-3-1. پاک­سازی داده………………………………………………………………………11

2-2-3-2. یکپارچه­سازی داده………………………………………………………………….11

2-2-3-3. تبدیل داده……………………………………………………………………………..11

2-2-3-4. کاهش داده……………………………………………………………………………12

2-2-3-5. تصویرکردن برای کاهش بعد……………………………………………………12

2-2-4. داده­کاوی………………………………………………………………………………………13

2-2-5. پس­پردازش……………………………………………………………………………………14

2-2-6. کاربردهای داده­کاوی………………………………………………………………………14

2-3. داده­کاوی در پزشکی……………………………………………………………………………….14

2-4. بیماری تنفسی………………………………………………………………………………………….16

2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17

2-4-2. پنومونی…………………………………………………………………………………………17

2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18

2-5. الگوریتم­های رده­بندی………………………………………………………………………………18

2-5-1. درخت تصمیم………………………………………………………………………………..19

2-5-1-1. CHAID…………………………………………………………………………….20

2-5-1-2. ID3……………………………………………………………………………………20

2-5-1-3. C5.0…………………………………………………………………………………..21

2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21

2-5-3. شبکه­ی عصبی………………………………………………………………………………..24

2-5-4. Bagging…………………………………………………………………………………….25

2-5-5. AdaBoost…………………………………………………………………………………27

2-6. پیشینه­ی تحقیقات در بیماری­های تنفسی……………………………………………………….30

فصل3: داده­های نامتوازن……………………………………………………………………………………………32

3-1. مقدمه…………………………………………………………………………………………………….33

3-2. روش­های یادگیری در داده­های نامتوازن………………………………………………………33

3-2-1. نمونه­برداری……………………………………………………………………………………33

3-2-1-1. بیش­نمونه­برداری تصادفی…………………………………………………………34

3-2-1-2. زیرنمونه­برداری تصادفی…………………………………………………………..34

3-2-1-3. نمونه­برداری آگاهانه……………………………………………………………….34

3-2-1-3-1. EasyEnsemble……………………………………………………….35

3-2-1-3-2. ModifiedBagging………………………………………………….36

3-2-1-4. ترکیب نمونه­برداری و تولید داده……………………………………………….37

3-2-2. روش­های حساس به هزینه…………………………………………………………………39

3-3. معیارهای ارزیابی رده­بند در داده­های نامتوازن……………………………………………….41

3-4. معیارهای ارزیابی رده­بند در داده­های نامتوازن و چند رده­ای…………………………….44

3-4-1. میانگین­گیری میکرو………………………………………………………………………..46

3-4-2. میانگین­گیری ماکرو…………………………………………………………………………46

فصل4: پیش­پردازش داده­ها………………………………………………………………………………………..47

4-1. مقدمه…………………………………………………………………………………………………….48

4-2. جمع­آوری داده­ها…………………………………………………………………………………….48

4-3. ویژگی­های داده­ها……………………………………………………………………………………48

4-4. نحوه توزیع داده­ها براساس ویژگی­ها…………………………………………………………..51

4-4-1. نوع بیماری تنفسی……………………………………………………………………………51

4-4-2. سن……………………………………………………………………………………………….52

4-5. پیش­پردازش­های انجام شده……………………………………………………………………….53

4-5-1. حذف ویژگی­های اضافی………………………………………………………………….53

4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53

4-5-3. یکپارچه­سازی داده………………………………………………………………………….54

4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55

4-5-4-1. تفسیر آزمایش­های انجام شده روی بیماران………………………………….55

4-5-4-2. WBC (White Blood Cell)……………………………………………56

4-5-4-3. چه چیزهایی باعث کاهش WBC می­شود؟………………………………..56

4-5-4-4. چه چیزهایی باعث افزایش WBC می­شود؟………………………………..56

4-5-4-5. جدول گسسته­سازی WBC……………………………………………………..57

4-5-4-6.  RBC(Red Blood Cell)…………………………………………………57

4-5-4-7. چه چیزهایی باعث کاهش RBC می­شود؟…………………………………57

4-5-4-8. چه چیزهایی باعث افزایش RBC می­شود؟…………………………………58

4-5-4-9. جدول گسسته­سازی RBC………………………………………………………58

4-5-4-10. Hb (Hemoglobin)………………………………………………………..58

4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین می­شود؟………………………….59

4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین می­شود؟…………………………59

4-5-4-13. جدول گسسته­سازی هموگلوبین………………………………………………59

4-5-4-14. HCT (Hematocrit)……………………………………………………….59

4-5-4-15. چه چیزهایی باعث کاهش HCT می­شود؟……………………………….60

4-5-4-16. چه چیزهایی باعث افزایش HCT می­شود؟……………………………….60

4-5-4-17. جدول گسسته­سازی HCT…………………………………………………….60

4-5-4-18. Plt یا پلاکت­ها……………………………………………………………………60

4-5-4-19. چه چیزهایی پلاکت را کاهش می­دهد؟……………………………………61

4-5-4-20. چه چیزهایی پلاکت را افزایش می­دهد؟……………………………………61

4-5-4-21. جدول گسسته­سازی پلاکت……………………………………………………61

4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61

4-5-4-23. جدول گسسته­سازی MCV، MCH و MCHC……………………..62

4-5-4-24. CRP (C-Reactive Protein)…………………………………………63

4-5-4-25. در چه شرایطی CRP افزایش پیدا می­کند؟……………………………….63

4-5-4-26. در چه شرایطی CRP کاهش پیدا می­کند؟……………………………….63

4-5-4-27. جدول گسسته­سازی CRP…………………………………………………….63

4-5-4-28. ESR (Erythrocyte Sedimentation Rate)…………………64

4-5-4-29. جدول گسسته­سازی ESR……………………………………………………..64

4-5-4-30. جدول گسسته­سازی BS (Blood Suger)…………………………….64

4-5-5. ویژگی داده­ها پس از پیش­پردازش نهایی……………………………………………..64

4-6 نمونه­برداری…………………………………………………………………………………………….67

فصل5: نتایج و یافته­های تحقیق……………………………………………………………………………………69

5-1. مقدمه…………………………………………………………………………………………………….70

5-2. رده­بندی…………………………………………………………………………………………………70

5-2-1. مقایسه­ی الگوریتم­های پایه………………………………………………………………..70

5-2-2. مقایسه­ی روش­های یادگیری در داده­های نامتوازن…………………………………74

فصل6: نتیجه­گیری و پیشنهادات…………………………………………………………………………………..79

6-1. مقدمه…………………………………………………………………………………………………….80

6-2. نتیجه­گیری……………………………………………………………………………………………..80

6-3. پیشنهادها………………………………………………………………………………………………..82

6-3-1. مجموعه­ی داده……………………………………………………………………………….82

6-3-2. داده­کاوی………………………………………………………………………………………82

مراجع…………………………………………………………………………………………………………………….83

پیوست الف: واژه­نامه انگلیسی به فارسی………………………………………………………………………. 92

 

 

فهرست جدول­ها

عنوان                                                                                                          صفحه

جدول3-1: ماتریس اغتشاش برای مسائل دودویی…………………………………………………………..41

جدول3-2: ماتریس اغتشاش برای مسائل چند رده­ای………………………………………………………44

جدول4-1: ویژگی­های موجود در مجموعه داده اولیه……………………………………………………..49

جدول4-2: اسامی ویژگی­ها پس از برخی از مراحل پیش­پردازش………………………………………54

جدول4-3: رده­بندی فیلد سن به گروه سنی……………………………………………………………………55

جدول 4-4: رده­بندی فیلد آزمایش WBC…………………………………………………………………..57

جدول 4-5: رده­بندی فیلد آزمایش RBC…………………………………………………………………….58

جدول 4-6: رده­بندی فیلد آزمایش Hb………………………………………………………………………..59

جدول 4-7: رده­بندی فیلد آزمایش HCT…………………………………………………………………….60

جدول 4-8: رده­بندی فیلد آزمایش PLT……………………………………………………………………..61

جدول 4-9: رده­بندی فیلد آزمایش MCV…………………………………………………………………..62

جدول 4-10: رده­بندی فیلد آزمایش MCH…………………………………………………………………62

جدول 4-11: رده­بندی فیلد آزمایش MCHC……………………………………………………………..62

جدول 4-12: رده­بندی فیلد آزمایش CRP…………………………………………………………………..63

جدول 4-13: رده­بندی فیلد آزمایش ESR…………………………………………………………………..64

جدول 4-14: رده­بندی فیلد آزمایش BS……………………………………………………………………..64

جدول4-15: ویژگی­های مجموعه داده ثانویه پس از پیش­پردازش نهایی……………………………..65

 

 

فهرست شکل­ها

عنوان                                                                                                          صفحه

شکل2-1: نمونه­ای از یک درخت تصمیم……………………………………………………………………..19

شکل2-2: یک مجموعه­ی آموزش دوبعدی که داده­های آن به صورت خطی قابل جداسازی است………………………………………………………………………………………………………………………22

شکل2-3: دو خط جداساز با حاشیه­های مختلف…………………………………………………………….23

شکل2-4: افزایش صحت مدل با استفاده از Bagging…………………………………………………..25

شکل2-5: شبه­کد الگوریتم Bagging………………………………………………………………………..26

شکل2-6: شبه­کد الگوریتم AdaBoost……………………………………………………………………..28

شکل3-1: شبه­کد الگوریتم EasyEnsemble…………………………………………………………….36

شکل3-2: شبه­کد الگوریتم ModifiedBagging………………………………………………………37

شکل3-3: (a) kتا از نزدیک­ترین همسایه­های xi با فرض k=6

(b) تولید داده براساس فاصله­ی اقلیدسی…………………………………………………………38

شکل3-4: ماتریس هزینه­ی چندرده­ای………………………………………………………………………….40

شکل4-1: توزیع داده­ها براساس نوع بیماری تنفسی…………………………………………………………52

شکل4-2: توزیع داده­ها براساس سن…………………………………………………………………………….52

شکل4-3: نمونه­برداری طبقه­بندی شده…………………………………………………………………………68

شکل5-1: مقایسه­ی الگوریتم­های پایه (حاصل اعمال مدل روی مجموعه­ی آزمون)………………71

شکل5-2: مقایسه­ی کارایی الگوریتم­ها در تشخیص رده­های مختلف…………………………………72

شکل5-3: مقایسه­ی الگوریتم­های پایه (حاصل اعمال مدل روی مجموعه­ی آموزش)…………….73

شکل5-4: مقایسه­ی نتایج حاصل از روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون…………………………………………………………………………………………………………………….75

شکل5-5: مقایسه­ی حساسیت روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون به تفکیک رده­ها……………………………………………………………………………………………………….76

شکل5-6: مقایسه­ی دقت روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون به تفکیک رده­ها…………………………………………………………………………………………………………76

شکل5-7: مقایسه­ی معیارF روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون به تفکیک رده­ها………………………………………………………………………………………………………….78

 

2-1. مقدمه

در این تحقیق، داده­های مربوط به بیماری­های تنفسی با استفاده از روش­های داده­کاوی مورد بررسی قرار گرفته­اند. به همین جهت در این بخش پس از مرور مختصری بر روش­ها و مراحل داده­کاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتم­های داده­کاوی مورد استفاده در این تحقیق و همچنین پیشینه­ی تحقیقات انجام شده در بیماری­های تنفسی پرداخته­ایم.

برای دانلود متن کامل پایان نامه اینجا کلیک کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *