توضیحات کامل :

دانلود پایان‌نامه كارشناسی ارشد مهندسی فناوری اطلاعات 

شناسایی علل تاثیرگذار در بروز انواع بیماری های تنفسی با داده کاوی

مطالعه موردی بیمارستان تخصصی کودکان حضرت فاطمه معصومه (س) )
 
 
 
 
چکیده
بیماری تنفسی که عموما در ارتباط با بیماری ریوی است، شامل گروهی از بیماری ها هستند که از طریق درگیر کردن بخش یا قسمت هایی از دستگاه تنفس باعث اختلال در عملکرد ریه ها می گردند. ریه ها مهم ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت های مختلف بدن و دفع دی اکسیدکربن نقش دارند. بیماری های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می کنند که باعث کاهش سطح عملکرد فرد در فعالیت های روزمره می گردند. بیماری های دستگاه تنفسی در انگلستان شایع-ترین عامل مراجعه به پزشکان عمومی است. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری های ریوی می توانند عفونت دستگاه تنفسی فوقانی، پنومونی و یا بیماری مزمن انسدادی ریه باشند.
 
بیماری های ریوی یکی از عوامل مهم مرگ و میر افراد در سراسر جهان هستند. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری ها در همان ابتدای روزهای بستری است. تکنیک های داده کاوی می توانند دانش نهفته در پایگاه های داده را استخراج و در پیش گیری، تشخیص و معالجه ی این بیماری ها به پزشک و بیمار کمک کنند. در این تحقیق، با مقایسه ی سیستم های رده بندی متفاوت و مقایسه ی روش های یادگیری داده های نامتوازن با الگوریتم پایه، در نهایت، سیستم رده بندی ارائه شده که می تواند در تشخیص انواع بیماری های تنفسی به پزشکان کمک کند. سرانجام، به شناسایی عوامل موثر در بروز بیماری های تنفسی پرداخته شده است.
 
 
 
کلمات کلیدی:

رده بندی

داده کاوی پزشکی

تشخیص بیماری های تنفسی

مجموعه داده های نامتوازن

 
 
 
 موضوع تحقیق
بیماری تنفسی  که عموما در ارتباط با بیماری ریوی  است، شامل گروهی از بیماری ها هستند که از طریق درگیر کردن بخش یا قسمت هایی از دستگاه تنفس  باعث اختلال در عملکرد ریه  ها می گردند. ریه ها مهم ترین قسمت دستگاه تنفسی هستند که در عمل تبادل گازهای تنفسی جهت تامین اکسیژن بافت های مختلف بدن و دفع دی اکسیدکربن نقش دارند. بیماری های ریوی در هر سال بسیاری از افراد جامعه را مبتلا می کنند که باعث کاهش سطح عملکرد فرد در فعالیت های روزمره می گردند. بیماری های دستگاه تنفسی در انگلستان شایع-ترین عامل مراجعه به پزشکان عمومی است[1]. میزان اختلال در عملکرد تنفس در یک بیماری ریوی به نوع بیماری و وسعت آسیب وارده بستگی دارد. بیماری های ریوی می توانند عفونت دستگاه تنفسی فوقانی ، پنومونی  و یا بیماری مزمن انسدادی ریه  باشند. 
 
بیماری های مزمن تنفسی از 10 مورد بیماری های تهدید کننده حیات در جهان هستند . مطابق آمار سازمان بهداشت جهانی ، صدها میلیون نفر از جمعیت جهان از بیماری های مزمن تنفسی رنج می برند. پیش بینی می شود تا سال 2030 میلادی به سومین عامل مرگ و میر در جهان بعد از بیماری های قلبی و عروقی و سرطان ها تبدیل گردد[1]. فاکتور اصلی ما در این روند، تشخیص سریع و صحیح این بیماری در همان ابتدای روزهای بستری است.
تکنیک های داده کاوی  علاوه بر این که می توانند در تشخیص سریع این بیماری ها موثر باشند، می توانند از طریق شناسایی عوامل موثر در بروز انواع بیماری های تنفسی، به پیش گیری از این بیماری ها کمک کنند و به  این ترتیب باعث ارتقای سلامت جامعه شده و از تحمیل هزینه های سنگین ناشی از تشخیص نادرست، بر بیماران جلوگیری کنند.
 
 
 
 
فهرست مطالب
 
فصل1: مقدمه............................................................................................................................1
1-1. موضوع تحقیق........................................................................................................2
1-2. اهمیت و ضرورت تحقیق........................................................................................3
1-3. قلمرو تحقیق...........................................................................................................4
1-4. فرضیه های تحقیق...................................................................................................4
1-5. سوالات تحقیق.......................................................................................................5
1-6. اهداف و کاربردهای تحقیق....................................................................................5
1-7. نوآوری در تحقیق..................................................................................................6
1-7-1. موضوع و داده های استفاده شده در تحقیق.....................................................6
1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب.....................................................6
1-8.. محدودیت های تحقیق............................................................................................6
1-9. ساختار پایان-نامه......................................................................................................7
 
فصل2: ادبیات تحقیق.................................................................................................................8
2-1. مقدمه.....................................................................................................................9
2-2. داده-کاوی...............................................................................................................9
2-2-1. مفهوم داده-کاوی...........................................................................................9
2-2-2. مراحل داده-کاوی........................................................................................10
2-2-3. پیش-پردازش...............................................................................................10
2-2-3-1. پاک سازی داده.................................................................................11
2-2-3-2. یکپارچه سازی داده............................................................................11
2-2-3-3. تبدیل داده.........................................................................................11
2-2-3-4. کاهش داده.......................................................................................12
2-2-3-5. تصویرکردن برای کاهش بعد............................................................12
2-2-4. داده-کاوی...................................................................................................13
2-2-5. پس-پردازش................................................................................................14
2-2-6. کاربردهای داده-کاوی.................................................................................14
2-3. داده کاوی در پزشکی...........................................................................................14
2-4. بیماری تنفسی.......................................................................................................16
2-4-1. عفونت دستگاه تنفسی فوقانی......................................................................17
2-4-2. پنومونی......................................................................................................17
2-4-3. بیماری مزمن انسدادی ریه...........................................................................18
2-5. الگوریتم های رده-بندی..........................................................................................18
2-5-1. درخت تصمیم............................................................................................19
2-5-1-1. CHAID........................................................................................20
2-5-1-2. ID3................................................................................................20
2-5-1-3. C5.0...............................................................................................21
2-5-2. ماشین بردار پشتیبان.....................................................................................21
2-5-3. شبکه ی عصبی............................................................................................24
2-5-4. Bagging.................................................................................................25
2-5-5. AdaBoost.............................................................................................27
2-6. پیشینه ی تحقیقات در بیماری های تنفسی................................................................30
 

فصل3: داده های نامتوازن.........................................................................................................32

3-1. مقدمه...................................................................................................................33
3-2. روش های یادگیری در داده های نامتوازن...............................................................33
3-2-1. نمونه-برداری................................................................................................33
3-2-1-1. بیش نمونه برداری تصادفی..................................................................34
3-2-1-2. زیرنمونه برداری تصادفی....................................................................34
3-2-1-3. نمونه برداری آگاهانه.........................................................................34
3-2-1-3-1. EasyEnsemble................................................................35
3-2-1-3-2. ModifiedBagging..........................................................36
3-2-1-4. ترکیب نمونه برداری و تولید داده.......................................................37
3-2-2. روش های حساس به هزینه...........................................................................39
3-3. معیارهای ارزیابی رده بند در داده های نامتوازن.......................................................41
3-4. معیارهای ارزیابی رده بند در داده های نامتوازن و چند رده-ای..................................44
3-4-1. میانگین گیری میکرو...................................................................................46
3-4-2. میانگین گیری ماکرو....................................................................................46
 
فصل4: پیش پردازش داده-ها.....................................................................................................47
4-1. مقدمه...................................................................................................................48
4-2. جمع آوری داده-ها.................................................................................................48
4-3. ویژگی های داده-ها................................................................................................48
4-4. نحوه توزیع داده ها براساس ویژگی-ها....................................................................51
4-4-1. نوع بیماری تنفسی.......................................................................................51
4-4-2. سن.............................................................................................................52
4-5. پیش پردازش های انجام شده..................................................................................53
4-5-1. حذف ویژگی های اضافی............................................................................53
4-5-2. حذف یا اصلاح رکورد...............................................................................53
4-5-3. یکپارچه سازی داده.....................................................................................54
4-5-4. تبدیل مقادیر ویژگی...................................................................................55
4-5-4-1. تفسیر آزمایش های انجام شده روی بیماران........................................55
4-5-4-2. WBC (White Blood Cell)...................................................56
4-5-4-3. چه چیزهایی باعث کاهش WBC می-شود؟......................................56
4-5-4-4. چه چیزهایی باعث افزایش WBC می-شود؟......................................56
4-5-4-5. جدول گسسته سازی WBC..............................................................57
4-5-4-6.  RBC(Red Blood Cell).........................................................57
4-5-4-7. چه چیزهایی باعث کاهش RBC می-شود؟.......................................57
4-5-4-8. چه چیزهایی باعث افزایش RBC می-شود؟.......................................58
4-5-4-9. جدول گسسته سازی RBC...............................................................58
4-5-4-10. Hb (Hemoglobin).................................................................58
4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین می-شود؟...............................59
4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین می-شود؟..............................59
4-5-4-13. جدول گسسته سازی هموگلوبین......................................................59
4-5-4-14. HCT (Hematocrit)................................................................59
4-5-4-15. چه چیزهایی باعث کاهش HCT می-شود؟.....................................60
4-5-4-16. چه چیزهایی باعث افزایش HCT می-شود؟.....................................60
4-5-4-17. جدول گسسته سازی HCT.............................................................60
4-5-4-18. Plt یا پلاکت-ها..............................................................................60
4-5-4-19. چه چیزهایی پلاکت را کاهش می-دهد؟..........................................61
4-5-4-20. چه چیزهایی پلاکت را افزایش می-دهد؟..........................................61
4-5-4-21. جدول گسسته سازی پلاکت............................................................61
4-5-4-22. اجزای دیگر آزمایش خون..............................................................61
4-5-4-23. جدول گسسته سازی MCV، MCH و MCHC..........................62
4-5-4-24. CRP (C-Reactive Protein)................................................63
4-5-4-25. در چه شرایطی CRP افزایش پیدا می-کند؟.....................................63
4-5-4-26. در چه شرایطی CRP کاهش پیدا می-کند؟.....................................63
4-5-4-27. جدول گسسته سازی CRP.............................................................63
4-5-4-28. ESR (Erythrocyte Sedimentation Rate).....................64
4-5-4-29. جدول گسسته سازی ESR..............................................................64
4-5-4-30. جدول گسسته سازی BS (Blood Suger)..................................64
4-5-5. ویژگی داده ها پس از پیش پردازش نهایی.....................................................64
4-6 نمونه-برداری..........................................................................................................67
 
فصل5: نتایج و یافته های تحقیق................................................................................................69
5-1. مقدمه...................................................................................................................70
5-2. رده-بندی...............................................................................................................70
5-2-1. مقایسه ی الگوریتم های پایه..........................................................................70
5-2-2. مقایسه ی روش های یادگیری در داده های نامتوازن.......................................74
 
فصل6: نتیجه گیری و پیشنهادات...............................................................................................79
6-1. مقدمه...................................................................................................................80
6-2. نتیجه-گیری...........................................................................................................80
6-3. پیشنهادها..............................................................................................................82
6-3-1. مجموعه ی داده...........................................................................................82
6-3-2. داده-کاوی...................................................................................................82
مراجع.....................................................................................................................................83
پیوست الف: واژه نامه انگلیسی به فارسی.................................................................................. 92
 
 
 
 
 
 
 
 
فهرست جدول ها
جدول3-1: ماتریس اغتشاش برای مسائل دودویی....................................................................41
جدول3-2: ماتریس اغتشاش برای مسائل چند رده-ای...............................................................44
جدول4-1: ویژگی های موجود در مجموعه داده اولیه..............................................................49
جدول4-2: اسامی ویژگی ها پس از برخی از مراحل پیش-پردازش.............................................54
جدول4-3: رده بندی فیلد سن به گروه سنی..............................................................................55
جدول 4-4: رده بندی فیلد آزمایش WBC.............................................................................57
جدول 4-5: رده بندی فیلد آزمایش RBC...............................................................................58
جدول 4-6: رده بندی فیلد آزمایش Hb...................................................................................59
جدول 4-7: رده بندی فیلد آزمایش HCT...............................................................................60
جدول 4-8: رده بندی فیلد آزمایش PLT................................................................................61
جدول 4-9: رده بندی فیلد آزمایش MCV.............................................................................62
جدول 4-10: رده بندی فیلد آزمایش MCH...........................................................................62
جدول 4-11: رده بندی فیلد آزمایش MCHC.......................................................................62
جدول 4-12: رده بندی فیلد آزمایش CRP.............................................................................63
جدول 4-13: رده بندی فیلد آزمایش ESR.............................................................................64
جدول 4-14: رده بندی فیلد آزمایش BS................................................................................64
جدول4-15: ویژگی های مجموعه داده ثانویه پس از پیش پردازش نهایی...................................65
 
 
 
 
 
 
فهرست شکل ها
شکل2-1: نمونه ای از یک درخت تصمیم................................................................................19
شکل2-2: یک مجموعه ی آموزش دوبعدی که داده های آن به صورت خطی قابل جداسازی است.......................................................................................................................................22
شکل2-3: دو خط جداساز با حاشیه های مختلف......................................................................23
شکل2-4: افزایش صحت مدل با استفاده از Bagging...........................................................25
شکل2-5: شبه کد الگوریتم Bagging...................................................................................26
شکل2-6: شبه کد الگوریتم AdaBoost................................................................................28
شکل3-1: شبه کد الگوریتم EasyEnsemble......................................................................36
شکل3-2: شبه کد الگوریتم ModifiedBagging...............................................................37
شکل3-3: (a) kتا از نزدیک ترین همسایه های xi با فرض k=6
(b) تولید داده براساس فاصله ی اقلیدسی..................................................................38
شکل3-4: ماتریس هزینه ی چندرده-ای.....................................................................................40
شکل4-1: توزیع داده ها براساس نوع بیماری تنفسی..................................................................52
شکل4-2: توزیع داده ها براساس سن........................................................................................52
شکل4-3: نمونه برداری طبقه بندی شده....................................................................................68
شکل5-1: مقایسه ی الگوریتم های پایه (حاصل اعمال مدل روی مجموعه ی آزمون)..................71
شکل5-2: مقایسه ی کارایی الگوریتم ها در تشخیص رده های مختلف.......................................72
شکل5-3: مقایسه ی الگوریتم های پایه (حاصل اعمال مدل روی مجموعه ی آموزش)................73
شکل5-4: مقایسه ی نتایج حاصل از روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون.....................................................................................................................................75
شکل5-5: مقایسه ی حساسیت روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون به تفکیک رده-ها......................................................................................................................76
شکل5-6: مقایسه ی دقت روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون به تفکیک رده-ها........................................................................................................................76
شکل5-7: مقایسه ی معیارF روش های یادگیری در داده های نامتوازن روی مجموعه ی آزمون به تفکیک رده-ها.........................................................................................................................78 
 
 
 
 
 
فهرست نشانه ها و اختصارها (Abreviations)
World Health Organization (WHO)
Magnetic Resonance Imaging (MRI)
Customer Relationship Management (CRM)
Chi-squared Automatic Interaction Detector (CHAID)
Iterative Dichotomiser3 (ID3)
Traditional Chinese Medicine (TCM)
Synthetic Minority Oversampling Technique (SMOTE)
White Blood Cell (WBC)
Red Blood Cell (RBC)
Hemoglobin (Hb)
Mean Corpuscular Volume (MCV)
Mean Corpuscular Hemoglobin (MCH)
Mean Corpuscular Hemoglobin Concentration (MCHC)
C-Reactive Protein (CRP)
Erytherocyte Sedimentation Rate (ESR)