2-15 آنتروپی62
2-16 هرس درخت تصمیم تولیدشده64
2-17 شبکه عصبی مصنوعی65
2-18 ماتریس تداخل69
2-19 واسط K-FOLD CROSS VALIDATION72
2-20 قوانین انجمنی74
2-21 مرور ادبیات و سوابق مربوطه75
2-22 خلاصه فصل76
فصل سوم فرایند داده کاوی، معرفی و ارزیابی الگوریتم ها
3-1 معرفی نرم افزار RAPID MINER 5:61
3-2 واسط کاربری RAPID MINER 561
3-3 نحوه کار با RAPID MINER 562
3-3-1 انبارهها62
3-3-2 عملگرها63
3-3-3 تب پردازش64
3-3-4 تب پارامترها64
3-3-5 تب مشکلات64
3-3-6 تب کمک65
3-3-7 تب توضیحات و تب XML65
3-4 مقدمه66
3-5 متدولوژی CRISP-DM66
3-6 شروع داده کاوی67
3-6-1 درک کسب و کار67
3-6-2 درک دادهها67
3-6-3 آماده سازی دادهها68
3-6-3-1 تولید دادههای آموزشی69
3-6-3-2 تولید دادههای تست و ارزیابی69
3-6-4 ساخت مدل70
3-6-4-1 افزودن انبارهای داده به نرم افزار70
3-6-4-2 درخت تصمیم71
3-6-4-3 اعمال مدل درخت تصمیم و تست و ارزیابی کار75
3-6-4-4 شبکه عصبی79
3-6-4-5 روشهای ترکیبی81
3-6-5 نتیجه گیری82
فصل چهارم: نتیجه‌گیری و راهکار آینده
4-1 نتیجه گیری84
4-2 راهکار آینده84
واژه‌نامه فارسی به انگلیسی85
فهرست شکلها
شکل 1- مدل فرآیند CRISP-DM برای کاربردهای داده کاوی]9[20
شکل (2-1): معماری سیستم مبتنی بر داده کاوی [42].59
شکل (2-2): تغییر میزان آنتروپی را برای مجموعه‌ای با دو کلاس63
شکل (2-3): توابع نرمال سازی [40]67
نمودار(2-1): تقریب خطی73
شکل(3-1): صفحه نخست نرم افزار RAPID MINER 562
شکل 3-2: خروجی شیها63
شکل 3-3: خروجی قسمت مدل (شبکه عصبی)63
شکل 3-4: خروجی قسمت اطلاعات64
شکل (4-1): متدولوژی CRISP-DM67
شکل (4-2): نحوه افزودن فایل دادهای به برنامه70
شکل (4-3): نحوه انتخاب نوع سطر71
شکل(4-4): آدرس عملگر درخت تصمیم71
شکل(4-5): آدرس عملگر SET ROLE72
شکل(4-6): آدرس عملگر SELECT ATTRIBUTE72
شکل(4-7): آدرس عملگر DISCRETIZE BY FREQUENCY72
شکل(4-8): نحوه اتصال عملگرها73
شکل(4-9): درخت حاصل از دادههای آموزشی با تابع هدف نسبت بهره اطلاعاتی74
شکل(4-10): درخت حاصل از دادههای آموزشی با تابع هدف آنتروپی75
شکل (4-11): درخت حاصل از دادههای آموزشی با تابع هدف پراکندگی جمعیت(جینی)75
شکل(4-12): آدرس عملگر APPLY MODEL76
شکل(4-13): اتصالات تب پردازش در مرحله اعمال مدل76
نمودار (4-1): پیشبینی حاصل از الگوهای درخت تصمیم با تابع هدف نسبت بهره اطلاعاتی77
نمودار(4-2): پیشبینی حاصل از الگوهای درخت تصمیم با تابع هدف آنتروپی77
نمودار(4-3): پیشبینی حاصل از الگوهای درخت تصمیم با تابع هدف پراکندگی جمعیت(جینی)78
شکل (4-15): اتصالات عملگرها جهت تشکیل مدل شبکه عصبی79
شکل(4-16): ساختار شبکه عصبی80
نمودار (4-4): نتیجه تشخیص شبکه عصبی80
نمودار(4-6): نتایج حاصل از اجرای شبکه عصبی بر دادههای خرابی پیشبینی شده توسط درخت تصمیم82
فهرست جداول
جدول (2-1): مقایسه آنالیز آماری و داده کاوی ………………………………………………………………….. 53
جدول (2-2) کلاس های پیش بینی . ………………………………………………………………………………69
جدول (2-3): ماتریس تداخل…………………………………………………………………………………………… 70
جدول(2-4): مجموعه اعتبار سنجی…………………………………………………………………………………… 74
جدول) 3-1(: دادههای مورد استفاده در تشخیص کنتورخراب……………………………………………….. 68
جدول (4-3): نتایج حاصل از ارزیابی نتایج درختهای تصمیم ایجاد شده………………………………… 78
جدول (4-3): مقادیر پارامترهای عملگر شبکه عصبی………………………………………………………….. 79
فصل اول
کلیات تحقیق
این فصل به تعریف مسأله و راهکار کلی می‌پردازد. در ابتدا سعی می‌شود که مسأله تعریف شود. سپس اهمیت و ضرورت مسأله، اهداف و فرضیه‌ها شرح داده می‌شود و در نهایت ساختار این پژوهش، توضیح داده می‌شود.
1-1 بیان مسأله
ظرفیت ذخیره سازی داده های دیجیتال در سراسر جهان هر نه ماه برای حداقل یک دهه دو برابر شده است، در صورتی که در دو برابر مدت مشابه طبق پیش بینی قانون مور1 قدرت محاسباتی و سرعت رشد میکند]1[. داده کاوی نشان دهنده یک گام در فرایند کشف دانش در پایگاه دادهها2 میباشد]2[ که میتوان آن را یک نیاز اساسی در دنیای امروز دانست. بنا بر اعلام دانشگاه MIT امروزه مرز و محدودیتی برای دانش داده کاوی در نظر گرفته نشده و دامنه کاربرد آن را از اعماق اقبانوسها تا بی کران فضا میدانند]3[. تلاش برای الگوهای موجود در دادهها مدت زمان طولانی در بسیاری از زمینه ها، از جمله آمار، الگوشناسی3 ، و تجزیه و تحلیل دادههای اکتشافی مورد مطالعه قرار گرفته شده است]4[.
داده کاوی به عنوان یک ابزار مهم برای کسب دانش از پایگاه داده های پدید آمده است]5[ از این رو میتوان به اهمیت الگوریتمهای داده کاوی پی برد که شبکههای عصبی و درخت تصمیم از جملهی این الگوریتمها میباشد. درخت تصمیم یک راه طبیعی برای ارائه یک فرآیند تصمیم گیری میباشد، چرا که درک آنها برای هر کسی ساده و آسان است]6[ همچنین محبوبیت شبکههای عصبی با دست اندرکاران داده کاوی در حال افزایش چشم گیر است زیرا آنها خود را، از طریق مقایسهی قدرت پیش بینی خود با تکنیکهای آماری با استفاده از مجموعه دادههای واقعی اثبات کردهاند]7[. تحقیقات جدید نمایانگر این است که الگوریتمهای ترکیبی دقت بیشتر و عملکرد بهتری را به نسبت به استفادهی مجزا و مستقل آنها در دادهکاوی از خود نشان میدهند]8[.
با توجه به آنکه تشخیص کنتورهای خراب توسط خود شرکت گاز با استفاده از دادههای موجود مقدور نمیباشد، این شرکت برای تعویض و شناسایی کنتورهای خراب میبایست مأمورینی داشته باشد که در محل حضور داشته و بصورت فیزیکی اقدام به تست کنتور نماید تا اگر احتمالا خراب بود اقدامات لازم را انجام دهند که با توجه به وجود تعداد زیاد مشترکین این عمل یک فرایند زمان بر، پرهزینه و سخت خواهد بود. نوع تحقیق حاضر براساس هدف طراحی و کاربردی می باشد. هدف از طراحی، طراحی یک روش ترکیبی از شبکه عصبی و درخت تصمیم برای کاوش دادههای شرکت شرکت ملی گاز در راستای کاهش هزینه پروژهی تعویض کنتورهای خراب میباشد که شرکت مذکور هر 7 سال یکبار باید اقدام به انجام آن در حوزه مربوطه مینماید. پروژه حاضر سعی دارد تا با طراحی روش ترکیبی از شبکه عصبی و درخت تصمیم فرآیند دادهکاوی را جهت تحلیل دادههای حوزه کرمانشاه استفاده کرده و کنتورهایی با احتمال بالای خرابی را شناسایی و به شرکت نام برده ارائه دهد تا در حد توان جهت کمینه کردن هزینه تشخیص و تعویض کنتورها کمک نماید.
1-2 اهمیت و ضرورت تحقیق
امروزه علم داده کاوی در هر جایی که داده وجود داشته باشد کاربرد پیدا کرده است و روش ترکیب روشهای مختلف آن برای حصول نتیجه بهتر را میتوان کاری جدید دانست. همانطور که در بیان مسأله نیز شرح داده شد، شرکت ملی گاز قادر به تشخیص کنتورهای خراب از پایگاه داده بدون حضور در محل و همچنین کشف الگوهای مرتبط با مسأله که در پایگاه داده شرکت موجود است، نمیباشد. از این رو این پروژ با استفاده از علم داده کاوی و با ترکیب الگوریتمهای موجود، سعی در حل مسأله تشخیص میکند.
داده کاوی به عنوان یک ابزار مهم برای کسب دانش از پایگاه داده های حجیم میباشد]5[ و با توجه به حجیم بودن پایگاه داده شرکت ملی گاز میتوان فهمید که کار تجزیه و تحلیل پایگاه داده بدون استفاده از علم داده کاوی و بصورت دستی امری محال میباشد. به این ترتیب با توجه به موارد مطرح شده در بیان مسأله میتوان به اهمیت موضوع کاملا پی برد.

1-3 جنبه نوآوری تحقیق
داده کاوی به تازگی وارد صنعت ملی گاز شده[9]، با توجه به این مسأله و همچنین تحقیقات و بررسیهای انجام شده در ادارات گاز استان کرمانشاه و ارومیه انجام این پروژه در این ادارات بی سابقه بوده است. امروزه روشها و الگوریتمهای داده کاوی در زمینههای مختلف وارد میشوند و روش ترکیبی جدیدی که در این پروژه طراحی و تست و ارزیابی میشود میتواند راهنمایی برای کارهای مشابه باشد.

1-4 اهداف تحقیق
* از نتایج و کارهای انجام شده در آن بطور خلاصه و نکتهای میتوان به موارد زیر اشاره کرد:
* ارائه یک روش ترکیبی و یک مدل قابل قبول از درخت تصمیم و شبکه عصبی برای حل مشکل تشخیص کنتور خراب
* تحلیل دادههای شرکت ملی گاز برای کاهش هزینه تشخیص و تعویض کنتور خراب
* مقایسه الگوریتمهای مختلف موجود در روشهای درخت تصمیم
1-5 سوالات پروژه

مهم‌ترین سؤالات این تحقیق در پنج مورد زیر خلاصه می‌شود.
* برای تحلیل دادههای شرکت گاز کدام ترکیب از الگوریتمهای گفته شده مناسبتر است؟
* معیارهای مناسب جهت تشخیص کنتور خراب چیست؟
* کدام ساختار4 برای شبکه عصبی پیشنهادی مناسبتر است؟
* مدل حاصله چگونه آموزش داده میشود؟
* آیا میتوان احتمال خرابی یک کنتور را با مدل تصمیم گیری ارائه شده با دقت قابل قبول تشخیص داد؟
1-6 فرضیه‌ها
در این پروژه موارد زیر به عنوان فرضیه جهت حل مسأله و پاسخ به سوالات پروژه در نظر گرفته شده است:
* الگوریتم ترکیبی از درخت تصمبم و شبکه عصبی راهکار مناسبی برای حل مسأله است.
* معیارها و فاکتورهای ارزیابی خرابی کنتور در جریان اجرای الگوریتم از پایگاه دادهها قابل دسترسی و محاسبه است.
* تعداد ورودیها بستگی به تعداد متغیرها داشته و نتیجهی حاصله شامل کنتورهای خراب میباشد. پس ساختار مورد استفاده شامل چندین ورودی و یک خروجی میباشد.
* اگر بنا بر دسته بندی کنتورهای خراب در چندین دسته مانند کنتورهای خراب، کنتورهایی با احتمال بالای خرابی، کنتورهایی با احتمال پایین خرابی و… شبکه دارای چندین خروجی خواهد شد.
* با استفاده از دادههایی که از شناسایی یکسری محدود دادههای کنتورهای سالم و همچنین یکسری محدود دادههای کنتورهای خراب، شبکه آموزش داده میشود.
* اختلافات بوجود آمده بین دادههای یک مشترک در طول زمان و استمرار آن را میتوان دلیل بر خرابی کنتور دانست.
1-7 راهکار ارائه شده
با توجه به حساسیت این شرکت بر روی دادهها قبلا مجوز دسترسی به فیلدهای مربوطه گرفته شده است و منبع دادهها پایگاه داده شرکت ملی گاز کرمانشاه است. الگوریتمهای داده کاوی را از یک دید کلی بر اساس نوع میتوان به 2 گروه تقسیم کرد که عبارتند از دسته بندی و خوشه بندی. دسته بندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی ازمجموعههای از قبل تعریف شده میباشد ولی خوشه بندی به عمل تقسیم ناهمگن به تعدادی از زیر مجموعهها یا خوشههای همگن گفته میشود]3[. با توجه به تعاریف، نوع استفاده شده در این پروژه دسته بندی میباشد. با توجه به گسسته بودن اطلاعات روشی مشتمل بر شبکه عصبی و درخت تصمیم برای حل مساله مطرح شده طراحی میشود. با استفاده از پرسشنامه جهت دستیابی به تجارب مسئولین مرتبط با هدف پروژه، معیارهایی برای تعریف کنتور سالم و کنتور خراب از دیدگاه شرکت مشخص خواهد شد. نتیجه این پرسشنامه که ویژگیهای کنتور خراب را از دید مسئولین مشخص خواهد کرد که در تشخیص معیارهای ارزیابی کمک خواهد نمود. با توجه به معیارهای بدست آمده و ترکیب آنها با معیارهای مهندسی شده درمورد ساختار شبکه عصبی تصمیم گرفته خواهد شد و همچنین معیارهای مقایسه در درخت تصمیم مورد نظر بدست میآید. دادههای ارزیابی شده به عنوان مجموعه اعتبارسنجی انتخاب میشود که جدای از دادههای آموزش شبکه میباشد. بعد از آموزش شبکه عصبی و درخت تصمیم نسبت به ارزیابی و اعتبار سنجی آنها با مناسبترین الگوریتم از بین الگوریتمهای نام برده شده در شرح مسأله اقدام خواهد شد. بعد از اتمام طراحی و اعتبار سنجی روش حاصل توسط ابزارهای داده کاوی تست و اجرا میشوند و در صورت بروز مشکل یا احتمال خطا با توجه به تکرارپذیر بودن داده کاوی مراحل گفته شده دوباره تا حصول بهترین نتیجه تکرار خواهند شد. بعد از اتمام کلی و نهایی شدن طراحی، روش حاصله توسط ابزارهای داده کاوی تست و اجرا گشته و در نهایت نتایج جهت کمینه کردن هزینهی پروژهی مذکور در شرکت ملی گاز کرمانشاه به آن شرکت ارائه خواهد گردید.
روند داده کاوی نیز طبق متودلوژی 5CRISP-DM ]6[ پیش خواهد رفت که در شکل 1 میتوان آن را مشاهده نمود.
شکل 1- مدل فرآیند CRISP-DM برای کاربردهای داده کاوی]6[
با توجه به اینکه داده کاوی یک فرآیند تکرارشونده است این مراحل تا حصول یک نتیجه قابل قبول تکرار خواهند شد.
تکنیکهای داده کاوی را میتوان به منظور ساخت سه نوع مدل، برای سه نوع فعالیت بکار برد که عبارتند از نمایه سازی توصیفی6، نمایه سازی هدایت شده7 و پیش بینی]3[ که پروژه حاضر از نوع نمایه سازی هدایت شده میباشد.
با توجه به استفاده از درخت تصمیم و شبکه عصبی در این پروژه مراحل انجام طراحی برای هر قسمت جداگانه در ادامه توضیح داده خواهد شد.
الگوریتمهای درخت تصمیم در دسته بندی دادههای جدید بهترین عملکرد را ندارد. میتوان اینگونه گفت که درخت، الگوهای کلی را در گرههای بزرگ و الگوهای خاص را در گرههای کوچکتر مییابد. به عبارتی، درخت بر مجموعه آموزشی محاط شده8 که نتیجه آن یک درخت بیثبات و ناتوان در پیش بینیهای مناسب میباشد. علاج کار، حذف تقسیمات ناپایدار از طریق ادغام برگهای کوچکتر توسط فرآیندی است که هرس کردن نام دارد]10[. برای هرس کردن یکی از الگوریتمهای موجود مانند هرس کارت9 ]11[، هرس C5 ]11[، هرس ثبات محور10 ]10[ استفاده خواهد شد.
برای اندازه گیری خلوص ارزیابی تقسیمات در متغیرهای تابع هدف درخت تصمیم با توجه به دستهای یا عددی بودن آن از روشهای رایج مانند جینی ( پراکندگی جمعیت)]12[، آنتروپی11 (بهره اطلاعاتی)]13[، نسبت بهره اطلاعاتی12 که بیشترین کارایی را دارد استفاده شده است]10[.

برای طراحی شبکه عصبی در راستای اهداف پروژه مراحل زیر دنبال خواهد شد]10[:
1. تشخیص مشخصههای ورودی و خروجی
2. تبدیل ورودیها و خروجیها به نحوی که در یک بازه کوچک قرار گیرند.
3. ایجاد شبکه با یک ساختار13 مناسب
4. آموزش دادن شبکه به کمک مجموعه دادههای آموزشی
5. استفاده از مجموعه اعتبار سنجی، جهت انتخاب مجموعه اوزانی که خطا را به حداقل میرساند
6. ارزیابی شبکه با استفاده از مجموعه آزمون به منظور بررسی کیفیت عملکرد آن
7. به کار گرفتن مدل ساخته شده توسط شبکه جهت پیش بینی نتایج متناظر با ورودیهای نامعلوم
بعد از طراحی شبکه عصبی توسط مراحل گفته شده میتوان به سوالات زیر پاسخ داد:
تابع فعال سازی14 چیست؟
ساختار شبکه چگونه است؟

در این سایت فقط تکه هایی از این مطلب با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

شبکه چگونه آموزش داده میشود؟
ساختار شبک دارای حداقل دو لایه پنهان است. بر روی یالهای شبکه اوزانی با استفاده از روش پس انتشار خطا15 برای تنظیم و تشخیص ورودیها در نظر گرفتیم. در نهایت بعد از طراحی، مدل را ساخته و در نرم افزار Rapid Miner 5 تست و اجرا کردیم و اشکالات را یافته و با تکرار مراحل طراحی آنها را رفع کردیم تا در نهایت مدل طراحی شده بتواند به مسأله مطرح شده پاسخ قابل قبولی را ارائه دهد.
1-8 ساختار پایان‌نامه
در ادامهی متن پایان نامه، ساختار کلی فصول مختلف به صورت زیر خواهند بود:
* فصل دوم: این فصل مروری بر ادبیات و پیشینه پروژه میباشد که در آن به معرفی اولیه الگوریتمها و روشهای اجرا شده در پروژه اشاره میکنیم.
* فصل سوم: در این فصل فرآیند داده کاوی انجام شده و روشها تست و ارزیابی میشوند و در نهایت روش ترکیبی از بهترین نتایج بدست آمده را تشکیل داده و معرفی میکنیم.
* فصل چهارم: این فصل به نتیجه نهایی پروژه و معرفی راهکارهای آینده اشاره میکند.

فصل دوم
مروری بر ادبیات و پیشینه تحقیق
2-1 داده کاوی چیست؟
بنا بر اعلام دانشگاه MIT دانش نوین داده کاوی یکی از ده دانش در حال توسعه‌ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می‌سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه‌های مختلف است، به گونه‌ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته‌اند [14].
داده کاوی، تحلیل داده و کشف الگوهای پنهان با استفاده از ابزارهای خودکار و یا نیمه خودکار است و هم چنین فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید در حجم وسیعی از داده می‌باشد، به طریقی که این الگوها و مدلها برای انسان‌ها قابل‌درک باشند. جمع‌آوری داده‌ها سبب شده سازمان‌ها منابع داده غنی و دانش ناچیزی داشته باشند. حجم این مجموعه داده‌ها به سرعت افزایش می‌یابد و باعث محدود شدن استفاده کاربردی از داده‌های ذخیره‌شده می‌شود. هدف اصلی داده کاوی استخراج الگوها از داده‌های موجود، افزایش ارزش ذاتی‌شان و تبدیل داده به دانش است [14].
با گسترش سیستمهای پایگاهی و حجم بالای داده‌های ذخیره‌شده در این سیستمها، به ابزاری نیاز است تا بتوان این داده‌ها را پردازش کرد و اطلاعات حاصل از آن را در اختیار کاربران قرارداد. معمولاً کاربران پس از طرح فرضیه‌ای بر اساس گزارشات مشاهده‌شده به اثبات یا رد آن می‌پردازند درحالی‌که امروزه به روش‌هایی نیاز داریم که به کشف دانش می‌پردازند، یعنی روش‌هایی که با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه‌های منطقی را پیدا کرده و بیان نماید.
امروزه، بیش‌ترین کاربرد داده کاوی در بانک‌ها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستان‌ها، مراکز تحقیقاتی، بازاریابی هوشمند می‌باشد. داده کاوی فرآیند اکتشاف اطلاعات و روندهای نهفته از درون حجم بسیار زیاد داده‌هایی است که در قالب پایگاه‌های داده‌ای، انباره های داده‌ای و یا هر نوع انباره اطلاعاتی ذخیره می‌شود. داده کاوی اطلاعات موجود در انبار داده‌ها را استخراج و داده‌ها را به دانشی حیاتی و مهم در ارتباط با کسب و کار تبدیل می‌نماید [15]. از طریق داده کاوی و دانش جدیدی که در اختیار قرار می‌دهد، افراد می‌توانند از داده‌ها به عنوان اهرمی جهت خلق فرصت‌ها یا ارزش‌های جدید در سازمان خود استفاده کنند و همچنین برای مسائل طبقه‌بندی و رگرسیون بکار گرفته شود. در مسائل طبقه‌بندی، دسته‌ای از اشیاء که در داخل یک طبقه‌ای قرار دارند پیش‌بینی می‌شوند و در مسائل رگرسیون، یکسری از اعداد، پیش‌بینی می‌گردند.
در حال حاضر، داده کاوی مهم‌ترین فناوری جهت بهره‌برداری موثر از داده‌های حجیم است و اهمیت آن رو به فزونی است [16]. به طوری که تخمین زده شده است که مقدار داده‌ها در جهان هر 20 ماه به حدود دو برابر برسد. در یک تحقیق که بر روی گروه‌های تجاری بسیار بزرگ در جمع‌آوری داده‌ها صورت گرفت مشخص گردید که 19 درصد از این گروه‌ها دارای پایگاه داده‌هایی با سطح بیشتر از 50 گیگابایت می‌باشند و 59 درصد از آن‌ها انتظار دارند که در آینده‌ای نزدیک در چنین سطحی قرار گیرند [16].
2-2 تعاریف متنوعی از داده کاوی
در زیر به تعاریف داده کاوی از دیدگاههای مختلف میپردازیم:
* داده کاوی کشف دانش از پایگاه داده‌ها نامیده می‌شود) نشانگر فرآیند جالب استخراج دانش از قبل ناشناخته (الگو از داده است [17].
* فرآیند کشف الگوهای مفید از داده‌ها را داده کاوی می‌گویند [16].
* فرآیند انتخاب، کاوش و مدل کردن داده‌های حجیم، جهت کشف روابط نهفته باهدف به دست آوردن نتایج واضح و مفید، برای مالک پایگاه داده‌ها را، داده کاوی گویند [17].
* “فاید”16، داده کاوی را این‌گونه تعریف کرد، یک فرایند استخراج از اطلاعات ضمنی ناشناخته و مفید از داده‌های ذخیره‌شده در پایگاه داده‌هاست [18].
* “گودیچی”17، نیز داده کاوی را فرایند انتخاب، اکتشاف ومدل سازی مقادیر زیادی از داده‌ها برای به دست آوردن نتایج روشن و مفید برای پایگاه داده‌ها تعریف می‌کند [18].
اما تعریفی که در اکثر مراجع به اشتراک ذکرشده عبارت است از: “استخراج اطلاعات و دانش و کشف الگوهای پنهان از یک پایگاه داده‌های بسیار بزرگ و پیچیده”[17].
داده کاوی یک متدلوژی بسیار قوی و با پتانسیل بالا می‌باشد که به سازمان‌ها کمک می‌کند که بر روی مهم‌ترین اطلاعات از مخزن داده‌های خود تمرکز نمایند [19].
ابزارهای داده کاوی الگوهای پنهانی را کشف و پیش‌بینی می‌کنند که متخصصان ممکن است به دلیل اینکه این اطلاعات و الگوها خارج از انتظار آن‌ها باشد، آن‌ها را مدنظر قرار ندهند و به آن‌ها دست نیابند [19].
2-3 آیا داده کاوی سودمند است؟
داده کاوی به دو دلیل سودآور است:
* داده کاوی منجر به تصمیمات واقع‌بینانه می‌شود.
* داده کاوی منجر به تکرار تصمیمات سودآور اتفاق افتاده در گذشته می‌شود.
با استفاده از داده کاوی تصمیمات احساسی کنار گذاشته میشوند و بر اساس واقعیت‌ها تصمیمات گرفته میشوند. بنابراین ضررهای ناشی از ناآگاهی مدیران حذف می‌شود. داده کاوی همچنین فضای سال‌های گذشته‌ی شرکت شما را بازبینی می‌کند و در نهایت نشان می‌دهد کدام تصمیمات منجر به سود شده است درحالی‌که شما از آن تصمیمات اطلاعی ندارید. شرکت‌ها و سازمان‌ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می‌شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی‌شود و عواملی چون “فراموشی”، “تخلفات و تقلبات”، “اشکالات خط تولید”، “منافع شخصی” و “سیاست‌های اعمال نفوذ شده از جاهای دیگر” منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می‌شود[20].
اما داده کاوی فضای حاکم بر کسب‌ وکار شما را شفاف می‌کند و شما را ملزم می‌کند واقع‌بینانه تصمیم بگیرید. تصمیم‌گیری واقع‌بینانه کلید از بین بردن تصمیمات احساسی و در نتیجه از بین بردن بهره‌وری پایین و ضررهای ناشی از ناآگاهی است. به طور کلی فضای تصمیم‌گیری در یک کسب‌ و کار شباهت بسیار زیادی به فضاهای تصمیم‌گیری اتفاق افتاده در 10 سال گذشته‌ی آن مجموعه دارد. این شباهت در یاد تصمیم‌گیرندگان آن کسب‌ و کار باقی نمی‌ماند و اغلب آشکار نیز نمی‌شود. داده کاوی فضای سال‌های گذشته‌ی کسب‌ و کار شما را بازخوانی می‌کند و به شما می‌گوید کدام تصمیمات منجر به سود شده است و کدام تصمیمات منجر به زیان کسب‌ و کار شده است. بنابراین داده کاوی باعث می‌شود تصمیمات زیان ده کسب و کارتان در گذشته را تکرار نکنید ولی تصمیمات سودآور اتفاق افتاده در گذشته را دوباره تکرار کنید. به لحاظ فنی، داده کاوی عبارت از فرآیندی است که در میان حوزه‌های گوناگون بانک‌های اطلاعاتی ارتباطی بزرگ، همبستگی‌ها یا الگوهایی را پیدا می‌کند [21].
2-4 آمار و داده کاوی
تلاش برای الگوهای موجود در دادهها مدت زمان طولانی در بسیاری از زمینه ها، از جمله آمار، الگوشناسی18 ، و تجزیه و تحلیل دادههای اکتشافی مورد مطالعه قرار گرفته شده است]4[. داده کاوی اساساً یک رشته کاربردی است و یک داده کاوی باید از روش‌های آماری درک خوبی داشته باشد. در داده کاوی تلاش می‌شود بین آمار و علوم رایانه‌ای رابطه‌ای برقرار گردد. برقراری این ارتباط به دلیل وجود یک سلسله از فرضیات ضمنی و غیر واضح و دشوار بودن تبدیل مفاهیم نظری به الگوریتم‌های رایانه‌ای در ادبیات آماری و به دلیل وجود الگوریتم‌های فراوان در ادبیات رایانه‌ای دشوار است. لذا داشتن درکی درست از مدل‌سازی و الگوریتم‌های محاسباتی برای کارهای داده کاوی ضروری است.
روابط در داده کاوی غالباً به صورت الگوها و مدلهایی از قبیل معادلات رگرسیونی، سری‌های زمانی، خوشه‌ها، رده‌بندی‌ها، گراف‌ها و غیره ارائه می‌شوند. در داده کاوی نیز همانند آمار غالباً داده‌هایی که تحلیل می‌شوند، نمونه‌ای از جامعه هستند که به تبع بزرگ بودن جامعه با نمونه‌ای حجیم مواجه هستیم. در هنگام کار با مجموعه داده‌های حجیم مشکلات تازه‌ای بروز می‌کند. برخی از این مشکلات به نحوه ذخیره‌سازی یا فراخوانی داده‌ها مربوط می‌شود و برخی دیگر مربوط به مسائلی مانند نحوه تحلیل داده‌ها در زمانی مناسب و استخراج الگوها و مدلهای حاکم بر داده‌ها است [22]. به طور کلی فرآیند کاوش الگوها، مدل ها و روابط مطلوب در یک مجموعه داده شامل مراحل زیر است:
* معین ساختن طبیعت و ساختار مورد نظر
* تصمیم‌گیری در مورد میزان برازش نمایش‌های متفاوت به داده‌ها، یعنی انتخاب یک تابع امتیاز
* اتخاذ یک فرآیند الگوریتمی برای بهینه‌سازی تابع امتیاز
* تصمیم‌گیری در مورد اصول مدیریت داده‌ها برای اجرای موثر الگوریتم
با توجه به اینکه مدلها و الگوها، توابع امتیاز، روش‌های بهینه‌سازی و راهکارهای مدیریت داده‌ها چهار مؤلفه اصلی الگوریتم‌های داده کاوی را تشکیل می‌دهند، با توجه به اینکه ماهیت داده‌ها در آمار با داده کاوی متفاوت است، داده کاوی به برخی از روش‌های آماری که دارای ویژگی‌های خاصی می‌باشند توجه بیشتری نشان می‌دهد.
یکی از ویژگی‌های مورد توجه روش‌های آماری در داده کاوی، سادگی تعبیر آن‌ها است. از این رو به استفاده از مدلهای نسبتاً ساده و قابل تعبیر مانند گراف‌ها گرایش زیادی وجود دارد. در داده کاوی مواردی که در آن‌ها با تعداد بسیار زیادی متغیر، مدل و یا فرضیه مواجه هستیم، فراوان است. از طرفی داده کاوی یک فرآیند اکتشافی و تکراری است به این معنی که در خلال تحلیل داده‌ها اطلاعات جدید کشف می‌شوند و فرضیه‌های قبلی اصلاح و فرضیه‌های جدید ارائه می‌شوند و این کار ممکن است با داده‌های زیاد، بارها تکرار شود. لذا از دیدگاه آمار روش‌هایی با کارایی محاسباتی بالا، تحلیل‌های محاسباتی و تحلیل‌های تقریبی، مورد توجه خاص داده کاوی هستند. تاکید بیشتر داده کاوی بر بعضی روش‌های آماری، به معنی عدم استفاده از سایر روش‌های آماری نیست و در عمل از طیف گسترده‌ای از روش‌های آماری برای تحلیل داده‌ها استفاده می‌شود.
آمار و داده کاوی هر دو با روش‌های تحلیل و مدل بندی داده‌ها مرتبط می‌باشند. بنابراین اشتراک زیادی بین این دو رشته وجود دارد. به عنوان یک شوخی، یکی از نویسندگان در پاسخ سؤال اینکه “داده کاوی چیست؟ بیان می‌کند که “همان آمار است، اما با یک نام خیلی بهتر” البته این ویژگی به معنای یکسان دانستن داده کاوی وآنالیزآماری نیست، در جدول زیر این تفاوت‌ها آورده شده است [23،21].
جدول (2-1): مقایسه آنالیز آماری و داده کاوی [22]
آنالیز آماریداده کاوی آمار شناسان همیشه با یک فرضیه شروع به کار می‌کنند. به فرضیه احتیاجی ندارد. آمار شناسان باید رابطه‌هایی را ایجاد کنند که به فرضیه آن‌ها مربوط شود الگوریتم‌های داده کاوی در ابزارها به طور اتوماتیک روابط را ایجاد می‌کنند آن‌ها از داده‌های عددی استفاده می‌کنند. ابزارهای داده کاوی از انواع مختلف داده و نه فقط عددی می‌توانند استفاده کنند. آن‌ها می‌توانند داده‌های نابجا و نادرست را در طول آنالیز تشخیص دهند داده کاوی به داده‌های صحیح و درست طبقه‌بندی شده بستگی دارد. آن‌ها می‌توانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند. نتایج داده کاوی آسان نیست و همچنان به متخصصان آمار برای تحلیل آن‌ها و بیان آن‌ها به مدیران نیاز است.
2-5 پیچیدگی و هزینه زمانی
تحلیلگران دریافتهاند که پیچیدگی و زمانبر بودن دسترسی به حجم زیاد دادههای مورد نیاز و پردازش آن‌ها توسط بعضی ابزارهای داده کاوی، استفاده از این ابزارها را در هر نقطه از زمان و مکان غیرممکن ساخته است.
وزارت امنیت داخلی ایالات‌متحده آمریکا در آگوست 2006، به 12 تلاش داده کاوی دست زد که یکی از آن‌ها سیستم TVIS19 بود. این سیستم به منظور ایجاد و بهبود اشتراک دانش از خطرات تروریستی بالقوه، به روشی واحد دادههای زنده تولیدشده به وسیله خلبانان را ترکیب میکرد. نتایج تحلیلها نشانداد که اگرچه این سیستم در یک دوره تناوب دو ساعته کار می‌کند، کاربران قادر به استفاده روزانه از آن نبوده و فقط دو تحلیلگر امکان استفاده همزمان از آن را دارند. این منجر به اتلاف وقت تحلیلگران در زمان جستجو در پایگاه دادههای مضاعف شد. مشکل پیچیدگی و هزینه زمانی بعضی تکنیکهای داده کاوی، موجب کاهش پذیرش استفاده زمان واقعی از این سیستمها توسط افراد و روی آوردن به سیستمهایی با عملکرد ضعیفتر میشود [24].
2-6 محرمانگی20 دادهها
با وجود تکنیکهای داده کاوی و اشتراک اطلاعات، توجه بسیاری از تحلیلگران به پیادهسازی محرمانگی و امنیت دادهها معطوفشدهاست. بعضی کارشناسان پیشنهاد کرده‌اند که بعضی کاربردهای ضد تروریسمی داده کاوی میتواند برای یافتن الگوهای تبهکارانه و مقابله با انواع جرمها مفید باشد. تا کنون، با وجود دیدگاه‌های متضاد بحث شده، توافق کمی درباره اینکه داده کاوی به چه صورت باید اجرا شود وجود دارد. بعضی مخالف سبک سنگینی برای ایجاد محرمانگی و تأمین امنیت هستند. بعضی ناظران نیز پیشنهاد کرده‌اند که قوانین و مقررات مربوط به حمایت از محرمانگی کافی هستند و هیچ تهدیدی برای محرمانگی وجود ندارد. هنوز ناسازگاریهایی در باب این مسئله وجود دارد که باید برطرفشوند. به موازات پیشرفت‌های داده کاوی، سؤالات متنوعی افزایش مییابند شامل اینکه نهادهای شهری و دولتی تا چه اندازه می‌بایست دادههای تجاری را با دادههای دولتی استفاده و ترکیب کنند، آیا منابع داده به منظورهایی غیر از هدف اصلی طراحی میشوند و کاربردهای ممکن از اعمال محرمانگی چیست؟ [25]
2-7 محدودیت‌های داده کاوی
“گـرچه داده کاوی پیشرفت شگرفی در نوع ابزارهای تحلیلی موجود به وجود آورده است، لکن محدودیت‌هایی نیز درباره کاربردپذیری آن وجود دارد. یکی از محدودیت‌ها این است که ابزارهای داده کاوی هنوز استانداردسازی نشده‌اند و از نظـر تأثیرگذاری اختـلاف فـاحشـی با یکـدیگـر دارنـد. محدودیت دیگر آن است که گــرچــه داده کـاوی می‌تواند بـه آشکـارسـازی انگاره‌ها و رابطه‌ها کمک کند اما نمی‌تواند ارزش یا اهمیت این انگاره‌ها را به کاربر بگوید. بـنــابــرایــن، خــود کــاربـر بـایـد ایـن اطـلاعـات را مشخـص کنـد. محـدودیـت دیگـر این است که گرچه داده کاوی می‌تواند روابط بین رفتارها یا متغیرها را شناسایی کند، اما لزوما نمی‌تواند یک رابطه تصادفی را شناسایی کند”[26].
2-8 مراحل داده کاوی
چرخهی داده کاوی شامل روشها و مراحل مختلفی میباشد که ما در این پروژه از متدولوژی CRIDP-DM استفاده میکنیم. مراحل متدولوژی نام برده به ترتیب زیر است:
* درک کسب و کار: در اولین قدم بایستی یک تعریف مناسب از مسأله و فضایی که قرار است پروژه در آن اجرا شود، داشت.
* درک دادهها: در دومین قدم بایستی تمامی دادهها جمع آوری شود و مورد بررسی قرار گیرند. در این مرحله دادهها تعریف و یک دید از هرکدام از دادهها ارائه میشود.
* آماده سازی دادهها: در این بخش دادههای مورد نیاز تشخیص داده شده و یا دادههای جدید از ترکیب دادههای قبلی تولید میشوند.
* ساخت مدل: در این مرحله بایستی با استفاده از دادههای موجود مدلی برای حل مسأله ساخته شود. این مدل میتواند با هر یک از روشهای داده کاوی در راستای هدف تعریف شده ساخته شود.
* تست و ارزیابی: در این مرحله مدل ساخته شده با دادههای مشخص بایستی مورد تست و ارزیابی قرار بگیرند. در این ارزیابی بنا به تعریف مسأله میتوان معیارهایی مانند دقت و یا سرعت مدل را مورد بررسی قرار داد.
* ارائه مناسب از مدل و نتایج: در آخرین مرحله از این فرآیند بایستی روشی مناسب برای ارائه مدل و نتایج حاصل از اجرا و تست و ارزیابی پروژه انتخاب نمود.
باید توجه داشت که جمع‌آوری و محافظت از داده‌ها نکته بسیار مهمی می‌باشد. اصولاً چون قالب و نوع داده‌ها در طول زمان تغییر می‌کند ممکن است بسیاری از داده‌های موجود در قالب‌های متفاوت باشند و همچنین بسیاری از داده‌های قدیمی از بین رفته و دور ریخته شوند. درحالی‌که ممکن است اهمیت این داده‌ها از داده‌های جدید به هیچ‌وجه کمتر نباشد. همچنین به علت اینکه داده‌ها از منابع مختلف داخلی و خارجی مانند کارکنان شرکت، مدیران، مشتریان، کارفرمایان، پیمانکاران باشند باز هم ممکن است قالب داده‌ها باهم یکسان نباشد. به همین دلیل انتخاب داده‌های درست و یکپارچه‌سازی قالب آن‌ها به منظور استفاده در داده کاوی از اهمیت بسیار بالایی برخوردار می‌باشد[27].
2-9 وظایف و تکنیک های داده کاوی
1. کلاس‌بندی
2. تخمین
3. پیش‌بینی
4. گروه‌بندی وابستگی‌ها
5. خوشه‌بندی
6. نمایه‌سازی توصیفی
2-9-1 کلاس‌بندی
کلاس‌بندی به معنای یادگیری تابع نگاشت ترکیب مقادیر خصایص به دسته‌های مختلف و تعیین کلاس از یک شی پایه بر اساس ویژگی‌هایش می‌باشد. هر شی‌ای که کلاس‌بندی می‌شود به صورت عمومی توسط رکوردهایی در جدول یک پایگاه داده یا در یک فایل بیان می‌گردد و عمل کلاس‌بندی با اضافه نمودن یک ستون جدید به همراه کد کلاس انجام می‌شود. وظیفه کلاس‌بندی به خوبی توسط تعریف کلاس‌ها و یک مجموعه آموزشی شامل نمونه‌های کلاسه‌ای از پیش تعریف‌شده مشخص می‌گردد .و در نهایت مدلی ساخته می‌شود که می‌توان داده‌های غیر کلاس‌بندی به این کلاس‌ها تخصیص داد [28].

2-9-2 تخمین
برآورد کردن با مقادیر خروجی پیوسته سروکار دارد .به صورت تجربی برآورد کردن اغلب قبل از کلاس‌بندی استفاده می‌شود. از مزایای رویکرد برآورد این است که رکودهای منحصربه‌فرد می‌توانند مطابق با برآورد رتبه ترتیبی اتخاذ نمایند [28].
2-9-3 پیش‌بینی
پیش‌بینی همانند کلاس‌بندی است و انتظار می‌رود رکودهایی که کلاس‌بندی شده‌اند بر طبق بعضی از ویژگی‌های کلاس‌ها بتوانند پیش‌بینی‌های رفتارهای آینده به همراه تخمین ارزش‌های آینده باشند. در پیش‌بینی تنها راهی که مشخص می‌کند کلاس‌بندی ما صحیح بوده این است که منتظر بمانیم و ببینیم. داده‌های تاریخی برای ساخت مدلهای مفید هستند که رفتار مشاهدات جاری را توصیف نمایند و زمانی که مدل پیش‌بینی برای ورودی‌های جاری بکار برده می‌شود ،حاصلش این است که رفتارهای آینده را پیش‌بینی می‌نماید [28].
2-9-4 قواعد وابستگی یا گروه‌بندی پیوستگی‌ها
قواعد انجمنی قابلیتی برای یافتن روابط ناشناخته موجود در اطلاعات است. این روابط مواردی از قبیل اینکه حضور مجموعه‌ای از مقولات اشاره به این دارند که مجموعه مقولات دیگری نیز احتمالاً وجود دارند را شامل می‌شود. این قواعد و وابستگی‌ها برای مشخص کردن چیزهایی است که باهم هستند .این وظیفه قلب تحلیل سبد بازار است و رویکردی ساده برای تولید قاعده دار داده می‌باشد[28].
2-9-5 خوشه‌بندی
این وظیفه برای بخش‌بندی جمعیت ناهمگن به زیرمجموعه‌های همگن یا همان خوشه‌ها می‌باشد. تفاوت عمده خوشه‌بندی با کلاس‌بندی در این است که بر اساس کلاس‌های از پیش تعریف‌شده عمل نمی‌نماید. در کلاس‌بندی هر رکورد به کلاس‌های از پیش تعریف‌شده‌ای که بر پایه توسعه مدل یادگیری می‌باشند، تخصیص داده می‌شود درحالی‌که در خوشه‌بندی کلاس‌های از پیش تعریف‌شده وجود ندارد و رکوردها بر پایه شباهت‌هایشان، گروه‌بندی می‌شوند [28].

دسته بندی : پایان نامه ها

پاسخ دهید