مقاله نگاهی بر داده کاوی و کشف قوانین وابستگی

مقاله نگاهی بر داده کاوی و کشف قوانین وابستگی

دسته: رشته کامپیوتر

فرمت : word | حجم : 963kb | صفحات : 25

قیمت: 2500 تومان
693 بازدید

گزارش کارآموزی واحد مالی بیمارستان مربوطه به صورت فایل ورد word و قابل ویرایش می باشد و دارای ۶۲ صفحه است . بلافاصله بعد از پرداخت و خرید لینک دانلود گزارش کارآموزی واحد مالی بیمارستان نمایش داده می شود، علاوه بر آن لینک مقاله مربوطه به ایمیل شما نیز ارسال می گردد

فهرست مطالب

نگاهی بر داده کاوی و کشف قوانین وابستگی   ۱
چکیده:   ۱
مقدمه :   ۲
Data mining(داده کاوی)   ۳
طبقه بندی :   ۵
تخمین :   ۵
پیش گویی Perdiction :   ۶
:Unsupervised Clustering دسته بندی بدون کنترل   ۶
تحلیل سبد بازاری Market Basket Analyse .….   ۶
۱٫ شبکه عصبی :   ۶
۲٫ برگشت آماری :   ۷
۳٫ قوانین وابستگی :   ۷
الگوریتم     : Aprior TID   ۹
الگوریتم partition :   ۱۰
الگوریتم های MaxEclat,Eclat :   ۱۱
الگوریتم با ساختار trie :   ۱۴
Fp-tree شرطی :   ۱۷
الگوریتم برداری :   ۱۸
الگوریتم ارائه شده:   ۱۸
نگهداری قوانین وابستگی :   ۲۰
الگوریتم کاهشی :   ۲۰
نتیجه گیری:   ۲۱
منابع ۲۲

مراجع:

۱)A.amiri,R.Feldman and R.Kashi. A new and versatile method for association generation. Information Systems, vol. 22,no. 6, pp. 333-347, 1999.

۲)J.Hipp,U.Guntzer and G.Nakhaeizadeh.Algorithms for Association Rules

data Mining _ a General survey and comparision. Source, ACM SIGKDD Explorations Newsletter,2(1):58–۶۴, July 2000.

۳) Y.Lee ,T.Hong and W.Lin.Mining association rules with multiple mininmum supports using minimum constraints . International Journal of Approximate Reasoning 40(2005) 44-54.

۴)S.Zhang ,X.Wn , J.Zhang and C.Zhang. A Decremental Algorithm for Maintaining Frequent Itemsets in Dynamic Database. DaWaK 2005, LNCS 3589, pp. 305–۳۱۴, ۲۰۰۵٫

۵) S.Tseng.An Efficient Method for Mining Association Rules With Item Constraint . Technical Report No. CSD-99-1089,2000.

۶) P.Hsu,Y.chen and C.ling.Algorithms for mining associations rules in bag database . INFORMATION SCIENCES 166(2004) 31-47.

۷)Y.GAO,J.MA and L.Ma.

A New Algorithm for mining fuzzy association rules.preceedings of third international confrance of machine learning and cybmetic, shanghai,26_29 Agust 2004 .

چکیده:

با افزایش سیستمهای کامپیوتر و گسترش تکنولوژی اطلاعات , بحث اصلی در علم کامپیوتر از چگونگی جمع آوری اطلاعات به نحوه استفاده از اطلاعات منتقل شده است . سیستمهای داده کاوی ,این امکان را به کاربر می دهند که بتواند انبوه داده های جمع آوری شده را تفسیر کنند و دانش نهفته در آن را استخراج نمایند .

داده کاوی به هر نوع کشف دانش و یا الگوی پنهان در پایگاه داده ها اطلاق می شود . امروزه داده کاوی به عنوان یکی از مهمترین مسائل هوش مصنوعی و پایگاه داده ، محققان بسیاری را به خود جذب کرده است . در این تحقیق ابتدا نگاه کلی بر داده کاوی ، استراتژیهای داده کاوی و… داریم ، سپس مسأله کشف قوانین وابستگی در پایگاه داده را به تفضیل بررسی کردیم و نگاهی به الگوریتمهای موجود برای آن داشتیم . سپس مسأله کشف قوانین وابستگی در پایگاه داده های پویا را مورد بحث قرار دادیم و الگوریتم های ارائه شده مربوطه را مطرح کردیم .

مقدمه :

هدف از این اراِئه و تحقیق بررسی روشهای مطرح داده کاوی است .داده کاوی هر نوع استخراج دانش و یا الگواز داده های موجود در پایگاه داده است که این دانشها و الگوها ضمنی و مستتر در داده ها هستند ,از داده کاوی می توان جهت امور رده بندی (Classification ) و تخمین (Estimation) ,پیش بینی (Prediction) و خوشه بندی (Clustering)استفاده کرد .داده کاوی دارای محاسن فراوانی است . از مهمترین آن محاسن کشف کردن دانش نهفته در سیستم است که به شناخت بهتر سیستم کمک می کند .به عنوان مثال می توان به استفاده ترکیبی از روش خوشه بندی جهت تخصیص بودجه به دسته های مختلف از کتب اشاره کرد .

سیستمهای داده کاوی تقریبا از اوایل دهه ۱۹۹۰ مورد توجه قرار گرفتند . علت این امر نیز آن بود که تا آن زمان سازمانها بیشتر در پی ایجاد سیستمهای عملیاتی کامپیوتری بودند که به وسیله آنها بتوانند داده های موجود در سازمان خود را سازماندهی کنند . پس از ایجاد این سیستمها ,روزانه حجم زیادی از اطلاعات جمع آوری میشد که تفسیر کردن آنها از عهده انسان خارج بود . به همین دلیل , نیاز به تکنیکی بود که از میان انبوه داده معنی استخراج کند و داده کاوی به همین منظور ایجاد و رشد یافت .

بنابر این هدف اصلی از داده کاوی ,کشف دانش نهفته در محیط مورد بررسی است که این دانش می تواند شکلهای گوناگونی داسته باشد . دانش استخراج شده می تواند به فرم الگوهای موجود در داده ها باشد که کشف این الگوها منجر به شناخت بهتر سیستم نیز می شود . الگوهای استخراجی عموما بیانگر روابط بین ویژگیهای سیستم هستند بعنوان مثال در سیستم تجاری یک الگو می تواند بیانگر رابطه بین نوع کالا و میزان تقاضای آن باشد .

در این تحقیق داده کاوی مورد بحث قرار می گیرد . علل استفاده از داده کاوی و منابعی که داده کاوی بر روی آنها اعمال می شود ,علاوه بر این خلاصه ای از روشهای رایج داده کاوی ارائه شده است . تکنیکهای داده کاوی و قوانین وابستگی و الگوریتمهای موجود (Apriori , Aprior TID, Partition, Eclat ,Max Eclat , Vector ) و الگوریتم با ساختار Trie وfp grow و الگوریتمهای کاهشی مورد بررسی قرار می گیرند و در هر مورد مثالها , موارد کاربرد ,تکنیکها و نقاط قوت و ضعف مورد بررسی قرار گرفته اند .

Data mining(داده کاوی)

تعریف :

Data Mining represents a process developed to examine large amounts of

data routinely collected. The term also refers to a collection of tools used to

perform the process. Data mining is used in most areas where data are

collected-marketing, health, communications, etc.

داده کاوی فرآیند بکارگیری یک یا چند تکنیک آموزش کامپیوتر، برای تحلیل و استخراج داده های یک پایگاه داده می باشد.در واقع هدف داده کاوی یافتن الگوهایی در داده هاست.

دانش کسب شده از فرآیند داده کاوی بصورت مدل یا تعمیمی از داده ها نشان داده می شود.

چندین روش داده کاوی وجود دارد با این وجود همه روشها “ آموزش بر مبنای استنتاج “ را بکار می برند.

آموزش بر مبنای استنتاج، فرآیند شکل گیری تعاریف مفهوم عمومی از طریق مشاهده مثالهای خاص از مفاهیمی که آموزش داده شده اند، است.

مثال زیر نمونه ای از دانش بدست امده از طریق فرایند اموزش بر مبنای استنتاج است:

آیا تا کنون فکر کرده اید، فروشگاههای بزرگ اینترنتی در mail های خود به مشتریان از چه تبلیغاتی استفاده می کنند؟ و آیا این تبلیغات برای همه مشتریان یکسان است؟

پاسخ این است که از روی دانش کسب شده از اطلاعات خرید افراد و نتیجه گیری از این دانش، این کار را انجام می دهند.مثلا در نظر بگیرید یک قانون در پایگاه داده بصورت زیر استخراج می شود:

دقت = ۸۰% : سیگار می خرند ^ نان می خرند کسانی که شیر می خرند

از روی این قانون فروشگاه می تواند به تمام کسانی که شیر می خرند تبلیغات سیگار و انواع نان را نیز بفرستد.همچنین این قانون در چیدن قفسه های فروشگاه نیز بی تاثیر نخواهد بود.

{شیر و نان و سیگار در قفسه های کنار هم چیده شوند}

کشف دانش در پایگاه داده ۱

KDD یا کشف دانش در پایگاه داده اصطلاحی است که مکررا بجای داده کاوی بکار می رود. از نظر تکنیکی، KDD کاربردی از روشهای علمی داده کاوی است.

بعلاوه برای انجام داده کاوی فرایند KDD شامل :

۱- یک روش برای تهیه داده ها و استخراج داده ها ،

۲- تصمیم گیری درباره عملی که پس از داده کاوی باید انجام شود ، می باشد.

آیا داده کاوی برای حل مسائل ما مناسب است؟

تصمیم گیری در مورد اینکه آیا داده کاوی را به عنوان استراتژی حل مساله بکار ببریم یا نه، یک مساله دشوار است.

اما به عنوان نقطه شروع چهار سؤال عمومی را باید در نظر بگیریم :

۱٫       آیا به وضوح می توانیم مساله را تعریف کنیم ؟
۲٫       آیا بطور بالقوه داده با معنی وجود دارد ؟
۳٫      آیا داده ها شامل “ دانش پنهان” هستند یا فقط برای هدف گزارشگری مناسبند ؟
۴٫      آیا هزینه پردازش داده (برای داده کاوی) کمتر از سود حاصل از دانش پنهان بدست آمده از پروژه داده کاوی است ؟

یک مدل پردازش داده کاوی ساده :

در یک دید کلی ، ما می توانیم داده کاوی را به عنوان یک فرآیند چهار مرحله ای تعریف کنیم :

۱٫       جمع آوری یک مجموعه از داده ها برای تحلیل
۲٫       ارائه این داده ها به برنامه نرم افزاری داده کاوی
۳٫      تفسیر نتایج
بکارگیری نتایج برای مساله یا موقعیتهای جدید

– جمع آوری داده ها :

فرآیند داده کاوی احتیاج به دسترسی به داده ها دارد. داده ممکن است در تعدادی رکورد، در چندین فایل پایگاه داده ذخیره شود و یا ممکن است داده فقط شامل چند صد رکورد در یک فایل ساده باشد.

با توجه به اینکه معمولا داده های واقعی شامل چندین هزار رکورد می باشند، اولین گام در داده کاوی تهیه زیر مجموعه مناسبی از داده برای پردازش است. گاهی این مرحله احتیاج به تلاش انسانهای بسیاری دارد. در کل سه راه متداول برای دستیابی فرآیند داده کاوی به داده وجود دارد :

۱٫       ذخیره داده در “ انبار داده ۱ ”
۲٫       ذخیره داده در پایگاه داده رابطه ای
۳٫      ذخیره داده در فایل ساده

– داده کاوی :

همانطور که در شکل مشخص است مرحله بعد داده کاوی است. با این حال قبل از ارائه داده به ابزار داده کاوی ، چندین انتخاب داریم:

۱٫       یادگیری باید تحت کنترل باشد یا بدون کنترل ؟
۲٫       کدام نمونه ها در داده ها ی جمع آوری شده برای ساخت مدل بکار میروند و کدامها برای تست مدل ؟
۳٫      کدام صفتها از صفتهای موجود انتخاب می شوند ؟

و ….

– تفسیر نتایج :

در این مرحله خروجیهای مرحله داده کاوی آزمایش می شوند تا مشخص شود که آیا این نتایج قابل استفاده و جالب هستند یا نه؟ همانطور که در شکل می بینیم اگر نتایج بهینه نباشد می توانیم فرآیند داده کاوی را با صفات و نمونه های جدید تکرار کنیم. همچنین ما می توانیم به” انبار داده “ مراجعه کنیم و فرآیند استخراج دانش را تکرار کنیم.

ـ بکارگیری نتایج :

هدف نهایی ما بکارگیری نتایج برای موقعیتهای جدید است. به عنوان مثال دانشی که در یک پایگاه داده فروشگاه بیان می کند کسانی که مجله ورزشی می خرند همچنین سیگار هم می خرند؛ در شکل گیری استراتژیهای فروشگاه در چیدن قفسه ها ، تهیه کاتالوگ ها و … تاثیر می گذارد.

استراتژیهای داده کاوی :

۱.Khowledge Discovery in DB (KDD)

۱ . Data Warehouse

تمام مقالات و پایان نامه و پروژه ها به صورت فایل دنلودی می باشند و شما به محض پرداخت آنلاین مبلغ همان لحظه قادر به دریافت فایل خواهید بود. این عملیات کاملاً خودکار بوده و توسط سیستم انجام می پذیرد.

جهت پرداخت مبلغ شما به درگاه پرداخت یکی از بانک ها منتقل خواهید شد، برای پرداخت آنلاین از درگاه بانک این بانک ها، حتماً نیاز نیست که شما شماره کارت همان بانک را داشته باشید و بلکه شما میتوانید از طریق همه کارت های عضو شبکه بانکی، مبلغ را پرداخت نمایید.

مطالب پیشنهادی:

تحقیق داده کاوی و اکتشاف دانش

مقاله داده کاوی (Data mining)