فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

داده کاوی (Data Mining) چیست؟


 داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ،
 فراگیری ماشین و بازنمایی بصری داده می باشد.
 داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.
داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
 
  

داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.

داده کاوی (Data Mining) چیست؟

 
 

 داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ،
 فراگیری ماشین و بازنمایی بصری داده می باشد.
 داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.
داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.
 
  

داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلکه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود.

مثال تفهیمی در مورد داده کاوی



یکی از نمونه های بارز داده کاوی را می توان در فروشگاه های زنجیره ای مشاهده نمود، که در آن سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می روند .
برای مثال طی یک عملـیات داده کاوی گستـرده در یـک فروشـگاه زنجیره ای در آمریکای شمالی که بر روی حجـم عظیمـی از داده های فروش صورت گرفت، مشخص گردید که مردانی که برای خرید قنداق بچه به فروشگاه می روند معمولا آب جو نیز خریداری می کنند. همچنین مشخص گردید مشتریانی که تلویزیون خریداری می کنند، غالبا گلدان کریستالی نیز می خرند. نمونه مشابه عملیات داده کاوی را می توان در یک شرکت بزرگ تولید و عرضه پوشاک در اروپا مشاهده نمود، به شکلی که نتایج داده کاوی مشخص می کرد که افرادی که کراوات های ابریشمی خریداری می کنند، در همان روز یا روزهای آینده گیره کراوات مشکی رنگ نیز خریداری می کنند.
به روشنی این مطلب قابل درک است که این نوع استفاده از داده کاوی می تواند فروشگاه ها را در برگزاری هوشمندانه فستیوال های فروش و نحوه ارائه اجناس به مشتریان یاری رساند.
نمونه دیگر استفاده از داده کاوی در زمینه فروش را می توان در یک شرکت بزرگ دوبلاژ و تکثیر و عرضه فیلم های سینمایی در آمریکای شمالی مشاهده نمود که در آن عملیات داده کاوی، روابط مشتریان و هنرپیشه های سینمایی و نیز گروه های مختلف مشتریان بر اساس سبک فیلم ها ( ترسناک، رمانتیک، حادثه ای و ...) مشخص گردید.
بنابراین آن شرکت به صورت کاملا هوشمندانه می توانست مشتریان بالقوه فیلم های سینمایی را بر اساس علاقه مشتریان به هنرپیشه های مختلف و سبک های سینمایی شناسایی کند.



از دیگر زمینه های به کارگیری داده کاوی، استفاده بیمارستانها و کارخانه های داروسازی جهت کشف الگوها و مدلهای ناشناخته تاثیر دارو ها بر بیماری های مختلف و نیز بیماران گروه های سنی مختلف را می توان نام برد.
استفاده از داده کاوی در زمینه های مالی و بانکداری به شناخت مشتریان پر خطر و سودجو بر اساس معیار هایی از جمله سن ، درآمد، وضعیت سکونت، تحصیلات، شغل و غیره می انجامد.


تعاریف داده کاوی



 داده کاوی استخراج اطلاعات مفهومی، ناشناخته و به صورت بالقوه مفید از پایگاه داده می باشد. 

Source: W.Frawley and G. Piatetsky. Knowledge Discovery I DataBases.ISSN 0738-4602



 داده کاوی علم استخراج اطلاعات مفید از پایگاه های داده یا مجموعه داده ای می باشد. 

Source: D. Hand,H. Mannila,P. Smyth(2001).Principles of Data Mining.MIT Press,Cambridge



 داده کاوی استخراج نیمه اتوماتیک الگوها، تغییرات، وابستگی ها، نابهنجاری ها و دیگر ساختارهای معنی دار آماری از پایگاه های بزرگ داده می باشد. 

Source: R.Grossman



 
تفاوت داده کاوی و آنالیز های آماری



داده کاوی معمولا با نوشتن مقدار زیادی گزارش و تحقیق و استعلام در آنها اشتباه گرفته می شود. اما در واقع داده کاوی هیچ کدام از اینها را شامل نمی شود.
داده کاوی توسط تجهیزات خاصی صورت می پذیرد، که عملیات کاوش را بر اساس تجزیه و تحلیل مکرر داده ها انجام می دهد.
داده کاوی با آنالیز های متداول آماری نیز متفاوت است؛در زیرمی توان برخی از اصلی ترین تفاوت های داده کاوی و آنالیز آماری را مشاهده نمود:
 

 

 

 

 
 
 
 
 
 
 
 
 
 
 
 
 

آنالیز آماری:


•  آمار شناسان همیشه با یک فرضیه شروع به کار می کنند.
•  آنها از داده های عددی استفاده می کنند.
•   آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط است.
•  آنها می توانند داده های نابجا و نادرست را در طول آنالیز مشخص کنند.
•  آنها می توانند نتایج کار خود را تفسیر و برای مدیران بیان کنند.


داده کاوی:


•  به فرضیه احتیاجی ندارد.
•  ابزارهای داده کاوی از انواع مختلف داده ، نه تنها عددی می توانند استفاده کنند.
•  الگوریتمهای داده کاوی به طور اتوماتیک روابط را ایجاد می کنند.
•  داده کاوی به داده های صحیح و درست نیاز دارد.
•  نتایج داده کاوی نسبتا پیچیده می باشد و نیاز به متخصصانی جهت بیان آنها به مدیران دارد.

جهت درک بهتر تفاوت داده کاوی و آنالیزهای آماری به مثال زیر که در مورد شناخت کلاهبرداری های شرکت بیمه می باشد، توجه کنید.


روش آنالیز آماری:



یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه گردد. بر اساس این فرضیه، مفسر به طرح یک سری سوال می پردازد تا این موضوع را بررسی کند. اگر نتایج حاصله مناسب نبود، مفسر فرضیه را اصلاح می کند و یا با انتخاب فرضیه دیگری مجددا شروع می کند. این روش نه تنها وقت گیر است بلکه به قدرت تجزیه و تحلیل مفسر نیز بستگی دارد.
مهمتر از همه اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که مفسر به آنها مظنون نشده و در فرضیه جا نداده ، پیدا نمی کند.


روش داده کاوی:



یک مفسر  سیستم های داده کاوی را ساخته  و  پس از طی مراحلی از جمله  جمع آوری داده ها،  یکپارچه سازی و  اخلاص
داده ها به انجام عملیات داده کاوی می پردازد.
داده کاوی تمام الگوهای غیرعادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری شوند را پیدا می کند.
نتایج داده کاوی حالت های مختلفی را که مفسر باید در مراحل بعدی تحقیق کند، نشان می دهند. در نهایت مدل های به دست آمده می توانند مشتریانی را که امکان کلاهبرداری دارند، پیش بینی نمایند.



 

فواید و نقش داده کاوی در فعالیت شرکتها



امروزه عملیات داده کاوی به صورت گسترده توسط تمامی شرکت هایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می شود، از جمله فروشگاه ها، شرکت های مالی، ارتباطاتی، بازاریابی و غیره.
استفاده از داده کاوی به این شرکتها کمک می کند تا ارتباط عوامل داخلی از جمله قیمت، محل قرارگیری محصولات، مهارت کارمندان را با عوامل خارجی از جمله وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان کشف نمایند.
 


از آنجـائیـکه هـوش مصنوعی یکی از اصلی ترین  عنــاصـر داده کـــاوی
می باشد و با توجه به اینکه به کمک سیستم های کامپیوتری و پایگاه های داده، روزانه به میزان داده ها افزوده می شود، بنابراین استفاده هوشمندانه از دانش بالقوه ای که در این داده نهفته است در دنیای رقابتی امروز برای شرکت ها حیاتی می باشد.
داده کاوی پیش بینی وضع آینده بازار، گرایش مشتریان و شناخت سلیقه های عمومی آنها را برای شرکت ها ممکن می سازد.    


******************************************


حتماً تاکنون بارها عبارت "انقلاب دیجیتال" به گوشتان خورده است و احتمالاً درباره واژه هایی مانند انقلاب دیجیتال، انفجار اطلاعات، عصر رایانه، عصر اطلاعات و ارتباطات و واژه های مشابه، اطلاعاتی نیز دارید. اما چقدر به کاربرد عملی و ملموس این عبارات و مخصوصاً فایده انقلاب دیجیتال در زندگی فکر کرده اید؟

در طول دهه گذشته با پیشرفت روز افزون کاربرد پایگاه داده ها، حجم داده های ثبت شده به طور متوسط هر 5 سال 2 برابر می شود. در این میان سازمان­هایی موفقند که بتوانند حداقل 7% داده هایشان را تحلیل کنند . تحقیقات انجام یافته نشان داده است که سازمانها کمتر از یک درصد داده هایشان را برای تحلیل استفاده می کنند . به عبارت دیگر در حالی که غرق در داده ها هستند تشنه دانش می باشند.

بنابر اعلام دانشگاه MIT دانش نوین داده کاوی (Data mining ) یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیکی مواجه می سازد. این تکنولوژی امروزه دارای کاربرد بسیار وسیعی در حوزه های مختلف است به گونه ای که امروزه حد و مرزی برای کاربرد این دانش در نظر نگرفته و زمینه های کاری این دانش را از ذرات کف اقیانوسها تا اعماق فضا می دانند .

امروزه، بیشترین کاربرد داده کاوی در بانکها، مراکز صنعتی و کارخانجات بزرگ، مراکز درمانی و بیمارستانها، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.

داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدلها برای انسانها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود.

کاوش داد ه ها به معنی کنکاش داده های موجود در پایگاه داده و انجام تحلیل های مختلف بر روی آن به منظور استخراج اطلاعات می باشد.



داده کاوی فرایندی تحلیلی است که برای کاوش داده ها ( معمولا حجم عظیمی از داده ها - در زمینه های کسب وکار و بازار) صورت می‌گیرد و یافته‌ها‌با‌به‌کارگیری الگوهایی‌،‌احراز اعتبار می‌شوند . هدف اصلی داده کاوی پیش بینی است. و به صورت دقیق تر میتوان گفت :

"کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با استفاده از پرداز شهای معمول قابل دستیابی نیستند"


‌فرایند داده ‌کاوی شامل سه مرحله می باشد :
1. کاوش اولیه
2. ساخت مدل یا شناسایی الگو با کمک احراز اعتبار/ تایید
3. بهره برداری.

مرحله 1 : کاوش
معمولا‌این‌مرحله با آماده سازی داده ها صورت می گیرد که ممکن است شامل پاک سازی داده ها ،‌تبدیل داده ها‌و‌انتخاب زیرمجموعه‌هایی‌‌ از رکوردها‌با‌حجم‌عظیمی‌از ‌متغییرها( فیلدها ) باشد . سپس با توجه‌به‌ماهیت‌مساله تحلیلی‌، این‌مرحله‌به‌مدل‌های‌‌ ‌پیش بینی ساده یا مدل‌های‌آماری‌و‌گرافیکی برای شناسایی متغیرهای مورد نظر و تعیین پیچیدگی مدل‌ها برای استفاده در مرحله بعدی نیاز دارد .







مرحله 2:ساخت و احراز اعتبار مدل
این‌مرحله‌به‍ بررسی‌مدل‌های مختلف و گزینش بهترین مدل با توجه به کارآیی پیش‌بینی آن می پردازد. شاید این مرحله ساده به نظر برسد، اما اینطورنیست. تکنیک‌های‌متعددی‌برای‌ر سیدن‌به‌این‌هدف توسعه یافتند.و " ارزیابی رقابتی مدل ها"‌نام گرفتند. بدین منظور مدل‌های مختلف برای مجموعه داده‌های یکسان‌‌به‌کار‌می‌روند‌ تا‌کارآیی‌شان‌با‌هم مقایسه‌شود ،‌سپس مدلی که‌بهترین کارآیی راداشته باشد‌، انتخاب می‌شود.‌این‌تکنیک‌ها عبارتند از : Bagging,Boosting ,Stacking و Meta-learning

مرحله 3 : بهره برداری
آخرین‌مرحله‌مدلی‌راکه‌د رمرحله قبل‌انتخاب‌شده است، در داده‌های‌جدیدبه کار‌می‌گیردتا پیش‌بینی‌های‌خروجی‌های مورد انتظاررا تولید نماید.داده کاوی‌به‌عنوان‌ابزار‌مدی ریت‌اطلاعات‌برای‌تصمیم گیری‌،‌عمومیت‌یافته‌است . اخیرا‌،‌توسعه تکنیک های تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)،اما هنوز داده کاوی مبتنی بر اصول آماری نظیر(Exploratory Data Analysis (EDA)می باشد.

بااین وجود تفاوت عمده ای بین داده کاوی و EDA وجود‌دارد‌.داده‌کاوی‌بی� �تر‌ به ‌برنامه ‌های ‌کاربردی گرایش دارد تا ماهیت اصلی پدیده .به عبارتی‌داده کاوی کمتر با شناسایی روابط بین متغیرها سروکار دارد .

مفاهیم اساسی در داده کاوی

Bagging:
این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود.فرض کنیدکه قصدداریدمدلی برای رده بندی پیش بینی بسازیدو مجموعه داده های مورد نظرتان کوچک است.شمامی توانید نمونه هایی( با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل ازدرخت رده بندی (مثلا C&RT وCHAID )استفاده نمایید.به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید.سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها ،‌یک رای گیری ساده انجام دهید.رده بندی نهایی ، رده بندی ای‌خواهد بود که درخت های مختلف آنرا پیش بینی کرده اند .

Boosting:
این مفهوم برای تولید مدل‌های چندگانه (برای پیش بینی یا رده بندی)به کار می‌رود. Boosting نیزاز روش C&RT یا CHAID استفاده وترتیبی از classifier ها را تولید خواهد کرد .

Meta-Learning :
این مفهوم برای ترکیب پیش بینی‌های حاصل از چند مدل به کار می‌رود.و هنگامی که انواع مدل‌های موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Tree classifierها نظیر C&RTو CHAID، تحلیل خطی و شبکه های عصبی است.هر یک از کامپیوترها،رده بندی هایی رابرای نمونه ها‌پیش بینی کرده اند.تجربه نشان می‌دهدکه ترکیب پیش بینی های چند روش دقیق تراز پیش بینی های هریک از روشهاست.پیش بینی های حاصل از چند classifier را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی هارا ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.

نظرات 1 + ارسال نظر
حمیدرضا شنبه 7 خرداد 1390 ساعت 23:29

خیلی خوب بود.مرسی از زحماتتون

برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد