فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

آماده سازی داده ها برای داده کاوی

آماده سازی داده ها برای داده کار

از داده کاوی؛ به عنوان مرحله ای از فرایند کشف دانش که الگوها و یا مدل ها را در میان انبوهی از داده ها پیدا می کند؛ یاد می شود. خروجی فرایند داده کاوی معمولاً غیر بدیهی و البته درک است. علاوه بر این، داده کاوی علمی است که از تلفیق علوم متفاوت همچون؛ آمار، یادگیری ماشینی، پایگاه های اطلاعاتی و مانند آن شکل می گیرد و ماده اولیه به کار رفته در آن، داده (اطلاعات) است. از این رو سنگ بنای عملیات داده کاوی خوب، به کارگیری و دسترسی به داده های اولیه خوب ومناسب است؛ که از آن به آماده سازی یا پیش پردازش 6 داده ها یاد می شود. در واقع برای کشف دانش به کمک داده کاوی بایستی مقدماتی صورت گیرد؛ که مجموعه این اقدامات را آماده سازی داده ها گویند.

اهمیت آماده سازی داده ها :
اهمیت آماده سازی داده ها به دلیل این واقعیت است که؛ "فقدان داده با کیفیت برابر با فقدان کیفیت در نتایج کاوش است" 7 و " ورودی بد خروجی بد به دنبال دارد"8 در جدول 1 مقایسه ای بین اهمیت آماده سازی داده ها نسبت به سایر گام های کشف دانش به کمک داده کاوی صورت گرفته است. با این حال، متأسفانه بسیاری اهمیت آماده سازی داده ها را فراموش کرده و یا آن را کم اهمیت می انگارند. از این رو تلاش های بسیاری برای بسط و توسعه آماده سازی داده ها در داده کاوی روی داده است.وظیفه اصلی پیش پردازش داده ها؛ سازمان دهی داده ها در شکل های استاندارد برای داده کاوی و یا سایر عملیات مبتنی بر کامپیوتر است؛ که در ادامه مو رد اشاره قرار گرفته است.

کارهای عمده در آماده سازی یا پیش پردازش داده ها :
1-فهم داده:با کمک این موضوع، می توان مراحل بعدی عملیات داده کاوی را بهبود داد. به این معنی که می توان جامع و مانع بودن داده ها، هدف و کاربرد داده ها و مواردی از این دست را درک کرد تا ضمن افزایش قابلیت اطمینان به عملیات داده کاوی، سرعت انجام کار نیز افزایش یابد.
2-پاک سازی داده: این مرحله شامل؛ پر کردن داده های گم شده، هموار کردن نویزها، شناخت و حذف داده های پرت و بر طرف کردن ناسازگاری هاست.
3- یکپارچه سازی داده: این موضوع، معمولاً به هنگام تلفیق چندین پایگاه داده یا فایل اهمیت می یابد. مسایلی هم چون افزونگی داده ها در این دسته قرار می گیرند.
4-تبدیل داده: در این مرحله از پیش پردازش داده ها، با عملیاتی همچون نرمال سازی، تغییر و تجمیع داده ها روبرو هستیم.
5-کاهش داده و کاهش بعد: هدف از این مرحله آن است که به حجم کوچک تری از داده ها دست یابیم. نکته مهم در این مرحله از آماده سازی داده ها، آن است که دست یابی به نتایج تحلیلی مشابه با اصل و تمام داده ها تضمین گردد؛ چرا که در غیر این صورت این کاهش اثر مثبتی برای ما در پی نخواهد داشت.
از آن جا که، هر یک از موضوعات مطرح شده در پیش پردازش داده ها، نیازمند بحثی مفصل و طولانی در مفاهیم ودر تکنیک های اجرایی است؛ ارایه آن ها در این مجموعه نمی گنجد.
از این رو، با توجه به اهمیت موضوع پاک سازی داده ها و عمومیت آن در هر نوع عملیات آماده سازی برای داده آمایی، در ادامه، بیشتر این مبحث را مورد توجه قرار داده و سایر موارد را به مقالات دیگری موکول خواهیم کرد.

پاک سازی داده ها:
در پاک سازی داده ها به نوعی با تمیز کاری داده که گاهی تنظیف داده نیز نامیده می شود؛ روبروییم. پاک سازی داده ها، فرآیند تشخیص و حذف یا تصحیح اطلاعات در یک پایگاه داده است که دارای برخی خطاهاست. اهمیت این فرایند تا آن جاست که، قیمت نرم افزارهای مربوط به تمیز کردن داده ها بسیار گزاف و خارج از تصور بسیاری افراد است. محدوده قیمت نرم افزارهای خوب مربوط به تمیز کردن داده ها بین 000,20 تا 000,300 دلار قیمت است.

وظایف پاک سازی داده: الف)اکتساب داده و فراداده: در این مرحله، مواردی همچون شناخت نقش، نوع و جزییات کاربردی داده مورد بررسی قرار می گیرد. به علاوه در مواردی که نیاز است تا انباره های داده و بازارهای داده ای ساخته شوند ممکن است نیازمند ساخت فراداده برای داده هایمان باشیم.

ب)پر کردن داده های گم شده/مفقوده: گاهی با مشکل فقدان داده ها روبرو هستیم. دلایل مختلفی برای نبود داده ها ذکر شده است؛ که عبارتند از:
*داده ها هنگام ورود حایز اهمیت نبوده اند.
*در تجهیزات ثبت داده ها ایراد وجود دارد.
*به خاطر دشواری فهم، داده وارد نشده است.
*داده مورد نظر، با داده دیگر ناسازگار بوده و به ناچار حذف شده است.
حال باید دید که چگونه باید با این مشکل برخورد کرد. انتخاب روش برخورد با داده ها که وجود ندارد؛ بستگی به شرایط مسأله دارد. یکی از شرایط موثر در این تصمیم گیری ها آن است که دریابیم چه عاملی دلیل فقدان داده ها بوده است.
برخی داده ها مفقوده کاملاً از نظر آماری غیر وابسته به داده هایی است که تا کنون مشاهده شده ان ؛ این داده ها را مفقود شده ی کاملاً تصادفی 9 می گویند. در برخی موارد نیز مقادیر مفقوده، تصادفی 10 هستند و به تعدادی از متغیرها یا طبقه داده های پیش بینی کننده مشروط می باشند. دسته ای دیگر از داده های مفقوده نیز، غیر قابل چشم پوشی 11 هستند؛ به این معنا که این نوع داده های مفقوده به کمک داده های مشاهده شده قبل از خود قابل نقل هستند. این قبیل تفاوت ها سبب می شود که روش های متفاوتی برای برخورد با مقادیر مفقوده مورد استفاده قرار گیرد.
حذف رکورد: این روش برای عملیات دسته بندی و بر روی داده های طبقه ای صورت می گیرد. نکته ای که باید مد نظر باشد آن است که اگر تعداد داده های مفقوده زیاد باشد؛ استفاده از این روش سبب می شود که حجم نمونه به شدت کاهش یابد. این مشکل به شکل ویژه هنگامی اثرات خود را بر نتایج نشان می دهد که برخی از نمونه داده ها بسیار نادر و کم بوده و حذف رکورد مربوط به آن ها، سبب از دست دادن نمونه ای با ارزش شود. از این رو حذف رکورد بایستی در موارد خاص انجام گیرد.

حذف مشاهده:
این انتخاب زمانی روی می دهد که رکورد دارای مقدار مفقوده، مورد نیاز باشد؛ چرا که در غیر این صورت بود یا نبود مقدار برای ما مهم نیست. البته در صورت نیاز به استفاده از این روش باید به یاد داشته باشیم که محاسبات انجام شده برای مقادیر آمار توصیفی؛ از قبیل میانگین، واریانس و کواریانس به اندازه های متفاوت نمونه مربوط خواهد شد که تأثیر آن باید مد نظر باشد.

پر کردن به صورت دستی:
همان گونه که قابل پیش بینی هم می باشد این روش چندان عملی نیست؛ چرا که پیدا کردن و اصطلاحات لازم زمان بر است. البته در برخی مواقع ای تنها راه حل ممکن است. مثلاً، دو نام و آدرس فرضی محمد رحیمی ساکن تهران و محمدامین رحیمی ساکن تهران را در نظر بگیرید. اگر این دو نفر دقیقاً یکی بوده و تمامی سایر مشخصات آن ها نیز یکی باشند؛ تشخیص و رفع این مشکل ممکن است به کمک کامپیوتر مقدور نباشد. البته این موارد بسیار محدود است. پر کردن به صورت خودکار: این راه حل دارای چندین زیر روش است پر کردن خودکار به چند روش زیر ممکن است:

پرکردن با مقدار ثابت سراسری:
در این موارد مقادیر مفقوده با مقداری هم چون، Unknown پر می شوند. مسأله ای که در این صورت با آن مواجه خواهیم بود آن است که، ممکن است در حجم بالای داده ها ویژگی مقدار دهی شده با این مورد، جزء داده های محاسباتی محسوب شده ودر محاسبات منظور گردد؛ و به این شکل ایجاد خطا نماید. به علاوه هنگامی که عملیات پاگ سازی داده ها برای ساخت انبار داده استفاده می شود، این روش انتخاب مناسبی نخواهد بود.

پرکردن با میانگین ویژگی:
استفاده از این روش ممکن است سبب شود تا به دلیل تاثیر مقادیر نسبت داده شده به این ویژگی، نتایج به دست آمده به نفع این میانگین بایاس شود؛ حتی ممکن است اتخاذ این روش سبب حذف یا انتقال رکوردهای مربوط به یک دسته خاص از داده ها به سمت دسته نتایج دیگری شده و یک دسته مهم و واقعی از نتایج را نادیده بگیریم.

پرکردن با مقادیر با احتمال بیشتر:
این روش که پرکاربردترین روش قابل اعتماد است، شامل روش های استنتاجی و به کارگیری فرمول های بیزین، رگرسیون و درخت تصمیم است. به نوعی در این روش ها بر اساس استنتاج منطقی که مبتنی بر نوع اطلاعات موجود است؛ عمل پیش بینی صورت می گیرد. علاوه بر این موارد؛ روش های دیگری هم چون، پر کردن مقادیر با میانگین ویژگی برای کلاس های مشابه، نیز وجود دارد که چندان متداول نمی باشند.
باز هم بایستی یادآوری کنیم که ، نوع داده ها و شناخت آن ها قبل از پرکردن مقادیر مفقوده ضروری است. مثلاً نمی توان داده طبقه ای را با روش میانگین ویژگی پرکرد، چرا که میانگین برای این نوع داده ها قطعاً بی معنا خواهد بود. درک این موارد در مواجهه با این قبیل مشکلات اهمیتی حیاتی دارد.

ج)حل مشکل افزونگی(در عملیات تجمیع داده ها):
همان گونه که می دانید؛ برای کار با داده ها در بسیاری مواقع، آن ها را از منابع و پایگاه داده های مختلف در کنار یکدیگر تجمیع می کنیم. در داده کاوی این موضوعات در قالب ساخت بازارهای داده و انبارهای داده مورد بررسی قرار می گیرد که نیازمند بحثی مفصل است. به هر حال پایگاه های مختلف داده هنگامی که گسسته از یکدیگر طراحی می شوند؛ به ناچار دارای فیلدهای و داده ها ی یکسانی هستند که اتفاقاً داده های حیاتی پایگاه داده ها و سیستم هاست.
برای این گونه مسایل روش های متعددی وجود دارد که برخی از آن ها هم چونه افزونگی 12 معمول در پایگاه داده ها را با آزمون های مختلف آماری می توان حل کرد.

د)یکسان سازی فرمت ها:
این موضوع نیز یکی از مسایل مهم به هنگام تجمیع داده هاست که به دلیل اهمیت آن و پنهان بودن زوایای آن از دید داده کاوان؛ آن را به شکل مجزا مورد اشاره قرار داده ایم. برای درک پنهان و مشکل بودن تشخیص این موارد بهتر است مثالی مطرح کنیم. به عنوان مثال در مورد فیلد تاریخ، فرمت های مختلفی برای ذخیره داده ها استفاده می شود؛ که در صورت عدم دقت به این مسأله، داده کاوی، اثربخشی لازم را به دنبال نداشته و بازسازی انباره های داده ساخته شده نیز،هزینه بالایی به دنبال خواهد داشت. راه حل این مشکل عموماً در گرو درک داده های موجود در پایگاه های مختلف، از قبل تجمیع آن هاست.

ه) تصحیح داده های ناسازگار: این مشکل مربوط به تناقض در داده ها بوده و از جمله مواردی است که نیازمند تجربه و صرف وقت بسیار است. به عنوان مثال وجود در فیلد تاریخ تولد و سن مربوط به یک مشتری خاص، در صورتی که همخوانی لازم را نداشته باشد، ناسازگاری محسوب می شود. این گونه خطاها ممکن است به دلیل استفاده از منابع مختلف داده و در زمان ترکیب دو منبع مختلف از داده ها روی دهد.
اما مشکل عمده ای که با آن مواجه می شویم و تشخیص آن بسیار مشکل است؛تعیین ناسازگاری های نهفته است. به عنوان مثال اگر به دنبال کشف الگو در مورد مسائل مربوط به هتل داری باشید و قیمت مربوط به هتل های دنیا را از منابع مختلف جمع آوری کنید، جدای از بحث تبدیل نرخ ها و رفع ناسازگاری مربوط به مسایل خاص ارزی هر کشور، باز هم قیمت هتل ها نمی تواند ملاک مناسبی باشد؛ چرا که لازم است تا خدماتی همچون، صبحانه رایگان، استخر و سایر خدماتی را که در جاهای مختلف به شیوه های مختلف ارایه می شود، مد نظر داشت. به عبارتی قیمت هر شب اقامت در هتل در کنار نوع، شیوه و مقدار ارایه خدمات جانبی آن معنا پیدا می کند.
روش عمده و اصلی در حل ناسازگاری ها درک ماهیت داده ها است. اما در مواردی نیز ناسازگاری ها را که حاصل تجمیع چند منبع مختلف بوده و بیانگر افزونگی داده هاست؛ می توان با کمک روش های آماری بر طرف کرد.

و) مواجهه با داده های نویز؛ داده های پرت؛ و هموار کردن اغتشاشات داده ها:
قبل از هر چیز دیگر در این جا لازم است تا تفاوت بین داده های نویز و داده های پرت14 را درک کنیم. این تفاوت در این نکته است که داده های نویز در اثر خطاهای تصادفی بروز می کنند. از جمله عواملی که سبب بروز داده نویز می شود؛ می توان به موارد زیر اشاره کرد:
*استفاده از ابزارهای معیوب جمع آوری داده
*مسائا و مشکلات حین ورود داده
*محدودیت فناوری.
قبل از بیان روش های مواجهه با این گونه اغتشاشات داده ای، به یاد داشته باشید که تشخیص نویز یا پرت بودن مهم تر از حل این مشکل است! تشخیص اشتباه همواره درمان اشتباه به همراه دارد. از این رو بایستی مطمئن شد که اولاً آن چه گمان می کنیم مثلاً داده نویز است؛ واقعاً داده نویز باشد تا مبادا به عنوان انجام اصلاح در داده، داده ای با ارزش را تغییر دهیم.
برای مواجهه با داده نویز و هموار کردن داده ها، روش های مختلفی وجود دارد، که از جمله می توان به گسسته سازی 15 داده ها، رگرسیون، خوشه بندی و روش های ترکیبی بازرسی ماشین و انسان 16 اشاره کرد. البته برخی از این روش ها، هم چون استفاده از رگسیون و خوشه بندی در داده های پرت نیز به کابرد دارد. از این رو آن ها را تنها یک مرتبه توضیح می دهیم.

تلخیص توصیفی داده ها:نتایج حاصل از تلخیص توصیفی داده ها می تواند به شکل گرافیکی درآمده و درک و توصیف داده ها را میسر سازد. از جمله گراف هایی که برای نمایش گرافیکی تلخیص توصیفی داده ها استفاده می شود می توان به؛ هیستوگرام، چندک18،چندک چندک، نمودارپراکندگی نمودار لویس 19 ،نمودار جعبه 20 ،نمودار میله ای این ها اشاره کرد. نرم افزارهای مختلف آماری بسیاری از نرم افزارهای کاربردی داده کاوی با فراهم کردن امکان نمایش گرافیکی داده های توصیفی تلخیص شده، در عملیات آماده سازی داده ها سهیم شده اند.

گسسته سازی:
هدف از این روش آن است که داده ها را بر حسب قواعدی در دسته بندی هایی قرار دهیم؛ و دسته ای را که تعداد داده های موجود در آن بسیار کم باشد، کنار می گذاریم. توجیه آن است که این داده ها با دیگر داده ها تفاوت داشته و بنا به اشتباهاتی به وجود آمده اند. فراموش نکنیم که این روش نبایستی حذف نمونه های ارزشمند را در تشخیص الگوها به همراه داشته باشد. از این رو تأکید می کنیم که تشخیص نویز یا پرت بودن داده؛ از حل مشکل آن مهم تر است. رگسیون: رگسیون تنها روشی است که در صورت مهیا بودن شرایط استفاده، علاوه بر مشخص نمودن داده مغشوش برای آن مقدار هم پیشنهاد می دهد. رگسیون بر روی تعداد مختلف ویژگی قابل اجراست. در صورتی که بر روی دو محور متعامد تنها دو ویژگی را در نظر داشته باشیم خروجی رگسیون برازش خطی برای تطبیق نقاط این دو ویژگی است که به آن رگسیون خطی می گویند. در صورتی که تعداد بیشتری متغیر و با انواع ارتباط خطی و غیر خطی داشته باشیم رگسیون ما یک رگسیون چند متغیره و یا غیر خطی خواهد بود. قبل از استفاده از روش رگسیون بهتر است تا ویژگی هایی را که پیش بینی کننده خوبی برای متغیر وابسته هستند؛ انتخاب کنیم. این کار یا بر اساس نظر خبره و یا به کمک تست های مختلف آماری از قبیل تست های جهت و میزان همبستگی صورت می گیرد. مسأله مهم برای استفاده از رگسیون آن است که این روش به داده های پرت حساس است. از این رو می توان با تعیین اولیه برخی نقاط پرت توسط این روش یا هر روش دیگر و حذف آن ها دوباره رگسیون را تکرار کرد تا در حرحله تعدادی داده مغشوش مشخص و مقادیر پیش بینی شده آن با نظر خبره تأیید گردد. نکته مهم دیگر آن که، دامنه استفاده از رگسیون محدود به داده های عددی نیست و با انجام مقدماتی می توان برای داده های گسسته طبقه ای و ترتیبی نیز مورد استفاده قرار گیرد. از این قبیل موارد میتوان به رگسیون لجستیک و پواسون اشاره کرد که بیان جزییات مربوط به آن ها در این مقوله نمی گنجد. خوشه بندی: از خوشه بندی نیز می توان برای تعیین داده ها و خوشه هایی که می تواند پرت بوده و یا برای مسأله مورد بررسی ما کاربرد نداشته باشد استفاده کرد. به عبارتی یکی از کاربردهای خوشه بندی تعیین داده های فضای مسأله مورد بررسی است. همان گونه که می دانید در خوشه بندی، مجموعه ای از داده ها که بر اساس ویژگی های مختلف بیشترین شباهت دارند در کنار یکدیگر قرار می گیرند. همان گونه که در شکل زیر نیز می بینید؛ برخی داده ها بیرون خوشه ها قرار گرفته و می توان آن ها را کنار گذارد. البته همواره بایستی احتیاط های لازم را مد نظر داشت.

نتیجه گیری:
در این مقاله، موضوع آماده سازی داده ها برای عملیات داده کاوی مورد توجه قرار گرفت. اهمیت این موضوع سبب شده تا بسیاری نتایج ار داده کاوی را تنها در صورتی قابل اعتنا بدانند که از پیش پردازش مناسبی برخوردار باشد.
موضوعات مختلفی برای انجام آماده سازی داده ها وجود دارد. از جمله این موضوعات، پاک سازی داده ها، کاهش داده ها، کاهش ابعاد و مواردی از این قبیل است. هر یک از موضوعات مطرح شده در پیش پردازش داده ها دارای مفاهیم و تکنیک های اجرایی مختلفی است که نیازمند تشریح و تفصیلی گسترده است.
از این در این مقاله موضوع پاک سازی داده ها، انواع مشکلات و روش های مواجهه با آن ها مورد توجه قرار گرفت و بررسی سایر موارد به مقالات آتی موکول شد. با این وجود، به کارگیری عملی این موارد؛ نیازمند کسب تجربه و تکرار است.

منبع: http://www.rasekhoon.net/article/show-62725.aspx
ماهنامه رایانه شماره ۱۸۸

عباس علامه چهارشنبه 25 خرداد 1390 ساعت 07:53