فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

فناوری اطلاعات و نرم افزار

فناوری اطلاعات , نرم افزار - هوش تجاری - داده کاوی - سیستم های اطلاعاتی مدیریت - مشاوره و اجرای پروژه

مقاله ای در خصوص انبار داده‌ها (data mart)

بر اساس درخواست یکی از دوستان در ایمیل بنده جناب اقای سلطانی مقاله زیر جهت استفاده دگر دوستان قرار میگیرد .

سالهای قبل طراحان پایگاه های داده ای پی بردند که رسیدن به اهداف مورد نظر از این طریق به سختی امکان پذیر است زیرا در خیلی از مراحل طاقت فرساست و همیشه نتایج دلخواه را بدست نخواهیم اورد بعلاوه ترکیب پرس و جوهای تجزیه ای با پرس و جوهای تحلیلی روتین به ناچار سیستم را کند خواهد کرد ودر نهایت نیاز کاربران را براورده نخواهد کرد.امروزه پردازش انبار داده به صورت پردازش تجزیه ای انلاین OLAP مجزا از پردازش تحلیلی انلاین OLTP است.با ساخت مخزن اطلاعات جدیدداده های اصلی گوناگون را از منابع گوناگون را در قالب چینش داده ها جمع اوری می کنند وشما را قادربه تصمیم گیری وساخت پردازشها برای تجزیه وارزیابی می سازند.

حال برخی از بخشهایی که کاربرد تکنولوژی انبار داده ها در انها موفقیت امیز بوده است را با هم مرور می کنیم.

تجارت:فروش، محموله ها، کنترل موجودی، مراقبت مشتری وروابط عمومی

معماری:کنترل ارزش ساخت، کارپردازی و پشتیبانی سفارشات

سرویسهای مالی:تحلیل ریسک، کارتهای اعتباری وکشف تقلب

برگرفته از از پایان نامه آقای مسعود خدابنده‌لو

ادامه .....

البته استفاده از سیستم انبار داده ها فقط محدود به سازمانها نیست بلکه دامنه ان از همه گیر شناسی تا جمعیت شناسی از علوم طبیعی تاعلوم دانشگاهی است.خاصیت عمومی تمتم این بخشها نیاز به فضا وابزار پرس و جوبرای دستیابی اسان وراحت به خلاصه ای از اطلاعات به صورت مفید از حجم عظیمی از دادهه های ذخیره شده در پایگاه داده و یا اطلاعات بدست امده از اینترنت است.این نوع اطلاعات به ما اجازه میدهد تا در باره کسب و کارها مطالعه کنیم ودر مورد اطلاعات معنی دار دانشی بدست اوریم وعلوم مفید را برای تامین فراینند تصمیم گیری تقویت کنیم.

1.DSS(سیستم حمایت از تصمیم):

تا اواسط سال1980 پایگاه داده ای شرکتها فقط اطلاعات عملیاتی را ذخیره می کردند که داده های ساخته شده به وسیله عملیات کسب و کار پیچیده در فرایند روزانه مدیریت از قبیل مدیریت خرید،مدیریت فروش وصورت حسابها وغیره بود .هرچند هر شرکت و سازمانی باید سرعت در کار داشته باشد و این سرعت در دسترسی فراگیر به اطلاعات نیازمند فرایند تصمیم سازی است.

این استراتژی اطلاعات اساسا از میان حجم عظیمی از دادهه های عملیاتی ذخیره شده در پایگاه های داده شرکتها استخراج شده است واین بدین معنی است که انتخابی پیشرفته و داده های متراکم را در پی خواهد داشت. dssمجموعه ای از تکنیکهای قابل گسترش ومتقابل IT وطراحی شده برای محاسبه وتجزیه داده برای تامین خواسته های مدیران در فرایند تصمیم سازی است .برای انجام این کار سیستم منابع شخصی مدیران را با منابع کامپیوتر برای بهبود کیفیت تصمیم گیری هماهنگ می کند.این سیستمها ، اگاهیهای منابع انسانی را با قابلیتهای کامپیوتری ترکیب می کنند تا کیفیت تصمیم گیری را بهبود بخشند. این سیستم برای مدیرانی که تصمیم گیرنده و با مسایل نیمه ساخت یافته مواجه اند ، ارایه شده است.این نکته را باید مد نظر داشت که dss نیز مانند فناوریهای mss(سیستم حمایت مدیریت) ، اصطلاحی است که هر فردی برای آن معنی و مفهومی متفاوت در نظر می گیرد.دلایل استفاده از dss:وجود شرایط اقتصادی بی ثبات،موج فزاینده رقابت داخلی و خارجی،عدم پی گیری هدفهایی مانند کارآیی بالا ، سود آوری و ورود به بازارهای سود آور از طریق سیستم کامپیوتری،وجود مشکلات داخلی خود شرکت برای پیگیری عملیات مورد نیاز.

2.انبار داده ها:

ویژگیهای انبار داده نیازهای کاربران را به دسترسی اسان وذخیره ساخت یافته داده ها وکیفیت داده ها که در فرایند تصمیم سازی استفاده می شود را برطرف می کند.انبار داده پروسه هایی از قبیل پاکسازی، فیلتر،تبدیل داده هاو ذخیره انها را اجرا می کند که در ان دسترسی به داده های منابع ناهمگن اسان می شود .سیستم انبار داده ها احتمالا سیستمی است که انجمنهای اکادمیک وافرادمشغول در صنعت بیشترین توجهشان را در میان dssها به ان داده اند انبار داده ها می تواند اساسا بهترین انتخاب باشد تعریف انبار داده ها در اینجا نوعی سیستم تصمیم سازی را به ما معرفی می کند.انبار داده به شما یک ایده در موردفرایند می دهد اما شامل ویژگیهای مشخصی از فرایند نیست.برای فهمیدن نقش وسودمندی خصوصیت کامل انبار داده ها شما باید ابتدا نیازهایی را که از گذشته تا به امروز وجودداشته را فهمیده ودرک کنید در سال 1996 کیمبل یک سری از اعتراض هایی را که بارها توسط کاربران سیستمهای اطلاعاتی قدیمی بود را جمع اوری کرد که از این قرار بود.

1. ما توده ای از اطلاعات داریم اما به انها دسترسی نداریم:این نشان دهنده نا امیدی کسانی است مسئولیت سازمانها وشرکتها را برعهده دارند اما انها ابزاری برای کمک به استخراج اطلاعات درخواستی در قالب مقتضی را ندارند.

2. ما می خواهیم که انتخاب وگروه بندی کنیم وداده ها رادرمسیرهای غیر ممکن دستکاری کنیم: فرایند تصمیم سازی همیشه نمی تواند قبل از تصمیم گرفتن اجرا شود.تمام کاربران نیاز به ابزار کاربرپسند ونیاز به جستجوی زمان واقعی مثل انالیز بازیافت اطلاعات را دارند.

3. هر کسی فکر میکند که ان داده ها اشتباه هستند:این نکته دلخراش دیگر است درصد قابل توجهی از داده های تبادلی صحیح نیستند یا بی ارزش هستند.این واضح است که شما نمی توانید به نتیجه خوبی دست پیدا کنید اگر مبنای تجزیه خود رابراساس داده های ناسالم وناقص قرلر دهید.

4. مانمی توانیم از لیست قبلی مسائل ومشکلات برای استخراج لیستی از کلید واژه ها که تشخیص داده شده اند واحتیاجات ضروری برای فرایند داده ها هستند استفاده کنیم:مجموعه ای از وظایف که به ما اجازه تبدیل داده های عملیاتی را به اطلاعات مناسب برای تصمیم ساری می دهد .

5. جمع اوری داده ها برپایه مدل استاندارد سازمان

6. پرس و جوی انعطاف پذیر برای بدست اوردن بالاترین مزایا از داده های موجود .

انبار داده یک مخزن متشکل از داده هایی است که از موقعیتهای مکانی مختلف(پایگاه های داده رابطه ای )جمع اوری شده اند انبارهای داده را معمولا از طریق پیاده سازی مجموعه ای از فرایندها رویدادهایی که متعلق به چندین پایگاه داده هستند به دست می اورند این فرایندها به طور معمول شامل این موارد هستند .داده پیرایی ،تبدیل داده ،یکپارچه سازی داده،بارگذاری داده وبه روز رسانی دوره ای داده.یک انبار داده به طور معمول از یک ساختار پایگاه داده ای چندین بعدی استفاده می کند در این ساختار هر بعد متناظر است با یک صفت یا مجموعه ای از صفات که توسط کاربر برای قرار گرفتن در شما انتخاب می شوند.هر سلول در پایگاه داده متناطر با محاسبات خلاصه شده (تجمعی) است مانند میانگین ،شمارش،کمینه وغیره.پیاده سازی انبار داده ها میتواند یک به صورت پایگاه داده رابطه ای یا مکعب داده چند بعدی باشد.ساختار مکعب داده یک نمای سه بعدی از داده ها می باشد که امکان دسترسی سریع به داده های خلاصه شده را از طریق پیش محاسبه فراهم می اورد .انبار داده ها مجموعه ای از متدها وتکنیکها وابزار برای پشتیبانی از کارگران دانش مدیران ارشد کارگردانان مدیران وتحلیل گران که برای هدایت تحلیل داده برای کمک به فرایند تصمیم سازی وبهبود منابع اطلاعاتی است.انبار داده ها شی گراست زیرا بر محور مفهوم معینی سازمانی از قبیل مشتریها محصولات فروش وسفارشات پایگاه های داده ای عملیاتی بر محور کاربرهای خاص سازمانی متفاوت است ما بریکپارچگی وسازگاری تکیه می کنیم زیرا انبار داده ها از منابع داده چند گانه استفاده می کند از قبیل داده های استخراج شده از تولیدات نگه داری شده در پایگاه های داده سازمانها یا حتی داده هایی از سیستم اطلاعاتی شخص ثالث . انبار داده ها باید یک نمای متحد از داده ها ایجاد کند .به طور کلی می توان وضعیتی در سیستم انبار داده ها بدون احتیاج به افزایش داده های جدیدایجاد کردالبته اطلاعات بدست امده احتیاج به بازارایی دارد این بدین معنی است که ان سیستم اطلاعات باید این قابلیت را قبلا داشته باشد.داده های کاربردی همیشه دوره زمانی کوتاه را تحت پوشش رقرار می دهند زیر ا بیشتر تراکنشها در گیر اخرین داده ها هستند انبار داده ها باید قادر به تجزیه باشد به جای پوشش چندین ساله به همین دلیل انبار داده ها به صورت منظم از داده های کاربردی به روزرسانی شده ورشد را ادامه می دهد.اگر داده ها به صورت نمایش بصری باشند .مثل عکسی از داده های کاربردی که در فاصله های معین باید ساخته شوند رشته ای از عکسها باید در انبار داده ها ذخیره شوندونتیجه مثل یک فیلم وضعیت سازمان را از زمان تاسیس ان تا به حال نمایش می دهد.اساسا داده هاهیچ وقت از انبار داده هاپاک نمی شوند و بروز رسانی به صورت نرمال در زمانی که انبار داده ها در حالت اف لاین است انجام می شود.این بدین معنی است که انبار داده ها به صورت ضروری می تواند پایگاه های داده را در حالت خواندن نمایش دهد این برای کاربران راضی کننده است.نیاز به زمان پاسخ دهی کوتاه وتجزیه پس و جو ها عوامل مهم دیگری نیز دارد.

2-1 خصوصیت اصلی انبار داده

دراین بخش ، چهار خصوصیت اصلی انبار داده را مورد بررسی قرار می‌دهیم

موضوع‌گرا:هر انبار داده داده‌های مرتبط با یک موضوع خاص را در خود نگاه می‌دارد و این داده‌ها را به منظور استخراج مفاهیم و نتایج خاصی به شکلی ویژه سازماندهی می‌کند. بدین ترتیب سرعت جستجو‌ها در انبار بسیار بالا خواهد بود. انبار داده برای پاسخ‌گویی به پرسش‌های مختلف در مورد یک موضوع خاص بهینه‌سازی می‌شود.

انسجام: در سیستم‌های مختلف داده‌ها ممکن است از جنبه‌های مختلفی با هم نامتناسب باشند. مثلاً منابع داده در کشورهای مختلف با زمان و تاریخ‌های مختلف ذخیره شده‌اند.و یا منابعی که ازماشین‌های مختلف هستند در اعداد، حروف و دیگر فیلدها متناسب با محدودیت‌های ماشین، سیستم‌عامل و تطابق با استانداردهای مختلف متفاوت هستند با توجه به مختلف بودن منابع انبار‌داده، قبل از ذخیره سازی آن‌ها در انبار داده برای تأمین یکپارچگی تکنیک‌های پاکسازی داده‌ها و مجتمع‌سازی به کار می‌رود. با توجه به این موضوع که داده‌ها زیر نظر مدیریت واحدی ذخیره سازی می‌شوند، داده‌های کاملاً سازگاری خواهیم داشت که داشتن چنین سازگاری در سایر سیستم‌ها مثل سیستم‌های شبکه‌ای و توزیعی ناممکن است. داده ها به گونه ای کامل سازماندهی شده اند تا با حذف موارد تکراری وچند عنوانه یکپارچگی رکوردها حفظ شودوبه ارجاع های متقابل کارامد بین رکوردها کمک نموده وارجاع دهی را تسهیل نماید.

متغیر با زمان: داده‌ها در انبار‌داده برای تهیه اطلاعات تاریخی( مثلاٌ برای 5 تا 10 سال پیش) به کار می‌روند. هر ساختار کلیدی در انبار داده شامل عنصر زمان یا همان مهر زمانی است این مهر زمانی به عنوان کلیدی به سایر جداول عمل می‌کند. سیستم انبار داده داده‌ها هرگز به روز آوری‌ نمی‌شوند. بلکه داده‌های جدید و یا تغییر یافته با مهرهای زمانی جدید به انبار اضافه می‌شوند.

غیر فرار: داده‌های انبار‌داده همیشه از لحاظ فیزیکی مجزا هستند ، و هیچگاه نیازی به تغییر و به روز درآوری نخواهند داشت. با توجه به این موضوع، انبار داده مثل پایگاه داده‌های معمولی احتیاجی به پردازش تراکنش، بازگرداندن فرایند و مکانیزم کنترل تصادم ندارد. علاوه بر این نیازی به ایجاد و دسترسی انحصاری به داده‌ها نخواهیم داشت.

2-2 تفاوت بین انبار داده و پایگاه داده عملیاتی

اولا نتیجه انبار داده ها مشخصا تکنولوژی مدیریت پایگاه داده هااست ثانیا انبار داده ها فقط در حالت خواندنی است بنابر این به انبار داده ها طراحی منطقی کاملا متفاوت است از روشهای استفاده شده در پایگاه های داده عملیاتی.برای مثال بشتر ویژگیهای مشهود انبار داده ها پیاده سازی طراحی رابطه ای است که در ان جدول عادی سازی شده را از جدولهای از نرمال خارج شده به ما بدهد وکارایی رابهبود بخشد.تفاوتهای دیگر میان پایگاه های داده ای عملیاتی وانبار داده ها ارتباط با انواع پرسو جوهااست .پرس و جوهای عملیاتی تراکنشها به طور کلی خواندن ونوشتن در اعداد کوچکی از تعداد زیادی جدول که به وسیله ارتباطی ساده به هم متصل هستنداست.برای مثال این کاربردها اگر شما جستجویی برای داده های یک مشتری در سفارشها برای قرار دادن سفارش جدید مشتری داشته باشید این نوع پرس وجو OLTP است برعکسOLAP نوعی از پس و جو است که نیاز به انبار داده ها دارد.ویژگیهای پویایی ان تجزیه ای چند بعدی که نیاز به اسکن حجم عظیمی در میان رکوردها برای پردازش وجمع اوری داده های عددی و افزایش کارایی سازمان است بالعکس قابلیت دو طرفه بودن انبار داده ها یک خاصیت ضروری برای تجزیه جلسه است واز این رو حجم کار واقعی دائما در طی زمان تغییر می کند .مشخصا تفاوت ویژگیها یolap پیشنهاد ارائه تطبیق چند بعدی را برای داده های انبار داده را می دهد اساسا داده در نقطه ای فضا نمایش داده میشود.کدام بعد مطابق با ابعاد کاوشهای امکان پذیر است.هر نقطه نشان دهنده یک رویداد است که در سازمان اتفاق افتاده وتوسط مجموعه ای ازاقدامات مربوط به هم برای پروسه های تصمیم سازی توضیح داده شده است . به طور کلی انبار داده مجمو عه ای از داده ها است که از منابع مختلف اطلاعاتی سازمان جمع آوری ، دسته بندی و ذخیره می شود. در واقع یک انبار داده مخزن اصلی کلیه داده های حال و گذشته یک سازمان می باشد که برای همیشه جهت انجام عملیات گزارش گیری و آنالیز در دسترس مدیران می باشد. انبارهای داده حاوی داده هایی هستند که به مرور زمان از سیستمهای عملیاتی انلاین سازمانoltp استخراج می شوند، بنابراین سوابق کلیه اطلاعات و یا بخش عظیمی از آنها را می توان در انبار داده ها مشاهده نمود.

جدول زیرخلاصه ای از تفاوتهای اصلی بین پایگاه های داده عملیاتی وانبارداده هارا به ما نشان می دهد

انبار داده ها

پایگاه داده عملیاتی

ویژگی ها

صدها

هزاران

کاربران

پرس و جوی معین

از پیش تنظیم شده

حجم کار

میلیونها رکورد اساسا خواندنی

هزاران رکورد خواندن ونوشتن

دسترسی

حمایت از تصمیم

وابسته به کاربرد واستفاده

هدف

جمع شده،اساسا عددی

جزئیات عددی وحروفی

داده ها

بر اساس موضوع

بر اساس کاربرد

جمع اوری داده ها

بر اساس هماهنگی واستحکام

برحسب بی نقصی

کیفیت

داده های رایج وگذشته

فقط داده های رایج

زمان تحت پوشش

دوره ای

متناوب

بروز رسانی

دنرمالیزه ، چندبعدی

نرمالیزه

مدل

برای OLAPدسترسی به بیشترین پایگاه

برای OLTPدسترسی به قسمتهای پایگاه

بهینه سازی

معماری انبار داده ها:خصوصیاتی که در این بخش توضیح داده شده است برای سیستم انبار داده ها ضروری است.

تفکیک پذیری: پردازش تجزیه ای وپردازش تبادلی در صورت امکان باید جدا از هم نگه داری شوند .

مقیاس پذیری: معماری های نرم افزار وسخت افزار باید به سادگی مثل داده ها ارتقا پیدا کنند.

توسعه پذیری :معماری باید قابلیت میزبانی لز برنامهای کاربردیجدید وتکنولوژیها را بدون تجدید طراحی در تمام سیستم را داشته باشد.

تضمین دسترسی :دسترسیها بسیار ضروری است زیرا داده های استراتژیک درانبار داده ها ذخیره می شوند قابل اداره بودن:مدیریت انبار داده ها نباید پیچیده وزیاد سخت باشد.

دو طبقه بندی متفاوت عموما بر ای معماری انبار داده ها پذیرفته شده است .طبقه بندی اول که توضیح داده شده است ساختار گراست ومربوط به تعداد لایه های استفاده شده در معماری است.دومین طبقه بندی مربوط به این است که چگونه تفاوت لایه ها برای ایجاد نمایش سازمانگرا یا دپارتمان گرا در انبار داده ها کار می کند.

3-1معماری یک لایه :

معمار ی یک لایه اغلب در عمل استفاده نشده است وهدف آن کم کردن هزینه داده های نگه داری شده است برای رسیدن به این هدف داده های زاید را حذف می کند

شکل.3-1

معماری یک لایه

تنها لایه ای که واقعا قابل دسترسی است لایه منبع است در این نوع معماری انبار داده مجازی است این بدین معنی است که انبار داده ها یک نمای چند بعدی از داده های عملیاتی ساخته شده توسط یک میان افزارمعین یا لایه پردلزش میانی قرار می دهد ضعف این معماری عدم براورده کردن نیازها برای تفکیک بین پروسسهای تحلیلی وپروسسهای رابطه ای است .برداشتپرس وجوهای تحلیل داده های عملیاتی بعد از این که میان افزارانها را تفسیر کرد ارئه می شوندبعلاوه اگر چه این معماری می تواند نیازها برای جمع اوری وتصحیح داده ها را بر اورده کنند اما نمی تواند داده هایی بیش از منابع خود برداشت کند.به همین خاطر یک وسیله مجازی برای انبار داده هامی تواند موفق باشد اگر نیازهای کاوش جزء به جزء ومحدود باشد وحجم داده ها برای پردازش عظیم باشد.

3-2 معماری دولایه:

نیاز به جدا سازی نقش بسیار اساسی را در تعریف این نوع معماری در سیستم انبار داده ها را بازی میکند .در شکل 3-2 اگر چه این نوع معاری دو لایه خوانده شده است که برای شفافیت تفکیک وجدایی بین منابع دسترسی واقعی وانبار داده ها است این لایه در واقع دارای چهار زیر لایه طبقه جریان داده است.

لایه منبع یک سیستم انبار داده از منابع نامتناجسی از داده ها استفاده می کند این داده ها در اصل در پایگاه داده ای رابطه ای شرکت ذخیره شده بودند یا از پایگاه های داده قبلی به ارث رسیده یا این که ممکن است از سیستمهای اطلاعاتی خارج از شرکت امده باشند.

چهارچوب داده ها:داده های ذخیره شده در منابع باید خلاصه وپاک سازی شوندکه برای از بین رفتن ناسازگاری پر شدن فضای خالی است وبرای ادغام داده های نا متناجس در شکل کلی جمع اوری میشوند به همین خاطر به خلاصه کردن انتقال وبار گذاری ETL می گویند که میتواند الگو های نا متناجس را با خلاصه سازی انتقال پاکسازی اعتبارسنجی فیلتر وبارگذاری را در منبع داده ادغام کند.این چارچوب با مشکلاتی سروکار دارد که نوعا برای سیستمهای اطلاعاتی توزیع شده پیش می اید از قبیل مدیریت داده های نامتناجس وساختارهای داده های ناسازگار.

لایه انبار داده : لایه انبار داده اطلاعاتی است که در یک مخزن متمرکز به طور منطقی ذخیره شده است .انبار داده مستقیما در دسترس بوده اما نمی تواند برای ساخت مراکز داده با تکرار اندکی از محتویات انبار داده وطراحی شده در بخشهای معین سازمان استفاده شود.مخازن متادیتا اطلاعات را نگه داری می کنند مثل پروسی های دسترسی چارچوب داده ها کاربران الگوی مرکز داده وطرح دیتا مارت واز این قبیل. کاوش :در این لایه داده های جمع اوری شده کارامد هستند واطلاعات بدست امده پویا وشبیه سازی شده کسب و کار فرضی است وبرای گرفتن خروجی گزارش به راحتی در دسترس هستند این لایه باید ویژگی جمع اوری هدایت کننده های داده مجموعه پرس و جوهای بهینه وکاربر پسند را داشته باشد.

مراکز دادهData Mart :

شما ممکن است بپرسید که انبار داده ها اطلاعاتی در باره تمام موضوعهای راجع به سازمان ذخیره می کند پس نقش مراکز داده در این سیستم چیست؟ میتوان گفت که دیتا مارت یک زیر مجموعه از انبار داده هااست که اطلاعات را به صورت موضوعی ذخیره کرده وتمرکز ان بر روی موضوعات خاص است. زیر مجموعه یا یک جمع کننده داده ها برای انبار داده های ابتدایی واولیه است.دیتا مارت شامل مجموعه ای از اطلاعات وابسته به ناحیه کاری معین بخشها ودپارتمان سازمان ودسته ای از کاربران است.دیتا مارت نوع خاص و کوچک از انبارداده ها است و همانند آنها حاوی کپی های غیرقابل تغییر از داده ها هستند که برای آنالیز وضعیت گذشته جمع آوری می شوند با این تفاوت که مراکز داده برای کار در یک حوزه کاری مشخص (نه کل حوزه کاری سازمان) و برای تحلیل داده های خاص آماده می شود. می توان در داخل یک شرکت چندینمرکز داده داشت که هر یک برای یک یا چند بخش تجاری طراحی شده باشد. هر مرکز داده می تواند وابسته به دیگرمراکز داده یا مستقل از آنها باشد. هرمرکز داده ، اقلام اطلاعاتی و ابعاد های خود را دارد که در صورت وابستگی به سایر مراکزداده می تواند با آنها اشتراک داشته باشد. دیتا مارت اغلب کوچک است و بر یک موضوع یا دپارتمان خاص متمرکز است . بنابراین پاسخگوی یک نیاز داخلی ست . مراکز داده معمولا با ابزارهای کامپیوتری که انعطاف پذیری تحلیل را تامین می کند استفاده می شود اما ممکن است برای سازماندهی حجم بالای داده ها مناسب نباشند. رکوردهای ذخیره شده در دیتامارتها بخوبی نمایه شده اند.یک دیتامارت در صورتیکه داده ها را از منابع داده ای بسیار سازماندهی شده مثل انبار داده ها بگیرد دیتامارت وابسته نامیده میشود . مسلما دیتامارتهای وابسته از لحاظ ساختاری و معماری منطقی هستند . منبع دیتامارتهای وابسته تکنولوژِی بانک اطلاعات دپارتمانی است . دیتامارتهای مستقل ثابت نیستندو از لحاظ معماری بسیار با هم متفاوتند. این مساله هنگام یکپارچه سازی دیتامارتهای مستقل، مشکل ایجاد میکن د . بنابراین با یکپارچه سازی ساده دیتامارتها یک انبار داده ایجاد نخواهد شد.دیتامارت اساسا برای اهداف تاکتیکی طراحی شده است و هدفش تامین یک نیازتجاری فوری است.

3-3معماری سه لایه:

در این معماری سومین لایه لایه تطبیق داده ها یاذخیرهداده های عملیاتی است.این لایه داده های بدست امده را بعد از جمع اوری وپاکسازی از منبع داده خارج می کند در نتیجه ان داده ها جامع سازگار صحیح وبا جزئیات شده است در شکل 3-3 نشان داده شده است که انبار داده به صورت مستقیم به منبع اطلاعات متصل نیست ولی از طریق بخش تطبیق داده به ان مرتبط است.

مزیت اصلی لایه تطبیق داده ها این است که این لایه می تواند یک مدل مرجع کلی برای سازمان یا شرکت ایجاد کند .در عین حال این لایه به سختی مشکلات خلاصه سازی منبع داده وجمع اوری از انبار داده جامع را جدا وتفکیک می کند .به طور قابل ملاحظه ای در اغلب موارد لایه تطبیق همچنان برای انجام بهتر بیشتر وظایف عملیاتی به طور مستقیم استفاده می شود که این عملیات از قبیل ساخت گزارش روزانه است که نمی تواند به صورت رضایت بخشی با استفاده از کاربردهای شرکتی انجام می شود.حال به طوردقیق تری ویژگی های اساسی وتفاوتهای معماری لایه ها را بررسی می کنیم.

4.چهارچوب داده وETL

لایه ETLاز سه پروسهextract،transform،load میزبانی می کند قابل ذکر است که این مراحل در تکنولوژی انبار داده ها در شرکت IBMبا نامهای capture،transformوapply شناخته می شود.

4-1 Extract: این بخش منابع داده های عملیاتی ودیگر منابع خارجی را با هم جمع اوری می کند.جمع اوری داده هاشامل منابع پایگاه های داده ای را بطه ای وغیر رابطه ای است.این داده ها می تواند انواع مختلفی مثل عکس،فیلم،جداول وغیره باشد. اولین قسمت از پروسه etl خلاصه سازی وپاکسازی داده هااز سیستم منبع داده است.اغلب پروژه های انبار داده تحکیم داده ها از منابع سیستمهای متفاوت است.ریزا هر سیستم مجزا ممکن است از سازمان داده ای متفاوتی استفاده کند.مزیت فرمت منابع داده ها، عموما پایگاه داده ای رابطه ای وفایلهای تخت است اما ممکن است شامل ساختارهای پایگاه های غیر رابطه ای از قبیل سیستم مدیریت اطلاعات وبه دیگر ساختارها مثل دسترسی به حافظه مجازی ویا حتی واکشی از منابع خارجی از قبیل صفحات وب پیچیده یا صفحات تکه تکه شده است.خلاصه سازی فرمت داده ها را برای پروسه تبدیل تغییر می دهد.

4-2:Transform :این مرحله از یک سری قوانین وتوابع برای نتیجه گیری از داده های خلاصه شده از منابع در مقصد نهایی استفاده می کند.اغلب منابع داده اصلا یا خیلی کم به دستکاری داده احتیاج خواهند داشت .در موارد دیگر یک یا چند مورد از موارد تبدیل ممکن است احتیاج به نیازهای تکنیکی در پایگاه داده مقصد داشته باشند.

4-3 Load: این مرحله جدولها وفایلهای ایجاد شده در مرحله قبل یعنی تبدیل را که در فرمت مناسب انبار داده ها است در مراکز داده قرار می دهد.این مرحله خود دارای چهار بخش مهم بارگذاری،الحاق،ادغام سازنده و ادغام مخرب است که انها را توضیح خواهیم داد.بارگذاری داده های ساخته شده را در جدولهای مقصد انبار داده جایگزین می کند.اگر فایل مقصد یافت نشود یک جدول دیگر ساخته می شود.الحاق داده های جدید را در جدولهایی که قبلا جایگزین شده بوده اند قرار می دهد.ادغام سازنده رکوردهای جدید را در جدولهای جایگزین مقصد به روز رسانی می کند. ادغام مخرب رکوردهای قدیمی را پاک وانها را با داده های جدید باز نویسی می کند .

در این مرحله داده درون مقصد نهایی بارگذاری می شودکه این مقصد عمدتا انبار داده ها است.اغلب انبارهای داده ممکن است اطلاعات بدست امده را روی اطلاعات قبلی باز نویس کنند.که این کار به وسیله بروز رسانی در زمانهای تعیین شده انجام میشود مثل یک ساعت یا یک هفته.برای فهمیدن این نکته به این مثال توجه کنید ، یک انبار داده نیاز به نگه داری رکوردهای فروش سال گذشته را دارد پس انبار داده این رکوردها را روی رکوردهای قدیمی تر بازنویسی می کند.هرچند پنجره ورود تاریخ دار داده هاساخته خواهد شد.زمان بندی ومحدوده ان برای جایگزینی یا الحاق ،وابسته به قابلیتهای زمانی ونیازهای کسب وکار است .

5.مدل چند بعدی:

لایه انبار داده ها در این بخش بسیار مهم وضروری است .دراینجا ما با راهنمای انبار داده ها اشنا می شویم.شما نیاز دارید تا با ویژگیها ولغات استفاده شده در انبار داده اشنا شوید برای فهمیدن اطلاعات ارائه شده تاکنون.پایگاه های داده چند بعدی اغلب تحقیقات پژوهشها وتصمیمهای بزرگ را ایجاد کرده اند زیرا این پایگاه هامبنا واساس بسیاری کاربردهای تصمیم سازی بوده اند.مدل چند بعدی در اتصال به صفحات گسترده واستفاده ازابزار بهره ور موفق تر است.شاید بهترین نقطه شروع برای رسیدن به مدل چند بعدی به طور موثر تعریفی از انواع پرس وجوها است که این مدل بهترین مجموعه از انها است.این واضح است که استفاده از زبانهای رابطه ای مثل sql برای بیان کردن این نوع از پرس و جوها برای کاربران بی تجربه می تواند بسیار مشکل باشد همچنین واضح است که اجرای این نوع از پرس و جوها برخلاف پایگاه داده عملیاتی باید نتیجه ای با زمان پاسخ دهی غیر قابل قبول باشد.مدل چند بعدی با فاکتورهای موثر در پروسه تصمیم سازی که واقعیتهای معین ومشخص سازمان هستند اغاز می شود این واقعیتها از قبیل فروش محموله پذیرش بیمارستانی ، جراحیها واز این دسته هستند . انبار داده هاو ابزار olap مبنای مدل چند بعدی هستند.این مدل، داده هارا در نمای یک مکعب نمایش می دهد.به طور کلی ابعاد ،یک نما از موجودیت راجع به چیزی است که در سازمان به عنوان رکورد ذخیره می شود. برای مثال هر تک فروشی کالا یا حمل یک کالا یک رویداد است.مثل قبض فروش،مبالغ انتقال دداده شده ،هزینه های پذیرش بیمارستانی وزمان جراحیها.به طور اشکار تعداد عظیمی از رویدادهای رخ داده در یک سازمان یا شرکت برای پردازش یک به یک بسیار زیاد است.تصور کنید همه انها را دریک فضای n بعدی قرار دهیم ،این فضا برای کمک به ما به راحتی انها را مرتب وانتخاب می کند .محورهای فضای n بعدی انالیز ابعاد نامیده می شود وتعریف تفاوت این رویدادها خروجی را می سازد.برای مثال فروش در یک فروشگاه زنجیره ای می تواند در یک فضای سه بعدی ارائه شود که بعدهای ان محصولات،فروش وتاریخها هستند.

همچنین محصولات،تاریخها،محمولهها،سفارشات،مقصدها،وشرایط وویژگیها می تواند در ابعاد استفاده شوند.به همین ترتیب در پذیرش بیمارستان ابعادای فضا می توانند با بخش،تاریخ وبیماران پر شوندوشما بایدبه اضافه کردن نوعی از عملیات برای طبقه بندی اعمال جراحی نیاز داشته باشید.طبق این تعاریف ومثالها رویداد ها توسط سلولهای مکعب متحد شدهولبه های مکعب برای انالیز ابعاد هستند.اگر در یک فضا بیش از سه بعد داشته باشیم این مکعب را فوق مکعب می نامیم.

هر سلول مکعب مقداری را برای هر اندازه گیری ومحاسبه میدهد.شکل4-1 نمای مشهودی از مکعب که واقعیتها ورویدادهای ان در یک فروشگاه زنجیره ای است را نشان می دهد.انالیز ابعاد در فروشگاه محصولات وتاریخ هستند.یک رویداد برای یک مورد مشخص فروخته شده در یک فروشگاه مشخص ودر یک زمان مشخص که توسط دو پیگیری توضیح داده شده است.کمیت فروش ورسید دریافتی.این شکل به روشنی نشان می دهد که شما نمی توانید هر کالایی را در هر زمان ودر هر فروشگاهی بفروشید.

5-1 محدودیت:

محدود کردن داده ها بدین معنی است که تفکیک قسمتی از داده ها از مکعب برای تعیین حدود انالیز یک فیلد.در واژه شناسی جبر رابطه ای ایجاد انتخاب یا طرح ریزی خوانده می شود .تنها ترین نوع انتخاب، برش داده است که در شکل 4-1 نشان داده شده است.وقتی شما داده را برش می دهید شما ابعاد را به وسیله تنظیمات کاهش می دهید روی یک بعدیا چند بعد روی مقادیر مشخص.برای مثال اگر شما یک بعد مکعب فروش را با مقادیری مثلevremore پرکنید نتایج در مجموعه ای از رویدادها به وسیله اقلام فروخته شده ومتحد شده در هر فروشگاهی خواهند بود .

شکل 4-1

مدل چند بعدی

این یک طرح ساده از سلولهاست که برش داده ان می تواند به راحتی در یک صفحه گسترده نمایش داده شود واگر شما دو بعد را با مقادیری از قبیل store:evermore وdate:4/5 پر کنید نتیجه متفاوتی را خواهید دید .طبق شکل این اطلاعات در محل تلاقی دو ستون ذخیره شده اند که نتیجه را به صورت افقی خواهند داد و اگر شما تمام بعدها را با مقادیر معین پر کنید خواهید دید که فقط یک رویداد وابسته به هم در فضای سه بعدی فروش وجود خواهد داشت.

تراکم:انبوهش یا تراکم نقش اساسی را در پایگاه های داده چند بعدی بازی می کند این ابزارها با ایجاد یک بستر روی بانکهای رابطه ای اطلاعات را ذخیره و بازیابی می کنند. بطوریکه اساس بهینه سازی برخی بانکهای اطلاعاتی رابطه ای مانند Red Brick, Micro Strategyبر همین اساس استوار است.
ا

عباس علامه شنبه 15 فروردین 1394 ساعت 10:10