
چکیده : در این مقاله یک روش مبتنی بر دانش نوآورانه برای جمعآوری داده ها ، کنترل نتیجهها و به اشتراکگذاری اطلاعات با یکدیگر می پردازد سپس به نحوه برقراری امنیت در اطلاعات حاصل از داده کاوی ( data mining ) می پردازد.
کلمات کلیدی : داده کاوی ; انبار داده ; کشف روند تروریستی ;Data Mining ; Data Warehousing ;
مقدمه : دانش داده کاوی یکی از ده دانش در حال توسعه ای است که دهه آینده را با انقلاب تکنولوژیک مواجه خواهد ساخت و بدین رو در سالهای اخیر در دنیا گسترش فوق العاده سریعی داشته است. امروزه در دنیای توسعه یافته مکان و موضوعی بدون بهره از دانش داده کاوی یافت نمی شود بگونه ای که این دانش در تمامی شئون این کشور ها و در تمامی حوزه ها نقش دارد.
دانش داده کاوی فرآیند کشف دانش پنهان درون داده ها است که بابرخورداری از دامنه وسیع زیرزمینه های تخصصی با توصیف، تشریح، پیش بینی و کنترل پدیده های گوناگون پیرامونی، امروزه دارای کاربرد بسیار وسیع در حوزه های مختلف از جمله صنعتی، پزشکی،ارتباطات، کشاورزی، انرژی، علوم اجتماعی، فرهنگی، سیاسی، اقتصادی، بازرگانی، نظامی وآموزشی و … است بگونه ای که امروزه مرز و محدودیتی برای کاربرد این دانش در نظر گرفته نشده و زمینه های کاری این دانش را در تمامی عرصه های برخوردار از داده می دانند.
تعریف داده کاوی : فرایندی است که با استفاده از تکنیک های هوشمند دانش را از مجموعه ای از داده ها استخراج می کند.
داده کاوی پل ارتباطی میان علم آمار ، علم کامپیوتر ، هوش مصنوعی ، الگوشناسی ، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید، در حجم وسیعی از داده می باشد، به طریقی که این الگو ها و مدلها برای انسانها قابل درک باشند.
برای آشنایی بیشتر با مفهوم داده کاوی می توان به کاربرد آ ن در یک فروشگاه زنجیره ای اشاره کرد که در ان سعی می شود ارتباط محصولات مختلف هنگام خرید مشتریان مشخص گردد. فروشگاه های زنجیره ای مشتاقند بدانند که چه محصولاتی با یکدیگر به فروش می رود.
حفاظت از حریم شخصی در سیستمهای دادهکاوی :
دادهکاوی با استخراج موفقیتآمیز اطلاعات، دانش مورد نیاز برای استفاده در زمینههای مختلف از جمله، شبکه و اینترنت ، تحلیلهای پزشکی و امنیت ملی و.. را فراهم میسازد، ولی هنوز هیچ تضمینی ارایه نشده است که بتوان دادههای خاصی را مورد دادهکاوی قرار داد؛ بدون آنکه به حریم خصوصی مالک آن اطلاعات تجاوز کرد. برای مثال، در یک سیستم پزشکی، نحوه انجام دادهکاوی در اطلاعات خصوصی بیماران بدون افشای آن اطلاعات،
مشکل اصلی از آنجا ناشی میشود که چگونه میتوان هم حریم شخصی افراد را در نظر گرفت و هم از نتایج مفید سیستمهای دادهکاوی بهره برد. برای برطرف کردن موانع موجود در این زمینه، تحقیقات زیادی در حال انجام است، اما در عمل سیستمهای دادهکاوی که بتوانند در عین حال حریم شخصی افراد را نیز حفظ کنند، هنوز در مرحله ابتدایی و آزمایشی هستند. بیشتر این تکنیکها در لایه زیرین به جای بررسی مشکلات سیستمها، روی ابزارهای محاسباتی و الگوریتمها متمرکز شدهاند. هدف ما از بررسی حریم شخصی، به دست آوردن یک دید سیستماتیک از نیازهای ساختاری و طراحی اصول و بررسی راهحلهایی است که بتوانند در سیستمهای دادهکاوی بهطور عملی از حریم شخصی افراد محافظت کنند.
طرح پایه: همانطور که در شکل مشاهده میشود دادهکاوی به همراه حفاظت از حریم شخصی، شامل چندین مرحله میشود که آنها را در یک معماری سه لایه دستهبندی میکنند: در لایه پایین تهیهکنندگان داده
(data providers) قرار دارند. یعنی کسانی که مالک داده هستند.
تأمینکنندگان داده اطلاعات شخصی خود را به سرور انبار داده
(data warehouse server) ارسال میکنند. این سرور که لایه میانی به حساب میآید، از فرایندهای تحلیل آنلاین دادهها، پشتیبانی میکند و از طریق تبدیل دادههای خام کاربران به دادههای گروهی، اطلاعاتی را برای سرورهای دادهکاوی فراهم میکند که امکان پردازش سریعتر آنها فراهم است.
سرورهای انبار داده ، با جمعآوری داده با یک نظم فیزیکی خاص، نظیر استفاده از ساختار مکعبیِ چندبعدی و استفاده از توابع جمعی نظیرSum ،Average ،Max و Min پیشمحاسبههای مختلفی از دادهها فراهم میکند.
سرورهای دادهکاوی، در بالاترین لایه قرار میگیرند که کار اصلی در زمینه دادهکاوی توسط آنها انجام میشود. در یک سیستم دادهکاوی که اصول حفاظت از حریم شخصی را رعایت کرده باشد، این سرورها، نمیتوانند آزادانه به همه دادههای ذخیرهشده در انبارهای داده دسترسی داشته باشند.
یک سرور دادهکاوی ممکن است با ایجاد مدلهای دادهکاوی روی سرور انبار داده، دادههای آن را با سرورهای دادهکاوی دیگر در سیستمهای دیگر به اشتراک بگذارد. به اشتراک گذاشتن داده در بالاترین لایه رخ میدهد که در آن هر سرور دادهکاوی از مدل دادهکاوی مخصوص خود استفاده میکند. بنابراین در اینجا «به اشتراک گذاشتن» به معنی به اشتراک گذاشتن مدلهای دادهکاوی محلی است، نه به اشتراک گذاشتن دادههای خام.