MrMining
کاربر تازه وارد
- تاریخ عضویت
- 23 اکتبر 2016
- نوشتهها
- 42
- لایکها
- 17
- سن
- 38
تکنیک های هموار سازی داده های نویزی -تکنیک Binning
قبل از اینکه به بررسی تکینک های هموارسازی داده های نویزی بپردازیم، یک نگاه بندازیم به مسیری که تا حالا اومدیم. همانطور که بیان کردیم تکنیک های پیش پردازش 4 بخش اصلی دارد که ما تکنیک های پاکسازی داده ها را داریم بررسی میکنیم. در مطالب قبلی تکنیک های تخمین داده های گمشده رو بررسی کردیم . از این مطلب وارد مبحث جدید یعنی هموار سازی داده های نویزی می شویم
تکنیک های برطرف کردن داده های نویزی با عنوان تکنیک های هموار سازی (smoothing) شناخته میشن در این مطلب اولین روش رو بررسی میکنیم.
تکنیک Binning : اولین روشی که بررسی میکنیم روش تکنیک Binning (میشه ترجمه کردن پیاله پیاله بندی)هستش:
منطق این تکنیک اینکه داده ها رو میشه بر اساس همسایه هاش هموار سازی کرد. به عبارت دیگه این تکنیک نگاهمیکنه که همسایه های یک داده چطوری هست و سعی میکنه داده رو شبیه همسایه هاش کنه. اگر یک داده با همسایه هاش زیاد فرق داشته باشه نشون دهنده اینکه داده نویزی هستش و باید هموار سازی روش انچام بشه.
نکته مهم در مورد این روش آن است که این روش در مورد داده های عددی کاربرد دارد (اطلاعات کامل در مورد انواعداده ها را می تواند در این مطلب مطالعه کنید)
اولین گام در این تکنیک تعیین Bin ها است. برای این منظور ابتدا داده ها به ترتیب صعودی (یا نزولی) مرتب می شوند. وقتی این کار را انجام شده، داده ها را در یک سری پیاله یا bin قرار میدهیم.
به عنوان مثال نمونه زیر را در نظر بگیرد
4, 8, 15, 21, 21, 24, 25, 28, 34
حالا فرض کنید می خواهیم داده ها را در 3 تا Bin قرار بدیم. از اونجا که ما 9 عدد داریم در نتیجه در سهم هر Bin میشه 3 عدد. نتیجه به صورت زیر میشه
تا اینجا ما گام اول که تشکیل Bin است رو انجام دادیم در مطلب بعدی انواع رویکردهای مربوط به هموار سازی در Binning رو توضیح می دیم.
منبع (اطلاعات بیشتر)
http://mrmining.ir/2016/12/24/تکنیک-های-هموار-سازی-داده-های-نویزی-تکن/
قبل از اینکه به بررسی تکینک های هموارسازی داده های نویزی بپردازیم، یک نگاه بندازیم به مسیری که تا حالا اومدیم. همانطور که بیان کردیم تکنیک های پیش پردازش 4 بخش اصلی دارد که ما تکنیک های پاکسازی داده ها را داریم بررسی میکنیم. در مطالب قبلی تکنیک های تخمین داده های گمشده رو بررسی کردیم . از این مطلب وارد مبحث جدید یعنی هموار سازی داده های نویزی می شویم
- پاکسازی داده
- تخمین داده های گمشده
- هموار سازی داده های نویزی
- مشخص کردن داده های پرت
- تصحیح ناسازگاری ها در داده ها
- یکپارچه سازی داده
- کاهش داده
- تبدیل داده
تکنیک های برطرف کردن داده های نویزی با عنوان تکنیک های هموار سازی (smoothing) شناخته میشن در این مطلب اولین روش رو بررسی میکنیم.
تکنیک Binning : اولین روشی که بررسی میکنیم روش تکنیک Binning (میشه ترجمه کردن پیاله پیاله بندی)هستش:
منطق این تکنیک اینکه داده ها رو میشه بر اساس همسایه هاش هموار سازی کرد. به عبارت دیگه این تکنیک نگاهمیکنه که همسایه های یک داده چطوری هست و سعی میکنه داده رو شبیه همسایه هاش کنه. اگر یک داده با همسایه هاش زیاد فرق داشته باشه نشون دهنده اینکه داده نویزی هستش و باید هموار سازی روش انچام بشه.
نکته مهم در مورد این روش آن است که این روش در مورد داده های عددی کاربرد دارد (اطلاعات کامل در مورد انواعداده ها را می تواند در این مطلب مطالعه کنید)
اولین گام در این تکنیک تعیین Bin ها است. برای این منظور ابتدا داده ها به ترتیب صعودی (یا نزولی) مرتب می شوند. وقتی این کار را انجام شده، داده ها را در یک سری پیاله یا bin قرار میدهیم.
به عنوان مثال نمونه زیر را در نظر بگیرد
4, 8, 15, 21, 21, 24, 25, 28, 34
حالا فرض کنید می خواهیم داده ها را در 3 تا Bin قرار بدیم. از اونجا که ما 9 عدد داریم در نتیجه در سهم هر Bin میشه 3 عدد. نتیجه به صورت زیر میشه
تا اینجا ما گام اول که تشکیل Bin است رو انجام دادیم در مطلب بعدی انواع رویکردهای مربوط به هموار سازی در Binning رو توضیح می دیم.
منبع (اطلاعات بیشتر)
http://mrmining.ir/2016/12/24/تکنیک-های-هموار-سازی-داده-های-نویزی-تکن/