برگزیده های پرشین تولز

آموزش داده کاوی از صفر تا صد

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
تکنیک های هموار سازی داده های نویزی -تکنیک Binning

قبل از اینکه به بررسی تکینک های هموارسازی داده های نویزی بپردازیم، یک نگاه بندازیم به مسیری که تا حالا اومدیم. همانطور که بیان کردیم تکنیک های پیش پردازش 4 بخش اصلی دارد که ما تکنیک های پاکسازی داده ها را داریم بررسی میکنیم. در مطالب قبلی تکنیک های تخمین داده های گمشده رو بررسی کردیم . از این مطلب وارد مبحث جدید یعنی هموار سازی داده های نویزی می شویم

  • پاکسازی داده
    • تخمین داده های گمشده
    • هموار سازی داده های نویزی
    • مشخص کردن داده های پرت
    • تصحیح ناسازگاری ها در داده ها
  • یکپارچه سازی داده
  • کاهش داده
  • تبدیل داده
قبل از شروع یک تعریف ار داده های نویزی ارائه می دیم. داده های نویزی به طور خلاصه میشه داده های که هنگام ثبت یا تغییر اون اشتباه یا خطای رخ داده است و مقدار آن نامعتبر است. توی این مطلب اطلاعات کامل انواع خطاهای که در هنگام ثبت داده ها رخ میدهد صحبت کردیم. همانطور که قول داده بودیم قصد داریم تا روش های از بین بردن داده های نویزی توی این مطلب و چند مطلب آینده بررسی کنیم.

تکنیک های برطرف کردن داده های نویزی با عنوان تکنیک های هموار سازی (smoothing) شناخته میشن در این مطلب اولین روش رو بررسی میکنیم.

تکنیک Binning : اولین روشی که بررسی میکنیم روش تکنیک Binning (میشه ترجمه کردن پیاله پیاله بندی)هستش:
منطق این تکنیک اینکه داده ها رو میشه بر اساس همسایه هاش هموار سازی کرد. به عبارت دیگه این تکنیک نگاهمیکنه که همسایه های یک داده چطوری هست و سعی میکنه داده رو شبیه همسایه هاش کنه. اگر یک داده با همسایه هاش زیاد فرق داشته باشه نشون دهنده اینکه داده نویزی هستش و باید هموار سازی روش انچام بشه.
نکته مهم در مورد این روش آن است که این روش در مورد داده های عددی کاربرد دارد (اطلاعات کامل در مورد انواعداده ها را می تواند در این مطلب مطالعه کنید)
اولین گام در این تکنیک تعیین Bin ها است. برای این منظور ابتدا داده ها به ترتیب صعودی (یا نزولی) مرتب می شوند. وقتی این کار را انجام شده، داده ها را در یک سری پیاله یا bin قرار میدهیم.
به عنوان مثال نمونه زیر را در نظر بگیرد

4, 8, 15, 21, 21, 24, 25, 28, 34

حالا فرض کنید می خواهیم داده ها را در 3 تا Bin قرار بدیم. از اونجا که ما 9 عدد داریم در نتیجه در سهم هر Bin میشه 3 عدد. نتیجه به صورت زیر میشه

2016-12-24_20-30-55.png


تا اینجا ما گام اول که تشکیل Bin است رو انجام دادیم در مطلب بعدی انواع رویکردهای مربوط به هموار سازی در Binning رو توضیح می دیم.

منبع (اطلاعات بیشتر)
http://mrmining.ir/2016/12/24/تکنیک-های-هموار-سازی-داده-های-نویزی-تکن/
 

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
تکنیک های هموار سازی داده های نویزی -تکنیک Binning
قبل از اینکه به بررسی تکینک های هموارسازی داده های نویزی بپردازیم، یک نگاه بندازیم به مسیری که تا حالا اومدیم. همانطور که بیان کردیم تکنیک های پیش پردازش 4 بخش اصلی دارد که ما تکنیک های پاکسازی داده ها را داریم بررسی میکنیم. در مطالب قبلی تکنیک های تخمین داده های گمشده رو بررسی کردیم . از این مطلب وارد مبحث جدید یعنی هموار سازی داده های نویزی می شویم

  • پاکسازی داده
    • تخمین داده های گمشده
    • هموار سازی داده های نویزی
    • مشخص کردن داده های پرت
    • تصحیح ناسازگاری ها در داده ها
  • یکپارچه سازی داده
  • کاهش داده
  • تبدیل داده
قبل از شروع یک تعریف ار داده های نویزی ارائه می دیم. داده های نویزی به طور خلاصه میشه داده های که هنگام ثبت یا تغییر اون اشتباه یا خطای رخ داده است و مقدار آن نامعتبر است. توی این مطلب اطلاعات کامل انواع خطاهای که در هنگام ثبت داده ها رخ میدهد صحبت کردیم. همانطور که قول داده بودیم قصد داریم تا روش های از بین بردن داده های نویزی توی این مطلب و چند مطلب آینده بررسی کنیم.

تکنیک های برطرف کردن داده های نویزی با عنوان تکنیک های هموار سازی (smoothing) شناخته میشن در این مطلب اولین روش رو بررسی میکنیم.

تکنیک Binning : اولین روشی که بررسی میکنیم روش تکنیک Binning (میشه ترجمه کردن پیاله پیاله بندی)هستش:
منطق این تکنیک اینکه داده ها رو میشه بر اساس همسایه هاش هموار سازی کرد. به عبارت دیگه این تکنیک نگاهمیکنه که همسایه های یک داده چطوری هست و سعی میکنه داده رو شبیه همسایه هاش کنه. اگر یک داده با همسایه هاش زیاد فرق داشته باشه نشون دهنده اینکه داده نویزی هستش و باید هموار سازی روش انچام بشه.
نکته مهم در مورد این روش آن است که این روش در مورد داده های عددی کاربرد دارد (اطلاعات کامل در مورد انواعداده ها را می تواند در این مطلب مطالعه کنید)
اولین گام در این تکنیک تعیین Bin ها است. برای این منظور ابتدا داده ها به ترتیب صعودی (یا نزولی) مرتب می شوند. وقتی این کار را انجام شده، داده ها را در یک سری پیاله یا bin قرار میدهیم.
به عنوان مثال نمونه زیر را در نظر بگیرد

4, 8, 15, 21, 21, 24, 25, 28, 34

حالا فرض کنید می خواهیم داده ها را در 3 تا Bin قرار بدیم. از اونجا که ما 9 عدد داریم در نتیجه در سهم هر Bin میشه 3 عدد. نتیجه به صورت زیر میشه

2016-12-24_20-30-55.png


تا اینجا ما گام اول که تشکیل Bin است رو انجام دادیم در مطلب بعدی انواع رویکردهای مربوط به هموار سازی در Binning رو توضیح می دیم.

منبع (اطلاعات بیشتر)
http://mrmining.ir/2016/12/24/تکنیک-های-هموار-سازی-داده-های-نویزی-تکن/
 

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
هموارسازی داده ها با کمک تکنیک Binning – قسمت دوم

ما در مطلب قبل تکنیک پیاله بندی کردن (Binning) به عنوان یکی از الگوریتم های هموارسازی داده ها رو معرفی کردیم و با یک مثال نیز بخش اول تکنیک که ایجاد پیاله ها است رو بررسی کردیم (پیش از ادامه یک نگاهی به مطلب قبل بندازید تا ادامه ابهامی برای شما به وجود نیاد).
توی مطلب قبل پیاله های که بهش رسیدیم شد

Bin 1: 4, 8, 15
Bin 2: 21, 21, 24
Bin 3: 25, 28, 34

خوب حالا می خواهیم هموارسازی داده ها رو انجام بدیم. همانطور که گفتیم این تکنیک از همسایه های یک داده برای هموار سازی استفاده میکنه. برای این منظور میشه دو رویکرد زیر رو در نظر گرفت:

  • استفاده از میانگین هر پیاله برای هموارسازی داده ها : در این روش میانگین مقادیر موجود در هر پیاله محاسبه می شود و مقدار آن جایگزین همه اعداد موجود در پیاله می شود.
بزارید پیاله اول رو با این رویکرد بررسی کنیم: اعداد توی پیاله اول عیارتند از 4,5,15 که میانگین اونا میشه 9 در نتیجه مقدار 9 رو با تمام مقادیر موجود در پیاله جایگزین می‌کنیم.
پس از هموارسازی پیاله ها به کمک این روش به صورت زیر در میان

Bin 1: 9, 9, 9
Bin 2: 22, 22, 22
Bin 3: 29, 29, 29

  • استفاده از مرزهای هر پیاله برای هموارسازی داده ها : در این روش مقادیر ابتدا و انتهای پیاله به عنوان مرزهای پیاله در نظر گرفته می شوند و بقیه مقادیر موجود در پیاله رو بررسی میکنیم به کدوم از این دو عدد نزدیکتر هستند، به هر عدد که نزدیک بودن با اون جایگزین میشه.
بزارید پیاله اول رو با این رویکرد بررسی کنیم : اعداد توی پیاله اول عیارتند از 4,5,15 که بیپشترین مقدار و کمترین مقدار عبارتند از 4 و 15. سایر اعداد توی پیاله فقط عدد 5 است. خوب 5 بین 4 و 15 به چه عددی نزدیک است؟ عدد 4 ، در نتیجه 5 با 4 جایگزین میشه
پس از هموارسازی پیاله ها به کمک این روش به صورت زیر در میان

Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34

توی این روش تکنیک هموار سازی پیاله بندی کردن رو با مثال بررسی کردیم، در مطلب بعدی کمی بیشتر در مورد این تکنیک توضیح میدیم.

منبع (اطلاعات بیشتر)
http://mrmining.ir/2016/12/29/هموارسازی-داده-ها-با-کمک-تکنیک-binning-قسمت-د/
 

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
تکنیک های هموارسازی داده ها : محلی (Local) و سراسری (Global)

قبل از اینکه بخواهیم سایر روش های مربوط به هموارسازی داده ها را بررسی کنیم، نیاز است تا یک مفهوم رو در مورد انواع تکنیک های هموارسازی داده ها بیان کنیم.
ما می توانیم تکنیک های هموارسازی داده ها را بر اساس داده های که بر روی هموار سازی یک داده تاثیر می گذارند را به دو دسته کلی تقسیم نمود. 1- تکنیک های هموار سازی داده محلی (Local) و 2- تکنیک های هموار سازی داده سراسری (Global)
مهمترین نقطه تمایز بین این دو روش، تعداد داده های است که در هموار سازی یک داده تاثیر می گذارند. در روش محلی معمولا تعداد داده های تاثیر گزار، کم است و این داده ها معمولا در همسایگی داده مورد نظر قرار دارند، ولی در روش سراسری معمولا سعی می شود از همه داده ها برای هموارسازی یک داده خاص استفاده شود.

تکنیک Binning که بررسی نمودیم ، از نوع محلی بود است، چون دو معیار مربوط به روش های محلی را دارد:

  1. اینکه تعداد داده های که بر روی هموار سازی یک داده تاثیر دارد کم و محدود است
  2. داده های تاثیر گزار بر روی یک داده همسایه های یک داده هستند
داده های که درون یک Bin روی هموار سازی همان Bin تاثیر گزار است. داده های یک Bin بر روی هموارسازی داده های Bin دیگری تاثیر نمی گذارند و همچنین داده های Bin های دیگر بر روی آنها تاثیر می گذارد.
در کنار این روش های محلی، روش های نیز وجود دارند سراسری از تمام داده ها را در برای هموارسازی داده ها استفاده میکنند. این روش ها معمولا پرهزینه تر از روش های محلی هستند، و همچنین خروجی به دست آمده از این روش ها بهتر است. در مطالب بعدی دو نمونه از این روش ها را بررسی خواهیم کرد 1- روش رگرسیون (Regression) و 2- روش آنالیز داده های خارج از محدوده ( Outlier analysis)

منبع (اطلاعات بیشتر)
http://mrmining.ir/2017/01/03/تکنیک-های-هموارسازی-داده-ها-محلی-local-سر/
 

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
در جشنواره وب ایران
امسال سایت MrMining.ir در جشنواره وب ایران شرکت کرده است. در این جشنواره هر ساله از میان سایت های فعال در تمامی حوزه های وب و در گروه های مختلف یک سایت را به عنوان سایت برتر سال معرفی می شود. سایت MrMining.ir در شاخه اطلاع رسانی و محتوا و زیر شاخه کامپیوتر و فناوری اطلاعات شرکت کرده است.

برندگان این جشنواره به دو دسته هستند
1- سایت های منتخب از دیدگاه کاربران
2-سایت های منتخب از دیدگاه دوران (که متخصصین هر حوزه را شامل می شود)\

در صورت مفید بودن سایت و مطالب ارائه شده در سایت می توانید، می توانید با رای دادن به سایت MrMining.ir ما در ارائه محتوای هر چه بهتر یاری کنید. مراحل رای دادن به سایت MrMining.ir نمایش داده شده است.

23-1-300x248.png


1- ابتدا بر روی بنر مشخص شده کلیک کنید (یا بر روی این لینک www.iwmf.ir/website/19950 کلیک کنید تا مستقیم به صفحه رای گیری وارد شوید)
2- بر روی قلب مشخص شده در تصویر کلیک کنید
3- برای رای دادن می توانید از طریق اکانت گوگل و یا یاهو خود اقدام کنید
4- اطلاعات اکانت خود را وارد کنید
5-در صورت نیاز دکمه Allow را فشار دهید
6-رای شما ثبت شد
 

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
هموار سازی داده ها با کمک تکنیک رگرسیون
همانطور که در مطلب قبل بیان کردیم روش های هموارسازی به دو دسته محلی و سراسری تقسیم می شن.پیش از این تکنیک Binning رو به عنوان یک روش محلی مورد بررسی قرار دادیم. در این مطلب قصد داریم تکنیک رگرسیون (Regressionn) رو بررسی کنیم. این روش در دسته روشهای سراسری قرار می گیره. در این ابتدا شیوه کار این تکنیک و انواع اون رو بررسی میکنیم و سپس دوتا مثال ارائه میدیم

در تکنیک رگرسیون سعی میکنیم تا داده ها رو روی یک تابع وفق دهیم (conform) به طوری که این تابع بتونه بهترین نماینده برای نمایش داده ها باشه، این تکنیک خودش به دو دسته تقسیم میشه

  1. 1رگرسیون خطی: زمانی که ما دوتا متغیر داریم می تونیم از این تکنیک استفاده کنیم. در این روش سعی میشه تا یک خط تعریف کنیم (رسم کنیم) که بتونه بهترین نمایش برای ارتباط بین دو تا متغیر باشه، به طوری که بتونیم با کمک اون یک متغیر رو بر اساس دیگری تخمین بزنیم.
  2. رگرسیون خطی چندتایی: رگرسیون خطی چندتایی رو می تونیم، توسعه یافته حالت خطی بدونیم، و زمانی استفاده میشه که بیش از دوتا متغیر داریم و نیاز به چندتا خط داریم که بتونیم داده ها رو روی مطابقت بدیم. (مطابقت دادن داده رو fit کردن داده هم می گویند)
تعاریف بالا، یکم ریاضی وار است، بزارید برای درک بهتر یک مثال بزنیم تا به صورت شهودی هم بتونید این مفهوم رو درک کنید.

رگرسیون خطی: فرض کنید ما یک سری داده داریم که بر حسب و x و y تعریف شدن. ابتدا ما میاییم و این داده ها رو بر روی نمودار نشون میدیم. حالا اگر خطی رو رسم کنیم که فاصله اون از تمام نقاط کمینه باشه. به این خط، رگرسیون می گیم. این مفهوم در شکل زیر نمایش داده شده است.

regression_line-300x165.png

رگرسیون خطی چندتایی:حالا فرض کنید، داده های ما بر حسب سه متغیر x y و z رسم کردیم. خوب در این صورت هم ما باید مجموعه ای از خطوط داشته باشیم که فاصله اونها از همه داده ها مون کمینه باشه. در شکل زیر رگرسیون برای داده های که بر حسب سه متغیر رسم شده اند نمایش داده شده است.
quadfit-300x282.jpg

در این مطلب سعی کردیم تا مفهوم رگرسیون به عنوان یک روش در هموار سازی داده ها توضیح بدیم. از اونجایی که پرداختن به بحث ریاضی مربوط به این تکنیک خارج از حوصله این متن است، برای بررسی بحث های ریاضی اون می تونید منابع مربوط به رو مطالعه کنید.

منبع (اطلاعات بیشتر)
http://mrmining.ir/2017/01/18/هموار-سازی-داده-ها-با-کمک-تکنیک-رگرسیون/
 

MrMining

کاربر تازه وارد
تاریخ عضویت
23 اکتبر 2016
نوشته‌ها
42
لایک‌ها
17
سن
38
هموار سازی داده ها با کمک تکنیک تحلیل داده های پرت

در مطلب قبلی ما روش رگرسیون رو به عنوان یکی از روش های سراسری هموار سازی داده ها مورد بررسی قرار دادیم. در این مطلب قصد داریم یکی دیگر از روش های مربوط به هموار سازی داده ها سراسری رو مورد بررسی قرار بدیم. تفاوت روش های هموار سازی محلی و سراسری رو در این مطلب به صورت کامل مورد بررسی قرار دادیم.

تحلیل داده های پرت: تحلیل داده های پرت یکی از روش های هموار سازی داده ها به صورت سراسری است که می تواند با کمک تکنیک های مختلفی انجام می شود. یکی از مهمترین تکنیک های که در این حوزه کاربرد دارد، تکنیک های خوشه بندی یا clustering است. ما بعدا مفصل در مورد خوشه بندی و انواع اون به تفصیل صحبت خواهیم کرد. در این مطلب تنها مفهوم آن را بررسی خواهیم کرد.
در تکنیک های خوشه بندی ما سعی میکنیم داده های شبیه به هم رو توی یک خوشه یا cluster جای بدیم. داده های ما دو حالت خواهند داشت که به صورت زیر قابل تفسیر است

  1. داده های خوشه بندی شده: یعنی یک سری داده هستند که بهم شبیه هستند و تعداد آنها به اندازه ای است که می توانند یک خوشه تشکیل دهند (درباه روش ها و اینکه چطوری تشخیص بدیم یک خوشه چقدر مناسب است، بعدا مفصل توضیح خواهیم داد)
  2. داده های پرت: داده های که با مجموعه داده ای بسیار متفاوت هستند و می توان آنها را از مجموعه داده ای حذف کرد.
بزارید با یک مثال تحلیل داده های پرت رو دنبال کنیم. فرض کنید ما داده های مربوط به مکان های جغرافیایی مربوط به مشتریان رو داریم و اونها رو روی نقشه مشخص کرده ایم، سپس با کمک تکنیک های خوشه بندی میاییم و خوشه ها رو مشخص می کنیم. همانطور که توی شکل مشخص مشتریان ما تقریبا توی سه منطقه جمع شدن. و سایر مشتریان از این سه خوشه بسیار متفاوت هستند. حالا ما می توانیم از داده ها استفاده کنیم برای تصمیم گیری. مثلا می تونیم از این اطلاعات برای تعیین بهترین مکان برای تاسیس واحد های پشتیبانی و ارتباط با مشتری استفاده کرد (مثلا مرکز خوشه ها بهترین مکان برای تاسیس این واحد ها است چون کمترین فاصله رو از مجموعه مشتریان آن خوشه دارد)

1233-300x200.png


تحلیل داده های پرت مربوط به مکان های جغرافیایی مربوط به مشتریان​

منبع (اطلاعات بیشتر)
http://mrmining.ir/2017/02/01/هموار-سازی-داده-ها-با-کمک-تکنیک-تحلیل-دا/
 
بالا