پایگاه جامع اطلاعات مکانی ایران
پایگاه جامع اطلاعات مکانی ایران تارنما دانش - محتوای کاربردی روش‌های تبدیل و نرمال‌سازی داده‌ها در R

روش‌های تبدیل و نرمال‌سازی داده‌ها در R

روش‌های تبدیل و نرمال‌سازی داده‌ها در R

1402/02/18
در این فیلم آموزشی، با نحوه انجام تبدیلات و روش‌های نرمال سازی داده‌ها در زبان برنامه‌نویسی R آشنا خواهید شد.

روش‌های تبدیل و نرمال سازی داده‌ها در R

در مرحله آماده‌سازی داده‌ها و همچنین در زمان انجام بعضی از تحلیل‌های آماری، گاهی نیاز است که تبدیلات خاصی روی داده ها اعمال شود. این تبدیلات با اهداف متفاوتی روی داده‌ها اعمال می‌شوند که مهم‌ترین آن‌ها عبارتند از: تبدیلات نرمال‌سازی (Normalization)، تبدیلات استانداردسازی (Standardization) و تبدیلات باکس-کاکس (Box-Cox). تبدیلات نرمال‌سازی و استانداردسازی، تبدیلات مقیاسی هستند و تنها مقیاس و دامنه تغییرات داده‌ها را تغییر می‌دهند؛ در حالی که در تبدیلات باکس-کاکس، علاوه بر تغییر مقیاس، توزیع داده‌ها نیز تغییر کرده و به توزیع نرمال نزدیک می‌شود. در ادامه، با هر کدام از این روش‌ها به طور مختصر آشنا خواهید شد.

1. تغییر مقیاس داده‌ها با استفاده از تبدیلات نرمال‌سازی (Normalization)

در مرحله پیش‌پردازش و آماده‌سازی داده‌ها، گاهی اوقات نیاز است که مقیاس داده‌ها را تغییر دهیم و به اصطلاح آن‌ها را هم مقیاس کنیم. برای مثال در هنگام خوشه بندی داده‌ها، باید دامنه تغییرات متغیر‌ها تقریباً یکسان باشد تا الگوریتم خوشه بندی تحت تاثیر مقیاس‌های متفاوت قرار نگیرد. یکی از راه‌هایی که برای تغییر مقیاس داده‌ها به کار می‌رود، استفاده از تبدیلات نرمال ساز بر روی داده‌ها است که مهمترین نوع آن روش Min Max است. در این روش مقیاس داده‌ها به گونه ای تغییر پیدا می‌کند که دامنه تغییرات داده‌ها به بازه [0,1] منتقل می‌شود. در رابطه زیر xmin و xmax به ترتیب کمترین مقدار و بیشترین مقدار در مجموعه داده هستند.

 2. تغییر مقیاس داده‌ها با استفاده از تبدیلات استانداردسازی (Standardization)

تبدیلات استانداردسازی نیز یکی دیگر از راه‌هایی است که باعث ایجاد تغییر در مقیاس داده‌ها می‌شود و مهم‌ترین نوع آن، تبدیل Z Score است. در تبدیل Z Score هر داده از میانگین داده‌ها (µ) کم می‌شود و حاصل بر انحراف معیار داده‌ها (σ) تقسیم می‌شود و به این ترتیب داده‌های تبدیل یافته دارای میانگین 0 و انحراف معیار 1 می‌شوند.

3. نرمال سازی توزیع داده‌ها با استفاده از تبدیلات باکس-کاکس (Box-Cox)

نرمال بودن توزیع داده‎‌ها، به عنوان پیش‌فرض بسیاری از روش‌های آماری از جمله آزمون میانگین جوامع، آزمون تحلیل واریانس، آزمون همبستگی پیرسون و ... محسوب می‌شود و در صورت نرمال نبودن توزیع داده‌ها، نتایج به دست آمده از این روش‌ها، قابل استناد نیست. در این موقعیت، با استفاده از تبدیلات خاص، می‌توان توزیع داده‌ها را به توزیع نرمال تغییر داد و پس از آن از روش‌های پارامتری استفاده کرد. در غیر این صورت، به سراغ روش‌های ناپارامتری که پیش فرض نرمال بودن ندارند، می‌رویم. به منظور نرمال سازی توزیع داده‌ها از تبدیلات باکس-کاکس استفاده می‌شود که نوع خاصی از تبدیلات توانی و غیر خطی هستند. به عبارت دیگر، این تبدیلات زمانی به کار می‌روند که قصد انجام آزمون‌های پارامتری را داریم در صورتی که توزیع داده‌ها نرمال نیست. در این حالت با استفاده از تبدیل باکس-کاکس، می‌توان تغییراتی روی داده‌ها اعمال کرد به نحوی که توزیع آن‌ها به توزیع نرمال نزدیک شود. تبدیلات باکس-کاکس توسط رابطه زیر تعریف می‌شوند:

 

که در آن مقدار پارامتر λ، با استفاده از تابع درستنمایی توزیع نرمال براورد می‌شود. بعد از اعمال تبدیل باکس-کاکس روی متغیر X، انتظار می‌رود که متغیر تبدیل یافته Y از توزیع نرمال پیروی کند و به این ترتیب می‌توان برای داده‌های تبدیل‌یافته از روش‌های پارامتری استفاده کرد.

 

در این فیلم آموزشی، نحوه انجام این سه دسته از تبدیلات را در زبان برنامه نویسی R، بررسی می‌کنیم.

ارسال نظر:


پایگاه جامع اطلاعات مکانی ایران
پایگاه داده مکانی Spatial Database Mobile GIS برنامه نویسی GIS UMD Tile Map Base Map نقشه پایه تصویر گوگل OpenStreatMap ggplot2 theme element line text rect R Markdown RStudio Knit HTML PDF گزارش Shiny ui server Web Application Coordinate Scale Label سفارشی سازی facet geom مصورسازی نمودار visualization separate() extract() unit() Data Cleaning tidyr gather() spread() tidy data داده مرتب pivot_longer() pivot_wider() ادغام join inner join full join left join right join merge() ادغام داخلی ادغام کامل ادغام از چپ ادغام از راست summarise() group_by() گروه‌بندی تجمیع pipe pipe operator عملگر پایپ magrittr پایپ Assignment pipe Exposition pipe Tee pipe dplyr preprocessing select() mutate() rename() relocate() filter() arrange() slice() تبدیل داده‌ها آماده‌سازی پیش‌پردازش ANOVA Analysis of variance One way ANOVA T Test One Sample T Test Two Samples Paired Samples Normalization Min Max Standardization Z Score Box Cox سالیدورک solidworks نرم افزار سالیدورک متاسالید SolidWorks R R Studio Shapiro Wilk Kolmogorov Smirnov Q Q Plot ArcGIS plot distribution density quantile set.seed() ArcGIS Pro Tools Join Excel Slope Erase Hillshade ابزار سایه روشن 3D customization color legend() point Union Buffer DEM مدل رقومی ارتفاعی axis label par() mfrow mfcol layout() سیستم مختصات سیستم تصویر Projection Digitizing رقومی سازی پایگاه داده Geodatabase Symbology رنگ بندی دسته بندی Insert تب روبان افزونه Map Project معرفی نرم افزار ESRI نصب Pie Plot Qualitative نمودار دایره‌ای Box Plot group descriptive نمودار جعبه‌ای Bar Plot نمودار میله‌ای discrete Histogram Scatter Plot Descriptive Central Variability Frequency EStudio Error Warning Debugging Import Export read write apply lapply sapply tapply mapply package load install.packages CRAN ArcGIS Server WebGIS JavaScript API function arguments input output next break control for while loop if ifelse() condition dataset str summary Missing Values NA NaN Factor levels gropping Factor Variable Logical Logical Operator Relational Operator convert Data Structure variables Operations Mathematical Relational ENVI 4.6.1 آموزش نرم افزار python پایتون آموزش Data Frame Array List Vector Matrix variable numeric integer logical character Base MAP OSM Google map Multi Ring Layout View Rstudio programming help workspace directory working directory install Programming نصب نرم‌افزار R Aspect IDW Kriging Reclassify Sum Weighted Split By Attribute Raster Calculator درونیابی افزایش سرعت Mosaic Arcgis Index Fishnet Clip QGIS ArcGIS PRO Pivot Table Add Field Feature To Line Point Append Dissolve Point Distance Proximity Near Generate Near Table بافر حریم Symmetrical Difference Spatial join arcgis tools intersect ShapeFile gis identity arcgis pro اسکریپت نویسی Tool ابزار Erase ابزار Split Select ابزار table select Area DATA Setup raster SHP Convert رستر وکتور clip data shp GPX GPS شیپ فایل جی پی اس KML Json Data shapefile Autocad Shapefile symbology سیمبولوژی Query Edit Add Data excel لیبل زدن برچسب گذاری coordinate ARCGIS Shape file آموزش نرم افزار arcgis افزودن داده نصب و راه اندازی Global Mapper ابزارهای کاربردی سیستم اطلاعات مکانی ابزار مکانی محاسبه مساحت

©BRB تمامی حقوق طراحی سایت متعلق به شرکت دانش‌بنیان بهین ره‌آورد بهبود می باشد.