روش‌های تبدیل و نرمال‌سازی داده‌ها در R

در این فیلم آموزشی، با نحوه انجام تبدیلات و روش‌های نرمال سازی داده‌ها در زبان برنامه‌نویسی R آشنا خواهید شد.

Normalization Min Max Standardization Z Score Box Cox

روش‌های تبدیل و نرمال سازی داده‌ها در R

در مرحله آماده‌سازی داده‌ها و همچنین در زمان انجام بعضی از تحلیل‌های آماری، گاهی نیاز است که تبدیلات خاصی روی داده ها اعمال شود. این تبدیلات با اهداف متفاوتی روی داده‌ها اعمال می‌شوند که مهم‌ترین آن‌ها عبارتند از: تبدیلات نرمال‌سازی (Normalization)، تبدیلات استانداردسازی (Standardization) و تبدیلات باکس-کاکس (Box-Cox). تبدیلات نرمال‌سازی و استانداردسازی، تبدیلات مقیاسی هستند و تنها مقیاس و دامنه تغییرات داده‌ها را تغییر می‌دهند؛ در حالی که در تبدیلات باکس-کاکس، علاوه بر تغییر مقیاس، توزیع داده‌ها نیز تغییر کرده و به توزیع نرمال نزدیک می‌شود. در ادامه، با هر کدام از این روش‌ها به طور مختصر آشنا خواهید شد.

1. تغییر مقیاس داده‌ها با استفاده از تبدیلات نرمال‌سازی (Normalization)

در مرحله پیش‌پردازش و آماده‌سازی داده‌ها، گاهی اوقات نیاز است که مقیاس داده‌ها را تغییر دهیم و به اصطلاح آن‌ها را هم مقیاس کنیم. برای مثال در هنگام خوشه بندی داده‌ها، باید دامنه تغییرات متغیر‌ها تقریباً یکسان باشد تا الگوریتم خوشه بندی تحت تاثیر مقیاس‌های متفاوت قرار نگیرد. یکی از راه‌هایی که برای تغییر مقیاس داده‌ها به کار می‌رود، استفاده از تبدیلات نرمال ساز بر روی داده‌ها است که مهمترین نوع آن روش Min Max است. در این روش مقیاس داده‌ها به گونه ای تغییر پیدا می‌کند که دامنه تغییرات داده‌ها به بازه [0,1] منتقل می‌شود. در رابطه زیر x_min و x_max به ترتیب کمترین مقدار و بیشترین مقدار در مجموعه داده هستند.

2. تغییر مقیاس داده‌ها با استفاده از تبدیلات استانداردسازی (Standardization)

تبدیلات استانداردسازی نیز یکی دیگر از راه‌هایی است که باعث ایجاد تغییر در مقیاس داده‌ها می‌شود و مهم‌ترین نوع آن، تبدیل Z Score است. در تبدیل Z Score هر داده از میانگین داده‌ها (µ) کم می‌شود و حاصل بر انحراف معیار داده‌ها (σ) تقسیم می‌شود و به این ترتیب داده‌های تبدیل یافته دارای میانگین 0 و انحراف معیار 1 می‌شوند.

3. نرمال سازی توزیع داده‌ها با استفاده از تبدیلات باکس-کاکس (Box-Cox)

نرمال بودن توزیع داده‎‌ها، به عنوان پیش‌فرض بسیاری از روش‌های آماری از جمله آزمون میانگین جوامع، آزمون تحلیل واریانس، آزمون همبستگی پیرسون و ... محسوب می‌شود و در صورت نرمال نبودن توزیع داده‌ها، نتایج به دست آمده از این روش‌ها، قابل استناد نیست. در این موقعیت، با استفاده از تبدیلات خاص، می‌توان توزیع داده‌ها را به توزیع نرمال تغییر داد و پس از آن از روش‌های پارامتری استفاده کرد. در غیر این صورت، به سراغ روش‌های ناپارامتری که پیش فرض نرمال بودن ندارند، می‌رویم. به منظور نرمال سازی توزیع داده‌ها از تبدیلات باکس-کاکس استفاده می‌شود که نوع خاصی از تبدیلات توانی و غیر خطی هستند. به عبارت دیگر، این تبدیلات زمانی به کار می‌روند که قصد انجام آزمون‌های پارامتری را داریم در صورتی که توزیع داده‌ها نرمال نیست. در این حالت با استفاده از تبدیل باکس-کاکس، می‌توان تغییراتی روی داده‌ها اعمال کرد به نحوی که توزیع آن‌ها به توزیع نرمال نزدیک شود. تبدیلات باکس-کاکس توسط رابطه زیر تعریف می‌شوند:

که در آن مقدار پارامتر λ، با استفاده از تابع درستنمایی توزیع نرمال براورد می‌شود. بعد از اعمال تبدیل باکس-کاکس روی متغیر X، انتظار می‌رود که متغیر تبدیل یافته Y از توزیع نرمال پیروی کند و به این ترتیب می‌توان برای داده‌های تبدیل‌یافته از روش‌های پارامتری استفاده کرد.

در این فیلم آموزشی، نحوه انجام این سه دسته از تبدیلات را در زبان برنامه نویسی R، بررسی می‌کنیم.