تجزیه‌ و تحلیل آماری

مقدمه

تجزیه‌ و تحلیل آماری به معنای بررسی روندها، الگوها و روابط با استفاده از داده‌های کمی است. نتایج حاصل از تجزیه‌ و تحلیل آماری زمانی معتبرند که مطابق با اهداف و سؤالات و فرضیه‌های تحقیق، طراحی مطالعه، حجم نمونه و روش نمونه‌گیری به‌طور صحیح انتخاب و اجرا شده باشد. آمار به ما کمک می‌کند تا دادههای کمی را برای کمک به تصمیم‌گیری به اطلاعات مفیدی تبدیل کنیم. 

دو حوزه مهم در آمار عبارتند از آمار توصیفی و استنباطی. 

آمار توصیفی 

از آمار توصیفی (descriptive statistics) برای سازمان‌دهی، خلاصه‌سازی و نیز توصیف داده‌ها و الگوها استفاده می‌شود. ابزارهای آمار توصیفی شامل نمودارها، جداول توزیع فراوانی و شاخص‌ها است که در شکل زیر ارائه شده است. 

جدول توزیع فراوانی

در آمار، فراوانی به تعداد دفعاتی گفته می شود که یک ویژگی یا داده تکرار شود. به‌ عنوان مثال، اگر چهار دانش‌آموز دارای نمره 15 در ریاضیات باشند؛ لذا فراوانی نمره 15 برابر با 4 است یا اگر از بین 100 نوزاد متولدشده، 2 نوزاد دارای رنگ چشم آبی باشند، فراوانی رنگ چشم آبی در نوزادان برابر با 2 می باشد. جدول توزیع فراوانی (frequency table) نیز جدولی است که به‌وسیله آن فراوانی و یا به عبارتی تعداد تکرار وقوع یک خصوصیت یا داده نمایش داده می‌شود. این جدول شامل چند سطر و ستون است. در سطرها مقادیر متغیر کیفی یا حدود طبقات متغیر کمی موردنظر لیست می‌شوند و در ستون‌ها، انواع فراوانی‌ شامل فراوانی مطلق، فراوانی نسبی، فراوانی تجمعی و فراوانی تجمعی نسبی مربوط به هر سطر ثبت می‌شوند. 

فراوانی مطلق 

از شمارش تعداد دفعاتی هر طبقه تکرار می‌شود، به دست می‌آید و با f نمایش داده می‌شود. مجموع تعداد فراوانی‌های مطلق (absolute frequency) برابر با تعداد کل مشاهدات است. 

فراوانی نسبی

فراوانی نسبی (relative frequency) از تقسیم فراوانی‌های مطلق هر طبقه بر تعداد کل مشاهدات به دست می‌آید و با r نمایش داده می‌شود. می‌توان مقدار آن را به‌صورت درصد نیز نمایش داد. برای این کار کافی است آن را در ۱۰۰ ضرب کنیم و حاصل را با علامت ٪ نشان دهیم. مجموع تعداد فراوانی‌های نسبی برابر با یک و در صورت بیان شدن به درصد برابر با 100 است. 

فراوانی تجمعی

 منظور از فراوانی تجمعی (cumulative frequency) هر طبقه، مجموع فراوانی‌های مطلق آن طبقه و طبقات ماقبل آن است و با F نمایش داده می‌شود. فراوانی تجمعی آخرین طبقه برابر با تعداد کل مشاهدات است. 

فراوانی تجمعی نسبی

 منظور از فراوانی تجمعی نسبی (cumulative relative frequency) هر طبقه، مجموع فراوانی‌های نسبی آن طبقه و طبقات ماقبل آن است. فراوانی نسبی آخرین طبقه برابر با یک و در صورت بیان شدن به درصد برابر با 100 است. 

مثال 1- جدول فراوانی متغیر کیفی  

گروه خون برای ۱۰ نفر از دانشجویان به‌صورت AB,A,A,B,B,AB,B,O,A,O ثبت شده است. جدول فراوانی برای این افراد بر اساس گروه خون به‌صورت زیر است. 

مثال 2- جدول فراوانی متغیر کمی  

تعداد دندان‌های پوسیده 15 دانش‌آموز به‌صورت 0،1، 2،4،6،5،2،1،0،0،3 ، 3، 2، 4، 5 ثبت شده است. جدول فراوانی برای این افراد بر اساس تعداد دندان‌های پوسیده به‌صورت زیر است. 

نمودارهای آماری 

نمودار (گراف، پلات یا چارت) ابزاری است که برای توصیف و نمایش تصویری داده‌های جمع‌آوری‌ شده به‌کار برده می‌شود. از مزیت‌های نمودارهای آماری این است که به پژوهشگر کمک می‌کند تا ویژگی‌های داده‌ها را بهتر و آسان‌تر توصیف کند و مخاطب قادر خواهد بود اطلاعات حاصل از آن‌ را سریعتر درک کند. نمودارهای مختلفی در آمار وجود دارد که متداول‌ترین آن‌ها عبارت‌اند از: 

نمودار میله‌ای یا ستونی 

 در نمودار میله ای (bar chart) دو محور عمود بر هم وجود دارد. محور افقی نشان‌دهنده نام رده‌ها یا طبقات و محور عمودی نشان‌دهنده فراوانی داده‌ها (فراوانی مطلق یا نسبی) است. برای هر طبقه، میله‌ای به ارتفاع فراوانی آن طبقه رسم می‌شود. این نمودار معمولاً برای نمایش توزیع فراوانی متغیرهای کیفی یا کمی گسسته به کار می‌رود.

نمودار دایره‌ای 

 نمودار دایره ای (pie chart) به شکل یک دایره است که به قطاع‌هایی تقسیم شده است. تعداد قطاع‌ها برابر با تعداد رده‌ها یا طبقات است. اندازه هر قطاع از دایره، بیانگر درصد فراوانی آن گروه است و از ضرب فراوانی نسبی در 360 به دست می‌آید. این نمودار معمولاً برای نمایش توزیع فراوانی متغیرهای کیفی یا کمی گسسته با تعداد سطوح کم استفاده می‌رود.

نمودار مستطیلی یا هیستوگرام

نمودار هیستوگرام (histogram) برای نمایش متغیرهای کمی پیوسته (مقیاس فاصله‌ای یا نسبتی) به کار می‌رود و شبیه نمودار میله‌ای است با این تفاوت که در هیستوگرام ستون‌ها به یکدیگر چسبیده‌اند. در هیستوگرام هر مستطیل نشان‌دهنده یک طبقه است که عرض آن برابر حدود آن طبقه و ارتفاع آن مساوی فراوانی همان طبقه است. از اتصال نقاط وسط مستطیل‌ها به یکدیگر و اتصال ابتدا و انتهای آن به نقطه وسط یک طبقه فرضی به ترتیب قبل و بعد از اولین و آخرین طبقه، نمودار چندبر فراوانی به‌دست می‌آید که از روی آن می‌توان از شکل توزیع (نرمال بودن، وضعیت چولگی و کشیدگی) متغیر مدنظر اطلاع پیدا کرد. نمودار هیستوگرام زیر مربوط به سن 100 نفر است. 

نمودار جعبه‌ای

نمودار جعبه ای (box plot) به كمك شاخص‌های مركزي و پراكندگی، توزیع داده‌ها را به شكلي بسيار گويا و مفيد ارائه می‌دهد. با استفاده از اين نمودار می‌توان مركزيت،‌ پراكندگي و چولگي داده‌ها را تفسير نمود. نمودار جعبه‌ای از یک جعبه و دو میله که از آن بیرون آمده تشکیل شده است. طول جعبه برابر است با فاصله بین چارک اول و سوم. در داخل جعبه، یک خط افقی دیده می شود که موقعیت میانه نمایش می دهد. لذا نمودار جعبه‌ای اطلاعاتی راجع به گرایش مرکزی و تغییرپذیری 50 درصد میانی توزیع را فراهم می‌کند. دو انتهای بالا و پایین جعبه با میله‌ای به مقادیر ماکزیمم و می نیمم متصل می‌شود. داده های پرت (در صورت وجود) که مقادیر بالاتر از 3 برابر دامنه میان چارکی دارند، با علامتی مانند E و مقادیر با حداقل پرت شدگی (در صورت وجود) ) که بین 5/1 برابر دامنه میان چارکی و 3 برابر دامنه میان چارکی هستند در دو طرف جعبه با علامتی مثل O در دو انتهای بالا و پایین جعبه نمایش داده می‌شوند.  

شاخص‌های عددی 

شاخص‌های عددی برای توصیف داده‌ها شامل شاخص‌های مرکزی و پراکندگی هستند.

شاخص‌های مرکزی

شاخص‌های مرکزی (central indeces) کمیت‌های توصیفی هستند که محل تمرکز و یا تجمیع داده‌ها را نشان می‌دهند. رایج‌ترین شاخص‌های مرکزی شامل میانگین، میانه و نما هستند. 

میانگین

شناخته‌شده‌ترین و متداول‌ترین مقدار متوسطی است که مورد استفاده قرار می‌گیرد، میانگین (mean یا average) می باشد. انواع مختلفی مانند میانگین حسابی، هندسی و هارمونیک را دارد که میانگین حسابی به‌مراتب رایج‌تر است. از مزیت‌های میانگین حسابی این است که (1) محاسبه آن آسان است، (2) از تمامی داده‌ها در محاسبه آن استفاده می‌شود، (3) یکتاست و برای یک مجموعه داده فقط یک مقدار مشخص دارد. از معایب این شاخص این است که تحت تأثیر داده‌های پرت است و در این حالت یک شاخص مرکزی گمراه‌کننده است. این شاخص از مجموع تمام مشاهدات تقسیم بر تعداد داده‌ها به دست می‌آید. به‌طور مثال، اگر مقادیر مدت بستری 5 زن سالمند برابر با 12، 7، 9، 10 و 10 ساعت باشد میانگین حسابی برابر است با: 

10+10+9+7+12=48÷5=6/9 

میانه

 میانه (median) داده‌ای است که اگر آن‌ها را از کوچک به بزرگ مرتب کنیم، در وسط داده‌ها قرار می‌گیرد. درصورتی‌که تعداد داده‌ها فرد باشد داده وسط و اگر تعداد داده‌ها زوج باشد، میانگین دو داده‌‌ی وسط به‌عنوان میانه گزارش می‌شود. از مزایای این شاخص این است که یکتاست و تحت تأثیر داده‌های پرت قرار نمی‌گیرد. از معایب این شاخص نیز این است که در محاسبه آن از همه داده‌ها استفاده نمی‌شود. . به‌طور مثال، اگر مقادیر مدت بستری 5 زن سالمند برابر با 12، 7، 9، 10 و 10 ساعت باشد میانه برابر است با داده وسط در داده‌های مرتب‌شده یعنی 10. 

نما 

نما یا مد (mode) عبارت است از داده‌ای که بیشترین فراوانی را در بین داده‌ها دارد. به‌طور مثال، اگر مقادیر مدت بستری 5 زن سالمند برابر با 12، 7، 9، 10 و 10 ساعت باشد نما برابر است با 10. از مزایای این شاخص سادگی محاسبه آن و از معایب آن عدم یکتایی است. به این معنا که اگر چندین داده به‌طور یکسان دارای بیشترین فراوانی باشند، همه آن داده‌ها به‌عنوان نما گزارش می‌شوند.  

شاخص‌های پراکندگی 

شاخص‌های پراکندگی (dispersion indexes) کمیت‌های توصیفی هستند که میزان پراکندگی داده‌ها را نسبت به محل تمرکز و یا تجمیع داده‌ها نشان می‌دهند. رایج‌ترین شاخص‌های پراکندگی شامل دامنه تغییرات، واریانس، انحراف معیار، ضریب تغییرات و دامنه‌ی میان چارکی هستند. 

دامنه تغییرات 

دامنه تغییرات (range) ساده‌ترین شاخص پراکندگی است که از تفاوت کمترین و بیشترین مقدار یک متغیر به دست می‌آید.  

به‌طور مثال، اگر مقادیر مدت بستری 5 زن سالمند برابر با 12، 7، 9، 10 و 10 ساعت باشد دامنه تغییرات آن برابر است با 

7-12=5  

از مزایای این شاخص سادگی محاسبه آن و از معایب آن این است که تنها دو داده‌ی ابتدایی و انتهایی در محاسبه آن شرکت می‌کنند و سایر داده‌ها نقشی ندارند. 

واریانس

واریانس (variance) یکی از شاخص‌های پراکندگی است که از مجموع مجذور انحرافات داده‌ها از میانگین تقسیم بر 1-n به دست می‌آید (n تعداد داده‌هاست).  

به‌طور مثال، اگر مقادیر مدت بستری 5 زن سالمند برابر با 12، 7، 9، 10 و 10 ساعت باشد واریانس آن برابر است با 

10+10+9+7+12=48÷5=6/9 میانگین

2(6/9-10)+2(6/9-10)+2(6/9-9)+2(6/9-7)+2(6/9-12)= 3/3 میانگین

از مزایای آن این است که در محاسبه‌ی آن از همه‌ی داده‌ها استفاده می‌شود و از معایب آن این است که در صورت وجود داده‌های پرت در داده‌ها شاخص پراکندگی مناسبی نیست. 

انحراف معیار 

از جذر واریانس، انحراف معیار (standard deviation) به دست می‌آید.  

به‌طور مثال، انحراف معیار داده‌های مدت بستری 5 زن سالمند برابر است با 

از مزایای این شاخصه آن است که برخلاف واریانس، واحد آن با واحد اندازه‌گیری داده‌ها یکسان است.  

ضریب تغییرات 

از تقسیم انحراف معیار بر میانگین، ضریب تغییرات (coefficient of variation) به دست می‌آید و معمولاً به‌صورت درصد بیان می‌شود. برای مقایسه‌ی پراکندگی دو متغیر که واحد اندازه‌گیری متفاوت دارند یا یک متغیر در دو جامعه‌ی متفاوت مناسب است. هرچه ضریب تغییرات کمتر باشد، پراکندگی آن متغیر حول میانگین کمتر است. 

به‌طور مثال، انحراف معیار داده‌های مدت بستری 5 زن سالمند برابر است با  

816/1÷6/9=189/0

×

100= 9/18      

دامنه میان چارکی   

دامنه میان چارکی (interquartile range) یکی از شاخص‌های پراکندگی است که از تفاضل چارک اول و سوم به دست می‌آید. چارک اول عددی است که 25 درصد داده‌ها کوچک‌تر یا مساوی آن هستند و چارک سوم عددی است که 75 درصد داده‌ها کوچک‌تر یا مساوی آن هستند.  

سه نوع چارک وجود دارد. چارک دوم همان میانه است یعنی نیمی از داده‌ها از آن کوچک‌تر و نیمی از داده‌ها از آن بزرگ‌تر هستند. وقتی تعداد داده‌ها فرد باشد، دقیقا داده‌ی وسطی پس از مرتب کردن از کوچک به بزرگ، چارک دوم خواهد بود. زمانی که تعداد داده‌ها زوج است، چارک دوم برابر با میانگین دو داده‌ی وسطی پس از مرتب‌سازی می باشد. اکنون چارک اول میانه‌ی داده‌های اول تا قبل از خود میانه (پس از مرتب‌سازی) و چارک سوم میانه‌ی داده‌های بعد از میانه تا آخر (پس از مرتب‌سازی) است. 

به‌طور مثال، دامنه‌ی میان چارکی داده‌های 2,5,6,8,11,12,13,17,18,79,1022 برابر است با 

۱۱ داده داریم، پس داده‌ی ششم، میانه است. خوشبختانه داده‌ها مرتب‌شده هستند. پس میانه (چارک دوم) برابر است با ۱۲  

اکنون داده‌های پیش از میانه برابر هستند با؛ 2,5,6,8,11 

تعداد آن‌ها ۵ است، پس میانه‌اش (که چارک اول کل داده‌های پرسش اصلی است) داده‌ی سوم یعنی ۶ می‌شود. 

داده‌های پس از میانه برابر هستند با؛ 

13,17,18,79,1022 

تعداد ۵ داده بعد از میانه‌ (چارک سوم کل داده‌های پرسش اصلی) قرار دارند. بنابراین، داده‌ی سوم، عدد ۱۸، برابر با چارک سوم خواهد بود. 

لذا دامنه‌ی میان چارکی داده‌ها برابر است با:   

12-18=6  

آمار استنباطی 

به مجموعه روشهایی که به استنباط در مورد ویژگی‌های ناشناخته‌ی جامعه می‌انجامد، آمار استنباطی (inferential statistics) گفته می‌شود. هدف از آمار استنباطی آن است که با انتخاب و بررسی بخشی از جامعه به‌عنوان نمونه که خصوصیات جامعه را در برداشته باشد در مورد ویژگی‌های ناشناخته‌ی جامعه‌ مانند میانگین و نسبت یا واریانس (پارامترهای جامعه)، برآورد یا «استنباط» صورت گیرد، به‌عبارت‌دیگر در آمار استنباطی، نتایج حاصل از نمونه به جامعه تعمیم (generalize) داده می‌شود. 

استنباط آماری به‌طورکلی به 2 بخش تقسیم می‌شود: برآورد و آزمون فرضیه 

برآورد

برآورد (estimation) به معنای تخمین زدن است. در آمار دو نوع برآورد داریم: برآورد نقطه‌ای و برآورد فاصله‌ای 

برآورد نقطه‌ای

در برآورد نقطه‌ای (point estimation)، یک پارامتر با مقدار مجهول را براساس یک عدد واحد که از داده‌های نمونه محاسبه می‌شود، تخمین می‌زنیم 

به‌عنوان مثال، متوسط (میانگین) دستمزد ماهانه کارمندان یک اداره بر اساس نمونه‌ای 20 تایی از بین کل کارمندان، 5500000 تومان است. درواقع میانگین دستمزد نمونه‌ی انتخابی به‌عنوان تخمینی برای میانگین دستمزد کل کارمندان اداره استفاده می‌شود. 

برآورد فاصله‌ای یا فاصله اطمینان 

در برآورد فاصله‌ای (confidence interval)، محدوده‌ای از مقادیر را می‌یابیم که معتقدیم پارامتر جمعیت واقعی با احتمال زیاد در آن محدوده قرار دارد. برآورد فاصله‌ای برای هر پارامتر بر اساس فرمولی مشخص و علمی به دست می‌آید و محدوده‌ی تعیین‌شده به سطح اطمینان انتخابی بستگی دارد که معمولاً 90% ، 95% یا 99% انتخاب می‌شود. هر چه سطح اطمینان بیشتر شود طول فاصله‌ی به‌دست‌آمده کمتر و دقت بیشتر می‌شود. 

به‌عنوان مثال، متوسط دستمزد ماهانه کارمندان یک اداره بر اساس نمونه‌ای 20 تایی از بین کل کارمندان، با سطح اطمینان 95 درصد بین 5200000 تومان تا 5800000 است.  

آزمون فرض

در آزمون فرض (hypothesis test) باید بر اساس داده‌های نمونه تصمیم بگیریم که آیا گزاره یا ادعایی که در مورد پارامتر جمعیت مطرح شده است درست یا غلط است 

 به‌عنوان مثال، این ادعا که میانگین دستمزد ماهانه کارمندان یک اداره بیش از 5000،000 تومان است ، می‌تواند با استفاده از داده‌های نمونه مورد آزمون قرار گیرد. 

آزمون فرض یا بررسی فرضیه‌های پژوهش، بر اساس نتایج آمار استنباطی ارائه می‌شود و این هدف از طریق پاسخ به پرسش‌های زیر انجام می‌شود: 

نوع فرضیه چیست؟ رابطه‌ای، مقایسه‌ای یا علی؟ 

نوع متغیر موردبررسی و مقیاس اندازه‌گیری آن چیست؟ 

پارامتر موردبررسی چیست؟ 

تعداد گروه‌های مقایسه شونده چقدر است؟ 

آیا پیش‌فرض آزمون آماری برقرار است یا خیر؟ 

پاسخی که محقق به هر یک از سؤال‌های فوق میدهد درواقع، تعیینکننده‌ی آزمونی است که او برای تجزیه‌ و تحلیل داده‌ها انتخاب می‌کند. چارت‌های زیر (چارت 1، 2 و 3) به‌منظور شناسایی آزمون‌های مناسب آماری ارائه شده است. 

فرضیه‌ی رابطه‌ای 

همواره در رابطه با دو متغیر به کار می‌رود. محقق در این فرضیه قصد دارد که صرفاً درجه و جهت رابطه‌ی بین متغیرها را کشف کند. این فرضیه به‌صورت جهت‌دار و بدون جهت مطرح می‌شود: 

مثال جهت‌دار: بین تحصیلات و اعتماد اجتماعی رابطه مستقیم وجود دارد. 

مثال بدون جهت: بین تحصیلات و اعتماد اجتماعی رابطه وجود دارد. 

فرضیه‌ی تفاوتی/مقایسه‌ای 

در فرضیه‌ی مقایسه‌ای، به دنبال بررسی و مقایسه‌ی تفاوت اثر دو یا چند متغیر یا گروه بر یک یا چند متغیر دیگر هستیم. در این فرضیه معمولاً درصدد مقایسه‌ی میانگین (آزمون‌های پارامتری) و یا میانه (آزمون‌های ناپارامتری) متغیرها در بین گروهها هستیم مثلاً مقایسه‌ی میانگین یا میانه با یک مقدار ثابت و یا مقایسه بین دو گروه و بیشتر. 

مثال: میزان اعتماد اجتماعی در بین زنان و مردان متفاوت است که درصورتی‌که اعتماد اجتماعی به‌صورت یک متغیر کمی جمع‌آوری شده باشد می‌تواند به‌صورت مقایسه‌ی میانگین نمره‌ی اعتماد اجتماعی بین دو گروه زنان و مردان مطرح شود. 

فرضیه‌ی علی 

هدف فرضیههای علی، کشف و تعیین رابطه‌ی علت و معلولی بین دو یا چند متغیر است. محقق در این فرضیه به دنبال این است که بگوید آیا متغیری میتواند علت به وجود آمدن متغیر دیگر باشد یا خیر. فرضیههای علی می‌توانند به سه حالت مختلف بیان شوند: 

حالت 1: پشتکار، علت پیشرفته است. 

حالت 2: پشتکار، بر پیشرفت مؤثر است. 

حالت 3: پشتکار، یکی از عوامل پیشرفت است. 

چارت 1: الگوریتم تعیین آزمون فرضیه‌ی رابطه‌ای
چارت 2: الگوریتم تعیین آزمون فرضیه‌ی مقایسه‌ای
چارت 3: الگوریتم تعیین آزمون فرضیه‌ی علی

این مطلب را پسندیدید؟

-

به اشتراک بگذارید

یک پاسخ بنویسید

نشانی ایمیل شما منتشر نخواهد شد.فیلد هایی که با علامت ستاره 8 مشخص شده اند، الزامی هستند

X