پنجشنبه, 28 فروردین 1404
آمار انحراف معیار

جایگزینی نادرست انحراف معیار و انحراف معیار از میانگین در مقالات علوم زیست پزشکی

 

دکتر مهدی هدایتی*

 

استادیار بیوشیمی مرکز تحقیقات چاقی، پژوهشکده علوم غدد درون ریز و متابولیسم

دانشگاه علوم پزشکی شهید بهشتی

 

دريافت: 9/8/ 88                                         اصلاح توسط نویسنده:  4/9/88                                            پذيرش: 15/10/88

 

چکیده

بسیاری از محققین علوم پزشکی در ارائه داده های تحقیق خود در خصوص استفاده از انحراف معیار و انحراف معیار از میانگین اشتباه          می کنند و یا در مورد این که استفاده از کدامیک صحیح است، دچار ابهام هستند. انحراف معیار شاخصی است که پراکندگی یا تغییرات داده مورد اندازه گیری در افراد شرکت کننده در مطالعه را نشان می دهد. ارائه آن در مورد تمام داده های اندازه گیری شده در تحقیق لازم می باشد. انحراف معیار میانگین، تغییرات میانگین داده های حاصل در زمان تکرار مطالعه مورد استفاده قرار می گیرد. به عبارتی انحراف معیار میانگین نشان می دهد که میانگین داده مورد اندازه گیری در افراد شرکت کننده تا چه حد به میانگین واقعی همان داده در جمعیت مورد نظر نزدیک می باشد. در بسیاری از گزارشات، نویسنده تغییرات یا پراکندگی داده ها در افراد شرکت کننده را اشتباهاًٌ بر اساس انحراف معیار از میانگین، بیان می کند. بر اساس انحراف معیار از میانگین می توان فاصله اطمینان را محاسبه نمود تا مشخص شود در صورت تکرار تحقیق، داده حاصل تا چه حد به مقدار واقعی نزدیک است. هدف از این مجمل پاسخ به دو سوال در خصوص داده هایی با توزیع نرمال است. سوال اول اینکه انحراف معیار با انحراف معیار از میانگین چه تفاوتی دارد؟ سؤال دوم اینکه، کی از انحراف معیار و چه زمانی از انحراف معیار از میانگین و فاصله اطمینان باید استفاده نمود؟

کلید واژه:انحراف معیار،  انحراف معیار از میانگین، فاصله اطمینان، مقالات پزشکی

 

 

 

 

 

 

 

 

 


 

*

 

 

 

 

مقدمه

 مبحثی به نام اشکالات رایج (Common mistake) در رشته های مختلف علوم مطرح می باشد. پژوهشهای علوم پزشکی و مقالات منتشر شده نیز از این مورد مستثنی نیستند و مکرر دیده می شود که انحراف معیار (Standard Deviation: SD) و انحراف معیار از میانگین (Standard Error of the mean: SE, SEM) اشتباها بجای یکدیگر استفاده می شوند. در سال 2002 آقای ناگل با بررسی چهار مجله مهم در زمینه بیهوشی، گزارش نمود که فقط در طی سال 2001 این چهار مجله 7/27 ، 6/22 ، 7/18 و 5/11 درصد مقالاتشان بجای انحراف معیار از انحراف معیار از میانگین استفاده نموده اند(1). مقالات متعددی در خصوص تفکیک این دو شاخص و بکار بردن صحیح آنها منتشر شده است. شاید بتوان مقاله منتشر شده توسط آقای براون در سال 1982 را اولین گزارش مشخص در خصوص این موضوع دانست(2) و مقاله آقای کای در مورد تفاوت SD و  SE در سال 2008 نشانه پابرجا بودن مشکل مذکور می باشد(3). براستی این دو شاخص چه تفاوتی با هم دارند؟ در چه مواردی باید از انحراف معیار و در چه زمانی باید از انحراف معیار از میانگین استفاده نمود؟ اهمیت این نکته به حدی است که اخیرا اکثر مجلات علمی، چاپ مقاله را منوط به متمایز نمودن دقیق این دو پارامتر در مقاله ارسالی نموده اند. چنانچه داده ها در نمودارهای میله ایی ارائه شده باشند، باید میله خطا (Error bar) ترسیم گشته و مشخص شود که میانگین ±SD است یا ±SE یا ±2SE است؟ در این گزارش سعی شده تفاوت و کاربرد صحیح این دو شاخص در خصوص داده هایی با توزیع نرمال بیان گردد. 

 

مفهوم انحراف معیار (SD)

در خصوص داده هایی با توزیع نرمال، انحراف معیار یا SD شاخصی است که چگونگی پراکندگی داده های حاصل از یک سنجش در اطراف میانگین در جمعیت مورد مطالعه یا افراد شرکت کننده را نشان می دهد و واحد آن با واحد داده مورد سنجش یکسان است. چنانچه داده ها با حرف X و میانگین داده ها  با حرف Mنشان داده شود، اختلاف هر داده با میانگین بصورت (Xi – M) و مجموع اختلاف هر داده با میانگین با S(Xi – M) نشان داده می شود. توجه به فرمول فوق، اشکالی را مطرح می کند. چون در خصوص میانگین حسابی داده ها این مجموع اختلافات همواره صفر می شود، دو حالت وجود دارد. حالت اول: همه داده ها با میانگین برابری می کرده اند و اختلافشان صفر بوده و لذا مجموع اختلافات صفر بدست آمده است. حالت دوم: برخی داده ها از میانگین بالاتر و برخی از میانگین پایین تر بوده اند، به گونه ایی که مجموع اختلاف داده های بالاتر و پایین تر از میانگین، صفر شده است. برای رهایی از این مشکل با مربع نمودن اختلافات، جهت تغییر حذف می شود و شق دوم مسئله دیگر متصور نخواهد بود. به عبارتی می توان گفت:.S(Xi – M)2 هرگز در مواردی که برخی داده ها بزرگتر و برخی داده ها کوچکتر از میانگین باشند، عبارت مجموع مربعات اختلاف از میانگین، صفر نخواهد شد. حال در خصوص مجموع مربع اختلافات سوال دیگری مطرح می شود، این عدد حاصل مجموع مربع اختلاف چند داده از میانگین است؟ مربوط به مجموع مربع اختلاف مثلا 100 داده است یا 200 داده؟ برای رفع این اشکال، پیشنهاد شد عدد حاصله بر تعداد داده ها نیز تقسیم گردد به عبارتی:  /nS(Xi – M)2

با این ترفند دو مشکل اول حل شد، اما متاسفانه مشکل جدیدی بوجود آمد، بجای اختلاف داده ها از میانگین با مربع اختلاف داده ها مواجه شدیم، لذا با گرفتن جذر یا ریشه داده های حاصل از مجموع مربع اختلاف داده ها از میانگین، این مشکل نیز مرتفع شد. به عبارتی فرمول اصلاح شده اینگونه خواهد بود:

/nS(Xi – M)2Ö

باید بدانیم اغلب محققان در پژوهشهای خود علاقه ایی به دانستن میانگین داده های مورد بررسی در افراد شرکت کننده در مطالعه را ندارند بلکه هدف اصلی آنها اطلاع از میانگین داده مورد بررسی در جمعیتی است که معیار ورود به مطالعه را داشته اند، به عبارتی محقق خواستار اطلاع از پراکندگی هر داده از میانگین جمعیت مورد نظر است و نه افراد مورد مطالعه. لذا مجدد اشکالی مطرح می شود و آن اینکه در این شرایط نتایج دچار تورش منفی می شود. به بیانی، زمانی که از میانگین کل افراد یک جامعه استفاده شود، اختلاف از میانگین با زمانی که از میانگین تعدادی از افراد آن جمعیت استفاده شود، متفاوت است. به جز موارد استثنایی این اختلاف از میانگین کمی کوچکتر از اختلاف از میانگین واقعی است. برای جبران نمودن این نتیجه تا حدی منفی کاذب، در مخرج کسر بجای n        ازn – 1 استفاده می شود و فرمول نهایی که کلیه اشکالات مطروحه را تاحد زیادی اصلاح نموده است به قرار ذیل بدست می آید:

 

 

 با محاسبه انحراف معیار از فرمول فوق می توان فهمید، دو سوم یا حدودا 68% داده ها در فاصله انحراف معیار± میانگین و 95 درصد آن ها در فاصله (انحراف معیار)× 2± میانگین واقع می شوند. بطور خلاصه انحراف معیار موقعیت داده ها در اطراف میانگین، در افراد شرکت کننده در مطالعه را نشان می دهد(6، 5، 4).

مفهوم انحراف معیار از میانگین(SE, SEM):

همانطور که اشاره شد هدف اصلی پژوهشگر کسب اطلاع از میانگین یا انحراف معیار داده های افراد شرکت کننده در مطالعه نیست بلکه هدف تعیین میانگین و انحراف معیار در جمعیتی است که معیارهای ورود به مطالعه را دارا می باشد. با محاسبه پارامترهای مذکور در افراد شرکت کننده، تخمینی از همان داده ها در جمعیت مورد نظر بدست خواهد آمد. اما این تخمین تا چه حد با واقعیت سازگار است؟ تا زمانی که از این داده ها در کل جمعیت مذکور اطلاع نداشته باشیم چگونه می توان به این سوال پاسخ داد؟ یک راه این است که اندازه گیری های مذکور را بارها تکرار نمود تا تعداد زیادی از تخمینهای ذکر شده در دسترس باشند. آنگاه میانگین این تخمینها و انحراف معیار آن میانگینها به داده های واقعی جمعیت نزدیکتر خواهند بود. برای متمایز شدن پراکندگی داده های اولیه از پراکندگی میانگینهای حاصل از تکرار اندازه گیری ها، از واژه انحراف معیاراز میانگین یا SE استفاده می شود. اما واقعا با محدودیتهای مالی موجود، آیا محقق می تواند مطالعه خود را بارها تکرار کند؟ یا بهتر است با ابزار ریاضی و آمار بر این مشکل فائق شود؟ قابل پیش بینی است که هر قدر حجم نمونه مورد بررسی یا n بزرگتر باشد این خطا کمتر و یا تخمین واقعی تر خواهد بود. لذا در تعیین شاخص انحراف معیار از میانگین باید فاکتور n در نظر گرفته شود. اولین پیشنهاد برای محاسبه انحراف معیار از میانگین از روی انحراف معیار این فرمول بود:

SE = SD/n

 اما از آنجایی که در محاسبهانحراف معیار در مخرج کسر ریشه n وجود داشت، لذا منطقی است فرمول مذکور به صورت ذیل اصلاح گردد:

 

با این اصلاح ریشه تعداد یعنی Ön در مخرج کسر، در ریشه تعداد در فرمول SD ضرب خواهد شد و در نتیجه عملا تعداد یا n در مخرج قرار می گیرد و منطق مذکور در انتخاب n محفوظ می ماند. پس بطور خلاصه به کمک SE می توان از پراکندگی میانگینهای تکرار داده ها، یا به عبارت دیگر از دقت میانگین حاصل از مطالعه، اطلاع حاصل نمود. معمولا انتظار داریم داده های حاصل از یک مطالعه در محدوده 95% مقدار واقعی آن داده در جمعیت دارای معیار ورود قرار بگیرد. همانگونه که 95% داده ها در محدوده ±1.96 SDهستند،  با اطمینان 95%  فرمول ذیل برای محاسبه فاصله اطمینان حاصل می گردد. 

95% CI = M ± (196 × SE)

لذا بطور خلاصه می توان گفت برای پی بردن به پراکندگی میانگینهای حاصل از تکرار یک سنجش، یا برای اطلاع حاصل کردن از میزان دقت اندازه گیری میانگین یک مطالعه، و یا نزدیکی میانگین داده های یک مطالعه به میانگین واقعی جمعیت هدف، از انحراف معیار از میانگین یا SE استفاده می شود. براساس SEمی توان فاصله اطمینان 95 درصد را تعیین نمود. با استفاده از فاصله اطمینان می توان گفت با اطمینان 95 درصد میانگین واقعی جمعیت در حدود اطمینان قرار می گیرد. به عبارت دیگر، زمانی از انحراف معیار میانگین استفاده می شود که قرار باشد براساس نمونه استخراج شده از جامعه، میانگین نامعلوم جامعه برآورد گردد. در این صورت انحراف معیار میانگین دقت میانگین نمونه (دقت برآورد) را در ارزیابی میانگین جامعه نشان می دهد. هر چه انحراف معیار میانگین کوچک تر باشد، نشان دهنده دقت بیشتر در تخمین میانگین جامعه براساس نمونه خواهد بود. لذا انحراف معیار میانگین تنها زمانی کاربرد دارد که نمونه ای از جامعه اختیار شده باشد. درحالی که انحراف معیار را می توان هم برای داده های حاصل از سرشماری و هم نمونه گیری استفاده کرد. (9، 8،7).

 

انتخابانحرافمعیارویا انحراف معیار از میانگین

همانطور که گفته شد در مورد داده هایی با توزیع نرمال، انحراف معیار پراکندگی داده های حاصل از یک اندازه گیری بروی افراد شرکت کننده در یک مطالعه، در اطراف میانگین را نشان می دهد و همواره باید در مورد کلیه داده های یک مقاله ارائه شود. انحراف معیار از میانگین، پراکندگی یا تغییر میانگینهای حاصل از تکرار دقیق اندازه گیریهای مورد نظر در مطالعه را نشان       می دهد. اما این داده (SE) به تنهایی اطلاع خاصی را نشان نمیدهد و بهتر است در محاسبه پارامتر فاصله اطمینان مورد استفاده قرار گیرد. تغییرات فرد به فرد باعث می شود که با تکرار آزمایش یا تحقیق بروی افراد مختلف یک جمعیت با شرایط ورود به مطالعه، نتایج یکسانی بدست نیاید. اگر بخواهیم نشان دهیم این اختلاف در صورت تکرار تحقیق تا چه حد خواهد بود از انحراف معیار از میانگین و فاصله اطمینان استفاده می کنیم. بهتر است انحراف معیار با شاخص فاصله اطمینان، هر دو در گزارش یا مقاله ذکر گردند، نباید این دو پارامتر را جایگزینی برای هم در نظر گرفت، چرا که هر دو با هم مکمل بوده و اطلاعات بیشتری در اختیار خواننده قرار می دهند. فرض کنید در یک مطالعه با حجم نمونه پایین، دو گروه کنترل و آزمون با سطح معنی داری 05/0  اختلاف نشان داده اند، در صورتی که فاصله اطمینان بر اساس انحراف معیار از میانگین گزارش شود، خواننده خواهد فهمید که بزرگی این فاصله، خام بودن اختلاف معنی دار حاصله را نشان می دهد.

 

نتیجه گیری

از آنچه گفته شد نتیجه می گیریم که از داده های یک تحقیق با توزیع نرمال می توان میانگین یا M را اندازه گرفت، بر اساس اختلاف داده ها از میانگین می توان انحراف معیار  یاSD را تعیین کرد و از روی انحراف معیار و تعداد نمونهn  می توان انحراف معیار ازمیانگین یا SE را محاسبه نمود و به کمک میانگین و انحراف معیار از میانگین، فاصله اطمینان یا CI را نیز گزارش نمود. در خصوص داده های حاصل از اندازه گیری بر روی گروهی از یک جمعیت، که مورد بررسی قرار گرفته اند نباید انحراف معیار از میانگین استفاده نمود بلکه انحراف معیار یا SD شاخص صحیح می باشد و در صورت ارائه CI داده SD بهتر تفسیر می شود.


References

 

  1. Nagele P. Misuse of standard error of the mean (SEM) when reporting variability of a sample, a critical evaluation of four anesthesia journals. British Journal of Anesthesia, 90 (4), 514-516, 2002.
  2. Brown GW. Standard deviation, standard error. Which 'standard' should we use? Am J Dis Child. 1982 ; 136(10):937-41.
  3. Kay B, The ongoing discussion regarding standard deviation and standard error. Adv Physiol Educ. 2008 ; 32(4):334.
  4. Mokkink HG. Roaming through methodology, XXXVIII, Common misconceptions involving standard deviation and standard error, Ned Tijdschr Geneeskd, 2002; 146(6): 255-9.
  5. Webster CS, Merry AF. The standard deviation and the standard error of the mean. Anaesthesia. 1997; 52(2):183.
  6. Streiner DL. Maintaining standards: differences between the standard deviation and standard error, and when to use each. Can J Psychiatry. 1996; 41(8):489-502.
  7. Malagon I. Standard error of the mean or standard deviation--does it matter? Anaesthesia. 1996; 51(6):609.
  8. Thompson JW. More on standard deviation versus standard error. Am J Psychiatry. 1987; 144(4):540-1.
  9. Leonidas JC. Standard deviation vs. standard error. J Ultrasound Med. 1986; 5(5):294.

 



*نشانی نویسنده مسئول مقاله:مرکز تحقیقات چاقی، پژوهشکده علوم غدد درون ریز و متابولیسم دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران صندوق پستی:4763-19395 تلفن: 22432500(021) فاکس: 22416264(021)Hedayati@endocrine.ac.ir  :  Email