
מידעונט אפי
גיליון 3
"מנקודת מבטי המקצועית"
הצגת עמדה לגבי מה שקורה/נעשה בסביבתנו
על שימוש שגוי בסטטיסטיקה
מבחני מובהקות, התערבות אלוהית ולואי גוטמן ומלחמתו ב"סטטיסטיקה השוגה"
מאת גיל גולדצויג
חבר שלימד סטטיסטיקה ושיטות במחקר בפסיכולוגיה ספר לי שפעם שאל פרופסור לסטטיסטיקה שאלה על ניתוח שונות. לאחר שחשב ארוכות אמר הפרופסור שיש לו זיכרון עמום שניתוח שונות הוא מקרה פרטי של רגרסיה....האנקדוטה הזו החזירה אותי לטענה שהפסיכולוגים המציאו סטטיסטיקה מיוחדת להם המבוססת על הסקת מסקנות בעייתית על בסיס בדיקת "השערת האפס" –
NHST - Null hypothesis significance testing.
השימוש במודלים מבוססי ניתוחי שונות קבל תנופה משמעותית לאחר מלחמת העולם השנייה עקב התפתחות מואצת של הפסיכולוגיה המחקרית שעסקה יותר בהבדלי ממוצעים בין קבוצות מאשר בהבדלים בין קבוצות. הפסיכולוגים, בין השאר אולי בגלל ידע מתמטי מוגבל, פיתחו את מבחני המובהקות בעוד הסטטיסטיקאים הרחיבו, פתחו והכלילו את המודלים הסטטיסטיים הפשוטים למודלים מורכבים יותר.
ניסוח ראשון של הרעיון של מבחנים לבדיקת השערת האפס הוא כנראה של John Arbuthnot - רופא (וגם סאטיריקן) סקוטי שבשנת 1710 בחן לידות של שני המינים במשך 82 שנה והראה שיש יותר לידות של גברים מאשר של נשים, ושההסתברות לכך שונה מהסתברות מקרית. מכאן הסיק שמדובר בתוצאה של התערבות אלוהית (כלומר תוצאה של תכנון מגבוה ולא של מקריות). הוא פרסם את התוצאות במאמר:
An Argument for Divine Providence, Taken from the Constant Regularity Observ'd in the Births of Both Sexes.
בדיקת ההשערות הסטטיסטיות המקובלת כיום היא במידה רבה נגזרת של הניסוחים של פישר ושל ניימן ופירסון שהתפרסמו בין שנות ה–20 לשנות ה–50 של המאה הקודמת. בתחילת שנות ה-90 התחזקה ההבנה שמה שנכון להחלטה אילו גידולים חקלאיים לגדל באיזה חלקה (עיקר הדוגמאות של פישר) לא בהכרח ישים למחקרים בפסיכולוגיה. הדוגמא המובהקת של ביקורת כזאת היא המאמר המפורסם של ג'ייקוב כהן מ–1994: The earth is round p<0.05, שזכה למעל 5000 ציטוטים. עיקר הביקורת הופנה נגד שימוש לא נכון והסקת מסקנות שגויות על בסיס מבחני מובהקות. הביקורת עסקה בשימוש מוטעה בהנחת דגימה מקרית, חוסר התייחסות להנחות מקדימות, חוסר התייחסות להסתברות בסיס ולמידע מקדים, הצורך להכריע באופן בינארי בין שתי השערות (במקום למשל לייחס הסתברות לכל השערה) ושימוש מטועה וחוסר הבנה של המשמעות של ערכי p.
האם הביקורת הביאה לשינוי מהותי? נראה שלא. חלק מכתבי העת אמנם משלמים מס שפתיים בדרישה להציג רווח בר סמך או גודל אפקט או חישובי עוצמה, אבל לא הרבה מעבר לכך.
דוגמא מרתקת לאשליה שמובהקות היא חזות הכול, הוא מחקרה של אליזבת טארג מסוף שנות ה-90 על השפעתה של תפילה מרחוק על חולי HIV. היא בחנה זאת במערך double blind עם חלוקה מקרית לשתי קבוצות, שעבור אחת מהן נערכו תפילות ע"י אנשי דת נוצרים, יהודים ובודהיסטים, בלי שהמשתתפים ידעו שהתפללו עבורם. היא מצאה שהקבוצה שהתפללו עבורה הייתה יותר בריאה מהאחרת, והתוצאות היו מובהקות סטטיסטית.
Targ, E., Sicher, F., & Smith, H. (1998). A randomized double-blind study of the effect of distant healing in an advanced AIDS population. Psychosomatic Medicine, 60(1), 120.
במחקרה היו כשלים רבים, רובם לא קשורים לעצם השימוש במבחני מובהקות, אבל חותמת ה"מובהקות" טשטשה לחלוטין את הכשלים במערך - והיא זכתה מה–NIH - National Institute of Health האמריקאי במענק של 1.5 מיליון דולר למחקר גדול יותר על השפעת תפילה על איידס וגידולים של סרטן מוח. רצה הגורל וזמן קצר לאחר קבלת המענק נתגלה אצלה סרטן מוח ולמרות התפילות מכל העולם היא נפטרה לאחר 4 חודשים.
אז מה ניתן לעשות? אולי הגיע הזמן לחדש את המלחמה ב"סטטיסטיקה השגויה", אותה הכריז בתחילת שנות ה–80 לואי גוטמן, מפתח תורת השטחות והוגה סולם גוטמן.
הוא היה פרופסור לסוציולוגיה באוניברסיטת קורנל ויועץ במחלקת המחקר של הצבא האמריקאי; עלה לישראל ב–1947, הקים את מכון גוטמן למחקר חברתי, זכה בפרס ישראל במדעי החברה בשנות ה–70, והיה הנשיא הלא-תושב הראשון של האיגוד הפסיכומטרי בארה"ב. לואי גוטמן, שהגדיר עצמו כפרופסור ל"הערכה בפסיכולוגיה וסוציולוגיה", הקים שרות לייעוץ מחקרי באוניברסיטה העברית והחל מ–1979 הפיץ באוניברסיטה דפי "יעוץ לעיבוד נתונים" אשר עסקו בביקורת על מבחני מובהקות. דף כזה מ–1982 למשל מזהיר מפני "הסטטיסטיקה השוגה", מציין כי הסטטיסטיקה הזאת קנתה אחיזה בהוראה, במאמרים ובתוכנות מחשב. הוא מצטט את דיקן הפקולטה למדעי החברה שהמליץ על הסברה בנושא; מונה רשימה ארוכה של בעיות וטוען שהפתרון האמיתי להסקת מסקנות ממחקר במדעי החברה הוא רפליקציות.
לי נראה שהגיעה השעה לחדש את מלחמתו של לואי גוטמן.