בלוגומטרי 6: פסיכומטריקאי מחפש משמעות

25 במאי 2016
זמן קריאה 8 דקות

עודכן: 5 באפר׳ 2021

אורח: פרופ' אייל גמליאל מנחה: ד"ר ליאת בסיס

סטיית תקן... מתאם... R2... האם אנחנו עוצרים לפעמים לחשוב מה אומרים נכסי צאן הברזל הפסיכומטריים הללו?

מחשבות כמו למשל, האם אנחנו מפרשים אותם נכון?

אני חשבתי שכן...

שיחה עם פרופ' גמליאל הביאה אותי לחשוב שאולי אנחנו מקיפים את עצמנו בשפה משותפת משובשת.

אזהרה: הבלוג הבא אינו מומלץ לאנשי מקצוע שאוהבים להקיף את עצמם באשליה של ודאות ובטחון...

שלושה דברים על אייל: 1. פרופסור חבר במרכז האקדמי רופין; כיהן כראש המחלקה למדעי ההתנהגות במשך שש שנים; מכהן כיום כיו"ר השישי של אפי.

2. יש לו שלושה תארים בפסיכולוגיה מהאוניברסיטה העברית בירושלים.

3. חובב ברידג'; למרות גילו המתקדם הוא בין השחקנים הצעירים במועדונים.

אייל, על מה אנחנו מדברים? אחד מתחומי ההוראה והמחקר שלי נוגע בחיפוש אחר משמעות למושגים סטטיסטיים ופסיכומטריים. יש בעיה עם המושגים והמודלים שאנחנו רגילים להשתמש בהם.

אז אתה אומר שהרצפה עקומה? הרצפה מאוד עקומה ולפעמים כבר יותר ממאה שנה, וזאת מאחר והאסכולה הלא נכונה ניצחה. אנחנו מדברים על האסכולה המתמטית, שאחד מנציגיה המובהקים הוא סר רונלד פישר, שהצליחה לנצח את "האסכולה האינטואיטיבית", שאת מחיר כישלונה אנו משלמים עד היום. המושגים והמודלים הם בחלקם מאוד לא אינטואיטיביים, אבל בגלל שאנחנו מחפשים להבין אינטואיטיבית דברים אנחנו טועים באופן שיטתי ולכן יש לנו טעויות בהבנה והטיות במשמעות שאנו מעניקים להם. מה זה אומר שהמתמטית ניצחה? היא השתלטה על השיח של המושגים ושל המודלים. למשל כולם מודדים פיזור של משתנים באמצעות סטיית תקן, במקום למדוד באמצעות מדד אינטואיטיבי יותר של ממוצע סטיות מוחלטות (Mean absolute deviation).

רגע רגע, זה לא נשמע לי אינטואיטיבי. תסביר אולי הוא לא נשמע אינטואיטיבי אבל זה הפירוש שאנשים יתנו למה היא סטיית תקן. אז אני שואל אותך, מה זה אומר שממוצע של ציונים במבחן הוא 80 וסטיית התקן היא 10.

התבלבלת, אני שואלת פה את השאלות :) מה רוב האנשים יענו? רוב האנשים יגידו שיש ריכוז תצפיות סביב ציון 80, וזה נכון. אבל מה זה סטיית תקן 10? במה זה שונה מסטיית תקן 20 או סטיית תקן 2? אנשים יודעים שסטיית תקן 10 היא קטנה מסטיית תקן 20. מה יגיד הפסיכומטריקאי? הוא יחזור לנוסחה ויציין אותה: שורש של ממוצע הסטיות הריבועיות מהממוצע. זה סינית עתיקה. אף אחד לא מבין מה זה אומר. ואם נדחק בפסיכומטריקאים ונבקש הסבר אינטואיטיבי יותר הם עשויים לטעון שאם נמדוד את כל המרחקים של הציונים מהממוצע 80, המרחק (המוחלט) הממוצע שיתקבל הוא 10. זה יופי של הסבר אינטואיטיבי, רק שהוא שגוי, מוטה ומטעה. סטיית התקן 10 מבטאת למעשה סטייה מוחלטת ממוצעת של 7 עד 8 נקודות. הפשר האינטואיטיבי שצוין לעיל מבטא למעשה את מדד הפיזור האינטואיטיבי של ממוצע הסטיות המוחלטות, מדד ש"הפסיד" בדו קרב עם סטיית התקן לפני כ 100 שנה.

אולי בגלל שהיה לו את השם היותר קצר, כלומר אנחנו מדברים על מיתוג? הסיבה היא שפישר ואנשי האסכולה שלו טענו שסטיית התקן כסטטיסטי אומדת בצורה טובה יותר את הפרמטר של סטיית תקן באוכלוסייה. בגלל שיקולים של אמידה, בחרו במדד מוזר של שורש של ממוצע סטיות ריבועיות מהממוצע, מדד שמאתגר מאוד את ההבנה האינטואיטיבית שלנו. היום יש יותר ויותר טענות שהיתרון של סטיית התקן לעומת ממוצע הסטיות המוחלטות באמידה של פרמטרים הוא נכון רק תחת הנחות לא מציאותיות, ובהתפלגויות אמפיריות שכיחות אין לסטיית התקן שום יתרון. כך, נותרנו עם מדד פיזור לא אינטואיטיבי, שכנראה ניצח שלא בצדק את המדד האינטואיטיבי, שהוא למעשה הפירוש (השגוי והמוטה) שאנו ניתן לסטיית התקן אם נתבקש להסביר אותה לעצמנו או לאחרים. מבולבלים? גם אנחנו...

בוא נדבר על פירסון. לגבי מתאם פירסון, נקבע טווח שרירותי בין (1-) לבין (1) ובדרך איבדו משמעויות אינטואיטיביות. אנשים עלולים לחשוב שמתאם של 0.6 בין זוג משתנים מבטא קשר ליניארי כפול מזה שקיים בין משתנים שיש להם מתאם של 0.3. גם כשאת שומעת על ערך מסוים של מתאם, נניח, 0.5, את לא יודעת מה זה אומר. אם יש מתאם של 0.5 בין גובה למשקל באוכלוסייה מסוימת, ואני גבוה בסטיית תקן שלמה מהגובה הממוצע, מה יהיה המרחק שלי מממוצע המשקל באוכלוסייה? אם המתאם הוא מושלם (1), אזי כל התצפיות יושבות על קו ניבוי ישר, ואז הייתי גבוה בסטיית תקן בדיוק מהממוצע של המשקל באוכלוסייה. אבל המתאם בפועל אף פעם אינו 1, ואז המשמעות הולכת לאיבוד.

האם לא מספיק לדעת שזה גדול מזה? כשמפרסמים מאמר לא מציינים מתאם "גבוה", "בינוני" או "נמוך", זה סובייקטיבי, ואנחנו הרי מדענים... מציינים מספר. זה כמו שרופא יסתכל על תוצאות של בדיקות ויגיד זה גבוה, בינוני, נמוך... הוא מבין מה זה 110, הוא מבין את המספר. לא להתייחס למספר זה להיות פרופסיונלי לכאורה; המומחה מפרש את התוצאות והוא צריך לדייק. מה זה אומר מתאם של 0.5? ברגע שאתה דוחק את האנשים לתת פרשנות הם נותנים פרשנות מוטה, בעיקר אנשי המקצוע שלכאורה מבינים את המשמעויות של ציוני תקן. כאמור, אם המתאם הוא 1, כל התצפיות "יושבות" על קו הניבוי, והפער בין ציון התקן של כל אדם בשני המשתנים הוא 0. ואם המתאם הוא 0.5? מה יהיה הפער הממוצע בין ציוני התקן בשני המשתנים של כל האנשים בהתפלגות? התשובה האינטואיטיבית היא שהפער הממוצע יהיה של חצי סטיית תקן. ואם המתאם הוא 0.8, מה יהיה הפער הממוצע בין ציוני התקן בשני המשתנים של כל התצפיות? כנראה 0.2. אומדנים אלה מוטים כלפי מטה, כלומר הם מבטאים אופטימיות שגויה של מרבית האנשים שמבינים מהם ציוני תקן. בפועל, כשהמתאם הוא 0.5 הפער הממוצע בין שני ציוני תקן של כל אדם הוא 0.8, וכשהמתאם הוא 0.8 אז הפער הממוצע הוא של חצי סטיית תקן. כלומר אנחנו אופטימיים, אנחנו חושבים שהקשר אומר דברים יותר חזקים ממה שהוא אומר באמת. ממצא דומה נמצא גם כשמציגים לאנשים דיאגרמות פיזור ולא רק ערכים של מתאם פירסון. זה תמיד מוטה כלפי מעלה, כלומר תופסים את הקשר כגבוה ממה שהוא. זה עשוי להטעות את מקבלי ההחלטות.

אז מה הדבר הנכון? אפשר לחשוב על מקדם מתאם בסולם אחר, לא בין 1- ל 1, או לעבור ולדבר על מדד של חוסר קשר, למשל מדד של הפרש בין ציוני תקן. עבור מדד של הפרש (מוחלט) בין ציוני תקן, ל 0 יש משמעות: ציוני התקן של כל אחד זהים. זהו מדד לא שכיח. למשל אם ההפרש המוחלט הממוצע בין ציוני תקן בפסיכומטרי ובהצלחה בלימודים הוא 0.8, המשמעות היא שיש לכל אדם פער ממוצע של כמעט סטיית תקן שלמה בין שני ציוני התקן. לצורך הדוגמה נתייחס לכל מי שיש לו ציון תקן 0 בפסיכומטרי (כלומר בעלי הציון הממוצע). לאנשים אלה יהיו ציוני תקן בהצלחה בלימודים שיהיו רחוקים מ 0 ב 0.8. כלומר, יהיו אנשים עם ציוני תקן 1-, 0.6-, 0.6 ו 1 בשכיחות דומה. יהיו כמובן אנשים עם ציוני תקן קרובים יותר ל 0, אך עבור כל אדם כזה יהיה מישהו רחוק יותר מ 0 (למשל, עבור כל מי אדם עם ציון תקן 0.4 או 0.4- יהיה מישהו עם ציון תקן 1.2 או 1.2-). אלה נשמעים פערים גדולים שמעידים על יכולת ניבוי נמוכה, ולמעשה אלה הערכים שמאפיינים את מקדם המתאם של פירסון עבור ערך של 0.5. הפרש מוחלט של 0.8 יוערך כהפרש גדול יחסית, אם נציין כי ההפרש המוחלט הממוצע הגדול ביותר בין שני ציוני תקן הוא 2, והוא מתקבל עבור מקדם מתאם של 1-. ובשל קוצר היריעה לא אפרט את הבעייתיות שיש בגין חוסר הסימטריה של מתאמים חיוביים ושליליים מבחינת ממוצע ההפרשים המוחלטים בין ציוני תקן . לכאורה יותר קל להבין מתאם מסטיית תקן אבל גם כאן ההבנה שגויה. אנחנו מבינים אולי עוצמה וכיוון, אבל לא את הערכים שמתקבלים...

יש עוד מושגים סטטיסטיים מתודולוגיים שאנשים מבינים לא נכון? כן יש עוד כמה :D אחד מהם, שפוגשים בכל כנס של אפי הוא R2. כמעט כל הדוברים מכנים אותו פרופורציה של שונות מוסברת. זה לא נכון ולא מדויק. באף מקרה אנחנו לא מנבאים שונות. הצביע על כך כבר פרופ' לואי גוטמן המנוח ב 1977 במאמרו המפורסם What is not what in statistics. גוטמן טען שהמושג "פרופורציה של שונות מנובאת" הוא חסר פשר סטטיסטי, והוא משקף גחמות פסיכולוגיות של המשתמשים בו. גוטמן גם הצביע במאמר על חוסר הבנה של הרבה מאוד מושגים אחרים (יש הרואים במאמר זה אסופה של "משפטי פרמה", שאולי ייקח עוד זמן רב להבינם עד תום). כל מה ש R2 אומר, הפרשנות הנכונה שלו, היא השונות בין הציונים המנובאים שהיינו מקבלים אם היינו מתקננים גם את המנבא וגם את הקריטריון. כלומר הופכים אותם לציוני תקן. ההשערה שלי היא שלאורך הזמן אנשים אמרו את המושג הזה: "שונות בין ציוני תקן מנובאים" הרבה פעמים, אבל אין לזה פשר אינטואיטיבי, וברבות הימים זה הפך להיות "שונות מנובאת". אבל אנחנו לא מנבאים שונות, אנחנו מנבאים ציונים. היות ואנחנו מחפשים סיבתיות ונוהגים לכנות מושגים כסיבתיים גם כשזה לא מוצדק, כאילו להוסיף חטא על פשע, הפכנו את "השונות המנובאת" ל"שונות מוסברת", בעלת הקונוטציות הסיבתיות. הבעיה היא שאנחנו מנבאים ציונים ולא מנבאים שונות, ומתאם לא יכול לספק לכשעצמו הסבר סיבתי. כל תלמיד מתחיל במדעי החברה יודע שמתאם לא מעיד בהכרח על סיבתיות, אבל כאשר מעלים את המתאם בריבוע, כמעשה קסם הגענו ל"פרופורציה של שונות מוסברת".

כולנו אומרים מיון אך זו ברירה, כולנו אומרים מרכז הערכה אך מתכוונים למבחני מצב קבוצתיים, אומרים סוציומטרי אך מתכוונים להערכת עמיתים... אז אולי לא נורא שהמושג חוטא למשמעות שלו והעיקר שכולנו מדברים באותה שפה? ויש לנו, כפי שיובל נח הררי כינה זאת, סדר מדומיין? בדוגמאות שלך אנשים יודעים על מה הם מדברים אבל בדוגמאות שלי אנשים מדברים על משהו לא קיים וחושבים שהם מבינים על מה הם מדברים. אם נמשיך לחשוב שאנו מבינים על מה אנחנו מדברים לא ננסה להבין מה זה אומר באמת. בסדר מדומיין אנו יוצרים מיתוס משותף. בדוגמאות שהובאו כאן אנו נותנים משמעות מוטעית/מוטה. אם נחליף את המדדים המשמעויות יוכלו להיות נכונות.

יש דוגמאות בולטות נוספות של מדדים/מושגים שהמשמעות שלהם מוטעית/מוטה? אציין שתי דוגמאות נוספות, הראשונה קטנה, והשנייה גדולה הרבה יותר. הדוגמה הקטנה היא בעייתיות שנגרמה בגלל השימוש בסטיית התקן. עצם הבחירה במדד מוזר שבודק סטיות ריבועיות, גרמה לבעיות שרשרת, שאחת מהן קשורה למדד הנפוץ של הפרש בין ממוצעי שתי קבוצות – ה d של ג'ייקוב כהן. פרופ' סורל קאהן ואנוכי כתבנו על הפער המובנה בין המונה של מדד זה (שמבטא הפרש מוחלט) לבין המכנה שלו (שמבטא הפרש ריבועי). דוגמה גדולה הרבה יותר, כזו שמתקשרת לשמו של מיודענו מתחילת הבלוגומטרי – סר רונלד פישר, היא השימוש הנפוץ במאה השנים האחרונות במדעי החברה במבחני המובהקות הסטטיסטית. כפי שלמדתי ממוריי, וביניהם פרופ' סורל קאהן ופרופ' רומה פלק, השימוש במבחני המובהקות הסטטיסטית מבוסס על כשלים לא מעטים, ובראשם הכשל של ההסתברות ההפוכה: אם השערת האפס נכונה, הסיכוי לקבל את התוצאה הוא נמוך (תוצאה "מובהקת סטטיסטית", p < .05), אך בהינתן שקיבלנו את התוצאות הסיכוי שהשערת האפס נכונה יכול להיות גבוה הרבה יותר מ 5%... פרופ' לואי גוטמן במאמרו הסמינלי מ 1977 הצביע על כשלים בפירוש של תוצאות מובהקות סטטיסטיות, ובסימפוזיון בכנס אפי 2009 הסבירה לנו פרופ' רומה פולק מעט מהכשלים הלוגיים והבעייתיות שבשימוש במבחני המובהקות הסטטיסטית. כיום יותר ויותר אנשים מבינים את הכשלים בבסיס השימוש במבחני מובהקות ואת חוסר התוחלת המדעית שלהם. הבעיות מתחילות בעורכי כתבי עת שדורשים מבחני מובהקות סטטיסטית, ממשיכות במנחים של עבודות לתואר ראשון, שני ושלישי, ומסתיימות במרצים לסטטיסטיקה שנדרשים ללמד את תלמידי התואר הראשון והשני על מבחני המובהקות הסטטיסטית (אחרת איך הם יבינו את המאמרים המדעיים שהם קוראים). לאחר מאה שנה של תהיה ותעייה, נראה כי מדעי החברה לוקחים כיוון אחר, כאשר אחד הארגונים המקצועיים שמוביל שינוי זה הוא ה-APS) Association for Psychological Science). הגדיל לעשות לאחרונה כתב העת Basic and Applied Social Psychology אשר עורר מהומה בקהילה המדעית לאחר שאסר על שימוש במבחני המובהקות הסטטיסטית במאמרים שמתפרסמים בו. למתעניינים בקריאה בעברית בנושא, ד"ר אבישי אנטונובסקי כתב על כך מאמר ב"מגמות" לפני כמעט עשרים שנה. לפעמים טחנות הצדק טוחנות לאט...

הבנתי את החשיבות. אבל אנשים בדיסוננס כי שנים השתמשו בזה וגם אין להם חלופה אטרקטיבית? אז למה שזה ישתנה? לסטיית התקן יש חלופה שהיא הרבה יותר אינטואיטיבית, ממוצע הסטיות המוחלטות, זו חלופה טובה. למתאם פירסון ול R2 יש חלופה הרבה יותר טובה, רק שבמקום לדבר על מדד של קשר או קרבה בין משתנים, צריך לדבר על מדד של חוסר קשר, של חוסר קרבה, של מרחק בין משתנים. היא לא חלופה שכיחה וצריך ללמוד אותה: ההפרש ממוצע בין ציוני תקן. למדד גודל האפקט יש פתרון אפשרי בהחלפת ה d של כהן במדד שיש בו עקביות בין המונה למכנה, למשל כזה שעושה שימוש בממוצע הסטיות המוחלטות במכנה במקום בסטיית התקן. למבחני המובהקות הסטטיסטית אין פתרון קסם אחד ויחיד, ואולי זו אחת הסיבות שהם שולטים בכיפה למעלה מ 100 שנה. מה שעובד אולי בפוליטיקה ("זה המנהיג שיש לנו; אין חלופה אטרקטיבית"), לא יכול לעבוד במדע. השינוי שחל בשנתיים האחרונות בדרישה של כתבי עת לשים דגש רב יותר על מדדים של עוצמת קשר בין משתנים, ולפרט הרבה יותר את הממצאים התיאוריים של הנתונים המדגמיים, הם צעדים בכיוון הנכון. אבל אחת המסקנות שהדוגמאות לעיל מלמדות היא שלא כדאי להישאר עם מה שיש, אם מה שיש שגוי או מוביל לפרשנויות אינטואיטיביות שגויות.

אז מה עושים? זו שאלת מיליון הדולר. לדעתי צריך להפיץ ברבים את הבעייתיות הקיימת במדדים ובמודלים הבעייתיים. על מנת שיתחולל שינוי צריך להעמיק את ההבנה שיש כאן בעיה. ה APS החל במהלך ליצירת "הסטטיסטיקה החדשה" בעקבות הצטברות ידע שעבר ערך קריטי מסוים. אם נמשיך לדמום, השיירה בטוח תעבור. הדרך היחידה לעצור את השיירה היא לנבוח, ולקוות שרמת הנביחות תהיה חזקה מספיק על מנת ליצור שינוי. אפשר לחשוב כבר על סיסמה אפשרית: "הפסיכומטריקאים דורשים מדדים משמעותיים". זה אולי ייקח כמה שנים, עשורים, או מאות שנים, אבל סוף הצדק לנצח.

לסיום, איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל? תחשבו על המשמעות של המושגים שאתם משתמשים בהם. למרות מה שאולי משדרים לנו, או מה שאנו קולטים בעצמינו, הבעיה אינה בנו – בפסיכומטריקאים או בסטודנטים למדעי החברה; הבעיה היא במושגים ובמודלים, ולכן צריך להחליף אותם. ומשפט אחרון, בשני תחומי מחקר נוספים – הוגנות השימוש בציונים וחוסר היעילות שבשימוש במדדי יעילות, עמיתיי ואני מראים שצריך להחליף מודלים או מדדים קיימים שאינם אינטואיטיביים, במודלים או מדדים שהם תואמים אינטואיציות בריאות שיש לכולנו. אבל על כך נרחיב באחד הבלוגומטרים בעתיד.

הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך. מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים.