תגובות

להיות פסיכומטריקאי

 
בלוגומטרי 10- אוגוסט 2017
אורח: ניצן פרידמן
מנחה: ד"ר ליאת בסיס


להיות פסיכומטריקאי

 

שלושה דברים על ניצן (שמבחינתי מרמזים שהוא פסיכומטריקאי מלידה):
  1. ניצן בעל תואר שני בפסיכולוגיה חברתית מהאוניברסיטה העברית. התיזה שלו עסקה בהשפעה שיש לסוג הפריטים שכותבי המבחן משתמשים בהם על היקבעות הידע של הנבחנים. כלומר, איך נבחנים זוכרים את החומר גם אחרי שהמבחן הסתיים.
  2. בשנים האחרונות ניצן עובד במאל"ו כמפתח בחינות בצוות שאמון על הפרקים המילוליים של הבחינה הפסיכומטרית, וכן כשותף בפיתוח תכנית לימודי תעודה בפסיכומטריקה - יוזמה שנולדה אצל הוועדה הישראלית לעידוד לימודי הפסיכומטריקה.
  3. בסופי השבוע ניצן ובני משפחתו מתחרים בשלל חידוני הטריוויה שמתפרסמים בעיתונים. כדי להעריך את התשובות שלהם על השאלות הפתוחות המוצגות בטריוויה, הם משתמשים במחוון מסודר שניצן פיתח כדי לקבוע את הניקוד בצורה מדויקת.
 
ברוך הבא ניצן!
אז מה זה אומר קורס מקוון? ומהו קורס מקוון בפסיכומטריקה?

קורס מקוון הוא קורס שההוראה בו נעשית בדרכים מתוּוכות מחשב, שהלומד יכול ללמוד בבית מתי שמתאים לו, בכל פעם למשך הזמן שנוח לו, והוא חוסך המון זמן – נסיעות למוסד הלימודי, הזמן שבו המרצה כותב על הלוח, ואפילו את ההכרח לצאת מהפיג'מה. קורס מקוון משחרר אותנו מאלמנטים שקיימים בהוראה מסורתית שהם לא תמיד לטובת הלמידה – למשל, משך השיעור. בהוראה מסורתית לא נוציא לומד מביתו לנסיעה של שעה בשביל שיעור של עשר דקות, אבל... בהוראה מקוונת אפשר לעשות זאת, ולפי מחקרים מתברר שכדאי: שיעורים קצרים הם אפקטיביים יותר.

 
צילומי מסך מארבעה סרטונים, המרצים: נמרוד עשת, ד"ר רות פורטס, ד"ר יואל רפ, ספי פומפיאן.

הקורס המקוון שעליו אנחנו עובדים בימים אלה נקרא 'פיתוח כלי מדידה והערכה' וכמשתמע משמו הוא מתמקד בפיתוח של כלי מדידה והערכה, עם  דגש על הצד המעשי: החל מבחירת כלי המדידה המתאים ביותר למדידה, דרך בניית מפרט המבחן וכתיבת השאלות, וכלה בפיתוח המחוונים לבדיקת התשובות לשאלות ושיטות לבדיקת איכות הפריטים (ניתוח פריטים). השיעורים הראשונים בקורס עוסקים בקיצור במהימנות, תוקף והטיה כמבוא. חלק מרכזי בקורס עוסק בעקרונות כלליים בתהליך פיתוח מבחנים, שלא תלויים בעולם התוכן הספציפי שהמדידה מתבצעת בו, כמו איך בונים שאלות סגורות ופתוחות, וחלקים אחרים בקורס עוסקים בעקרונות שחשוב לשים אליהם לב בתהליכי מדידה בהקשרים ספציפיים: בהקשר חינוכי, בהקשר תעסוקתי, בהקשר קליני וכו'.

הקורס צפוי לכלול כ-50 שיעורים בני רבע שעה כל אחד. לפני כל סרטון יש שאלות מקדימות וחומרים שמלווים את הלומד ומגדילים את העשייה והמעורבות שלו, כי הסתפקות בצפייה בסרטונים תותיר את הלומד פסיבי, וזה מצב לא רצוי.

את ההרצאות מעביר סגל שמורכב מטובי המומחים בארץ שעוסקים במדידה והערכה, שגייסנו לצורך העניין. חלק גדול מהמרצים הם אנשי מאל"ו, ואחרים מראמ"ה, ממט"ח, מהאוניברסיטה העברית, מהאוניברסיטה הפתוחה וממקומות נוספים. זכינו לשיתוף פעולה ממרצים עמוסים ביותר. חלק מהמרצים נמנים על הישראלים המעטים שהשכלתם היא ממש בפסיכומטריקה (שלמדו בחו"ל), וכולם מביאים איתם ניסיון מהשדה וידע שצברו עם השנים.

אני לא מכיר קורסים מקוונים שמוקדשים לנושא פיתוח כלי מדידה והערכה שהם בהיקף רחב כמו זה של הקורס שאנחנו מפתחים.  בנובמבר 2017 אנחנו הולכים להציג את הקורס בכנס השנתי של  AEA - Europe (Association for Educational Assessment - Europe) – ומצפים שההצגה תעורר עניין, ואולי גם תביא בעקבותיה שיתוף פעולה עם אנשים העוסקים בתחום במדינות אחרות.


לשם מה צריך קורס כזה?

בשביל לענות על השאלה הזו כדאי רגע להתבונן על הקשר רחב יותר. באקדמיה בישראל אין היום תכניות לימוד בתחום המדידה וההערכה, וכמעט שאין חוקרים בתחום הזה. המצב הזה מוביל למספר קטן מאוד של סטודנטים שבוחר ללמוד ולחקור את התחום במסגרת עבודות התיזה והדוקטורט שלהם, כך שלא מוכשרים מומחים חדשים בתחום.

כדי לשפר את המצב הזה, מאל"ו החליט לפתח תכנית ללימודי תעודה בפסיכומטריקה, והרעיון הזה קורם עור וגידים בזכות תרומה של קרן פילנתרופית שהסכימה שזה חשוב. לצד פיתוח לימודי התעודה, התרומה שקיבלנו מהקרן משמשת גם למימון מלגות לכמה סטודנטיות שעומדות ללמוד פסיכומטריקה בחו"ל, ולמימון מלגות לשלוש דוקטורנטיות בארץ. הדוקטורנטיות בארץ לא לומדות בתכניות לימוד ספציפיות בפסיכומטריקה (שהרי אין כאלה...), אלא הן לומדות פסיכולוגיה, והן מחזקות את הצד הפסיכומטרי בדוקטורט שלהן בעזרת ליווי שהן מקבלות ממאל"ו.  במקביל לדוקטורט הן גם ישתתפו בלימודי התעודה.

לימודי התעודה זוכים לברכת האגודה הישראלית לפסיכומטריקה שמארחת אותנו בבלוג הנוכחי (:


לשם מה צריך מומחים בתחום? מי חסר אותם?

להרבה מהאנשים הבכירים בראמ"ה, במט"ח, במאל"ו, יש השכלה פורמלית בתחום, וכך גם להרבה מהמובילים במכוני מחקר ולמובילי המו"פ במכוני המיון. הרבה מהם עומדים לפרוש בקרוב, ובהיעדר תכניות לימוד בתחום מי שעתיד להחליף אותם צפוי להיות עם פחות השכלה פורמלית בנושאים האלה - השכלה שכמובן משפיעה על איכות העבודה.

אם לא יהיו מומחים בתחום המדידה וההערכה בישראל לא נוציא את אותם התוצרים, תהליכי המיון יהיו פחות טובים כמו גם תהליכי ההערכה החינוכית ועוד.  


למי מיועד הקורס?

באופן כללי היעד הוא לשחרר את הידע בתחום המדידה וההערכה, שכיום אצור אצל קבוצה קטנה של אנשים, לרשות הציבור כולו. אבל לא מיד עם עלייתו של הקורס לרשת. בשלב הראשון אנחנו מייעדים את הקורס לשתי קבוצות עיקריות: אחת מהן היא אנשים שרוצים להשתלב בתחום הזה בעתיד או שכבר עוסקים בו, והאחרת היא תלמידי תואר שני ושלישי שמעוניינים לשלב את לימודי הפסיכומטריקה בלימודים שלהם, בהם הדוקטורנטיות שכבר נבחרו. כיווני מחשבה שיש לנו לעתיד הם להתאים את תכני הקורס גם למורים, למרצים למוסדות השכלה גבוהה ולקבוצות נוספות שיכולות להפיק תועלת מהתכנים שיילמדו בקורס.

אבל זה לא הכול. מכיוון שהמימון לפרויקט מגיע מקרן פילנתרופית, ומכיוון שהמרכז הארצי הוא מלכ"ר שאחת מהמטרות שלו היא קידום תחום הבחינות בארץ, אנחנו רואים את עצמנו מחויבים להשתמש במשאבים שניתנו לנו לרווחת הציבור ולהנגיש את התכנים לכמה שיותר לומדים. הכיוון שמסתמן הוא שאחרי תקופת פיילוט חלקים נרחבים מהתכנים יהיו נגישים ברשת לכולם בחינם.

תלמידי הקורס שיהיו מעוניינים בקרדיטציה – למשל, אלה שלומדים את לימודי התעודה – ישתתפו גם בסדרה של סדנאות ומפגשים פרונטליים. זה מודל של Blended Learning שמשלב למידה מסורתית ומקוונת. התלמידים האלה יתבקשו לעמוד בדרישות הקורס, כמו השתתפות בסדנאות, הכנת תרגילים, מעבר של ציון סף במבחן וכו', והם גם יתבקשו לשלם סכום כלשהו שנועד לכסות את עלויות התפעול של הקורס.


איך עושים קורס מקוון?

מאחורי כל 10 דקות של סרטון יש המון עבודה. כל מי שפיתח קורס מסורתי יודע שצריך להשקיע מחשבה וזמן בקביעת הסילבוס, ביצירת השיעורים, בכתיבת התרגילים, בבניית המבחן וכו'. כשמדובר בקורס מקוון, צריך להוסיף לכל אלה  עבודה שקשורה בהפקה: צריך אולפני צילום, עורכי וידיאו, אנימטורים, גרפיקאים, אנשים שיעלו את כל החומרים לפלטפורמה הדיגיטלית ואפילו מאפרת (: זו הזדמנות להזכיר את המרכז למולטימדיה של האוניברסיטה העברית שעושה עבודה טובה מאוד בכל מה שקשור להיבטים של ההפקה.

 

קטע מתוך שיעור בקורס.  מרצה: נדב פודולר, מרכז ארצי לבחינות ולהערכה

מאחורי כל שיעור יש חשיבה מדוקדקת. הסטנדרט של ללמד מול קבוצה הוא לא הסטנדרט של ללמד מול מצלמה. מצגת עם גרפיקה בסיסית שעוברת היטב מול קבוצה קטנה של אנשים בהרצאה, לא תמיד מספקת כשהיא מיועדת לשיעור באינטרנט. המרצים עובדים המון על כל שיעור. מעבר לכתיבת התוכן (המרצה מעביר מראש גם מצגת וגם את הטקסט המדויק שאותו הוא הולך להקריא מהטלפרומפטר שבאולפן), צריך גם לקבוע איזו תזוזה תהיה על המסך ומתי כדי להימנע משיעורים סטטיים מדי, צריך להכין את השאלות שיישאלו לפני הסרטון ואחריו, צריך לחשוב איך אפשר לנצל העובדה שהתלמיד לומד דרך מחשב... כלל אצבע מדבר על עשר שעות לבניית שעה של קורס מסורתי, שעובדים בו רק על תוכן.  פה יש הרבה יותר השקעה. המרצים בקורס השקיעו הרבה מאוד ומגיעה להם תודה.


מתי אמור כל הטוב הזה להתחיל?

לימודי התעודה בכלל ובתוכם הקורס המקוון צפויים להתחיל בתחילת 2018. אנחנו עובדים במלוא המרץ כדי לקדם את הפיתוח בצורה כזו שנוכל לפתוח את ההרשמה כמה שיותר מהר, בסתיו. ספציפית בקורס "פיתוח כלי מדידה והערכה" צילמנו 25 סרטונים, בספטמבר נצלם עוד כ-15 ובסתיו את היתר. כדי לעמוד בלוח הזמנים הרחבנו לאחרונה את צוות האנשים שמסורים לנושא הזה. את כל המאמץ הזה והעשייה מוביל ד"ר אבי אללוף.  


תודה רבה ניצן! לסיום הייתי רוצה לשאול, איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל?

אני רוצה לקרוא לפסיכומטריקאים לעקוב אחרי הפרסומים לקראת לימודי התעודה שצפויים להיפתח בתחילת 2018. מערכת ההשכלה הגבוהה בישראל כוללת רק מעט קורסים רלבנטיים ואני בטוח שאנשים שמתעניינים בתחום ימצאו בלימודי התעודה השלמת השכלה מתאימה.
 


 
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. Liat.basis@maoz-il-org


 
לעמוד הפוסט תאריך: 21/08/2017 02:41:00 תגובות:
תגובות

פסיכומטריקה בעולם האמיתי & מדידת מציאות מורכבת


בלוגומטרי 9- אפריל 2017
אורח: יוסי דינור
מנחה: ד"ר ליאת בסיס
 

פסיכומטריקה בעולם האמיתי & מדידת מציאות מורכבת
 
 


שלושה דברים על יוסי:
  1. בעשרים השנים האחרונות מנכ"ל טופ שיא, חברה שהקים עם נתן ברקוביץ ז"ל לפני 27 שנים. טופ שיא מתמחה במיון ואבחון של מועמדים לעבודה, בדגש על פיתוח מבחנים ומערכות ממוחשבות בבית הלקוח, חברה משפחתית שחלק מהעובדים בה עובדים מיום הקמתה. יוסי התחיל את דרכו המקצועית בתור ראש מדור מיון צוות אוויר בח"א במשך 12 שנים, שם נצבר הניסיון והידע המקצועי המשמעותי שלו בתחום.
  2. ליוסי יש תואר שני בפסיכולוגיה מחקרית ותעסוקתית והתמחות בפסיכולוגיה תעסוקתית.
  3. בשעות הפנאי הוא עוסק בצילום ובעריכה של סרטי וידיאו.
 
אז יוסי, כשאתה אומר מבחנים רב מימדיים, למה אתה מתכוון?

בואי נתחיל עם ההגדרה הקלאסית של מבחן פסיכולוגי – מדידה סטנדרטית ואחידה של מדגם התנהגות. ארצה להתמקד בצמד המילים, "מדגם התנהגות". אנחנו כפסיכולוגים מנסים לדגום מימדים שונים, כישורים ספציפיים כמו יכולת כמותית, מרחבית, מילולית וכו' וכשבונים מבחן משתדלים לדגום פריטים באופן הומוגני כשהמטרה היא לבנות מבחן מהימן יותר ובהתאם גם תקף יותר.

כאשר מדברים על מדגם התנהגות, ההתנהגות היא לעיתים בסביבה שבה יש מספר גדול של גירויים והאדם נדרש לבצע בה פעולות מורכבות (הדורשות ממנו לבטא מספר כישורים), חלק גדול מהן בו זמנית.


זה נראה לי זמן טוב לדוגמא.

למשל טייסת, מטיסה מטוס. מה היא בעצם עושה כשהיא טסה? קוראת את לוח השעונים, צריכה להיות בקשר עם הנווט, עם מגדל הפיקוח ואולי עם טייסים אחרים,  צריכה להפעיל את המערכות השונות במטוס, לקלוט מידע רב לעבד אותו מהר ולפעול על פיו, לקלוט את המרחב ועוד. ברור שההתמודדות מחייבת ניצול  מספר רב של כישורים שצריכים לבוא לידי ביטוי וכולם ביחד.

בעבודתי בחיל האוויר, פיתחנו מערכת ממוחשבת שכללה 10 מבחנים ממוחשבים, כל מבחן בדק כושר ספציפי רלוונטי לטיס. במקביל פיתחנו גם מבחן סימולציה של טיסה. במבחנים הספציפיים ידענו מה כל מבחן בודק. למשל, מהירות תגובה, עירנות, ריכוז, קואורדינציה, תפיסה מרחבית ועוד. במחקר התוקף, אחרי כמה שנים, בדקנו את המתאם של כל מבחן עם מדדי ההצלחה בטיסה. לחלק מהמבחנים הספציפיים היה תוקף ניבוי מסוים  גבוה יותר או פחות, אבל, מבחן הסימולציה זכה לתוקף הגבוה ביותר. גם שקלול של כל עשרת המבחנים בנוסחת רגרסיה לא הגיע לתוקף שלו. במבחן הסימולציה לא ידענו ספציפית איזה כישורים  אנו בודקים, ולמרות זאת, כאמור, אותו מבחן,  סיפק את התוקף הגבוה ביותר.

יש מבחנים שאנו ואחרים משתמשים בהם, מבחנים שלמעשה דורשים מספר כישורים. למשל מבחן הבנת הוראות. מבחן שנפוץ בתהליכי מיון רבים כחלק מבטריית מבחני הכישורים. המבחן דוגם  מספר יכולות מנטליות כמו קריאה, חישוב, ניתוח, ביצוע וכד'. זה מבחן מאד לא הומוגני והמהימנות (אלפא קרונבאך) שלו אינה מרשימה במיוחד אבל תוקף הניבוי (במחקרי התוקף שאנו עורכים) מול תהליכים המחייבים למידה עיונית גבוה יותר, באופן עקבי, מכל מבחן בודד אחר. (כך למשל במחקר תוקף אחד הוא נמצא כבעל תוקף של 0.37 לעומת תוקף ממוצע של 0.23  – או טווח – 0.17-0.26 של מבחני כישורים אחרים).


היום בעידן שנותן הרבה יותר דגש על חוויית מועמד מעניין אותי לדעת כיצד נבחנים מתייחסים למבחנים כאלה?

לרוב המבחנים הרב מימדיים, זוכים לתוקף נראה גבוה, כלומר בעיני הנבחנים נראים המבחנים האלה יותר רלבנטיים ומתאימים לבחינת כישוריהם לתפקידים השונים.

נבחן שמגיע להבחן לתפקיד מצפה שיבחנו אותו בכלי מיון  שנראים רלבנטיים לעבודה, אם את מעבירה מבחן שהנבחן מרגיש שאינו רלבנטי הוא חש חוסר נוחות. בחינה במבחן הבודק כושר ספציפי יכול, לעיתים, להקשות על הנבחן לראות את הקשר לעבודה, ככל שהמבחן רלבנטי ואינטגרטיבי יותר כך הוא מדמה יותר את סביבת העבודה שהוא מכיר או מדמיין.

בתהליכי מיון לקידום בארגון זה בולט אף יותר, מדגמי עבודה ותרגילי מצב זוכים לתוקף נראה גבוה יותר (וגם לתוקף ניבוי) ביחס למבחנים לבחינת כישורים ספציפיים.


האם יש משהו מתחום מדעי המוח שיכול לשפוך קצת אור על הנושא --  תוקף גבוה של מדגם התנהגות הטרוגני?

כידוע, יש לנו במוח שתי המיספרות, ימנית ושמאלית כשכל אחת אחראית על כישורים אחרים. הימנית על תפיסה מרחבית, חזותית, יצירתיות, תקשורת בלתי מילולית לעומת השמאלית שקשורה לתפקודי קריאה, כתיבה, פעולות שדורשות דיוק והקפדה על פרטים. בפסיכולוגיה אנחנו מנסים לבדוק כישורים ספציפיים (לדוגמא, תפיסה מרחבית המשויכת להמיספרה הימנית, או ריכוז ודיוק המשויכים להמיספרה השמאלית וכד') אך הסביבה היא מורכבת מיכולות המשויכות לשתי ההמיספרות ובמציאות המורכבת יש גם צורך לעבור תוך כדי תפקוד בין ההמיספרות.

יש מבחנים שבודקים חלוקת קשב בהם נותנים לנבחן לבטא תפקוד של שתי ההמיספרות, במבחנים אלו חשובה לא רק בחינה של המימדים הייחודיים לכל המיספרה אלא גם היכולת לעבור מהמיספרה אחת לשניה. היכולת הזו כשלעצמה היא אלמנט שמשפיע על הביצוע. יש אנשים שלא מסוגלים לבצע את שתי הפעולות יחד. מבחני חלוקת קשב, שהם עוד סוג של מבחנים רב מימדיים, מודדים את היכולת הזו.   

לדוגמא, מבחן המחייב ביצוע של שתי מטלות בו זמנית, אחת שדורשת תפיסה מרחבית והשניה דורשת תרגיל חשבוני או מילולי. להמחשה, מבחן שבו מוצגים שעונים ובהם נעים מחוגים, על הנבחן להקיש על מספר השעון  בו מחוג מגיע לנקודת מטרה.


זו מטלה אחת. המטלה השניה שהוא צריך לבצע היא בדיקת נכונות התוצאה של תרגילי חשבון, המוצגים ברצף אחד אחרי השני. מטלה דינמית שמצריכה את תפקוד שתי ההמיספרות כולל מעבר בינהן.

כשאנחנו מבצעים מטלה בעבודה או בתפקיד מסויים ברוב המקרים אנו צריכה להביא לידי ביטוי כישורים שנדרשים משתי ההמיספרות. בבנית כלי מיון מורכבים הדורשים מספר כישורים, אנחנו לא תמיד יודעים בדיוק מה אנחנו מודדים אבל אנחנו מדמים את הסביבה ולכן מגיעים לתוקף גבוה יותר.


האם זה אומר להפרד מהמבחנים הספציפיים?

ממש לא. המבחנים הספציפיים ממשיכים להיות נחוצים. . ראשית, כי לא ניתן לבנות מטלה סימולטיבית לכל סוג של תפקיד, בוודאי לא מטלה שתמצה את כלל הדרישות מהעובד בתפקיד היעד. שנית, במקרים רבים נדרש לקבל פרופיל תיאורי מורחב של המועמד,  במה הוא טוב יותר ובמה פחות. אנו נדרשים לא פעם לראייה רחבה של פוטנציאל, התאמה למגוון תפקידים, אולי גם עתידיים. . גם בייעוץ ובהכוון תעסוקתי כאשר לא בוחנים למול תפקיד או סביבת עבודה ספציפית יש צורך להציג פרופיל כישורים.

לצד זאת, יש תפקידים בהם מורכבות הסביבה מאוד משמעותית וחשובה ואם אני רוצה לנבא בדיוק גבוה, חשוב לשלב גם מבחנים רב מימדיים.  


אפשר לתאר רצף של מבחנים, מספציפיים ועד רבי מימדים?

אפשר לתאר רצף כזה שמתכתב גם עם נאמנות למקור (המידה בה המבחן מדמה את סביבת העבודה התפקידית אליה מיועד הנבחן). אני אדרג שש שיטות לבחינת מועמדים לעבודה על פני הרצף הזה, מהכי פחות נאמן למקור, והכי ספציפי ועד הכי מורכב ונאמן למקור:
  1. מבחני כישורים ספציפיים.
  2. מבחני כישורים רב מימדיים (הבנת הוראות, חלוקת קשב).
  3. מבחן מצב שמדמה סביבת עבודה.
  4. סימולטור.
  5. מדגם עבודה.
  6. תקופת ניסיון.

מה עושים עם הפער בין מהימנות לתוקף?

הכלל המוכר לנו הוא שמהימנות היא חסם לתוקף. העובדה שבבחינות פסיכומטריות של מועמדי אמת, המהימנות היא לרוב אלפא קרונבאך, היא הגורם העיקרי והמבלבל לפער בין מהימנות ותוקף. שכן בחינה של תחום תוכן הטרוגני מצריכה בדיקות מהימנות אחרות. כאן חשוב לנסות ליישם בדיקות אחרות של מהימנות (למשל מבחן חוזר) במידת האפשר. אם לא (לרוב לא נביא מועמד להבחן פעמיים, ודאי לא בתקופת זמן קצרה ולמטרה דומה), אפשר לנסות לייצר חלופות או להסתפק בבדיקות דקדקניות של תוקף, שהוא הדבר העיקרי שנרצה להשיג. היעדרה של אלפא קרונבאך בשלבים בהם עדיין אין קריטריון, מקשה על הליך פיתוח המבחן – מה לכלול, מה לשפר, מה להוריד.


תודה רבה ורב מימדית יוסי! לסיום הייתי רוצה לשאול, איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל?

פסיכומטריקה היא גישה שמכוונת אותנו לעבוד בצורה מאוד יסודית, מדוייקת וספציפית. המבחנים מאוד מוכוונים לתפיסה הזו וגם המדידה המדעית נבנתה לאורה. לפרק ולא לתכלל.

במציאות המורכבת למדנו שהמכלול עשיר ומורכב יותר מהסכום הסטטיסטי והלינארי של חלקיו. מבחנים "נקיים" וחד-מימדיים הובילו אותנו עד הלום, אך נראה כי הגיעו לגבול יכולת הניבוי ולמחסום תוקף של 0.30-0.35.  אנחנו שם כבר שנים רבות, ללא חידושים  או פריצות דרך. אני מאמין שהגיע הזמן לנסות לדגום את המורכבות ולא לחשוש מפניה. להעז לפרוץ מעבר למגבלות המסורתיות, להשקיע בפיתוח  מבחנים יותר סימולטיביים, יותר רב-מימדיים ולנסות להתקדם משם. עם מעט יצירתיות וחוש הרפתקני, יתכן שזה יקח אותנו צעד אחד קדימה.


 
 
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. Liat.basis@maoz-il-org



 
לעמוד הפוסט תאריך: 18/04/2017 15:59:00 תגובות:
תגובות

באנו חושך לגרש!

 

בלוגומטרי 8- דצמבר 2016
 

באנו חושך לגרש!
 

הטיפים של מתן זילכה, מנהל פרוייקט טיוב, ניתוח, עיבוד ודיווח מבחני הישגים עבור ראמ"ה במרכז הארצי לבחינות ולהערכה [מאל"ו]:
טיפ 1 - F4 – חוזר על פעולת העיצוב האחרונה שנעשתה בגיליון (כולל עיצוב מספר); מאד נוח כאשר מבקשים לחזור מספר פעמים על אותה פעולה.
טיפ 2 - כאשר רוצים להשוות ערכים של שני טורים, נוח להשתמש בפונקציית N; לאחר דאבל קליק שגורר את הנוסחה, ניתן לבדוק ש- Sum=Count (מופיע אוטומטית בתחתית המסך) וכך לדעת שהטורים זהים. אפשרי רק אם אין ערכי שגיאות בטורים.

הטיפים של תסניים מסרי, סטטיסטיקאית ביחידה להערכת תכניות במטח [המרכז לטכנולוגיה חינוכית]:
טיפ 3 - כאשר עובדים על מספר קבצים בו זמנית, לחיצה בו זמנית על  Ctrl ו-Tab הופכת את המעבר בין הקבצים לקל ונוח יותר.
טיפ 4 - על מנת להימנע ממצבים של הקלדת נתונים לא מתאימים לקובץ, ניתן להגביל את ערך הקלט בדרך הזו:  נתונים>>אימות נתונים, בחלון שנפתח מגדירים את סוג הנתונים והערכים המתאימים, ואז בכל פעם שמזינים ערך לא מתאים מקבלים הודעת שגיאה.
טיפ 5 - אם מקלידים מספרים שמתחילים באפס ולא רוצים שהאפס יעלם, מוסיפים גרש עליון אחד לפני הספרה אפס.

הטיפ של יעל נווה מאיר, עוזרת מחקר בבסיס להערכה:
טיפ 6 - כדי להגיע במהירות לסוף / תחילת הטור או השורה - נשתמש בCtrl + החץ המתאים.

הטיפ של בנצי כהן, רכז מחקר ופיתוח בארגון מעוז:
טיפ 7 - כדי ליצור תרשים פיזור להצגת אינטראקציה: לאחר שממיינים את הנתונים לפי המשתנה הממתן, יוצרים תרשים פיזור המציג את הקשר בין שני משתנים (המנבא והמנובא) רק בקרב קבוצה אחת של המשתנה הממתן, ע"י בחירת טווחי התאים המתאימים. לאחר מכן, דרך "כלי תרשימים->עיצוב" בוחרים "בחר נתונים->הוסף", ומוסיפים את טווחי שני המשתנים בקרב הקבוצה השנייה של המשתנה הממתן. לאחר מכן ניתן להוסיף קו מגמה נפרד לכל קבוצה. לכל קבוצה של המשתנה הממתן, בוחרים את סידרת הנקודות המייצגת אותה בתרשים ומוסיפים קו מגמה (ע"י "כלי תרשימים-> עיצוב->הוסף רכיב תרשים->קו מגמה").

הטיפ של שחר לב-כהן, דוקטורנט לפסיכולוגיה באוניברסיטת בר אילן:
טיפ 8 - למי שבכל זאת מתעקש לבצע ניתוחים מורכבים באקסל... רבים לא יודעים אבל האקסל מאפשר ביצוע של ניתוחים סטטיסטיים מורכבים יחסית, כמו רגרסיה וניתוח שונות. אפשר גם ליצור היסטוגרמה והיא אפילו הרבה יותר יפה ממה שמתקבל ב - SPSS כדי לעשות את זה כל מה שצריך לעשות זה להתקין באקסל תוסף ייעודי. הוראות מאוד פשוטות כיצד להתקין את התוסף אפשר למצוא כאן:
https://support.office.com/en-us/article/Load-the-Analysis-ToolPak-6a63e598-cd6d-42e3-9317-6b40ba1a66b4
לאחר ההתקנה, פשוט ניגשים באקסל ללשונית DATA ובוחרים ב- Data analysis מימין.
 

 
תודה לכל המאירים!
עד כאן פסיכומטריקאים יקרים ~ חג שמח ומלא אור!
 
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. Liat.basis@maoz-il-org
 
לעמוד הפוסט תאריך: 27/12/2016 22:55:00 תגובות:
תגובות

מדידה והערכה בשירות הפיתוח של תוכן לימודי


בלוגומטרי 7- דצמבר 2016
אורחת: ד"ר טלי פרוינד
מנחה: ד"ר ליאת בסיס
 

מדידה והערכה בשירות הפיתוח של תוכן לימודי
 
 


שלושה דברים על טלי:
  1. בעלת תואר שלישי בפסיכולוגיה חברתית מאוניברסיטת תל אביב.
  2. ממקימי כפר הנוער "קדמה" לנערים ונערות בסיכון, שימשה חוקרת בכירה באגף הערכה ומדידה במשרד החינוך, הייתה חברת סגל בבי"ס מנדל למנהיגות חינוכית, הקימה וניהלה את יחידת התכנון, הבקרה וההערכה במינהל החינוך התרבות והספורט בעיריית תל אביב-יפו, בשנת 2004 הצטרפה למטח והקימה את מינהלת מדידה והערכה.
  3. מבחינתה, פתיחות, גמישות וחמלה הם חלק ממקצוענות בתחום ההערכה – ואצלה הם התפתחו הודות למעברים בין ארגונים, עולמות תוכן, מגזרי אוכלוסייה ונקודות המבט השונות שזימנו מגוון תפקידיה.

אז טלי תגידי, מה זה פיתוח תוכן?

להסביר על פיתוח תוכן זה כמעט כמו להסביר מה עושה מטח. מראשית דרכו (1970) מטח הוקם כדי לענות על צורך של מערכת החינוך – לעבות ולטייב את מדף ספרי הלימוד. התוכן לא נעצר בספרים, והיום הוא מתייחס גם למאגרי פעילויות אינטראקטיביים, קורסים וירטואליים, מסגרות מקוונות לפיתוח סגלי הוראה, וגם כלי מדידה והערכה, לרבות כלים מתוקשבים.

במטח של היום, בכל סוגי התכנים משולבות טכנולוגיות שמקדמות עדכניות, אותנטיות, רלוונטיות, עניין, הנגשה, ידידותיות, יעילות וחסכון.

מינהלת מדידה והערכה מעניקה שירותים הן ללקוחות חיצוניים והן ללקוחות פנימיים, אך כאן אדגים את החיבור של הערכה ותוכן באמצעות השירותים הפנימיים, שמעניקה המינהלת למפתחי תוכן במטח.


נשמע שאת עומדת לא רק להדגים אלא שחשוב לך להדגיש שאת עצמך כאשת הערכה שינית פרדיגמה...

בתפקידים שמילאתי בעבר בתחום המדידה וההערכה, הייתה לי אוריינטציה של חוקרת אקדמית שממוקדת בפיתוח כלי מדידה והערכה מצוינים, ניתוח נתונים מדויק ודיווח בסטנדרטים מדעיים. באותן תקופות זה היה בסדר גמור, ואז לא זיהיתי שום חוסר. בעבודתי במטח הבנתי בדיעבד שפספסתי, שבעצם לא ממש ידעתי מה עושים עם מה שחקרתי ומצאתי, שלא באמת הבנתי את החיבור לשדה ושלא היה לי מושג מה יכולתי לעשות אחרת כדי לתרום ולהשפיע.

התובנה הכי עמוקה שלי, מרגע שהצטרפתי למטח וקיבלתי על עצמי להוביל את תחום המדידה וההערכה, שבגוף העוסק בפיתוח תוכן – מומחיות במדידה והערכה אינה יכולה לעמוד בפני עצמה, הערך והתרומה שלה אחוזים בידע הדיסציפלינארי שלעולם יהיה מופקד בידיים של מומחי התוכן, ושלמעשה ללא חיבור מאוד אמיץ אליהם, ברמת היום-יום, אין סיכוי שאנחנו, אנשי המדידה וההערכה, נוכל להביא תועלת לפיתוח התוכן בתוך הבית. שינוי התפיסה התרחש אצלי כשהבנתי שרק דיאלוג אמיתי, אינטנסיבי ואינטימי בין אנשי המדידה וההערכה לבין מומחי התוכן מייצר ערך אמיתי למדידה ולהערכה. ובאמת, אנשי המדידה וההערכה שלובים במומחי התוכן במטח, ופתאום 1+1 זה יותר מ=2.


אולי כדאי שהקוראים יכירו קצת את מבנה מטח והחלק של מינהלת מדידה והערכה בתוכו?

בעבר, אנשי המדידה וההערכה היו כפופים ליחידות תוכן שונות במטח שלהן הם נתנו שירות. כשהצטרפתי למטח, חשבתי שהיכולת צריכה להיות כפופה למנכ"לית הארגון, כיכולת ליבה רביעית על השלוש – פיתוח תוכן, פיתוח סגלי הוראה ושילוב טכנולוגיה בפדגוגיה. יכולת עצמאית המשוחררת מכפיפות לבעלי העניין בתחומי התוכן ושמונה כיום 100 עובדים קבועים מתוך 500 עובדי מטח ועוד מאות פרילנסרים. מינהלת מדידה והערכה נותנת שירותים בתוך ומחוץ לארגון ומתמקדת בשני שירותים עיקריים:

  1. פיתוח כלים למדידת הישגים ויכולות – מבחנים למשרד החינוך: מבחני בגרות, לרבות מתוקשבים, מבחני ראמ"ה (מיצ"ב, מבדקי הערכה מעצבת, תרגום והתאמה תרבותית של מבחנים בינלאומיים, תרגום והתאמה תרבותית של מבחן אינטליגנציה, הערכת תפקוד של תלמידי החינוך המיוחד), מבחנים בשפות למועמדי הוראה במגזר דוברי ערבית, ומבחנים למשרד הכלכלה (לנוער ולמבוגרים).
  2. הערכת תכניות בתחום החברתי-חינוכי – שירותי הערכה לקרנות, גופי חינוך, משרדי ממשלה, רשויות מקומיות וארגוני מגזר שלישי. הדגש הוא במחקרים רחבי היקף, רב שנתיים שמאפשרים למצות תהליכי הערכה משמעותיים עם איסוף נתונים ממגוון מקורות מידע ולאורך זמן שמזמנים שותפות בתהליכי תכנון אסטרטגי.

איך נראית האינטראקציה בין מדידה והערכה לתוכן?

אני אדגים זאת באמצעות שתי דוגמאות.
הדוגמא הראשונה היא שותפות בפיתוח סביבה אדפטיבית ללמידה והוראה, פרויקט של שנים שהחל לאחרונה.

על בסיס האמונה החינוכית שליוותה את מטח מיום הקמתו, שמצדדת בלמידה המותאמת לצורכי היחיד (ובשפה עכשווית – למידה אדפטיבית), מטח פיתח בשנותיו הראשונות את סביבת תוא"ם (תרגול ואבחון באמצעות מחשב) שנשענה על ההבנה שכל ילד לומד בקצב שונה, ויש להתאים את היקף התרגול לקצב שלו, עד שישיג את רמת השליטה הנדרשת. הפילוסופיה הביהביוריסטית עומדת גם בבסיס ספר הלימוד המסורתי, עם המבנה הליניארי, המניח שהתלמיד עובר נושא רק אחרי שרכש ידע או מיומנות קודמים. הגישות העכשוויות גמישות ופתוחות יותר לאפשרות שיש ילדים שיכולים ללמוד על-פי סדר נושאים אחר, ללמוד כמה נושאים בו זמנית, או אולי לדלג על נושאים שבהם הם שולטים. באמצעות טכניקות חדשניות של ביג דטה, אפשר לאפיין מספר רב ואולי אין סופי של רצפי למידה ומתוכם לבחור את רצף הלמידה האופטימלי ואת חומרי הלימוד המתאימים עבור כל תלמיד על סמך פרופיל תִפקוד מדויק שאמור להיבנות הודות לכלי אבחון מתוחכמים. כלי אבחון אלה אמורים לנטר באופן אוטומטי את ביצועי התלמיד, ולא רק את הפשוטים (ענה נכון או לא נכון), אלא גם את המורכבים יותר. למשל, כאלה שיכולים להעיד על תפיסות שגויות (miss conceptions), הבנת תהליכים, ואף אוריינות שפה ועומק הבנה לשונית. את כל זה נועדה לבצע הסביבה החדשה שנמצאת בפיתוח.


מה תפקידם של אנשי המדידה וההערכה בפיתוח מערכת כזו?

אנשי המדידה מסייעים באפיון המערכת הטכנולוגית – הם תוחמים ומגדירים איזה נתונים ייאספו ולאיזו מטרה, ועוזרים להנגיש את הנתונים הנאספים למורים ולצוותי פיתוח התוכן. למורים – באמצעות כלי דיווח על מצבו של כל תלמיד, כבסיס להתאמת רצף הלמידה המתאים לו. לצוותי פיתוח התוכן – באמצעות הנגשת נתונים המספקים אינדיקציה לגבי פריטי תוכן שמתבררים כלא מוצלחים מבחינה פסיכומטרית (למשל, כאלה שלא מבחינים בין תלמידים ברמות שונות), או לגבי "חורים" בכיסוי הולם של נושא המצריכים פיתוח נוסף. נתונים אלה משרתים את צוותי התוכן שמכוונים לשיפור המערכת ותכולתה.

מעבר לשיפורים האלה, המתבצעים באופן שוטף, אנשי ההערכה אמונים גם על בחינת האפקטיביות של הסביבה: האם היא מביאה תועלת? תוצאות הערכה זו ישפיעו על ההחלטה של מנהלים ומורים האם לרכוש את הסביבה עבור בתי-הספר שלהם. הן יתרמו גם לעיצוב הכשרת המורים לשילוב הסביבה בשגרת ההוראה והלמידה ולהגדיר מחדש את תפקידו של המורה בעולם המשתנה שבו הטכנולוגיה חוסכת ממנו פעולות שבעבר גזלו ממנו זמן רב, כמו בדיקת שיעורי-בית ומבחנים, ומאפשרת לו להתמקד בעשייה שרק מורה/מנחה אנושי יכול לעשותה – עריכת דיונים, הנחיית תהליכי חקר, עיסוק בהיבטים חברתיים.

אנשי המדידה וההערכה מלווים את המערכת משלב האפיון ועד ההטמעה הרחבה. אנשי התוכן לא יכולים להתקדם ללא תרומתם של אנשי המדידה וההערכה, ולהפך – אינטראקציה הדוקה ביותר.
הפיתוח של הסביבה החדשנית הזו נעשה בהשתתפות מימונית של קרן יד הנדיב.


נשמע מדהים!! אני כבר סקרנית לשמוע על הדוגמא השנייה.

הדוגמא השנייה היא התיכון הווירטואלי. בתיכון זה מלמדים באופן שכולו מקוון מקצועות מדעיים מוגברים ברמה של חמש יחידות לימוד לבגרות – מתמטיקה ופיזיקה. הוא מיועד לתלמידים שלומדים בבתי-ספר בהם אין די תלמידים לצורך פתיחת כיתה מוגברת או שלא נמצא באזורם מורה מתאים. המאפיינים הייחודיים של מסגרת למידה זו מפגישים באותה כיתה וירטואלית תלמידים יהודים, ערבים, חרדים וחילונים – שילובים שלא מתאפשרים בחיי היומיום. התיכון הוקם בשותפות של מטח, קרן טראמפ ומשרד החינוך.

איך זה עובד? בשעה מסוימת, כל תלמיד הולך לחדר המחשבים בתיכון שלו, שם אזניות ומצטרף לשיעור סינכרוני עם מורה למתמטיקה או פיזיקה מהשורה הראשונה בישראל. תוך כדי הוא שומע את המורה או את חבריו לכיתה, הוא רואה מצגות מונחות, סרטונים, סימולציות ומעבדות אינטראקטיביות, הוא מצביע ושואל או עונה, הוא כותב על הלוח המשותף ונשלח להכין שיעורי-בית – כיתה לכל דבר, אלא שכולה מקוונת. כל השיעורים מוקלטים, והתלמידים יכולים לחזור להקלטות אם נעדרו מהשיעור או לא הבינו חלק ממנו. לכל 3-2 תלמידים יש חונך בשעות אחה"צ, סטודנט למקצועות הריאליים שעובר הכשרה מיוחדת לתמיכה ברשת. החונכים מסייעים לתלמידים להתמודד עם קשיים ומעמיקים היכן שצריך.


מהפכה! ואיפה תפקידה של המדידה?

המערכת מנטרת את התנהגויות הלמידה, החל מנוכחות בשיעורים ובתרגולים, הגשת שיעורי-בית, ביצוע בחינות, משך השהייה, מרווחים בין הכניסות, שימוש במשאבי למידה מתוקשבים. נתונים אלה מצטרפים לנתונים נוספים שנאספים לצורך הערכה ייעודית של אפקטיביות התכנית החדשנית הזאת: נתונים על הישגי הלומדים במהלך לימודיהם ובסיום כיתה י"ב (ציוני הבגרות) והשוואתם לנתונים הארציים, וכן נתונים על מוטיבציה ללמידה, תחושת מסוגלות, עמדות כלפי החונך והמורה – הנאספים באמצעות סקרים מקוונים. כל המדדים מרוכזים לכמה מדדי על, מוצגים למובילי התיכון ומשמשים לשיפור התוכן הלימודי והכלים הטכנולוגיים.
בתיכון הווירטואלי לומדים כיום למעלה מ-1,000 תלמידים והוא פועל כבר חמש שנים.


ספרי קצת על אתגרים ודילמות בעבודה המשותפת של אנשי התוכן ואנשי המדידה וההערכה?

הליווי של אנשי המדידה וההערכה מציף כמה אתגרים, לא כולם מפוצחים. יש הרבה דילמות.
אתגר אחד הוא הכובע הכפול של ההערכה – מצד אחד הרצון לסייע למובילי התכניות לבחון את כדאיות ההשקעה בתכנית מסוימת על פני יוזמות אחרות. למשל, האם התיכון הווירטואלי תורם להגדלת שיעור המגיעים ללימודים מוגברים ומצליחים בהם יותר מתכניות אחרות? לצד זה תפקיד אנשי ההערכה לתת למובילי התכניות ליווי צמוד כדי לשפר את מודל הפעולה. למשל, איזה ממשאבי ההוראה בתיכון הווירטואלי הכי מנוצל? איזה הכי תורם? לפעמים הכובע הכפול הזה מזמן סתירות פנימיות שיש ליישב ביניהן.

אתגר נוסף במינוף העובדה שצוות ההערכה וצוות המיזם חיים יחד תחת קורת גג אחת – האם נוצרות הזדמנויות חדשות שהן שונות מהקשר המסורתי שבין איש פיתוח ואיש מדידה. למשל האירוע של "מסירת תוצרים", בעבר כשעבדתי במשרד החינוך או בעיריית תל אביב-יפו, היה אקט ברור ומובחן של מסירת התוצר, לרוב אירוע חגיגי שהוזמנו אליו הרבה אנשים, מסקרן, מפחיד קצת. מומחי המדידה היו מגיעים ומציגים את הממצאים, עונים על שאלות והולכים. בתהליך פנימי מתמשך, אין מסירת תוצרים אחת, זה קורה כל הזמן בתהליך דינמי שנבנה יחד, שמאופיין באינטימיות רבה. כך, לפעמים לאיש התוכן יש הערות מתודולוגיות ופסיכומטריות טובות, ולפעמים לאיש המדידה, גם אם אינו מגיע מתחום המדעים, יש הערות תוכן מצוינות. אין פה אקט מסירה, ודאי לא אחד. חלק מהדינמיקה קורית במסדרונות, בפינות הקפה, בתכתובות במייל. ערעור הסמכות המקצועית? טשטוש הגבולות? אפשר להסתכל על הדברים בצורה ביקורתית, אך אפשר גם לראות את ההזדמנות לטייב את ההערכה ואת תוצריה.

אתגר נוסף הוא בהתמקמות צוות ההערכה כך שהוא ייתפס כגורם מסייע ולא מחבל ביכולת של המיזם להתפתח ולהצליח. בהקשר זה עולות שאלות כמו: עם איזה נתונים יוצאים החוצה? רק עם הצלחות (חצי הכוס המלאה)? או גם עם קשיים שהצפתם עלולה לאיים על המשך קיומו של המיזם? הדילמה הזאת מתקשרת עם הרצון לשמור על התוקף הנראה של מחקר ההערכה למול גורמים חיצוניים שלא פעם מתריסים: איך ייתכן שאתם מודדים את עצמכם? האם אפשר לסמוך על הממצאים שאתם מציגים ולהיות בטוחים שאינם מוטים? לא עדיף לקחת גוף הערכה חיצוני שאינו בעל עניין בהצלחת המיזם? על החבל הדק שמקשר בין הרצון לתמוך ולסייע למובילי המיזם לבין המחויבות לשמור על היושרה המקצועית – מהלך צוות המדידה וההערכה. מאתגר, מורכב, לא טריוויאלי בכלל.
 

נשמע כמו נושאים לבלוגומטריים רבים נוספים!!   
לסיום הייתי רוצה לשאול, איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל?

ממליצה לכולנו לגוון את נקודות המבט, דרך התנסויות במגוון ארגונים, כדי להפוך את ההסתכלות על המחקר ליותר עשיר ורב מימדי, ופחות טכני. אל תוותרו על הדיוק במדידה או בדיווח, אבל הפנו מבט מתעניין בהקשר ובאנשים שאמורים לעשות שימוש ולהפיק תועלת ממה שאנחנו עושים. המבט הזה יתרום ליותר פתיחות, גמישות וחמלה, שיעצימו את הרווח של כולנו.  

 

הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. Liat.basis@maoz-il-org
 
לעמוד הפוסט תאריך: 08/12/2016 03:19:00 תגובות:
תגובות

פסיכומטריקאי מחפש משמעות


בלוגומטרי 6 - מאי 2016
אורח: פרופ' אייל גמליאל
מנחה: ד"ר ליאת בסיס



פסיכומטריקאי מחפש משמעות

 
 
 
 

שלושה דברים על אייל:
  1. פרופסור חבר במרכז האקדמי רופין; כיהן כראש המחלקה למדעי ההתנהגות במשך שש שנים; מכהן כיום כיו"ר השישי של אפי.
  2. יש לו שלושה תארים בפסיכולוגיה מהאוניברסיטה העברית בירושלים.
  3. חובב ברידג'; למרות גילו המתקדם הוא בין השחקנים הצעירים במועדונים.
 

אייל, על מה אנחנו מדברים?
אחד מתחומי ההוראה והמחקר שלי נוגע בחיפוש אחר משמעות למושגים סטטיסטיים ופסיכומטריים. יש בעיה עם המושגים והמודלים שאנחנו רגילים להשתמש בהם.

אז אתה אומר שהרצפה עקומה?
הרצפה מאוד עקומה ולפעמים כבר יותר ממאה שנה, וזאת מאחר והאסכולה הלא נכונה ניצחה. אנחנו מדברים על האסכולה המתמטית, שאחד מנציגיה המובהקים הוא סר רונלד פישר, שהצליחה לנצח את "האסכולה האינטואיטיבית", שאת מחיר כישלונה אנו משלמים עד היום.
המושגים והמודלים הם בחלקם מאוד לא אינטואיטיביים, אבל בגלל שאנחנו מחפשים להבין אינטואיטיבית דברים אנחנו טועים באופן שיטתי ולכן יש לנו טעויות בהבנה והטיות במשמעות שאנו מעניקים להם.
מה זה אומר שהמתמטית ניצחה? היא השתלטה על השיח של המושגים ושל המודלים. למשל כולם מודדים פיזור של משתנים באמצעות סטיית תקן, במקום למדוד באמצעות מדד אינטואיטיבי יותר של ממוצע סטיות מוחלטות (Mean absolute deviation).

רגע רגע, זה לא נשמע לי אינטואיטיבי. תסביר
אולי הוא לא נשמע אינטואיטיבי אבל זה הפירוש שאנשים יתנו למה היא סטיית תקן. אז אני שואל אותך, מה זה אומר שממוצע של ציונים במבחן הוא 80 וסטיית התקן היא 10.

התבלבלת, אני שואלת פה את השאלות מה רוב האנשים יענו?
רוב האנשים יגידו שיש ריכוז תצפיות סביב ציון 80, וזה נכון. אבל מה זה סטיית תקן 10? במה זה שונה מסטיית תקן 20 או סטיית תקן 2? אנשים יודעים שסטיית תקן 10 היא קטנה מסטיית תקן 20. מה יגיד הפסיכומטריקאי? הוא יחזור לנוסחה ויציין אותה: שורש של ממוצע הסטיות הריבועיות מהממוצע. זה סינית עתיקה. אף אחד לא מבין מה זה אומר. ואם נדחק בפסיכומטריקאים ונבקש הסבר אינטואיטיבי יותר הם עשויים לטעון שאם נמדוד את כל המרחקים של הציונים מהממוצע 80, המרחק (המוחלט) הממוצע שיתקבל הוא 10. זה יופי של הסבר אינטואיטיבי, רק שהוא שגוי, מוטה ומטעה. סטיית התקן 10 מבטאת למעשה סטייה מוחלטת ממוצעת של 7 עד 8 נקודות. הפשר האינטואיטיבי שצוין לעיל מבטא למעשה את מדד הפיזור האינטואיטיבי של ממוצע הסטיות המוחלטות, מדד ש"הפסיד" בדו קרב עם סטיית התקן לפני כ 100 שנה.

אולי בגלל שהיה לו את השם היותר קצר, כלומר אנחנו מדברים על מיתוג?
הסיבה היא שפישר ואנשי האסכולה שלו טענו שסטיית התקן כסטטיסטי אומדת בצורה טובה יותר את הפרמטר של סטיית תקן באוכלוסייה. בגלל שיקולים של אמידה, בחרו במדד מוזר של שורש של ממוצע סטיות ריבועיות מהממוצע, מדד שמאתגר מאוד את ההבנה האינטואיטיבית שלנו. היום יש יותר ויותר טענות שהיתרון של סטיית התקן לעומת ממוצע הסטיות המוחלטות באמידה של פרמטרים הוא נכון רק תחת הנחות לא מציאותיות, ובהתפלגויות אמפיריות שכיחות אין לסטיית התקן שום יתרון. כך, נותרנו עם מדד פיזור לא אינטואיטיבי, שכנראה ניצח שלא בצדק את המדד האינטואיטיבי, שהוא למעשה הפירוש (השגוי והמוטה) שאנו ניתן לסטיית התקן אם נתבקש להסביר אותה לעצמנו או לאחרים. מבולבלים? גם אנחנו...

בוא נדבר על פירסון.
לגבי מתאם פירסון, נקבע טווח שרירותי בין (1-) לבין (1) ובדרך איבדו משמעויות אינטואיטיביות. אנשים עלולים לחשוב שמתאם של 0.6 בין זוג משתנים מבטא קשר ליניארי כפול מזה שקיים בין משתנים שיש להם מתאם של 0.3. גם כשאת שומעת על ערך מסוים של מתאם, נניח, 0.5, את לא יודעת מה זה אומר. אם יש מתאם של 0.5 בין גובה למשקל באוכלוסייה מסוימת, ואני גבוה בסטיית תקן שלמה מהגובה הממוצע, מה יהיה המרחק שלי מממוצע המשקל באוכלוסייה? אם המתאם הוא מושלם (1), אזי כל התצפיות יושבות על קו ניבוי ישר, ואז הייתי גבוה בסטיית תקן בדיוק מהממוצע של המשקל באוכלוסייה. אבל המתאם בפועל אף פעם אינו 1, ואז המשמעות הולכת לאיבוד.

האם לא מספיק לדעת שזה גדול מזה?
כשמפרסמים מאמר לא מציינים מתאם "גבוה", "בינוני" או "נמוך", זה סובייקטיבי, ואנחנו הרי מדענים... מציינים מספר. זה כמו שרופא יסתכל על תוצאות של בדיקות ויגיד זה גבוה, בינוני, נמוך... הוא מבין מה זה 110, הוא מבין את המספר. לא להתייחס למספר זה להיות פרופסיונלי לכאורה; המומחה מפרש את התוצאות והוא צריך לדייק. מה זה אומר מתאם של 0.5? ברגע שאתה דוחק את האנשים לתת פרשנות הם נותנים פרשנות מוטה, בעיקר אנשי המקצוע שלכאורה מבינים את המשמעויות של ציוני תקן.
כאמור, אם המתאם הוא 1, כל התצפיות "יושבות" על קו הניבוי, והפער בין ציון התקן של כל אדם בשני המשתנים הוא 0. ואם המתאם הוא 0.5? מה יהיה הפער הממוצע בין ציוני התקן בשני המשתנים של כל האנשים בהתפלגות? התשובה האינטואיטיבית היא שהפער הממוצע יהיה של חצי סטיית תקן. ואם המתאם הוא 0.8, מה יהיה הפער הממוצע בין ציוני התקן בשני המשתנים של כל התצפיות? כנראה 0.2. אומדנים אלה מוטים כלפי מטה, כלומר הם מבטאים אופטימיות שגויה של מרבית האנשים שמבינים מהם ציוני תקן. בפועל, כשהמתאם הוא 0.5 הפער הממוצע בין שני ציוני תקן של כל אדם הוא 0.8, וכשהמתאם הוא 0.8 אז הפער הממוצע הוא של חצי סטיית תקן. כלומר אנחנו אופטימיים, אנחנו חושבים שהקשר אומר דברים יותר חזקים ממה שהוא אומר באמת. ממצא דומה נמצא גם כשמציגים לאנשים דיאגרמות פיזור ולא רק ערכים של מתאם פירסון.
זה תמיד מוטה כלפי מעלה, כלומר תופסים את הקשר כגבוה ממה שהוא. זה עשוי להטעות את מקבלי ההחלטות.

אז מה הדבר הנכון?                   
אפשר לחשוב על מקדם מתאם בסולם אחר, לא בין 1- ל 1, או לעבור ולדבר על מדד של חוסר קשר, למשל מדד של הפרש בין ציוני תקן. עבור מדד של הפרש (מוחלט) בין ציוני תקן, ל 0 יש משמעות: ציוני התקן של כל אחד זהים. זהו מדד לא שכיח. למשל אם ההפרש המוחלט הממוצע בין ציוני תקן בפסיכומטרי ובהצלחה בלימודים הוא 0.8, המשמעות היא שיש לכל אדם פער ממוצע של כמעט סטיית תקן שלמה בין שני ציוני התקן. לצורך הדוגמה נתייחס לכל מי שיש לו ציון תקן 0 בפסיכומטרי (כלומר בעלי הציון הממוצע). לאנשים אלה יהיו ציוני תקן בהצלחה בלימודים שיהיו רחוקים מ 0 ב 0.8. כלומר, יהיו אנשים עם ציוני תקן 1-, 0.6-, 0.6 ו 1 בשכיחות דומה. יהיו כמובן אנשים עם ציוני תקן קרובים יותר ל 0, אך עבור כל אדם כזה יהיה מישהו רחוק יותר מ 0 (למשל, עבור כל מי אדם  עם ציון תקן 0.4  או 0.4- יהיה מישהו עם ציון תקן 1.2 או 1.2-). אלה נשמעים פערים גדולים שמעידים על יכולת ניבוי נמוכה, ולמעשה אלה הערכים שמאפיינים את מקדם המתאם של פירסון עבור ערך של 0.5.
הפרש מוחלט של 0.8 יוערך כהפרש גדול יחסית, אם נציין כי ההפרש המוחלט הממוצע הגדול ביותר בין שני ציוני תקן הוא 2, והוא מתקבל עבור מקדם מתאם של 1-. ובשל קוצר היריעה לא אפרט את הבעייתיות שיש בגין חוסר הסימטריה של מתאמים חיוביים ושליליים מבחינת ממוצע ההפרשים המוחלטים בין ציוני תקן.
לכאורה יותר קל להבין מתאם מסטיית תקן אבל גם כאן ההבנה שגויה. אנחנו מבינים אולי עוצמה וכיוון, אבל לא את הערכים שמתקבלים...

יש עוד מושגים סטטיסטיים מתודולוגיים שאנשים מבינים לא נכון?
כן יש עוד כמה
אחד מהם, שפוגשים בכל כנס של אפי הוא R2.  כמעט כל הדוברים מכנים אותו פרופורציה של שונות מוסברת.
זה לא נכון ולא מדויק.
באף מקרה אנחנו לא מנבאים שונות. הצביע על כך כבר פרופ' לואי גוטמן המנוח ב 1977 במאמרו המפורסם What is not what in statistics. גוטמן טען שהמושג "פרופורציה של שונות מנובאת" הוא חסר פשר סטטיסטי, והוא משקף גחמות פסיכולוגיות של המשתמשים בו. גוטמן גם הצביע במאמר על חוסר הבנה של הרבה מאוד מושגים אחרים (יש הרואים במאמר זה אסופה של "משפטי פרמה", שאולי ייקח עוד זמן רב להבינם עד תום).
כל מה ש R2 אומר, הפרשנות הנכונה שלו, היא השונות בין הציונים המנובאים שהיינו מקבלים אם היינו מתקננים גם את המנבא וגם את הקריטריון. כלומר הופכים אותם לציוני תקן.
ההשערה שלי היא שלאורך הזמן אנשים אמרו את המושג הזה: "שונות בין ציוני תקן מנובאים" הרבה פעמים, אבל אין לזה פשר אינטואיטיבי, וברבות הימים זה הפך להיות "שונות מנובאת". אבל אנחנו לא מנבאים שונות, אנחנו מנבאים ציונים. היות ואנחנו מחפשים סיבתיות ונוהגים לכנות מושגים כסיבתיים גם כשזה לא מוצדק, כאילו להוסיף חטא על פשע, הפכנו את "השונות המנובאת" ל"שונות מוסברת", בעלת הקונוטציות הסיבתיות.
הבעיה היא שאנחנו מנבאים ציונים ולא מנבאים שונות, ומתאם לא יכול לספק לכשעצמו הסבר סיבתי. כל תלמיד מתחיל במדעי החברה יודע שמתאם לא מעיד בהכרח על סיבתיות, אבל כאשר מעלים את המתאם בריבוע, כמעשה קסם הגענו ל"פרופורציה של שונות מוסברת".

כולנו אומרים מיון אך זו ברירה, כולנו אומרים מרכז הערכה אך מתכוונים למבחני מצב קבוצתיים, אומרים סוציומטרי אך מתכוונים להערכת עמיתים... אז אולי לא נורא שהמושג חוטא למשמעות שלו והעיקר שכולנו מדברים באותה שפה? ויש לנו, כפי שיובל נח הררי כינה זאת, סדר מדומיין?
בדוגמאות שלך אנשים יודעים על מה הם מדברים אבל בדוגמאות שלי אנשים מדברים על משהו לא קיים וחושבים שהם מבינים על מה הם מדברים. אם נמשיך לחשוב שאנו מבינים על מה אנחנו מדברים לא ננסה להבין מה זה אומר באמת. בסדר מדומיין אנו יוצרים מיתוס משותף. בדוגמאות שהובאו כאן אנו נותנים משמעות מוטעית/מוטה. אם נחליף את המדדים המשמעויות יוכלו להיות נכונות.

יש דוגמאות בולטות נוספות של מדדים/מושגים שהמשמעות שלהם מוטעית/מוטה?
אציין שתי דוגמאות נוספות, הראשונה קטנה, והשנייה גדולה הרבה יותר. הדוגמה הקטנה היא בעייתיות שנגרמה בגלל השימוש בסטיית התקן. עצם הבחירה במדד מוזר שבודק סטיות ריבועיות, גרמה לבעיות שרשרת, שאחת מהן קשורה למדד הנפוץ של הפרש בין ממוצעי שתי קבוצות – ה d של ג'ייקוב כהן. פרופ' סורל קאהן ואנוכי כתבנו על הפער המובנה בין המונה של מדד זה (שמבטא הפרש מוחלט) לבין המכנה שלו (שמבטא הפרש ריבועי).
דוגמה גדולה הרבה יותר, כזו שמתקשרת לשמו של מיודענו מתחילת הבלוגומטרי – סר רונלד פישר, היא השימוש הנפוץ במאה השנים האחרונות במדעי החברה במבחני המובהקות הסטטיסטית. כפי שלמדתי ממוריי, וביניהם פרופ' סורל קאהן ופרופ' רומה פלק, השימוש במבחני המובהקות הסטטיסטית מבוסס על כשלים לא מעטים, ובראשם הכשל של ההסתברות ההפוכה: אם השערת האפס נכונה, הסיכוי לקבל את התוצאה הוא נמוך (תוצאה "מובהקת סטטיסטית", p < .05), אך בהינתן שקיבלנו את התוצאות הסיכוי שהשערת האפס נכונה יכול להיות גבוה הרבה יותר מ 5%... פרופ' לואי גוטמן במאמרו הסמינלי מ 1977 הצביע על כשלים בפירוש של תוצאות מובהקות סטטיסטיות, ובסימפוזיון בכנס אפי 2009 הסבירה לנו פרופ' רומה פלק מעט מהכשלים הלוגיים והבעייתיות שבשימוש במבחני המובהקות הסטטיסטית. כיום יותר ויותר אנשים מבינים את הכשלים בבסיס השימוש במבחני מובהקות ואת חוסר התוחלת המדעית שלהם. הבעיות מתחילות בעורכי כתבי עת שדורשים מבחני מובהקות סטטיסטית, ממשיכות במנחים של עבודות לתואר ראשון, שני ושלישי, ומסתיימות במרצים לסטטיסטיקה שנדרשים ללמד את תלמידי התואר הראשון והשני על מבחני המובהקות הסטטיסטית (אחרת איך הם יבינו את המאמרים המדעיים שהם קוראים). לאחר מאה שנה של תהיה ותעייה, נראה כי מדעי החברה לוקחים כיוון אחר, כאשר אחד הארגונים המקצועיים שמוביל שינוי זה הוא ה- (APS) Association for Psychological Science. הגדיל לעשות לאחרונה כתב העת Basic and Applied Social Psychology אשר עורר מהומה בקהילה המדעית לאחר שאסר על שימוש במבחני המובהקות הסטטיסטית במאמרים שמתפרסמים בו. למתעניינים בקריאה בעברית בנושא, ד"ר אבישי אנטונובסקי כתב על כך מאמר ב"מגמות" לפני כמעט עשרים שנה. לפעמים טחנות הצדק טוחנות לאט...

הבנתי את החשיבות. אבל אנשים בדיסוננס כי שנים השתמשו בזה וגם אין להם חלופה אטרקטיבית? אז למה שזה ישתנה?
לסטיית התקן יש חלופה שהיא הרבה יותר אינטואיטיבית, ממוצע הסטיות המוחלטות, זו חלופה טובה.
למתאם פירסון ול R2 יש חלופה הרבה יותר טובה, רק שבמקום לדבר על מדד של קשר או קרבה בין משתנים, צריך לדבר על מדד של חוסר קשר, של חוסר קרבה, של מרחק בין משתנים. היא לא חלופה שכיחה וצריך ללמוד אותה: ההפרש ממוצע בין ציוני תקן.
למדד גודל האפקט יש פתרון אפשרי בהחלפת ה d של כהן במדד שיש בו עקביות בין המונה למכנה, למשל כזה שעושה שימוש בממוצע הסטיות המוחלטות במכנה במקום בסטיית התקן.
למבחני המובהקות הסטטיסטית אין פתרון קסם אחד ויחיד, ואולי זו אחת הסיבות שהם שולטים בכיפה למעלה מ 100 שנה. מה שעובד אולי בפוליטיקה ("זה המנהיג שיש לנו; אין חלופה אטרקטיבית"), לא יכול לעבוד במדע. השינוי שחל בשנתיים האחרונות בדרישה של כתבי עת לשים דגש רב יותר על מדדים של עוצמת קשר בין משתנים, ולפרט הרבה יותר את הממצאים התיאוריים של הנתונים המדגמיים, הם צעדים בכיוון הנכון. אבל אחת המסקנות שהדוגמאות לעיל מלמדות היא שלא כדאי להישאר עם מה שיש, אם מה שיש שגוי או מוביל לפרשנויות אינטואיטיביות שגויות.

אז מה עושים?
זו שאלת מיליון הדולר. לדעתי צריך להפיץ ברבים את הבעייתיות הקיימת במדדים ובמודלים הבעייתיים. על מנת שיתחולל שינוי צריך להעמיק את ההבנה שיש כאן בעיה. ה APS החל במהלך ליצירת "הסטטיסטיקה החדשה" בעקבות הצטברות ידע שעבר ערך קריטי מסוים. אם נמשיך לדמום, השיירה בטוח תעבור. הדרך היחידה לעצור את השיירה היא לנבוח, ולקוות שרמת הנביחות תהיה חזקה מספיק על מנת ליצור שינוי. אפשר לחשוב כבר על סיסמה אפשרית: "הפסיכומטריקאים דורשים מדדים משמעותיים". זה אולי ייקח כמה שנים, עשורים, או מאות שנים, אבל סוף הצדק לנצח.

לסיום, איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל?
תחשבו על המשמעות של המושגים שאתם משתמשים בהם. למרות מה שאולי משדרים לנו, או מה שאנו קולטים בעצמינו, הבעיה אינה בנו – בפסיכומטריקאים או בסטודנטים למדעי החברה; הבעיה היא במושגים ובמודלים, ולכן צריך להחליף אותם.
ומשפט אחרון, בשני תחומי מחקר נוספים – הוגנות השימוש בציונים וחוסר היעילות שבשימוש במדדי יעילות, עמיתיי ואני מראים שצריך להחליף מודלים או מדדים קיימים שאינם אינטואיטיביים, במודלים או מדדים שהם תואמים אינטואיציות בריאות שיש לכולנו. אבל על כך נרחיב באחד הבלוגומטרים בעתיד.

 
 
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. liat@basisle.co.il
 
לעמוד הפוסט תאריך: 25/05/2016 03:15:00 תגובות:
תגובות

העולם המופלא של ה – Big Data

בלוגומטרי 5 מרץ 2016
אורח: אהוד לויטין
מנחה: ד"ר ליאת בסיס
 

העולם המופלא של ה – Big Data

בזמן האחרון כולם מדברים על ביג דאטה.
כשמושג חוזר על עצמו יותר מדי פעמים אני מוצאת את עצמי שואלת האם אנשים מבינים על מה הם מדברים ובמיוחד אני מרגישה צורך לנסות להבין בעצמי במה מדובר.
על ארגונים מופעל היום לחץ לעשות שימוש בנתונים. לפעמים מתוך תרבות תופסת תאוצה של קבלת החלטות מבוססת נתונים ולעתים רק משום שיש להם הרבה כאלה והם מרגישים שהם צריכים לעשות איתם משהו.
מיהם אותם ארגונים שמודדים ומעריכים?! תסתכלו סביב. מי לא?! ארגונים ציבוריים שאוספים נתונים על מאות אלפי אזרחים, רשויות מקומיות על תושבים, ארגונים עסקיים על עובדים ולקוחות, ארגונים חברתיים על המוטבים עליהם הם מנסים להשפיע.
אהוד יספר לנו מיד מהו אותו ביג דאטה, מהי כריית נתונים ועל כי הם נועד בעיקר כדי לייצר את היתרון התחרותי בעולם של משאבים מוגבלים.


שלושה פרטים ששלפתי מה-"ביג דאטה" של אהוד:

  1. הוא בעל תואר ראשון במדעי ההתנהגות ותואר שני בנוירופיזיולוגיה אך הוא לא עסק בזה מעולם.
  2. תוך כדי לימודים התחיל ללמד ולעסוק בסטטיסטיקה ובשנים האחרונות הוא סטטיסטיקאי עצמאי, אנליסט ראשי בחברת ג'ניוס-SPSS, מרצה במרכז הבינתחומי, ומנתח ב-data mining.  
  3. המשתנים המרכזיים העולים מניתוח הביג דאטה שלו הם משפחה וחברים.
 
אהוד נדמה שפתאום כולם מדברים על ביג דאטה ועל כריית נתונים (Data Mining). בוא נעשה רגע סדר?
בשמחה.
כשמדברים על ביג דאטה מתכוונים לכך שלכל ארגון יש היום כמויות אדירות של מידע, אם לפני עשור היו לארגון אלפי עד מאות אלפי רשומות, היום מדברים על מליוני , מאות מליוני, ומילארדי רשומות. טרות של נתונים. השאלה מה עושים עם הנתונים האלה.
ביג דאטה דורש שני דברים:
  1. ניהול הנתונים – בו לא נעמיק הפעם רק נזכיר שכמות כזו של דאטה צריך לדעת איך לנהל במובן של גודל אחסון, אחסון יעיל שמאפשר שליפה מהירה, חומרה מתאימה ועוד.  
  2. ניתוח הנתונים – הפקת תובנות, למידה, וחיזוי מתוך כל המידע הזה. ניתוח הנתונים נעשה מתוך שלוש מטרות עיקריות:
                א. לדעת מה קרה – סטטיסטיקה תיאורית שמתארת תופעות שקרו, וקורות כיום.
                ב. להבין למה זה קרה – ניתוחים סטטיסטיים ששופכים אור על קשרים בין משתנים, סיבות לתופעות, מגמות וכו'
                ג. לחזות – מתוך הבנה של מה שהיה עד היום, לחזות מה יקרה מחר
 
כל אלה לא ייחודיים לביג דאטה.
איפה מתחיל הסיפור של ביג דאטה? כשיש כמויות אדירות של נתונים שמהן ניתן להפיק תובנות כאלה.

מה הופך דאטה לביג דאטה? נפח הנתונים. כמות רשומות (סדר גודל של מיליונים לרוב) וכמות המשתנים (עשרות רבות עד מאות ואלפים). ברגע שיש לנו מינימום של עשרות אלפי רשומות ועשרות משתנים, אנחנו כבר מדברים על ביג דאטה.

ומהו כריית נתונים ? - כריית נתונים. הדימוי הוא מכרה. במכרה חופרים בהר שלם ומחפשים בתוכו יהלומים קטנים. כיום בארגון יש הרים על גבי הרים של מידע שמהם צריך להפיק את היהלומים הקטנים שנותנים לך את התועלת. בעקבות ריבוי הנתונים, נוצר צורך לנתח את כמויות הנתונים האדירות ולהפיק מהם את התובנות שמסתתרות עמוק בתוך כל המידע. ארגונים תמיד עסקו בסטטיסטיקה אבל היום הם מתמודדים עם כמויות מידע עצומות שדורשות שינוי טרנספורמטיבי באיך שאנחנו תופסים ניתוח נתונים.
 
במה שונה ניתוח הנתונים של ביג דאטה מניתוח קלאסי, או במילים אחרות במה שונה כריית נתונים מניתוח סטטיסטי קלאסי רגיל?
מה שמייצר בעיקר את השינוי זה כמות הנתונים. ההתמודדות עם כמות גדולה מאוד של נתונים דורשת שלושה דברים:
  1. כוח מחשובי – מחשבים בעלי יכולות טובות בהיבט של יכולות החומרה (למשל זיכרון רם גדול, נפח דיסק גדול, מהירות מעבד גדולה וכו').
  2. כלים שמותאמים לניתוח כמויות גדולות של נתונים – כלים שיודעים להתמודד עם כמות נתונים מאוד גדולה – אתה לא יכול לנתח כמות גדולה של רשומות עם אקסל בזמן סביר. משתמשים בכלים כדוגמת  SPSS, SAS, R או כלים שמיועדים ספציפית לכריית נתונים כמו ה- IBM SPSS MODULER.
  3. הניתוחים הסטטיסטיים -  הניתוחים עצמם מעט שונים ומותאמים לכמות דאטה יותר גדולה.
 
במה שונים הניתוחים?
הכריית נתונים שונה מהסטטיסטיקה הקלאסית, בשני היבטים עיקריים:
הראשון הוא סוג הניתוחים – ריבוי המשתנים בביג דאטה מביא לשימוש בניתוחים סטטיסטיים שונים. ברגרסיה אם את מכניסה יותר מעשרה משתנים יש לך מולטיקולינאריות כמעט ודאית, ואת בוודאי לא יכולה להכניס 500 משתנים לרגרסיה. ניתוחים סטטיסטיים קלאסיים כמו רגרסיה, מבחני T, וניתוחי שונות, אינם מתאימים כאשר ישנם הרבה משתנים, והרבה מאד קשרים בין המשתנים.
שיטות ניתוח כדוגמת עצי החלטה (למשל CHAID , C5 , C&RT), ניתוחים מבוססי רשתות נוירונים Neural Networks)), ניתוחי קשרים אסוציאטיבים (למשל Apriori, Carma ) וכו',  מסוגלות לטפל בכמות כמעט בלתי מוגבלת של משתנים ולמצוא מתוכם את המשתנים החשובים ואת הקשרים החשובים שבעזרתם ניתן להגיע לתובנות החשובות מתוך הדאטה.
 
אני רוצה לנסות להציץ לרגע בקופסא השחורה של מה שכרגע אמרת, אתה יכול לתת דוגמא?
אם אנחנו רוצים למשל לנבא האם לקוח צפוי לנטוש את החברה הסלולארית.
על כל לקוח ישנה כמות אדירה של נתונים ממקורות שונים – משתנים דמוגרפיים (מין, גיל, מקום מגורים, סוגי מכשירים, כמות מנויים במשפחה), נתוני צריכה (כמה מדבר, עם מי מדבר, באיזו תדירות, מגמות) נתונים כספיים (כמה הוא משלם, מסלולים, הנחות) נתוני פניות למוקדים, ועוד מגוון רחב של נתונים. עץ החלטה ימצא מהם המשתנים שחשובים לניבוי נטישה, מה היחסים ביניהם וכיצד לחלק את אותם משתנים לרמות שונות על מנת לקבל ניבוי מיטבי.
לדוגמא יכול להיות שהמשתנה הראשון שהוא יבחר הוא פיצול לגברים ולנשים, כי שיעור הנשים הנוטשות נמוך משיעור הגברים הנוטשים. בשלב השני, העץ יצביע על כך שהמשתנה הבא החשוב ביותר אצל גברים הוא כמות הדקות שהם מדברים בחודש נניח עד 500 ומתחת ל- 500 (עץ ההחלטה יגדיר גם את המשתנה וגם את נקודות החתך לפיצול העץ), אבל אצל נשים לעומת זאת המשתנה שהכי משפיע הוא הגיל. עבור כל קבוצה בהמשך הוא מוצא מה המשתנה הבא הטוב ביותר ובאיזו חלוקה. בסוף מתקבלת תמונה מאוד מורכבת שמשקפת את המציאות. ייתכן כי על גברים ועל נשים משפיעים משתנים אחרים, ולכן אין טעם להגיד כמה גיל משפיע מעבר למין כי הוא משפיע אחרת בכל קבוצה.
לאחר מכן אני יכול לחזות את הקבוצה בה שיעור הנטישה הוא הגבוה ביותר ולכוון את הארגון לעשות מאמץ ממוקד בה, ובמי כדאי לו לפנות מתוכה.


 
כמה מפורט ללכת?
עצי החלטה פשוטים הם יותר מכלילים ופחות מדויקים ברמת הלקוח הבודד, אך הם מאפשרים לראות את המשתנים העיקריים שמשחקים תפקיד והם יעילים להבנת תופעות ולקביעת מדיניות. יש להם לרוב מעט רמות בעץ ומעט עלים סופיים.
בעצים מפורטים יותר בעלי מספר רב של רמות ופיצולים – רמת הדיוק גבוהה יותר. הם קשים יותר להסבר, אבל מדויקים יותר בניבוי סיכויי הנטישה של לקוח ספציפי.
מה עדיף זו שאלה קשה.
הבחירה בעץ קטן ומסביר או גדול ומנבא תלויה בצרכים של הארגון. לישיבת הנהלה נחפש עץ קטן וברור שניתן להסביר אותו. כדי לקבל ציון של סיכוי לנטישה ברמת ההתקשרות עם הלקוח הבודד נעדיף עץ מדויק ככל האפשר.
 
הבדל נוסף בניתוחים מתייחס להערכת איכות המודלים - כמות הרשומות העצומה מכתיבה שימוש בשיטות שונות להערכת איכות המודלים -  מאחר ומדברים על מיליוני רשומות, R2 (אחוז שונות מוסברת), או  מובהקות משחקים תפקיד הרבה יותר קטן בקביעת איכות המודל והתאמתו לאוכלוסייה. כיוון שכשמספר הרשומות  שווה מיליון כל "פיפס" יכול להיות מובהק, ולכן מובהקות  אינה יכולה להוות קריטריון.
כדי לבחון איכות של מודלים מחלקים אותם אקראית לשתיים או שלוש קבוצות : אימון (Training), בחינה (Testing) ולעיתים גם קבוצת תיקוף (Validation). לומדים רק על חצי מהאוכלוסייה ובודקים את ביצועי המודל על החצי השני. אם יש לי מיליון לקוחות אני יכול לבנות מודלים על חצי מיליון לקוחות אקראיים, ולבדוק את הביצועים של המודל על חצי המיליון הנוספים. כשכמות הרשומות היא עשרות אלפים ומעלה היא מאפשרת לקבוע את איכות המודל מקריטריונים של ביצועים על קבוצת המבחן. משתמשים במדדים כמו hit rate, lift, טעויות של false positive/false negative הערכת ביצועי המודלים בעשירון העליון וכו'.

כולנו יודעים שהשלב הראשון בעבודה עם קובץ נתונים הוא טיוב. איך נראה טיוב של ביג דאטה?!
בכל פרוייקט ביג דאטה בערך 80% מהזמן מוקדש להכנת הנתונים לניתוח.
בגלל שמאגרי המידע כל כך גדולים הם כוללים תמיד הרבה זבל. למשל משתנים עם אחוז ערכים חסרים מאוד גדול (שלפעמים בדאטה רגיל נטרח להשלים. כאן לרוב לא נעשה זאת כי מדובר במיליונים. כמו כן מודלים של עצי החלטה יודעים להתמודד עם חסרים, הם עוד קבוצה בעץ ההחלטה למשל גבר, אישה ו"לא ידוע"), הרבה ערכים שהם לא הגיוניים (כמו בטיוב של נתונים רגילים. עושים שכיחויות על כל הנתונים, ומגלים למשל אנשים שהם בני 235, או גברים שעוברים הפרייה מלאכותית). ויצירה של מדדים חדשים מהמשתנים הקיימים. בגלל שאין הגבלה בכמות המשתנים יוצרים לרוב הרבה מאד מדדים נוספים שאולי יסייעו בניבוי (יחסים בין משתנים כמו כמות השיחות באמצע השבוע חלקי כמות שיחות כוללת, נתונים אגרגטיביים, נגזרות ומדדי מגמה).

מי משתמש בכריית נתונים או לפחות לאילו ארגונים אתה עשית כריית נתונים?
עשיתי כריית נתונים למגוון רחב מאד של ארגונים, במגוון רחב של שאלות מחקריות. חברת חשמל בחיזוי ובהבנה של תקלות, רשויות מקומיות בניתוח פניות למוקד 106, חברות ביטוח וסלולאר בניבוי נטישת לקוחות או רכישה של מוצרים, בנקים, ערוצי שיווק ועוד ועוד.

מי מסייע לארגון בהבנת הממצאים?
אנליסט כריית נתונים הוא לא בהכרח סטטיסטיקאי. הוא יכול להגיע מתחומי הכלכלה, הפסיכולוגיה, מנהל עסקים או תעשייה וניהול. הכלים מתאימים יותר למדידה עסקית, לכן חשובה ההבנה של העסק, כלומר מישהו שידע לפרש את התוצאות במונחים עסקיים.
 
האם יש מתודולוגיה מובנית לכריית נתונים ?
ישנה מתודולוגיה טובה ויעילה של כריית נתונים בשם KRISP.  מדובר במסלול מעגלי הכולל 6 שלבים שמנחה איך לנהל פרוייקט של דאטה מיינג:

  1. להבין את הביזנס (מה השאלה העסקית שמעניינת אותי, ומה הולכים לעשות עם התוצאות – כישלון בשלב הזה יכול להביא לפרויקט מעולה סטטיסטית שלא עונה על כלל על הצרכים העסקיים)
  2. להבין את הנתונים (מה יש לי)
  3. להכין את הנתונים (טיוב, מיזוג, השטחת נתונים, יצירת משתנים נוספים)
  4. מודלינג (בניית המודלים הסטטיסטיים שמנבאים מי הולך לנטוש)
  5. הערכה (הערכת הביצועים – בודק האם זה עוזר לי למנוע נטישה)
  6. הטמעה (הטמעת התוצרים בארגון)
ומה לפסיכומטריקאים ולכריית נתונים?
בשאלונים ובכלים בהם יש הרבה שאלות אנחנו לרוב עושים רדוקציה לכמות המידע שיש לנו. פסיכומטריקאי לא ישתמש בכל 100 השאלות שיש לו בשאלון, הוא מבנה מהן מספר מצומצם של מדדים ואנתח רק את המדדים.
אבל אם יש לי מספיק נבדקים אני יכול לפנות גם לשיטות של ביג דאטה. אני יכול לבחון את כל השאלות ואילו קומבינציות בניהן מנבאות משתנה מטרה כלשהו בצורה הטובה ביותר. או לבדוק למשל האם השאלות המסבירות יותר אצל בנים הן אותן השאלות המסבירות אצל הבנות.  אני גם יכול לבחון מהו השקלול העדיף לניבוי – ממוצע או חציון או אולי אחוז השאלות שהוא ענה בהן במידה רבה מאוד – רבה מאוד או לשונות. בשיטות של עצי החלטה אפשר לחשב את כל המדדים האלו, להכניס את כולם לניתוח, ולראות מה מפיק את התובנות העיקריות. ניתוח כזה יכול אפילו להיות ניתוח מקדים שיכוון לאילו מדדים כדאי להתייחס, גם אם בסופו של דבר אבחר רק מספר קטן שלל מדדים ואשתמש בניתוח סטטיסטי קלאסי.
 
תודה. זה הרבה יותר ברור כעת. ומרגיש לי שאנחנו רק בתחילתו של עידן בהיבט הזה, ולא רק בהקשרים עסקיים אלא חברתיים וציבוריים.
מילה לסיכום.
איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל?
כמות הנתונים היתומים שמסתובבים בעולם גדלה בקצב מטורף, העתיד מתחבא במעמקי הררי המידע האלה. מאחל לכולנו שנשכיל לכרות את היהלומים.
 

הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. liat@basisle.co.il
 
לעמוד הפוסט תאריך: 02/03/2016 23:37:00 תגובות:
תגובות

תערוכת המבחנים ו/או איך מקימים מיזם פסיכומטרי?!

בלוגומטרי 4 דצמבר 2015
אורח: ד"ר אבי אללוף
מנחה: ד"ר ליאת בסיס

 
תערוכת המבחנים
ו/או
איך מקימים מיזם פסיכומטרי?!

 
לפני כמה שנים הואיל מודי אפשטיין, צלם ופסיכומטריקאי בחסד, לאפשר לי לבחור מתמונותיו כאלה שניתן למצוא בהן פרשנות פסיכומטרית. תמונות ופרשנויות אלה הוצגו בכנס הפסיכומטריקה ותהליך היצירה הסב לנו עונג רב. לקיחת מושגים מתודולוגיים מופשטים שמצליחים להשתקף מתוך תמונות הטבע, היתה קוסמת. רוב הזמן אנחנו חיים בפיצולים, יש מוחשי ויש מופשט, יש מלאכותי ויש טבעי, יש איכותני ויש כמותי. התערוכה הזו איפשרה לי , לחבר בין עולמות שאני לא נוהגת לחבר ביניהם.
לכן לא תתפלאו לשמוע כי כשנתקלתי בשם "תערוכת המבחנים" מיד הסתקרנתי והייתי חייבת לראיין את מוביל הפרויקט, אבי אללוף.
הראיון עם אבי הוליד שתי רמות של הבנה – האחת – קונקרטית. מהי תערוכת המבחנים ולאיזה צורך היא נולדה. והשניה – איך מקימים מיזם לטובת הציבור, דרך החתחתים שיש לעבור, הנחישות וההובלה שיש לגלות.
הבלוגומטרי הפעם עוסק בתערוכה מסקרנת זו ותהליך יצירתה.

אז מי הוא אבי אללוף?!
  1. ביומיום הוא ראש מדור ציונים במרכז הארצי לבחינות והערכה, מדור שמופקד על טיפול בכל הבחינות שמועברות ומופעלות על ידי המרכז הארצי מהרגע שמסתיימת הבחינה ועד שהנבחנים מקבלים את הציונים. במקביל, אבי עוסק גם במחקר (נושאים עיקריים: בקרת איכות על ציונים ועל הערכת בחינות פתוחות ותפקוד דיפרנציאלי של פריטים-DIF) והוא מרצה בקורס תורת המבחנים באקדמית ת"א יפו.
  2. בעברו  נמנה על המייסדים של אפי [האגודה הישראלית לפסיכומטריקה] לפני 12 שנים. היה העורך הראשון של הידיעון שהבלוגומטרי הוא גלגול שלו, ואף כיהן שנתיים כיו"ר האגודה.
  3. בשעות הפנאי... הוא עורך של עיתון International Journal of Testing וחבר במועצה של ITC (International Test Commission) ארגון בינלאומי שמקדם את המבחנים בתחומים החינוכי, התעסוקתי והקליני.
אז אבי, מהי תערוכת המבחנים?
זה שם היסטורי של פרויקט שהתחיל לפני מספר שנים, יוזמה ישראלית של המרכז הארצי לבחינות, שהתחילה ב-2009 כרעיון לתערוכה במוזאון המדע ע"ש בלומפילד בירושלים. היו מספר סיבות לכך שהמרכז הארצי יזם את הרעיון, ביניהן:
  1. ביקורת הולכת וגדלה בציבור הרחב על הצורך להיבחן בכמות מבחנים רבה לאורך החיים בישראל לצד הרבה מיתוסים שגויים.
  2. חוסר הכרה בציבור בעובדה כי מבחנים נשענים על עקרונות מדעיים – מהימנות, תוקף, הוגנות.
  3. קושי בציבור להבחין בין מבחן טוב למבחן רע (הציבור יודע להבחין בין עגבנייה טובה ופחות טובה בשוק אך במבחנים מתקשה להבחין בכך).
  4. אי הכרות בפוטנציאל של המבחנים כגורם מדרבן ומקדם למידה וכגורם מייעל של תהליכי מיון איכותיים.
 
יש רעיון טוב, מאיפה מתחילים?
הצעד הראשון, והקל יחסית, היה לקבל תמיכה מיואב כהן, מנכ"ל מאל"ו. לאחר מכן נפגשנו עם אנשי המוזאון, שבאורח מקרי (או לא ?) ממוקם ממש בקרבת המרכז הארצי לבחינות, וניסינו לשכנע את מיה הלוי, מנהלת המוזאון, שהרעיון חשוב והנושא מעניין . בתחילה נרתעו: "את מי יעניין לראות מבחנים?!", מכיוון שמוזאון צריך להציג תערוכות שמעניינות את הציבור. המשימה הראשונה הייתה לשכנע את אנשי המוזאון שהרעיון ישים ושתערוכה כזו תמשוך קהל. נפגשנו איתם והראנו להם מצגת, בנושא שהם עצמם לא היו חשופים אליו עד כה, והצלחנו לשכנע אותם שיש לנו כאן נושא שהציבור, שעובר מבחנים ומושפע מהם במהלך כל חייו, ירצה ללמוד עליו ויבוא לתערוכה.
בשלב ראשון גויס צוות של ארבעה אנשים מהמרכז הארצי לבחינות, המוזאון הביא מצדו שני אנשים. נפגשנו כל שבועיים והתחלנו לפתח את הרעיונות. זה היה מפגש בין דיסציפלינה שיודעת לפתח מבחנים לכזו שיודעת לפתח תערוכות בתחום המדע ולהנגיש רעיונות ומודלים מדעיים לקהל הרחב בכלל ולילדים בפרט.

נשמע שיח מעשיר, אתה יכול להגדיר מה כל צד הרוויח מהחשיבה המשותפת?
הצוות מטעם המוזאון הרוויחו בעיקר ידע, אותו ידע שחשבנו להנחיל לציבור, הם יודעים עכשיו הרבה על מבחנים.
אנחנו למדנו בעיקר שאם אנחנו רוצים שהציבור יתחבר לזה ואולי גם ילמד מזה משהו על התחום שלנו, על עצמו ועל החברה בכללותה, לא נכון לעשות את זה בצורה פטרונית. לא לבוא בגישה של מי שמגיע לילידים באזור נידח בעולם ומנסה ללמד אבולוציה. רצוי לנסות להעמיק באיך אנשים בציבור תופסים מבחנים, ומה הם חושבים וטוענים כנגד מבחנים. לבוא ממקום של סימטריה. זה לקח זמן, זה לא היה קל.

והציבור באמת הפך לחלק בתהליך הפיתוח?
אכן כן. בהתחלה חיברנו שאלון ושלחנו להרבה אנשים לראות מה מעניין את הציבור – מה היה רוצה לראות בתערוכה, מה הוא חושב על מבחנים. בשלב השני ערכנו קבוצות מיקוד של נוער ומורים – ושאלנו אותם מה הם ירצו לראות, מה הם חושבים על מבחנים.

אילו עוד שותפויות יצרתם בתהליך?
תוך כדי העבודה הבנו שזה פוטנציאל לנושא בינלאומי. הרבה אנשים שסיפרנו להם התלהבו ואמרו שזה רעיון מאוד מעניין. הגוף שהכי התעניין בזה היה ETS – ה-Educational Testing Society (http://www.ets.org/) , ה-ETS  הוא הגוף המקביל למרכז הארצי לבחינות בארצות הברית, והוא אולי הגוף המוביל בעולם בתחום פיתוח מבחנים. הצענו להם להשתתף בפרויקט והם שמחו להצטרף. בסמיכות גיאוגרפית ל ETS נמצא מוזאון ה- Franklin Institute, בעיר פילדלפיה. יצאנו עם שותפות של ארבעה גופים, שני גופי מבחנים, ושני מוזאונים.
מוזאון המדע הצליח לגייס סכום כסף מקרן פרטית ישראלית, שאיפשר לנו ב-2009 לקיים סדנא בת 3 ימים, במוזאון בירושלים, עם נציגי השותפים ומעצב גרפי שעיצב כמה דוגמאות של מוצגים.
 
 

עלו כל מני רעיונות, כמו איך להמחיש לציבור הערכה של שאלות פתוחות או מבחני ביצוע שזה משהו יותר סובייקטיבי. חשבנו לתת למבקרים במוזאון לצפות בקטע קצר מתוך תחרות התעמלות קרקע בתרגיל קורה. המבקרים יתבקשו לתת ציון לאותה מתעמלת ולאחר מכן יעברו סדנא מקוצרת שתסביר על עקרונות השיפוט כדי להפוך אותם ליותר מקצועיים, אז יתבקשו להעריך שוב, כולל הצגת מידת הדמיון בין המעריכים לפני ואחרי שקיבלו הדרכה.
המטרה של הסדנא הייתה לבדוק את השותפות ולהגדיר את המטרות, להתקדם למוצגים ולחשוב איך משיגים מימון. הדבר דומה להפקה של סרט, ללא מימון לא ניתן לייצר תערוכה, המוזאונים מארחים תערוכות אך לא ממנים אותן. עוד על הסדנא באתר https://www.mada.org.il/en/exhibitions/testing.
 
איך איתרתם מקורות מימון?
פנינו לקרן האמריקאית NSF (National Science Foundation) שעוסקת בעיקר במימון של פרויקטים מדעיים אך יש לה כספים שמוקצים ללמידה לא פורמאלית, כולל גם מוזיאונים. ניסחנו בקשה לקרן עם הצעת תקציב מפורטת. חיכינו בסבלנות מספר חודשים עד שקיבלנו תשובה. בשלב הזה זוכים כמה עשרות מכמה מאות. אולם ההמשך היה פחות משמח. אמנם עברנו את השלב ראשון אך לא הצלחנו לעבור את השלב השני. קיבלנו הערות מאוד מפורטות. ההערה המשמעותית ביותר שקיבלנו הייתה שאנחנו צריכים יותר להתמקד בקשר בין המבחנים לחברה. אנחנו התמקדנו בעקרונות המדעיים והם לא הסתפקו בכך. הם שלחו אותנו לשנות את ההצעה לכיוון הזה. זה כמובן היה מאוד מאכזב.  
כעבור זמן מה החלטנו להגיש שוב. עוד הערה חשובה שקיבלנו היא שעדיף שבראש ההצעה לא יעמוד ארגון של מבחנים, כדי שזה לא יהיה פטרוני או ייחשד להיות "מטעם". כדי שההצעה תיראה יותר מאוזנת ונטולת פניות, עדיף היה שהיא תוגש מטעם מוזאון או פרופסור מאוניברסיטה. שינינו אפוא את ההובלה (בפעם השנייה הוביל את ההגשה פרופ' הנרי בראון מבוסטון קולג') ואת הדגשים. עשינו כל מה שחשבנו שיכול להועיל כדי לשפר את הסיכוי שלנו לזכות. שוב ניגשנו, אך שוב קיבלנו תשובה שלילית. באותה שנה הם הלכו יותר למדע טהור ופחות למדעי החברה. בקשת המימון הייתה לשלושה מיליון דולר, הלכנו על תערוכה מאוד מושקעת, נודדת, שתהיה חצי שנה בכל מוזאון כולל טכנולוגיה, משהו גדול. החזון לא הצליח. לא הצלחנו לגייס את הכסף.
במקביל דיברנו עם קרנות אחרות, זה נושא שלא טריוויאלי להשיג אליו כסף. אנשים לא רואים את הקשר הישיר בין מדידה ומבחנים לבין בריאות או חינוך, נושאים שתורמים פילנטרופיים או קרנות ששים לתת להם כסף.

מקם אותנו על ציר הזמן, בבקשה. 
 השנה היא 2013. אנחנו לא יודעים מה לעשות: האם להגיד מיצינו והולכים הביתה או ממשיכים. ישבנו עם השותפים, נפגשנו עמם שוב במהלך כנס בארה"ב, חשבנו מה לעשות והחלטנו שרוצים להמשיך, לא לוותר, להוסיף עוד שותפים, המטרה היא חשובה. מישהו העלה רעיון שבמקום לעשות תערוכה במוזאון לעשות תערוכה וירטואלית, ברשת. תערוכה שעדיין תכונה תערוכה מבחנים. לרשת יש הרבה יתרונות, היא נגישה מכל מקום בעולם, היא בינלאומית, אפשר לעדכן את התערוכה לפי הצורך, אפשר לאסוף נתונים על אנשים שנכנסים וכמובן שהמחיר יכול להיות זול יותר. זה הכיוון שהחלטנו לקחת. הסוגיות שעמן התמודדנו נותרו בעינן – איך הופכים מושגים מדעיים לנגישים לקהל הרחב? איך מושכים את הציבור לתערוכה? וכמובן שנותרה גם שאלת המימון.

 

איפה אנחנו היום?
לפני כשישה חודשים, ה ETS החליט לקיים ולממן סדנא בנושא, בדומה לסדנא שעשינו שש שנים קודם לכן, אך הפעם בארה"ב. ארגון הסדנא הופקד בידי. הוזמנו אנשים מחברות המבחנים הגדולות, מפתחי משחקים, אנשים מהאקדמיה, נציגי מוזיאונים, גיבשנו רשימה מכובדת של אנשים. הגיעו כעשרים איש, רובם אמריקאים. נסעתי עם השותפה-עמיתה שלי לעניין התערוכה ממוזאון המדע , דיאנה אלדרוקי-פינוס, ישבנו יומיים ב-ETS ובחנו – האם זה ישים, מי השותפים, איך מתקדמים, איך משיגים מימון. אותן שאלות ישנות עלו שוב מתוך כוונה ליישם את הפרויקט ברשת כשהפעם ה-ETS לוקח חלק יותר פעיל.
סדנא זה דבר מאוד נחמד, אוכלים ביחד, מדברים, מעלים רעיונות, כל אחד תרם בסדנא משהו, הכין מצגת או דיון. בסוף ישבנו ונתחנו את כל הרעיונות. כעת אנחנו בונים מתווה לקידום התערוכה ברשת. הוקמה ועדת היגוי לפרויקט. הועדה אמורה לדון בתכנית שמתגבשת בהובלתי ובעזרת אנשים יצירתיים ממאל"ו. אני אופטימי לגבי העתיד של התערוכה.

שיהיה בהצלחה! רק עוד כמה שאלות J...
לאיזה גיל אתם מייעדים את התערוכה? או במילים אחרות, מיהו קהל היעד של התערוכה הוירטואלית? 
כשעוד חשבנו על תערוכה במוזאון, בגלל הקהל שמגיע, הלכנו יותר לכיוון הילדים הקטנים. כשאנחנו ברשת, כל הקהלים תיאורטית יכולים לבוא, אך כל נושא יכול להביא קהל קצת שונה. מי שמתעניין במיצ"ב לא בהכרח יתעניין במבחני קבלה לאוניברסיטה ולהפך. בסקר נוסף שערכנו גילינו כי האנשים שעשויים להתעניין בתערוכה הם לרוב אנשים שעומדים לפני מבחן חשוב בחייהם, שהם או ילדיהם עוברים מבחנים ומייחסים להם חשיבות.
אחת המסקנות שלנו מהסקר היא שהתערוכה צריכה להיות מושכת עבור הציבור בכללותו ובפרט את האנשים האלו. מסקנה נוספת היא כי יש לחזק את הקשר בין המבחנים לחברה. לדוגמא, יש להדגיש את הקשר בין מבחנים לקבלה להשכלה גבוהה, לעבודה, נושא ההכנה למבחנים, מבחנים רחבי היקף (ארציים), הוגנות במבחנים העדפה מתקנת ועוד.
מה שמאפשרת הפלטפורמה הוירטואלית היא לקיים דיאלוג. למשל בנושא ההעדפה המתקנת – יש הרבה טעונים בעד ונגד. זה נושא שחשוב מאוד לדבר עליו. אנחנו בונים מספר רעיונות למוצגים שיעוררו את הדיאלוג הזה ופלטפורמה שתאפשר את הדיאלוג בעקבות כך.
התערוכה לא מכוונת ל"עוברי אורח מקריים" אלא למי שעומד בפני מבחן או מי שיש מישהו הקרוב אליו שעומד לעבור מבחן חשוב. המבקר רוצה לדעת מה המבחן אומר? או מה אפשר ללמוד ממנו? האם מי שיעבור את המבחן יהיה רופא טוב יותר  (אם מדובר במיונים לרפואה למשל)?, וכן, למה יש מערכות מבחנים שונות? מה ההבדל ביניהן? אילו הבדלים נמצאים בין קבוצות שונות. יש אין סוף שאלות, שמהן צריך לבחור את אלה המעניינות את הציבור.  
לאחרונה עסקנו בפיתוח המעטפת – הכוונה לאתר הבית שתפקידו למשוך את המבקרים, להיות מעין סוכרייה עם עטיפה צבעונית שתמשוך את המבקר פנימה לדפים הבאים. בדף הבית צריך לשים דברים שהמבקרים מאוד רוצים, טיפים להצלחה במבחן למשל, ואז לקרב אותן לשאלות שפחות חשובות מבחינתם.
אנחנו מאמינים שאם נשתף את הציבור באתר הזה, הציבור ישתתף והשאלות שלו ישפיעו על התכנים זה ימשוך אותו..

אתה מדבר עם הרבה תשוקה, מה השליחות שברקע?
יש פה מטרה חיובית לחברה, רצון לקעקע את התפיסה שעורכי המבחנים יושבים במגדל שן. הפיכת הציבור לצרכן מושכל של מבחנים תסייע ותקדם את תחום ההערכה והמדידה.  בארה"ב יש שימוש רב במבחנים הסטנדרטיים רחבי ההיקף בתחום החינוך – מבחני הישיגים לימודיים. המבחנים האלו מתקיימים, בכל רמה , החל מרמת בית הספר, העיר, המחוז, המדינה וכמובן ברמה הפדרלית. לחלק מן המבחנים דוגמת ה-NAEP חשיבות רבה בתרבות החינוכית האמריקאית. לצד השימוש הרב במבחנים הולכת וגוברת תופעת ההימנעות. אנשים לא רוצים יותר שילדיהם יבחנו במבחנים האלו בגלל ההשלכות השליליות שעלולות להיות להם. בשנים האחרונות  הולכת וגוברת התופעה שמכונה opt out (להיות בצד, לא לקחת חלק) - הורים רבים אומרים לילדים ביום המבחן - אל תלך להבחן, אתה נשאר בבית (בדומה להחלטה שלא ללכת להתחסן). זה פוגע בתוקף של המבחנים ומקשה על הרשויות להסיק מסקנות מתוצאות המבחנים. אני מעריך שהתופעה תגיע מתישהו גם לישראל. לאנשים אין כתובת או אתר ניטראלי ששם הם יכולים ללמוד על מבחנים. יש בארה"ב ארגון חזק בשם 'FairTest'  שמרכז מידע ופועל נגד המבחנים ומנגד אין מי שיגן על המבחנים. מי שמגן על המבחנים נתפס כבעל אינטרס (מישהו שמוכר מבחנים או שייך לממסד שעושה בהם שימוש).

לסיכום איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל? 
הייתי שמח לקבל תגובות מחברי אפי על הרעיון של תערוכה וירטואלית, ובעתיד, אם הרעיון יתממש, לשתף את קהילת הפסיכומטריקאים בכתיבה של חומרים לתערוכה. הרעיון הוא שלא יהיה רק צוות מצומצם של אנשים אלא לשתף ציבור רחב. כשזה יהיה רלבנטי, נזמין את חברי אפי!
 
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. liat@basisle.co.il
 
לעמוד הפוסט תאריך: 20/01/2016 12:23:00 תגובות:
תגובות

על הערכה ומדידה בישראל ומה שביניהם

בלוגומטרי3 אוקטובר 2015
אורחת: ד"ר גילה מלך
מנחה: ד"ר ליאת בסיס
 
על הערכה ומדידה בישראל ומה שביניהם
 
פ ס י כ ו מ ר י ק ה.
לכאורה, מושג פשוט, פסיכו=נפש, מטריקה=מדידה. וביחד המדידה של הנפש.
אך אם נבקש את העוסקים בתחום להגדיר מה היא כוללת, סביר שנקבל מגוון נרחב של הגדרות.
 
את מרבית הבמה בתחום הפסיכומטרי מקבל תחום המבחנים הקלאסי. וכשאומרים שזקוקים לפסיכומטריקאי, מתכוונים לרוב למישהו שיודע לפתח מבחנים. ואולם בשנים האחרונות עולה הביקוש לאנשים שמומחיותם היא הערכה. שני התחומים חבוקים וחופפים חלקית, ארגונים כמו ראמ"ה – הרשות הארצית למדידה והערכה בחינוך, או מאל"ו – המרכז הארצי לבחינות ולהערכה, בהגדרה עוסקים בשניהם, אך גם בהם אפשר יהיה למצוא חלוקה מסוימת בין אלו המומחים בחלק של ההערכה ואלו של מדידה.
 
הערכה פר סה, ששכיחותה עולה על גדותיה בשנים האחרונות, במיוחד בתחום החברתי והציבורי, כמעט ולא מקבלת במה. איש הערכה לא יכנה את עצמו פסיכומטריקאי וככל הנראה גם לא יתפס ככזה.
 
הזמנתי את ד"ר גילה מלך, מומחית מוערכת להערכה ולחשיבה הערכתית להתארח בבלוגומטרי כדי לדבר על הפער הזה, על חשיבה הערכתית ועל מה שקורה היום בישראל בתחום ההערכה.
 
אציג תחילה את גילה דרך שלושת המקורות שעיצבו אותה מקצועית:
  1. את תפיסת העולם כי נתונים וידע חשובים לצורך קבלת החלטות, וכי אחריות רבה חלה על כתפיו של מקבל ההחלטות, גיבשה בהיותה קצינה בחיל המודיעין. מאז היא עסוקה מאד גם בשאלות של הנגשת המידע למקבלי החלטות והיכולת שלהם לעשות במידע שימוש הולם ותקף כדי לקבל החלטה טובה.
  2. את המתודולוגיות של מחקר בכלל ומחקר יישומי מחוץ למעבדה בפרט, גיבשה בלימודי הדוקטורט בפסיכולוגיה חברתית באוניברסיטה העברית, ובמהלך 20 שנות עבודה עם תכניות וארגונים חברתיים וחינוכיים, ובהקמת יחידות מדידה והערכה פנימיות ב-IVN ובקרן רוטשילד קיסריה.
  3. את מיומנויות התקשורת וההבנה הארגונית רכשה בהכשרה להנחיית קבוצות. אלו מיומנויות קריטיות בעבודת המעריך שהיא ממשיכה לשכלל וללמוד כל הזמן.
 
אז אולי כדאי להתחיל בלהבין למה מתכוונים כשאומרים הערכה ומדידה?
אני רוצה לתקן אותך, אני שמה את המדידה לפני ההערכה. מנקודת הראות שלי, אין הערכה בלי מדידה. הערכה טובה צריכה להתבסס על מדידה שהיא איסוף שיטתי של נתונים בכלים מהימנים ותקפים.
 
הערכה, לעומת זאת, מכילה בתוכה את המילה ערך ומרמזת על המחוייבות של תהליך הערכה לתת ערך למידע שמתקבל במדידה. גם באנגלית אפשר לזהות את המילה ערך, value, במילה evaluation.
 
כך למשל, אם המדידה הניבה גובה 1.70 במטר תקני, הערכה תסייע במתן משמעות למספר שהתקבל. המשמעות יכולה להנתן בהשוואה לציפייה שהוגדרה מראש (יעד), בהשוואה לנורמה או סף (benchmark) קיימים או בהתאם לחוות דעת של מומחה או קבוצת מומחים, בהשוואה למדידה קודמת , בהשוואה למדידה של אדם אחר, או קבוצה אחרת, בהשוואה למדידה בתחום אישיות אחר , או מתוך מכלול של מדידות והשילוב ביניהן ועוד ועוד. בדוגמה קצת יותר מורכבת מעולם התכניות החברתיות, נניח שמצאנו שתכנית מתמחים חדשה הצליחה לקדם השתלבות בתעסוקה הולמת של 80% אקדמאים מהפריפריה שהשתתפו בתכנית, לעומת 50% השתלבות לפי נתוני למ"ס, ובהשוואה ליעד של 75% השמה שהוצג על ידי מנהלי התכנית.  על פניו, נראה שהתכנית עושה משהו טוב.
זה סוג מסויים, נפוץ ומקובל של הערכה, שעונה על הציפייה שמחקר הערכה יאפשר לסכם ולהבין אם התכנית "טובה", "מצליחה", כדי להחליט האם להמשיך, להרחיב ולשכפל אותה. אני רוצה לציין שארגונים ותכניות יכולים להפיק הרבה מאד תועלת מסוגים אחרים של פעולות הערכה, שמתמקדים יותר בדרך שבה מגיעים לתשובות מהסוג שהדגמתי כאן - ובכללם הערכה מעצבת, הטמעה של חשיבה הערכתית בתהליך הארגוני או בפיתוח תכניות חברתיות, שעוד נדבר עליהם בהמשך. 
 
מי צריך מדידה והערכה?
אני נוהגת להגיד, שכל מי שרוצה ללמוד על המשמעות של מה שהוא עושה, ולראות איך אפשר לעשות עוד יותר טוב, צריך מדידה והערכה.
 
בתוך הקבוצה הזו כלולים אנשים וגופים שיוזמים או פועלים לשיפור מצבן של קבוצות מסוימות בחברה באמצעות תכניות התערבות חברתיות, ורוצים לדעת מה התוצאות של הפעולה שלהם, האם אכן מתרחש שיפור, באיזו עוצמה והיכן, ומבקשים לבסס את הידיעה הזו בעדויות. שאלות מסוג זה שכיחות  בעיקר בעולמות החברתיים-ציבוריים אך ניתן לפגוש בהן גם בעולם העסקי, למשל במדידת אפקטיביות של הדרכה, סקרי שביעות רצון כבסיס להצבת יעדים למשאבי אנוש ועוד. גורמים כאלה יכולים לפנות להערכה גם כדי לענות על סוג אחר של שאלות- מה הסיבות להבדלים שנמצאו בין קבוצות שונות, מה יקרה אם מאפיין כזה או אחר יהיה שונה, שאלות שעולות תוך כדי ביצוע ההתערבות, ותהליכי הערכה מעצבת יכולים לסייע במתן מענה ושיפור התכנית.
 
גורמים נוספים שיכולים לצרוך הערכה הם אלו שמקצים כספים לתכניות, בראש ובראשונה גורמים ממלכתיים שיש להם אחריות כלפי המוטבים של ההתערבויות האלה, ואחריות על הכסף המושקע. בשימוש בכספי ציבור ירצו להבטיח כי נעשה שימוש נבון בכספים הללו  כבסיס לקבלת החלטות המשך, למשל האם להרחיב תכנית או פעולה או להפסיקה.  
 
בעולם הפילנתרופי (תורמים פרטיים או קרנות) הציפיות משתנות בשנים האחרונות, ומושגים כמו  נדבה, צדקה, תרומה  ושאיפה "לעשות טוב", מוחלפים בשאלות כמו מה יוצא מההשקעה החברתית שאני משקיע, ובשאיפה "לעשות את הדבר הנכון".  השינוי הזה חשוב ומשמעותי, גם אם לפעמים מגיעים למצבים מוגזמים בהם תורמים מבקשים לדעת מהו ה"אימפקט" של תכנית קטנה על החברה בכללותה, או מבקשים לייחס הצלחות להתערבות מסויימת כאשר השינוי המדובר רחב ונובע ממגוון מקורות. למדידה והערכה יש גבולות ולא תמיד ניתן להגיע למסקנות חד משמעיות כפי שהיינו רוצים.
 
בסיכומו של דבר, בין אם מדובר ביזמים או מפעילים של תכניות חברתיות ובין אם בגורמים מממנים, אנו עוסקים בהתערבויות שבמסגרתן יש הבטחה למוטבים שאם ישתתפו בתכנית, מצבם, או מצב החברה, יהיה טוב יותר. מעבר לכוונות הטובות, יש לכל הנוגעים בדבר מחויבות מוסרית, וצריכה להיות גם ציפייה כזו גם מצד כלל הציבור, שתהיה התייחסות  רצינית לשאלה האם ההתערבויות הללו אכן מועילות. 
 
כתבתי בהקדמה שאיש הערכה לא ייתפס כפסיכומטריקאי. למה זה קורה? למה הערכה אינה דיסציפלינה מוערכת בקרב הפסיכוטמריקאים?  
 
אני מאד סקרנית לשמוע מה ישיב פסיכומטריקאי לשאלה הזו, ואני גם לא מאמינה שכולם חושבים כך באופן קטגורי, אבל בתשובה שלי אני יכולה לנסות להתמודד עם חלק מהביקורת שאני מכירה כלפי התחום: בעיני, סביבת העבודה של המעריך החברתי הוא השדה, הארגון, התכנית, הפעילות בתכנית, ואופי העבודה שלו יותר אינטראקטיבי ומתערב, בהשוואה לסביבת העבודה של הפסיכומטריקאי. כמובן, שסביבה כזו מייצרת "רעש"  ו"מפריעה" ליכולת לבצע עבודה מחקרית טובה, שחשובים - בצדק - לפסיכומטריקאי. בואי ניקח את המשפט שהזכרתי קודם: "תכנית מתמחים חדשה הצליחה לקדם השתלבות בתעסוקה הולמת של 80% אקדמאים מהפריפרייה, לעומת 60% השתלבות לפי נתוני למ"ס ". היכולת לנסח משפט כזה היא משאת נפשו של יוזם התכנית והמפעיל שלה, אבל... הדרך לניסוחו מורכבת ורצופת  אתגרים, כאשר אנו מדברים על התערבות חברתית עם מספר בעלי עניין המתרחשת בשדה (למשל, במספר מוסדות לימוד אקדמיים ומרכזי צעירים בישובים, כאשר המימון לתכנית מגיע ממקורות שונים). למשל - מהי הגדרה של "תעסוקה הולמת" והאם נוכל להגיע להגדרה מוסכמת? האם ההתערבות שהופעלה במוסד אקדמי א' דומה לתכנית שהופעלה במרכז צעירים ב'? מתי מודדים את ההשתלבות – כמה זמן מסיום התואר? האם מודדים לפי השתכרות או לפי שביעות רצון? מיהי קבוצת ההשוואה המתאימה, איך מגיעים אליה ומה מודדים בהשוואה וכו'. גם פסיכומטריקאי מתמודד עם שאלות כאלה אבל נדמה לי שיש לו יותר שליטה על ה"רעש" שהמציאות יכולה לייצר, באמצעות היכולת להפעיל הגדרות וכלים סטנדרטיים ובאמצעות מדגמים מספיק גדולים. המעריך עובד עם הרעש הזה- אינטרסים, אמוציות, שינויים בלתי מתוכננים בהתערבות שמתגלים בדיעבד, לוחות זמנים ותקציב מוגבלים...זה לחם חוקנו.
 
אז איפה הגבולות, מה קובע אם פעילות מסוימת של מדידה והערכה היא "מספיק טובה" או לא?
 
ראשית, האגודה הישראלית להערכת תכניות- איל"ת, ישבה על המדוכה והגדירה קווים מנחים של הערכה ראויה : http://www.iape.org.il/upload/Guidelines%20for%20Worthy%20Evaluation(1).pdf
כמובן שבעקבות האגודה האמריקאית  (AEA) והקנדית (CES). מעבר לכך, אני שוב מדגישה את ההבחנה בין מדידה לבין הערכה. כאשר הערכה מתבצעת ללא מדידה או מתבססת על מדידה מוגבלת מאד בהיבטים של הגדרת המשתנים, הדגימה, הכלים, איסוף הנתונים או עיבודם, בעייתי מאד להסיק מסקנות או לנסח המלצות  You are just another person with an opinion.
מצבים כאלו מתרחשים ביתר שאת כאשר מזמינים את המעריך לפיילוט או להערכה של תכנית שהיא עוד לא מספיק מוגדרת, לפעמים נזכרים במעריך מאוחר מדי או מציעים לו משאבים מוגבלים מדי (תקציב, זמן) ומצפים למסקנות חותכות. במצבים כאלה, הציפייה לא מתאימה, ושביעות הרצון, או היכולת להפיק תועלת מההערכה- בהתאם. אני שבה וטוענת שבהרבה מצבים הערכה יכולה לתרום הרבה יותר אם תהיה גורם מלווה ומשתתף בפיתוח התכנית, כמקור המזמן נתונים ומעודד אצל מובילי התכנית חשיבה שמתייחסת לנתונים, שלומדת תוך כדי תנועה, משנה, מתאימה ומקדמת את התכנית על סמך עדויות. יש דוגמאות לכך, בהבנייה ארגונית של גורם הערכה פנימי (בעיקר בעמותות גדולות, בקרנות פילנתרופיות או מוסדות ממשלתיים) או בהזמנה ייעודית של איש מקצוע חיצוני לסוג כזה של עבודה.
 
משהו נוסף - לדעתי, אם מדברים על הערכת פעולות שמתרחשות בשדה החברתי, לתוצאות חד פעמיות - אפילו אם המדידה היתה טובה - עשויות להיות משמעויות מוגבלות שכן המציאות והסביבה מזמנות שינויים בתכנית, במפעילים, במיקום, באופי המשתתפים. לכן, התועלת ארוכת הטווח והקיימות של ההערכה נמצאים בתהליך  ובהטמעה של חשיבה הערכתית כחלק מההתנהלות הארגונית. 
 
מהי חשיבה הערכתית וכיצד מכניסים אותה לניהול של התכנית?
חשיבה הערכתית כוללת שורה של מיומנויות ותפקודים בשלבי התכנון והניהול של תכנית חברתית או בתפקוד הארגוני השוטף- החל משאילת שאלות והגדרת מושגים ליצירת בהירות ושפה משותפת, דרך הגדרה טובה של מדדים ויעדים למדדים, ניסוח תיאוריית השינוי של ההתערבות להשגת היעדים, ניסוח מודל לוגי שדואג לכך שכל מרכיב בתכנית קשור בצורה לוגית לתוצאות הצפויות, הסתכלות על תגובות הגורמים השונים לתהליך ההערכה, ועד התייחסות מאד קפדנית לכל שאלת ההנגשה של המידע ההערכתי והשימוש שנעשה בו על ידי בעלי עניין שונים.
 
הניסיון שלי מלמד שהתפקודים הללו מביאים ערך גדול מאד לדיוק, לחידוד ולניצול הנכון של משאבי התכנית, כמו גם לצורה שבה אנשים מדברים, מנהלים ומתנהגים בהפעלתה. וכל זה עוד לפני שהתחלנו למדוד משהו! חשיבה הערכתית היא דפוס בו גורמים שונים שמעורבים בהיבטים שונים של תפקוד ארגוני (הכשרה, גיוס, משאבי אנוש, בטיחות, מערכות מידע) משלבים בין השיקולים שלהם גם שאלות שקשורות ב"למה אני עושה", "לאילו תוצאות אני מצפה", "איך אדע שאני מתקדם".
 
המצב המיטבי הוא כמובן של גם וגם: חשיבה הערכתית יחד עם יכולת לבצע מדידה טובה לאורך זמן במערך נכון ולמידה מתוכן. כן, ומדי פעם אפשר גם לעשות מחקר הערכה מסודר, "כמו בספר", ולהגיע למסקנות גדולות עם יכולת הכללה ולקבל החלטות גדולות.
 
לאחרונה ראו אור שתי חוברות מצויינות המציגות בצורה נגישה ויישומית את העקרונות הבסיסיים של הערכה משתפת, ושל שילוב חשיבה הערכתית בארגונים חברתיים. לשמחתי הן גם תורגמו לעברית, ואפשר למצוא אותן בקישור הבא
http://www.rcf.org.il/images/Integ%20Eval%20Capacity%20Final.pdf
http://www.rcf.org.il/images/Participatory%20Evaluation.pdf

 
 
מעבר לשאלה מי צריך הערכה ומהם סוגי ההערכה, חשוב לשאול גם מי נותן מענה לצרכי ההערכה בארץ?
בארץ יש מספר קטן של מכונים המספקים מחקרי הערכה בהיקפים גדולים, יש חברות קטנות יחסית שעושות תהליכי הערכה שונים, ויש יועצים עצמאיים שנותנים שירותי הערכה. בנוסף, חוקרים מהאקדמיה עושים מחקרי הערכה באופי שדומה יותר למחקר אקדמי עם האיכויות הידועות, והמגבלות הספציפיות עליהן דיברתי. זה אולי נשמע הרבה אבל בסך הכל מדובר בכמה עשרות אנשי מקצוע העוסקים במדידה והערכה כעיסוק מרכזי בארץ, זה לא מספיק כבר עכשיו והמחסור יילך ויגדל.
 
מדוע זה קורה?
מצד אחד הביקוש להערכה הולך וגדל, כחלק מההתמקצעות של הארגונים החברתיים, הטכנולוגיה שמאפשרת ומנגישה נתונים רבים, הדרישות של הגורמים המממנים וסיבות נוספות; מצד שני אין לנו מספיק היצע של אנשי הערכה מנוסים בתחום ואף לא של מתחילים. יש מחסור גם בהיבט כמותי וגם בהיבט איכותי, הנובע מכך שהתחום הזה פחות מפותח בארץ עד לאחרונה, ושלא קיימת הכשרה פורמלית אקדמית או אחרת למדידה והערכה חברתיים (פרט להכשרה ייעודית בתחום החינוך). לרוב, אנשים שעוסקים בתחום מגיעים אליו מכיוון שהם יודעים משהו במחקר, מתעניינים בעולם החברתי,  והם לומדים עוד קצת ועוד קצת על הערכה- תוך כדי תנועה. אין לנו דור צעיר שרוכש את המיומנויות הבסיסיות המיוחדות לעבודה של מעריך, וגם לא מספיק הזדמנויות להיחשף לחידושים ופיתוחים הנדרשים ממעריך במאה ה-21. אני חושבת שהמצב הזה צריך להשתנות, אבל זה כבר נושא לבלוג אחר (:
 
מה תרצי לאחל לאנשי ההערכה לשנה החדשה?
שיהיו יותר אנשי מקצוע בתחום המדידה וההערכה, אשר ייצרו יותר חוויות חיוביות בקרב צרכני הערכה, ויסייעו לשיפור באיכות החיים של המוטבים של התכניות וההתערבויות השונות. 
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. liat@basisle.co.il

 
 
לעמוד הפוסט תאריך: 27/10/2015 15:42:00 תגובות:
תגובות

אבחון מותאם תרבות

בלוגומטרי 2   2.8.15
אורח: ד"ר נעם פישמן
מנחה: ד"ר ליאת בסיס

 
אבחון מותאם תרבות
 
עד 2008 למדתי להעריך תהליכי מיון דרך שני קריטריונים בלבד – תוקף ויעילות.
מפגש עם עירית תמיר, מנכ"לית קו משווה בזמנו, פתח לי צוהר לקריטריון נוסף של הוגנות, שרק בשנים האחרונות תופס תאוצה בישראל. זה מה שנולד מאותו המפגש:
קישור לממצאי מחקר קו משווה בנושא אבחון רב תרבותי
 
 
ביוני 2015 נשא נשיא המדינה, רובי ריבלין, דברים בכנס הרצליה. עיקר המסר שלו נסב סביב החלוקה של המדינה לארבעה שבטים מובחנים, והזכיר כי כיתות א' היום מורכבות מכ-38% חילונים, 15% דתיים, כרבע ערבים וכרבע חרדים. הוא דיבר על החשיבות שביצירת שותפות בין ארבעת השבטים הללו וציין כי היא צריכה להיות מבוססת על ארבעה יסודות. אחד היסודות שציין הוא האחריות המשותפת להתמודד עם אתגר הצמיחה במשק והאחר הוא הוגנות ושוויון – להבטיח שאף אזרח אינו מופלה לרעה או לטובה מתוקף השתייכותו המגזרית. את השותפות הזו, כך לדבריו, יש ליישם בכל זירה בחיינו. אחת הזירות המשמעותיות היא זירת התעסוקה בה עדיין תהליכי מיון חשודים כמי שמהווים חסם לקבוצות מגוונות להשתלב.
 
הזמנתי את ד"ר נועם פישמן להתארח בבלוגומטרי ולספר קצת על המחקר והפיתוח המתהווים בישראל בתחום המיון הרב תרבותי.

שלוש עובדות על נועם.
  1. יליד ברוקלין, ניו יורק. עלה בגיל 30 לאחר שהשלים תואר שלישי בפסיכולוגיה מחקרית ב-CUNYCity University of New York.
  2. חוקר 9 שנים במכון ברוקדייל בתחום התעסוקה והעוני. במסגרת זו מבצע מחקרי הערכה רבים, בתכניות תעסוקה שמעודדות אנשים מקבוצות מגוונות להשתלב או להתקדם בתעסוקה. מתמחה בתחום של קליטת יוצאי אתיופיה בדגש על תעסוקה.
  3. בשנים האחרונות הוביל את המחקר של אמת (אבחון מותאם תרבות) עבור ג'וינט ישראל, תב"ת, שעליו יספר מיד.
 
נועם היי!
איך מצאתם את עצמכם מתעסקים בנושא של אבחון מותאם תרבות?
בתבת (ראשי תיבות של "תנופה בתעסוקה", תכנית של ג'וינט ישראל וממשלת ישראל שמטרתה לצמצם את מעגל העוני על ידי שילוב וקידום בתעסוקה) התקבלו דיווחים ממשרדי הממשלה שיש קושי לגייס מועמדים ממוצא אתיופי בכלל ואפילו במכרזים ייעודיים ליוצאי אתיופיה. מצד אחד הגישו מועמדות מעטים, מצד שני היה קושי בתהליך המיון לאתר את המועמד המתאים.
 
במקביל התקבלו דיווחים דומים מהמגזר העסקי והבטחוני שגם כשיש את הרצון להעסיק מועמדים ממוצא אתיופי, יש קושי בגיוס ובמיון המועמדים.  
 
הרבה מתהליכי הקבלה בארץ נשענים על מבחני מיון, וחלק משמעותי מתוכם הם מבחני כישורים שכליים או mental ability tests ולרוב משמשים בתהליכי הסינון הראשוניים בשל שילוב של דיוק ועלות. עלתה ההשערה שאלה מהווים חסם משמעותי לקבוצות מיעוט שונות כיוון שאינם מותאמי תרבות.
 
אבחון מותאם תרבות נולד מהרקע הזה ומהרצון להגביר את הגיוון במקום העבודה וההבנה שהחסמים דורשים התערבות.  
 
רגע פותחת סוגריים של סקרנות, אמרת הרבה מתהליכי המיון בארץ נשענים על מבחני מיון, האם בארצות הברית זה אחרת?
בשירות המדינה האמריקאי זה דומה, יש מבחנים, רק הרבה יותר נגישים. אבל מבחני מיון הם יותר נדירים בארצות הברית, הכלי השכיח הוא ראיונות. אך למרות שהם פחות שכיחים, רוב המחקרים בנושא מגיעים מארצות הברית. זה בגלל שהרבה חברות ומכוני המיון שם מנסים לשווק את עצמם תוך כדי הפצת המחקרים שלהם בז'ורנלים מקצועיים ובארץ זה חסר. פה, לצערי, אין פרסום של תוצאות באופן נגיש לציבור, אך הם עדיין בשימוש רב!
 
איך עברתם מ"התחושות מהשטח" למשהו שאפשר לקבל החלטות לאורו?
תכנית אמת נולדה לאור התחושות מהשטח ובשלב ראשון תב"ת ביקשו מאיתנו (מכון ברוקדייל) לבחון האם המבחנים הם חסם מרכזי או שיש הסברים אחרים.
 
עשינו סקירת ספרות מקיפה שבחנה את המיון לעבודה ושיטות להגביר את הגיוון במקומות העבודה באמצעות תהליכי מיון. מסקירת הספרות למדנו על דילמה רחבה בתחום המיון שהיא דילמת מגוון-תוקף (The diversity-validity dilemma) לפיה ככל שהכלים טובים יותר בניבוי תפקוד בעבודה (או בבחירת המועמדים המתאימים ביותר), יש ירידה בגיוון כי הם יוצרים פערים בציונים לרעת מועמדים מקבוצות מגוונות.
כמו בכל דילמה, אין פתרונות חד משמעיים אבל יש כמה שיטות וחלקן די מצליחות. למשל הורדת המשקל של מבחני כישורים שכליים ומדידת מגוון מאפיינים. עוד עלה כי הפתרון של מבחני אינטליגנציה חלופיים לא מסייע והפערים נשמרים.
 
במקביל לסקירת הספרות רקמנו שיתוף פעולה עם מכון אדם מילא שסיפק נתונים מתהליכי המיון שלהם עבור 180 מועמדים ממוצא אתיופי שעברו יום אבחון במכון. הרכבנו קבוצת השוואה דומה מבחינת תפקיד, מין ומועד המיון ובחנו הבדלים בציוני המיון, מבחני כישורים שכליים, דינמיקה קבוצתית, ראיון וחוות דעת מסכמת. ההבדלים הגדולים ביותר נמצאו, אכן, בכל מבחני הכישורים, פערים מתונים יותר בדינמיקה הקבוצתית ובחוות הדעת המסכמת, בראיון לא נמצאו הבדלים משמעותיים. 
 
אישרתם את התחושות שעלו מהשטח, הבנתם שיש בעיה. מה עשיתם אז?
הצגנו את הממצאים בשלושה מעגלים: נציגי הקהילה, מומחים בתחום הפסיכומטריקה ומעסיקים. בשלושת המעגלים חזרה ועלתה השאלה האם הפערים שאנחנו למדים עליהם במיון, משתקפים גם בעבודה. לצידה היתה ההשערה כי בעבודה הפערים קטנים משמעותית.
 
לאור זאת, החלטנו לערוך מחקר של תוקף בו זמני שיאפשר שני דברים. אחד, לבדוק האם הפערים במיון משקפים פערים בעבודה, ושנית, לבדוק את התוקף וההטיה של כלים חלופיים רגישים תרבותית. 

מה זה כלים רגישים תרבותית?
כלים שנמצאו לפי הספרות בעלי פוטנציאל לייצר תוקף מצד אחד, ופחות פערים בין קבוצות, מצד שני. למחקר הנוכחי נבחרו לכן ראיון מובנה ושאלון ביוגרפי (ראו תרשים שמבוסס על מטה אנליזה מ-2008 – Ployhart & Holtz, 2008)).

כלים שנבנו בצוות פיתוח הטרוגני שריכזה טלי סמני, שכלל פסיכומטריקאים ביחד עם חברי הקהילה האתיופית בבקרה של נציגי החברה הערבית והחרדית שנתנו את הערותיהם על כל הכלים.
 
בטריית כלים שמיועדת לבחון כ-15 כישורים ומאפיינים שנבחרו מראש ככאלה שחשובים למעסיקים.
וכן ניסיון לבנות מבחני כישורים שכליים תלויי הקשר, שמועברים בצורה אישית.

 

בסופו של דבר הבטרייה כללה, לצד המבחנים הקיימים (מבחני כישורים), את הכלים הבאים:
  • שאלון ביוגרפי (bio-data), שאלון רב ברירה על ההיסטוריה של הפרט ודברים שעשה בהקשרים שונים. בכל תחום 6-15 שאלות, השאלון נבחן ושופר באמצעות ניתוח פריטים.  
  • ראיון חצי מובנה – הועבר על ידי מעריך מקצועי במכון המיון. ראיון שכלל שאלות לפי מאפיינים מוגדרים, מחוון להערכה וטופס הערכה מובנה.
  • משחק תפקידים – 5 דקות של משחק תפקידים שמכוון למספר מצומצם של מאפיינים והערכה לפי מחוון. אמור היה להיות תחליף למבחן מצב קבוצתי שעשוי להלחיץ יותר עבור קבוצות מיעוט.
  • שלוש משימות של כישורים שכליים צורני, כמותי ומילולי.
  • מבחני אישיות – שאלון הגריט (שאלון קצר שבודק סיבולת) ושאלון Big5 חדשני בגישה הוליסטית (מוצג תיאור של אדם והמועמד מציין באיזו מידה הוא דומה לו, בכל תיאור האדם בעל רמות שונות בגורמי ה-Big5).
 
ובכן...איך נראה המחקר?
החלק הקשה היה גיוס מעסיקים. חיפשנו מעסיקים שהיו צריכים להיות מוכנים לשלם לעובדים על יום עבודה בו יצאו ליום מבחנים ארוך במכון מיון, שהעובדים יסכימו לכך וכן שיאפשרו שהממונה עליהם ימלא חוות דעת על התפקוד שלהם בעבודה. כמו כן ביקשנו על כל עובד מקבוצת מיעוט, עובד מקביל מהאוכלוסייה הכללית. 30 מעסיקים ויותר הגיעו לימי חשיפה כדי ללמוד על המחקר והתכנית. כמעט כולם הסכימו שיש בעיה וצריכים למצוא לה פתרונות אך להשתתף במחקר רק מעטים ניאותו. בסופו של דבר גייסנו מספר קטן של מעסיקים משלושת המגזרים - ציבורי, עסקי וחברתי.
 
140 משתתפים לקחו חלק במחקר, יוצאי אתיופי אקדמאים ולא אקדמאים, ערבים אקדמאים ואוכלוסייה כללית אקדמאים ולא אקדמאים. כולם הגיעו ליום מיון מלא כולל הכלים הקיימים והחדשים. מכון המיון עבר הכשרה להעברת הכלים ונאספה על כולם חוות דעת מהממונה, כללית וכן עבור כל אחד מ-15 המאפיינים.
 
לפני שתשאלי אותי על הממצאים, חשוב לזכור את מגבלות המחקר. בעיקר בהיבט של גודל המדגם (קטן כאשר מחלקים לקבוצות השונות) וייצוגיות גם בהיבט של מעסיקים ותפקידים. ובכל זאת מסתמנים כאן כמה כיוונים שניתן להתחיל וללמוד מהם.
 
נראה לי שזה זמן מתאים לשאול מה מצאתם?
מצאנו כי שלושת הכלים בעלי הפוטנציאל הרב ביותר לניבוי הצלחה בעבודה לצד צמצום בפערים בין הקבוצות היו שאלון ביוגרפי, ראיון אישי מובנה ומשחקי תפקידים. השאלון הביוגרפי נמצא ככלי התקף ביותר והראה פערים מתונים שהיו הרבה יותר קטנים מהפערים שנמצאו במבחני הכישורים השכליים ומעט קטנים יותר מהפערים שנמצאו בתפקוד בעבודה. אחריו הראיון החצי מובנה ומשחקי התפקידים, שניהם הראו תוקף בו זמני דומה למבחני כישורים שכליים עם פערים הרבה יותר קטנים, שגם היו דומים לאלה שנמצאו בתפקוד בעבודה.
כל זה בהשוואה בין יוצאי אתיופיה לבין אוכלוסייה כללית. לגבי הערבים, בדרך כלל ההבדלים לא היו מובהקים אבל היתה מגמה שבכלים החדשים הערבים היו דומים או יותר טובים מהאוכלוסייה הכללית, אבל במבחני הכישורים המסורתיים, היה פער מתון לרעת הערבים.
 
התוקף הבו זמני של המשימות החלופיות לבחינת כישורים שכליים, היה מעט גבוה יותר מבחינת היכולת לנבא תפקוד בעבודה אך אלה לא הצליחו לצמצם את הפערים שנמצאו גם בכלים הקיימים, בהתאם לספרות. 
 
מבחני האישיות במחקר שלנו ובדומה לספרות, לא יצרו הבדלים בין קבוצות אך היכולת שלהם לנבא תפקוד בעבודה היתה מוגבלת.
 
חשוב לציין כי הכלים זמינים לשימוש וניתן לפנות לתב"ת לקבלת פרטים נוספים.
 
כיצד תרצה לסכם?
מה שאני לוקח מכל זה שאם באמת יש לארגונים או למדינה רצון להגביר את הגיוון במקום העבודה, דרך אחת להוביל את זה היא לעשות שינויים בתהליכי מיון וניתן לעשות שינויים ואף לשפר את התהליכים מכל הבחינות.



הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך.
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. liat@basisle.co.il

 
לעמוד הפוסט תאריך: 06/08/2015 11:24:00 תגובות:
תגובות

המהפכה שבוששה לבוא

בלוגומטרי1 24.5.15
אורח: ד"ר יואל רפ
מנחה: ד"ר ליאת בסיס

המהפכה שבוששה לבוא

בתחילת שנות ה-2000 הייתי שותפה לצוות מחשוב מבדקי קצונה. אז כל תחנת המבד"ק היתה מופעלת באמצעות נייר ועפרון. הרבה מורכבויות וחסמים ניצבו בפנינו. היה ברור שהטכנולוגיה כבר כאן ושצריך להשתמש בה כדי לשכלל את תהליכי המיון שלנו, לאפשר גמישות, מחקר, שיפור מתמיד וסוגים מגוונים של מבחנים. לקח כעשור עד למחשוב מלא
של התחנה. בסוף זה קרה וזה ממשיך להשתכלל גם היום. ומי גרם לי להעלות את הזיכרונות הללו מן האוב?


אני שמחה להציג בפניכם את האורח שלי לבלוגומטרי הראשון:
ד"ר יואל רפ!
שלוש עובדות על יואל. 
  1. לפני עשרים שנה יואל עבד במחלקת CAT במרכז הארצי לבחינות היה שותף לפיתוח המבחן הפסיכומטרי הראשון הממוחשב - הקומפיומטרי - מבית היוצר של המרכז הארצי לבחינות שהיה מבוסס על יישום תיאוריית ה-IRT, מבחן אדפטיבי מלא.
  2. מזה כתשע שנים הוא עומד בראש אגף בחינות של ראמה (הרשות הארצית לבחינות והערכה), אחראי על פיתוח מבחנים רחבי היקף במערכת החינוך. 
  3. הוא יושב הראש של האגודה הישראלית לפסיכומטריקה, שאת הבלוג הזה אני מנחה במסגרתה. 

יואל שלום! על מה נדבר היום?
אני רוצה לדבר על מהפכה שמדברים עליה כבר הרבה זמן, שמורגשת בתחומי חיים אחרים אך לא מספיק בתחום שלנו. מזה כשלושים שנה עולם הפסיכומטריקה מחכה למהפכה הדיגיטלית. המעבר ממבחנים בנייר ועפרון (מבחנים רחבי היקף) למבחנים רחבי היקף ממוחשבים או מתוקשבים (ממוחשבים המועברים באמצעות רשת האינטרנט בזמן אמיתי). 


מבחנים ממוחשבים (לרוב לא מתוקשבים) קיימים במערכת החינוך וההשכלה הגבוהה, במבחני הכניסה לצה"ל
ובחברות השמה ומכוני מיון. מה אתה רוצה לבשר בהקשר הזה?

המהפכה הטכנולוגית בתחום שלנו מתרחשת בקצב הרבה יותר איטי מכפי שציפינו לפני 20 שנה ומכפי שרואים בתחומי חיים אחרים, כמו קריאה אלקטרונית או דואר או מסחר אלקטרוני, אנחנו מצויים הרחק מאחור לעומת המהפכה שקרתה שם. 


בתחום של קבלה לעבודה יש לפעמים מבחנים מתוקשבים משוכללים ואף שימוש בסימולציות מורכבות ובטכנולוגיות גיימינג - משחוק (כלומר השימוש בפלטפורמות של משחק בהקשר של תיאום ציפיות ובדיקת יכולתם של הנבחנים
לפתור בעיות). למשל, בחברת דואר צרפתית הייתה נשירה של 25% מהדוורים. החברה פיתחה מבחן מיון למועמדים לתפקיד דוור בצורת משחק שדימה שבוע טיפוסי של דוור
(http://formaposte-iledefrance.fr/jeu-facteur-academy/) . מטרת המשחק היתה לתאם ציפיות מול האתגרים שמולם ניצב הדוור ולאחריו ירדה הנשירה ל-8%. ובכל זאת נדמה שזו טיפה בים ועדיין לא רואים הרבה מבחנים כאלו. אז... 
למה דווקא בתחום שלנו המהפכה מבוששת לבוא?


אני יכול למנות מספר סיבות לכך ובעיקר:
  1. חוסר תשתית להעברת מבחנים המוניים ובטיחות הבחינות – כיום במערכת החינוך, ירידה לשטח מגלה, כי בבתי ספר רבים התנאים עדיין לא בשלים להעברה סימולטנית של מבחנים לאלפי נבחנים.  גם בבחינה הפסיכומטרית
    אין די אולמות בעלי תשתיות מחשב שיאפשרו בחינה פסיכומטרית סימולטנית לאלפים. כל עוד החלופה היחידה לכך היא מבחנים באופן לא סימולטני (בכל פעם בחינה לקבוצה קטנה יחסית של נבחנים ובמועדים שונים) או היבחנות הנשענת על המחשבים בביתם של הנבחנים, אזי כאשר מדובר במבחנים רחבי היקף שהם עתירי-סיכון עדיין לא נפתרו בעיות בטיחות הבחינות מצד אחד, ואימות זהות הנבחנים (במבחנים מתוקשבים שנערכים מביתם של הנבחנים) מצד שני. כלומר, בחינה שאינה מתבצעת במקביל לכל הנבחנים במועד מסוים, תביא למצב שהנבחנים הראשונים ידליפו את המבחן לנבחנים הבאים אחריהם. במבחנים שנערכים בביתו של הנבחן, קשה להבטיח את זהותו של הנבחן וכי הוא מבצע את המבחן לגמרי לבדו. 

     
  2. מורכבות ועלויות – אחת ההבטחות במעבר למבחנים ממוחשבים, אשר הצדיקה את המאמץ לעשות את המעבר, הייתה הגברת התוקף שלהם באמצעות מטלות ודרכי תגובה חדשניות אשר מדמות בצורה טובה יותר את המציאות. לדוגמא משימות חקר לתלמידים במערכת החינוך או מבחני דילמות למועמד לעבודה. בנוסף הובטח כי המבחן יוכל לאפשר התחקות אחר תהליכי החשיבה וההשבה של הנבחן ולא רק יספקו את תשובתו הסופית (למשל , באילו מסכים ביקר,
    כמה זמן לקח לו, ומה היה תהליך החקר שערך טרם מתן התשובה וכו'). ההבטחות הללו לא התממשו כי כדי לבנות
    משימות כאלו נדרשים משאבים רבים, ראשית נדרש צוות של כמה אנשי מקצוע – מתכנתים, פסיכומטריקאים ואנשי חינוך (במבחנים של מערכת החינוך) כמובן אך גם , פסיכולוגים קוגניטיביים, ולעיתים אף אנשי מדעי המוח. נדרש מאמץ אדיר בבניית המשימות, ולאחר מכן בניתוח. כמו כן עוד לא התפתח הידע המתקף את תהליכי החשיבה וההשבה כחלק מהמדידה עצמה. בעניין זה ישנו מלכוד . לדוגמא נמצא שמי שמשיב מהר יותר (במבחנים לחוצי-זמן),  הביצועים שלו נוטים להיות טובים יותר במבחן. אולם אם נבחנים ידעו שזמן התגובה נחשב בחישוב הציון (ולמען השקיפות אכן נכון שידעו כיצד מחושב הציון), דרכי התגובה שלהם עשויות להשתנות , למשל, מה שעשוי לקרות הוא שהם יזדרזו להשיב והדבר יפגע בביצועים. 

     
  3. ממתינים למהפכה הדיגיטלית בחינוך תחילה - בהקשר של מערכת החינוך, חשובה ההלימה בין דרכי הבחינה לדרכי הלמידה. אם לא לימדת באמצעות מחשב לא הגון לבחון את הידע באמצעות מחשב. תלמידים מצפים שיבחנו אותם על מה שהם למדו ובאופן בו הם למדו. במעגל של הוראה-למידה-הערכה, כל עוד ההוראה ולמידה לא נעשות באמצעות מחשב, זה מעכב את המעבר למבחנים ממוחשבים. אמנם נכון כי לעיתים העמדתם של מבחנים ממוחשבים עשויה להשפיע על ההוראה ולזרז את המעבר לפדגוגיה ממוחשבת אך הכיוון הנכון הוא להתחיל בפדגוגיה ממוחשבת ולהתאים לכך את המבחנים. זה כמובן פחות רלבנטי למבחני מיון והשמה בצבא ובמקומות עבודה מאחר ושם הבחינה מתרחשת  בדרך כלל לפני התהליך עצמו, ולגיטימי לנסות לנבא את ההצלחה בסביבה בה מחשבים הם חלק אינהרנטי. 


מה עשוי לגרום לזה לקרות בעשור הקרוב? האם יש מקום לאופטימיות?
הנה כמה נקודות שעשויות לפנות מקום לתקווה. 
  1. עלייה באיכות המחשבים ובתקשורת באמצעות  עננים יביאו להפחתת התלות במערכות החומרה והתוכנה (במחשבים בתחנות הקצה) ולהגבר  את הביטחון שהמבחנים (עתירי הסיכון) יעברו ללא תקלות. 
     
  2. המבחנים הבינלאומיים הופכים להיות ממוחשבים, המבחנים בפיזה החל מ-2015 ממוחשבים לגמרי  http://cms.education.gov.il/EducationCMS/Units/Rama/MivchanimBenLeumiyim/PISA_2015.htm 
    וב-2016, מתווסף חלק ממוחשב למבחן ה-PIRLS  (מבחני קריאה בכיתה ד') ההשפעה של המבחנים הבינלאומיים רבה. הם מסמנים את הכיוון שאליו הולך העולם ולמדינות מאוד חשוב להפגין הצלחה במבחנים האלו. לפיכך, צפוי כי מדינות יתחילו יותר ויותר להשקיע במעבר לפדגוגיה דיגיטלית (או אולי רק במבחנים ממוחשבים). 

     
  3. התוקף הנראה של המבחנים גבוה יותר, תלמידים יותר אוהבים ומשתפים פעולה, זה יותר דומה לדברים אחרים שהם עושים בחיים (משחקים, גלישה באינטרנט וכו'). יש יותר אפשרויות בבחינת תלמידים בעלי צרכים מיוחדים וסטנדרטיזציה של התנאים המותאמים שהם מקבלים במבחנים.
     
  4. ההדלפה של השאלות מהמבחנים עתירי-הסיכון מטרידה היום הרבה יותר את הציבור ואת המערכת. בניגוד לעבר, שבו קרוב לודאי שגם היו הדלפות, הרי שהיום, בגלל הטלפונים הניידים והקבוצות החברתיות, כל הדלפה לוקאלית של חומרי מבחן מגיעה בתוך שניות לכל ילדי ישראל וכך "נשרפים" נוסחי בחינה יקרים. כפי שקרה לאחרונה עם מספר בחינות בגרות (http://www.ynet.co.il/articles/0,7340,L-4656091,00.html). אנו מאמינים כי במבחנים הממוחשבים אשר משוגרים לכל הנבחנים ברגע נתון יש פחות סכנת דליפה כיון שנמנע הצורך משינוע המבחנים
    למקום המבחן. בשעת המבחן, כל אחד רואה רק את המבחן שלו (יש מספר גרסאות רב יותר) וקשה יותר להעתיק.  

     
  5. טכנולוגיות של ניתוח תוכן הולכות ומשתכללות, אם בעבר שאלות פתוחות היו חייבות להיבדק על ידי בוחן אנושי, דבר שכמעט אילץ להימנע משימוש בהן במבחנים ממוחשבים שבהם היה רצון לחשב את הציון מיד בתום המבחן, הרי שכיום מתפתחות מערכות של בדיקה אוטומטית של תכנים פתוחים. למשל, המערכת של המרכז הארצי לבחינת חיבורים, פותחת פתח לבחון את התלמידים ולתת להם ציון מיד בתום הבחינה. ככל שאלה יתפתחו ויהפכו להיות יותר זמינות ופחות יקרות יינתן עוד בוסט למהפכה. 

לאור כל זאת בעשור הקרוב אולי אנחנו עומדים כנראה לחזות בשינוי. בכל מקרה הצפי שלי הוא לתהליך אבולוציוני ולא רבולוציוני. הדבר לא יקרה בן לילה ונרגיש בשינויים בהדרגה. 



הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך. 
מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים. liat@basisle.co.il
 
 
לעמוד הפוסט תאריך: 07/06/2015 18:41:00 תגובות:
תגובות

בלוגומטרי

חדש!  הבלוגומטרי!
ידיעון אפי הפך לבלוג.
 
הבלוגומטרי הוא פלטפורמה נגישה להחלפת מידע ודעה בתחום המדידה וההערכה.
בבלוג יתפרסמו עדכונים, חידושים, דעות ומידע חשוב לעוסקים בתחום ולמתעניינים בנעשה בתחום הפסיכומטריקה בישראל.  
 
אתם מוזמנים להתארח בבלוג ולשתף במחקרים, פרויקטים, מבחנים חדשים, כנסים מעניינים ועוד. אנא העבירו כל חומר רלבנטי למנחת הבלוג, ד"ר ליאת בסיס liat@basisle.co.il

 
לעמוד הפוסט תאריך: 12/05/2015 17:15:00 תגובות:
אפי - אגודה ישראלית לפסיכומטריקה, ע"ר 580461648 : ispaisrael@gmail.com


לייבסיטי - בניית אתרים