top of page

השילוב בין פסיכומטריקה לבינה מלאכותית (AI) ולמידת מכונה (ML) – איך עומדת להיראות המהפכה החדשה בתחום הפסיכומטריקה והמבחנים?
מאת: ד"ר יואל רפ, מנהל מדור בחינות ממוחשבות, המרכז הארצי לבחינות ולהערכה
פרטי קשר להתייחסות: yoel@nite.org.il


* תודה לד"ר יגאל אטאלי על הערותיו המועילות

 

בשנים האחרונות מושקעים מאות מליוני דולרים בטכנולוגיות של בינה מלאכותית (Artificial Intelligence - AI) ועיבוד שפה טבעית (NLP - Natural Language Processing) על ידי חברות מערביות. דומה שהמערכות הללו נמצאות כבר בכל תחום בחיינו, החל מנהיגה בכבישים, סייעות כמו סירי בטלפון הנייד, בוטים ברשתות החברתיות וכד'. לאחרונה החלו הטכנולוגיות הללו משתלבות באופן משמעותי יותר גם בתחום המבחנים והפסיכומטריקה.
 

השילוב בין אוטומציה של תהליכים שנעשים על ידי גורמי אנוש לבין מבחנים ופסיכומטריקה אינו חדש לגמרי. רעיונות ומערכות ראשונות החלו מופיעות לפני למעלה משני עשורים. בהתחלה היו אלו מערכות שפיתחו פריטים באופן אוטומטי (Automatic Item Generation) בכפוף לכך שאפשר היה למדל את הפריטים ולקבוע מה הם ה"איברים" המשתנים שבהם. פיתוח מערכות כאלו דרש שיתוף פעולה בין אנשי מחשבים, פסיכולוגים קוגניטיביים ופסיכומטריקאים. בערך באותן שנים הופיעו מערכות לבדיקה אוטומטית של חיבורים ושל תשובות תלמידים לשאלות פתוחות.

שינוי גדול נוסף שהורגש בכמעט כל מוסד לימודים התחולל בתקופת משבר הקורונה, שבה מיליונים נאלצו להיבחן מהבית במבחנים נעדרי סיכון ועתירי סיכון כאחד, כאשר ההשגחה על טוהר הבחינות נעשית מרחוק (e-proctoring). לצד משגיחים אנושיים, חברות רבות של השגחה ואדמיניסטרציה של מבחנים ממוחשבים השתמשו במערכות ממוחשבות המתריעות בכל פעם שהן מזהות התנהגות חריגה וחשודה בפגיעה בטוהר הבחינות על ידי הנבחנים.
 

נראה שעתה אנו עומדים שוב בפתחה של מהפכה משמעותית בתחום המבחנים. עם ההתקדמות האדירה בתחום ה-AI ובתת התחום שלה, NLP, מערכות ממוחשבות יודעות כיום לחבר שאלות מבחן פתוחות או סגורות (למשל שאלות רב ברירה) על כל המשתמע מכך: גזע השאלה, התשובה הנכונה והמסיחים ללא מודל מובנה מסוים. יתירה מכך, המערכות יודעות לחבר טקסטים, בין אם טקסט קצר המהווה את גזע השאלה ובין אם טקסט ארוך המשמש גריין המלווה במספר שאלות הבנה אודות הטקסט (בעיקר במבחני הבנת הנקרא). לא, אין הכוונה לכך שהמערכות סוקרות את כלל המידע הנמצא באתרים באינטרנט ובוחרות משם טקסטים מתאימים למבחן, אלא במערכות שמייצרות בעצמן את הטקסטים יש מאין. נשמע מדע בדיוני? לא עוד.


לאחרונה השיקה חברת Duolingo בענף מבחן האנגלית שלה, מבחן מקוון אדפטיבי שבוחן שליטה בשפה האנגלית ברחבי העולם. פיתוח הטקסטים למבחן נעשה בידי מכונה. כמו כן, חברת Finetune, שנרכשה לאחרונה על ידי חברת המבחנים Prometrics, העמידה את הידע שצברה בפיתוח מערכות AI לטובת פיתוח טקסטים המתאימים לפיתוח מבחני הישגים. לפי דברי החברה, לא רק שהמערכות שלה יודעות לפתח טקסטים לבדיקת הבנת הנקרא, אלא שהן גם יכולות לפתח טקסטים בתחומי לימוד שונים, לפתח שאלות מבחן שבודקות רמות חשיבה על פי הטקסונומיה של בלום, לקבוע לאיזה סטנדרט לימודי מתאימה כל שאלה, ולמפות את המבחן שנבנה. הן גם יודעת לעבור על ספרי לימוד, למפות אותם לפי נושאים, ולקבוע לגבי כל נושא את מידת ההתאמה שלו לסטנדרטים. כך, המערכות יכולות לתמוך בעבודה הסיזיפית של פיתוח מבחני הישגים ומיפוי התוכן שלהם, מיפוי ספרי לימוד, סימון החלקים החשובים ועוד.
 

אז איך זה עובד? בעיקרון, כבר כיום ישנן מערכות כמו מערכות GPT3 אשר "מבינות" את המבנה הלשוני של השפה הטבעית על כל היבטיה. הן מסוגלות ללמוד ולחקות את הפורמט, הסגנון, הסוגה והרמה הלשונית של טקסטים על פי מספר דוגמאות שמסופקות להן. ככל הנראה אפשר להסתפק בפחות מ-10 דוגמאות של הטקסטים הנדרשים כדי שהמערכת תייצר טקסטים חדשים באותו סגנון ללא מגע יד אדם. הטקסטים הללו הם קוהרנטיים, בעלי משמעות ורוב האנשים לא מסוגלים להבחין בינם לבין טקסטים שפותחו על ידי בני אנוש. מערכות כמו GPT3 מציבות הזדמנות למפתחי מבחנים ופריטים מסוגים שונים. נעשו גם ניסיונות מוצלחים לפתח מבחני אישיות עם היגדים שיוצרו על ידי מערכות כאלו.


ניסיון העבר שלי בפיתוח מבחני המיצ"ב לימדני כי אחת מאבני הנגף המעכבים ביותר פיתוח מבחנים בשפות ובמקצועות אוריינים הכוללים טקסטים, היא איתור טקסטים שישמשו כגריינים. למשימה זו היו מוקדשות עשרות שעות עבודה של מומחים ואין סוף ויכוחים על טיבם של הטקסטים ומידת התאמתם למבחן. אמנם הטקסטים שמפותחים כיום על ידי המכונה עדיין מחייבים בחינה של עין אנושית והגהות, וסביר שחלק גדול מהם אף יפסלו (לפי Attali et. al. 2022, כ-50%), אך אין ספק שיש כאן פריצת דרך, וכי ככל שהמערכות יתקדמו וישתפרו, יהיה אפשר לקבל טקסטים ושאלות מבחן איכותיים באופן מידי וללא מגבלה.


לדברי אנשי Duolingo הם כבר פיצחו גם את שאלת רמת הקושי של הפריטים והצליחו ללמד את המכונה לפתח פריטים ברמת קושי מסוימת (Alina von-Davier, 13.10.2022). אם כך, ייחסך הצורך לפתח בנק פריטים גדול מראש ולהעבירו למאות נבחנים על מנת לעמוד על הפרמטרים של הפריטים, והדבר יאפשר יצירת מבחן אדפטיבי "און-דה-פליי". כך גם תיפתר בעיית ההדלפה של שאלות וטקסטים בין נבחנים במבחנים ממוחשבים אדפטיביים או לינאריים, שכבר כיום ניתן להיבחן בהם במועדים אישיים (כלומר, לא במועד מסוים ולא באופן סימולטני עם עוד אלפי נבחנים). מאחר שישנן מערכות מבוססות AI שגם יודעות להעריך שאלות פתוחות יהיה אפשר לוותר על המגבלה של משך זמן מינימלי בין מבחן למבחן, ונבחן יוכל להיבחן בבחינה חוזרת כמה דקות לאחר שסיים את הבחינה הקודמת.
 

מהם הסיכונים והבעיות של פיתוח כזה? מעבר לקושי הפסיכולוגי שברעיון שנבחנים יבחנו ושגורלות אדם יקבעו על ידי מבחנים שפותחו על ידי מחשבים, הקושי העיקרי שאורב בפיתוח כזה הוא שהמחשב בסופו של דבר יבנה מבחנים מוטים ומפלים בדיוק כמו בדוגמאות שהוצגו לו ושפותחו על ידי אנשים. אם הטקסטים והשאלות של מבחן מוטים לרעת קבוצת מיעוט מסוימת או לרעת נשים, רוב הסיכויים שהמכונה שתפתח טקסטים ושאלות על בסיס אותן דוגמאות יהיו מוטים אף הן. כלומר, המבחנים שיפותחו על ידי מערכות ה-AI עלולים לשמר את העיוותים וחוסר ההוגנות שבמבחנים הקיימים.

כדי להתגבר על כך יש צורך "להזין" את המכונה בדוגמאות של מבחנים הוגנים. כאמור, כיום ה-AI תומך בתהליכי פיתוח ועדיין נדרשת מעורבות אנושית לא מבוטלת, אולם יש לקוות שבעתיד, כשאפשר יהיה לפתח מבחנים עם פחות התערבות אנושית, לא תהיה מגמה של התנערות מאחריות של החברות והגופים שיפתחו מבחנים. מומחים טוענים כי יהיה צורך להסדיר את התחום ולקבוע סטנדרטים ודרכי רגולציה כדי להבטיח אתיקה ושימוש הולם והוגן.
 

מתי בישראל? בינתיים המערכות הללו קיימות, למיטב ידיעתנו, רק בשפה האנגלית, אך העקרונות הוצבו והתובנות קיימות. על פי המומחים, בטווח של 5–10 שנים הן תהיינה קיימות גם בשפות אחרות (תקשורת אישית, Sara Vispoel, Alina von-Davier, 13.10.2022, Simmy Ziv-el). לצורך פיתוח מערכות כאלו יש צורך בשיתוף פעולה בין אנשי AI ו-NLP של שפה ספציפית ובין פסיכומטריקאים, והדבר כרוך בהשקעת משאבים רבה ובהבשלה של שנים.

לצד זאת, הולכות ומשתפרות המערכות שיודעות לתרגם בין שפות. לכן, יש סיכוי די גדול שבטווח של כעשר שנים, גם בארץ עבודת הפיתוח של מבחנים תתבסס בעיקרה על מערכות AI ותהיה יעילה וזולה יותר מהיום. אם איננו רוצים להיות במאסף של התהליכים הללו ועל מנת להקטין את התלות שלנו בחברות העשירות האמריקאיות שכרגע מובילות את התחום ובהמשך ישלטו בו, כדאי לנו לנסות ולפתח מערכות כאלו בעברית ובערבית ולהתחיל לחפש דרכים לפתח לעצמנו יכולות בינה מלאכותית לפיתוח מבחנים כבר כיום.


לקריאה ועיון נוספים:

  • פיתוח מבחן האנגלית של Duolingo:


Attali Y, Runge A, LaFlair GT, Yancey K, Goodwin S, Park Y, von Davier AA. The interactive reading task: Transformer-based automatic item generation. Front Artif Intell. 2022 Jul 22;5:903077. doi: 10.3389/frai.2022.903077. PMID: 35937141; PMCID: PMC9354894.
 


https://gpt3demo.com/apps/openai-gpt-3-playground
https://en.wikipedia.org/wiki/GPT-3

 האגודה הישראלית לפסיכומטריקה (אפי)

bottom of page