
מידעונט אפי
גיליון 11
פינת העורכת
חברות וחברי אפי היקרים,
גיליון הקיץ שלנו היה אמור לצאת בראשית הקיץ, כשהיה קצת קצת פחות חם, אבל אז סכנה בדמות טילים איראניים ריחפה מילולית מעל ראשינו... ולצערנו הרב אנו מורגלים במציאות שכזו שמשנה תוכניות לבלי הכר.
והינה, הגיליון ה־11 של המידעונט יוצא לאוויר העולם, ולראשונה בעריכתי. לפני שאציג את עצמי בכמה מילים אני רוצה להודות ליו"ר אפי, ד"ר עינת נוטע־קורן, על הליווי, ההדרכה ושיתוף הפעולה. בהיכרותנו בחודשים האחרונים אני רואה את מאמציה של עינת לקדם את האגודה, לחשוף את חברי האגודה למחקרים חדשים בעולם הפסיכומטריקה ולהגדיל את מספר חבריה. אני רוצה להכיר תודה גם לד"ר מירב אריאלי־אטאלי שסייעה בעריכת מידעונט זה.
אז מי אני? נעים מאוד, אני גל ירמיהו ואת צעדיי הראשונים בתחום הפסיכומטריקה פסעתי לפני כשלוש שנים. אני בוגרת תואר שני בלשון עברית ובבלשנות שמית, חובבת עברית בפרט ושפות בכלל, ויש לי הניסיון בפיתוח חומרי הוראה ולמידה בשפה לתלמידי בית הספר. בשנים האחרונות אני עובדת בטלדור אססמנט כמפתחת כלי הערכה ומדידה בתחום של שפה. רק אז נחשפתי למילה "פסיכומטריקה", התחלתי לגלות את יסודות המקצוע, התנסיתי בפיתוח כלים העומדים בעקרונות של תורת המבחנים, ובהמשך השלמתי פערים בעזרת קורסים של המרכז הארצי למדידה והערכה. ועוד היד נטויה.
אז מה מחכה לנו בגיליון זה?
את הרצאתו של רענן הס, פסיכולוג ארגוני־תעסוקתי, שמעתם באפיזום שנערך ב־20.7.25. בהרצאה שיתף אותנו רענן בשאלון YOUCAO, המיועד לייעוץ ולהכוונה תעסוקתית. הפעם אתם הולכים לקרוא את הכתבה של רענן ושל ד"ר דניאל בן אליעזר על עיקרי המחקר שליווה את השאלון, מחקר שבחן את תוקפו ואת מהימנותו של השאלון.
בשנים האחרונות גובר העיסוק בשאלת הערכה של חשיבה יצירתית. אחד החוקרים הישראלים המובילים בתחום, ד"ר יועד קנת, והדוקטורנט המצטיין, תובל רז, יעניינו אותנו בשאלה מקדימה: למה אנחנו שואלים שאלות? הכתבה תעסוק בחשיבות של שאילת שאלות, גם בראי הערכת יצירתיות, וגם בעידן הבינה מלאכותית, שבו כתיבת פרומפט מדויק היא המפתח להשגת מידע רצוי.
ואם בבינה מלאכותית עסקינן, שתי כתבות נוספות יעסקו במודלי שפה גדולים (LLMs), כל אחת מזווית אחרת.
אם תהיתם מה הקשר בין טולסטוי ובין הטיות מדידה במרחב הייצוגים של מודלי שפה גדולים, התשובה היא "אנה קרנינה". מבולבלים? אביגייל גוריין שלפייר ממכון וייצמן תשתף אותנו במחקר שבדק ייצוג של פרופילי ידע של תלמידים בעזרת LLMs ובהבדלים בייצוג בין תשובות נכונות לבין תשובות לא נכונות.
ככל שגובר השימוש במודלי שפה גדולים כך עולה הצורך להבין טוב יותר את ההתנהגות שלהם. אך איך עושים זאת? במחקר עדכני (Peereboom et al., 2025) ניסו החוקרים לרתום את הפסיכומטריקה לעזרתם ולבדוק אם ל־LLMs יש תכונות חבויות בדומה לבני אדם. ומה אתם חושבים? התוצאות בכתבה.
דוח חדש של ה־OECD דן בשאלה אם בני הנוער מוכנים לעולם התעסוקה החדש. ד"ר עינת נוטע־קורן סיכמה את עיקרי הדוח והציגה השוואה בין מדינות ה־OECD ובין ישראל. בעולם דינמי המשתנה בקצב מהיר מעניין מה יהיו התוצאות והמסקנות בדוח הבא שיתפרסם.
(תופים) הכירו את פינתנו החדשה: פינת הריאיון. בכל גיליון נראיין אחד או אחת מהעוסקים בפסיכומטריקה, כל אחד או אחת בתחומו. המרואיין הראשון שלנו הוא באדר טאהא, פסיכומטריקאי מפתח בחינות. רוצו לקרוא ולהכיר, ואתם מוזמנים לפנות אלינו להיות המרואיינים הבאים שלנו.
זו הזדמנות להודות לכל אחד ואחת מכותבי הכתבות שלנו ולמרואיין שלנו, על ההשקעה, על המסירות, על סבבי התיקונים ועל הנכונות לשתף ולחלוק.
אני קוראת בזה לכל מי שרוצה לקחת חלק בגיליונות הבאים שלנו לפנות אליי או לעינת עם כל מחקר חדש, הצעה חדשה, רעיון או יוזמה. כתובת המייל שלי היא: galye@taldor.co.il.
לא נסיים בלי איחול מעומק הלב להשבתם במהרה בימינו של כלל החטופים ובברכת שלום וביטחון לכל החיילים.
בהערכה רבה,
גל ירמיהו
עורכת מידעונט אפי
האם בני הנוער מוכנים לעולם התעסוקה החדש? סיכום מתוך דוח חדש של ה־OECD
כתבה וסיכמה: עינת נוטע־קורן
OECD (2025). The State of Global Teenage Career Preparation. OECD Publishing, Paris.
עולם העבודה משתנה במהירות רבה. תפקידים חדשים צצים ואחרים נכחדים. תהליכי אוטומציה ובינה מלאכותית, שהתעצמו במיוחד מאז פריצת ה־AI לחיינו, מאיימים על קיומם של יותר ויותר תפקידים או משימות. בתוך מציאות משתנה ודינמית זו עולות הרבה שאלות כמו עד כמה בני ובנות הנוער שלנו מוכנים להתמודד עם עולם העבודה העתידי? האם הם מודעים למקצועות הקיימים ולחשיבות הכישורים הנדרשים להסתגלות בעולם דינמי? האם הם יודעים מהם תחומי העניין שלהם ומהן שאיפותיהם? ובהקשרים אלו – מה תפקידם של בתי הספר?
בדוח שפרסם ארגון ה־OECD במאי 2025 נעשה ניסיון להתמודד עם חלק מהשאלות.
על הדוח
הדוח נשען על נתונים שנאספו במסגרת מחקר פיזה (PISA) בשנת 2022, וכולל ממצאים שנאספו מכ־700,000 תלמידים בני 15 מכ־80 מדינות. אף שמדובר בתקופה שקדמה להופעת הבינה המלאכותית היוצרת בדמותה הנוכחית, סביר להניח כי רוב התובנות שנחשפו בו עדיין רלוונטיות, ואולי אפילו במידה רבה יותר. לצד הדוח השיק ה־OECD דשבורד נתונים (שמומלץ לעיין אף בו).
התמונה הכללית מהדוח
להלן עיקר הדברים שעלו ביחס למדינות ה־OECD (בהמשך אציג נתונים):
-
חוסר ודאות תעסוקתית – שיעור הולך וגדל של בני נוער שאינם בטוחים מה ירצו לעשות בעתיד. רבים מבני הנוער גם מביעים חשש או דאגה בנוגע לעתידם התעסוקתי.
-
ריכוז שאיפות במקצועות מסורתיים ופרופסיונליים – רוב בני הנוער שואפים למספר מצומצם של מקצועות מסורתיים למדי – כמו רפואה, מחשוב, הוראה, הנדסה, משחק, סיעוד – אף ששאיפה זו אינה מותאמת לביקוש בשוק העבודה. יש הרבה מאוד משרות במשק שהן בתחומים אחרים, מעבר למקצועות אלו. עולה השאלה – האם מחנכים את הנוער לעבר או לעתיד?
-
שאיפות הולכות וגדלות להשכלה גבוהה – בעשורים האחרונים עלו מאוד השאיפות של בני נוער ללימודים גבוהים (דבר טוב בפני עצמו), אך הפערים החברתיים והסוציו–אקונומיים נשארים משמעותיים: תלמידים מרקע מוחלש, גם אם הישגיהם גבוהים, מציבים לעצמם רף נמוך יותר לעומת חבריהם מרקע חזק.
-
פער בין שאיפות למציאות – "חוסר התאמה/כיול" – חלק ניכר מבני הנוער שואפים למקצועות הדורשים השכלה גבוהה, אך רמת ההשכלה שאליה הם שואפים לא מתאימה למקצוע זה. הפער הזה הוגדר בדוח כחוסר התאמה/כיול (misaligned). חוסר התאמה הוא חזאי להשתלבות לא טובה בהמשך בשוק העבודה ולניפוץ של חלומות.
האם ממצאים אלו נכונים גם לבני הנוער בישראל?
כשקראתי את הדוח שאלתי את עצמי עד כמה העיסוק בעתיד המקצועי רלוונטי לבני 15 בישראל בהשוואה למקומות אחרים בעולם.
אומנם לתקופת התיכון תפקיד משמעותי בגיבוש הזהות. בני נוער מבססים את הכישורים שלהם, מגלים את החוזקות והנטיות שלהם, מתנסים בחוויות שונות (בבתי הספר, בתנועות נוער, בחוגים), ולעיתים גם עובדים בעבודות מזדמנות. כל אלה מייצרים שאיפות ובונים אצל חלק חלומות לעתיד.
עם זאת, לא יכולתי שלא לחשוב על בתי הצעירה שזה עתה סיימה לימודיה בתיכון. כששואלים אותה מה היא עתידה לעשות כשתהיה בת 30, היא לא יודעת, והיא אינה יוצאת דופן בכך בהשוואה לחבריה. כמו צעירים רבים בישראל, גם היא צפויה לעבור עוד תחנות מעצבות לפני שתקבל החלטה על קריירה או מסלול לימודים – מכינה קדם צבאית (או שנת שירות אצל רבים אחרים), שירות צבאי, ואולי גם טיול אחרי צבא. כך גם התרשמתי מתהליכי ייעוץ קריירה שקיימתי עם צעירים בשנים האחרונות. שאלת הזהות התעסוקתית מתגבשת לעיתים קרובות בשלבים מאוחרים יותר של גילאי ה־20, הרבה אחרי גיל 15.
לכן, תהיתי עד כמה בני הנוער בארץ עסוקים בנושא בגיל כל כך צעיר? האם בתי הספר בארץ רואים את תפקידם בחשיפה ובהכנה לעולם העבודה המשתנה? האם בוגרי בתי הספר מכירים את עולם העבודה?
כדי להעמיק בכך, בדקתי את נתוני ישראל ביחס לנתוני ה־OECD. את הנתונים על ישראל הוצאתי מהדשבורד שפורסם לצד הדוח. להלן אציג חלק מהממצאים.
פירוט הממצאים
1. חוסר ודאות תעסוקתית
במדינות ה־OECD:
39% מבני ה־15 במדינות ה־OECD לא בטוחים מה ירצו לעשות בעתיד. קיימת מגמה של עלייה חדה בנתון זה מאז 2006.
ומה בישראל?
אחוז (מעט) גבוה יותר של בני נוער (44%) דיווחו כי הם לא יודעים מה ירצו לעשות בעתיד (אין להם כיוון). ייתכן שתחושת חוסר הוודאות הרַבה יותר נובעת מהעיכוב בהחלטה, כפי שציינתי קודם לכן. באופן אישי, הופתעתי לגלות שיותר ממחצית התלמידים כן יודעים להצביע על כיוון מסוים, גם בישראל.
הנושא של חוסר הוודאות מוצג כנתון מעורר דאגה, שכן מחקרים מראים כי אי־ודאות תעסוקתית מנבאת פעמים רבות תוצאות תעסוקתיות פחות טובות בהמשך (ראו עמוד 16 בדוח).
הטענה בדוח היא כי באמצעות חשיפה מוגברת אפשר לשפר את תחושת הוודאות בקרב בני הנוער ובכך לשפר את הכנתם וקליטתם בהמשך לעולם העבודה.
2. ריכוז שאיפות במעט מקצועות
במדינות ה־OECD:
50% מהבנות ו־44% מהבנים מצפים לעבוד באחד מתוך עשרה מקצועות, מסורתיים למדי (כמו מחשוב, רפואה, הוראה, וטרינריה, ארכיטקטורה, סיעוד, הנדסה). מגמת הצמצום גברה עם השנים. כלומר, אחוז בני הנוער שמתרכז בעשרת המקצועות הללו עלה מאז שנת 2000, אף על פי שבשוק העבודה הופיעו הרבה מאוד אפשרויות חדשות.
בישראל:
הריכוז בישראל גדול עוד יותר: 68% מהבנות ו-59% מהבנים שואפים להשתלב בעתיד באחד מתוך אותם עשרה מקצועות.
התמונה שמתקבלת היא של נוער שמדמיין את עתידו במעט מאוד מקצועות – אולי מתוך רצון ביציבות, ביוקרה או במסלול ברור, או מתוך חוסר היכרות מספקת עם ההיצע המגוון של עולם העבודה.
3. שאיפות גבוהות להשכלה גבוהה – אך פערים חברתיים עמוקים
במדינות ה־OECD:
83% מבני הנוער מרקע כלכלי חזק מצפים להשלים השכלה גבוהה לעומת 54% מהתלמידים מרקע מוחלש.
בישראל:
91% מבני ה־15 מרקע חזק מצפים להשלים השכלה גבוהה לעומת 77% מהתלמידים מרקע מוחלש.
מהנתונים נראה כי מרבית בני הנוער שואפים להמשך לימודים אחרי התיכון. הפערים בין קבוצות הרקע ניכרים אך מצומצמים יותר מאשר במדינות ה־OECD.
4. פער בין שאיפות למציאות – "חוסר התאמה/כיול"
במדינות ה־OECD:
-
21% מהתלמידים נמצאו "לא מכוילים" – כלומר, שואפים למקצוע שדורש השכלה גבוהה אך אינם מכוונים לרכוש את ההשכלה הנדרשת.
-
בקרב תלמידים מרקע סוציו–אקונומי מוחלש: 34% לא מכוילים, לעומת רק 11% מרקע חזק. יש מדינות שבהן המצב חריף מאוד, למשל בגרמניה: 57% מבני הנוער מרקע סוציו–אקונומי מוחלש אינם מכוילים ו־21% מבני הנוער מרקע חזק. תמונה דומה נראית גם בפולין.
בישראל:
ישראל ממוקמת בזנב השמאלי של התפלגות המדינות. כלומר, חוסר ההתאמה או הכיול נמוכים יחסית.
-
13% מהתלמידים נמצאו "לא מכוילים" – פחות מאשר ממוצע מדינות ה־OECD.
-
בחלוקה לפי סוציו–אקונומי – כ-20% מבני הנוער מרקע סוציו–אקונומי מוחלש לא מכוילים לעומת רק 7% מרקע חזק.
נראה כי בישראל מרבית בני הנוער מבינים מה נדרש מהם כדי לממש את השאיפות המקצועיות, ורק מיעוט קטן אינו מכויל. עם זאת, נראה שיש פערים חברתיים גם פה, שייתכן שנובעים מחוסר ידע מספק.
חוסר ההתאמה הוא גם ביחס לצרכים של שוק העבודה. לדוגמה, לפי נתוני הדשבורד, שוק העבודה בישראל זקוק ל־30% עובדים במקצועות "פרופסיונליים" בעוד שכ־70% שואפים לעסוק בתחומים אלו (הכוונה למקצועות "צווארון כחול" כמו הוראה, מנהל עסקים, טכנולוגיה ומחשוב, משפטים). לעומת זאת, רק כ־4% שואפים לעסוק בשירותים ובמכירות בעוד שנדרשים בשוק העבודה כ־18%.
מה עוד יש בדוח?
בהמשך הדוח נסקרות הפעולות שנעשות בבתי הספר במדינות ה־OECD כדי להכין את בני הנוער לעולם העבודה – כמו שיחה עם יועץ, סיור במקום עבודה, יריד תעסוקה, התמחות במקומות עבודה ופעילויות נוספות.
הנתונים על ישראל בנוגע לפעילויות ההכנה נמוכים בהשוואה לממוצע ה־OECD, ולמרות זאת נראו לי מוטים כלפי מעלה (כך למשל, 30% מבני הנוער בישראל דיווחו כי התייעצו עם יועץ קריירה; 31% דיווחו כי בבית ספר התקיים יריד תעסוקה; 35% דיווחו על התמחות).
לבסוף, הדוח בוחן את תפיסותיהם של בני הנוער בנוגע לעתידם התעסוקתי ואת התרומה שהם מייחסים למערכת החינוך בהקשר הזה. לצערי, אין נתונים לגבי ישראל בנוגע להיבטים אלו. הנתונים ממדינות ה־OECD מלמדים כי כמחצית מבני הנוער חשים דאגה מהעתיד אחרי בית הספר התיכון, ורבים מרגישים כי בית הספר לא הכין אותם באופן מספק לחיי הבגרות שלהם.
סיכום
התמונה שמציג דוח ה־OECD היא של נוער החש חוסר ודאות, החולם לעסוק במקצועות מסוימים, ברובם מסורתיים ויוקרתיים, ושואף להשכלה גבוהה, כאשר תלמידים מרקע סוציו–אקונומי מוחלש שואפים פחות גבוה. כמו כן, נראה כי רוב הנוער מבין מה ההשכלה הנדרשת ממנו כדי לרכוש מקצועות שונים ויש מיעוט שמגלה אי־התאמה בין מסלול ההכשרה שאליו שואף ובין השאיפה לרכישת השכלה. חוסר התאמה זה בולט במיוחד בקבוצות מוחלשות. נוסף על כך, נראה שקיים חוסר התאמה לצרכים של שוק העבודה.
כפי שראינו, הפערים בין קבוצות הרקע הכלכלי בישראל קטנים למדי יחסית למדינות ה־OECD. נתון זה מעניין שכן במבחני ההישגים ישראל "מככבת" בפערים בין קבוצות האוכלוסייה.
לסיום, הדוח נכתב מתוך אמונה אופטימית שבתי הספר והתעשייה יכולים וצריכים להרחיב את החשיפה של בני הנוער לעולם התעסוקה המשתנה. השקעה זו חיונית במיוחד לצמצום פערים בהיכרות עם שוק העבודה, ובעיקר באוכלוסיות מוחלשות שבהן החשיפה מועטה והחלומות פחות שאפתניים.
מחקר תוקף ומהימנות של שאלון YOUACO לייעוץ קריירה
רענן הס וד"ר דניאל בן אליעזר, YOUACO
מבוא
שאלון YOUACO פותח כדי להעריך מניעי קריירה ולספק פרופיל אישי לצורך ייעוץ והכוונה תעסוקתית. הכלי מבוסס על מודל רשימת מקצועות (רמ"ק המקורי) של מאיר (1973) אך עבר התאמה מתודולוגית ל"רשימת מניעי קריירה". מטרתו לתת מענה לביקורת על שאלוני אבחון תעסוקתי מסורתיים, כולל שאלון רמ"ק המקורי, להדגיש הערכת מניעים תעסוקתיים, להקטין הטיות של רצייה חברתית ולהתאים לשוק עבודה משתנה. המחקר הנוכחי בחן את תוקפו ומהימנותו של שאלון YOUACO במדגם של 1,299 משתתפים בגילאי 16–66, ומצא מהימנות פנימית גבוהה ועדויות לתוקף מבנה ולתוקף נראה.
רקע תיאורטי
פיתוחו של YOUACO נבע מהצורך להתגבר על מגבלות כלים קיימים, בעיקר שאלון הולנד, שספג ביקורת נרחבת בשל התמקדותו באישיות, נטייה להטיות תרבותיות ומגדריות, חוסר דינמיות והתאמה מוגבלת לשוק עבודה משתנה. שאלון הולנד מתקשה להעריך תחומים מתקדמים כמו יזמות, קיימות וטכנולוגיה ואינו מתייחס באופן מספק להתפתחות קריירה לאורך זמן או למוטיבציה פנימית.
לעומת זאת, המודל החדש מבוסס על שמונה מניעים פסיכולוגיים:
-
עסקים – כסף
-
ארגון – סדר
-
תרבות – עיסוק בשפה/מילה הכתובה או המדוברת
-
אנשים – אכפתיות שמתבטאת בטיפול או שירות
-
אומנות – יצירה בחומר וברוח
-
חוץ – סביבה וטבע, מדע
-
מדעים – עניין בביולוגיה/כימיה
-
טכנולוגיה – מכונות ומכשירים
פיתוח הכלי
השאלון כולל 96 תרחישים התנהגותיים (במקום שמות מקצועות) המדמים מצבים מעולם העבודה, וכל משיב מדרג את תחושת המסוגלות שלו לכל תרחיש (בסולם 4–10). ההנחה היא שמסוגלות גבוהה בתחום מסוים מצביעה על מניע תעסוקתי מרכזי.
דוגמה לתרחיש: "אהיה אחראי על תקינות מערכות החומרה בארגון, כמו מחשבים, רשתות, ראוטרים וכדומה. אפעל להתאמת מערכות החומרה לצורכי הארגון ולתהליכים המתרחשים בו, ואתאם את צוות התמיכה הטכנית".
השימוש בסולם דירוג רחב (4–10), במקום שאלות דיכוטומיות או התייחסות ישירה לשמות מקצועות, נועד לצמצם את השפעות הרצייה החברתית וההטיות הנובעות מסטריאוטיפים מקצועיים, תופעות העלולות להופיע כאשר שואלים ישירות על מקצועות מסוימים. נוסף על כך, סולם דירוג זה מאפשר למדוד בצורה רגישה ומדויקת יותר הבדלים אינדיבידואליים בין המשיבים.
הפלטפורמה הדיגיטלית של YOUACO פועלת באמצעות אלגוריתמים מורכבים ובינה מלאכותית, ומספקת משוב מיידי, ויזואלי וטקסטואלי, לאורך תהליך המענה, לרבות התראות אוטומטיות על דפוסי תגובה החורגים מההתפלגות הנורמלית הצפויה. משוב זה יוצר אצל המשיב מתח בין הרצון להיתפס באופן חיובי (רצייה חברתית) לבין הצורך להשיב בכנות, ובכך תורם להפחתת השפעת הרצייה החברתית על התשובות. כמו כן, המשוב מהווה חלק בלתי נפרד מחוויית הלמידה האישית של המשיב, ומעודד אותו לרפלקציה עצמית במהלך מילוי השאלון.
משוב אישי מיידי עם סיום ההשבה
עם סיום מילוי השאלון, המשיב מקבל משוב מיידי ואישי, הכולל פרופיל מניעי קריירה ייחודי, המלצות למסלולי לימודים ולתפקידים רלוונטיים (המבוססות גם על תחזיות עדכניות של שוק העבודה), והתאמות למקצועות דומים, הנגזרות מדפוסי בחירה של אוכלוסיות בעלות מאפיינים דומים (Look-Alike). המערכת מאפשרת התאמה לרמות לימוד שונות (קורסים, מכללות, אוניברסיטאות), וכך מסייעת בבניית תוכנית קריירה מותאמת אישית.
שיטת המחקר
המחקר בחן את התוקף והמהימנות של השאלון במדגם של 1,299 משתתפים בגילאי 16–66 (גיל ממוצע: 27), כאשר התפלגות המינים כמעט שווה. זמן המענה הממוצע עמד על כ־20 דקות. נאספו נתונים דמוגרפיים מלאים, והמערכת אפשרה ניתוחי עומק של מניעי הקריירה באוכלוסיות שונות.
ממצאים עיקריים
-
נמצאה מהימנות פנימית גבוהה (α > 0.9) המצביעה על עקביות גבוהה בין הפריטים השונים בשאלון.
-
תוקף נראה: 74.4% מהמשיבים הביעו שביעות רצון מהמשוב שהתקבל מהמערכת, דבר המצביע על רלוונטיות ההמלצות לנבחנים.
-
תוקף מבנה: נמצאה התאמה גבוהה למבנה התאורטי של רמ"ק המקורי הכולל 8 מניעים.
-
רמות לימוד: המערכת הבחינה בין שלוש רמות לימוד: אקדמית, על־תיכונית ומקצועית. נמצא כי הציון הממוצע בקבוצת רמת הלימוד האקדמית היה הגבוה ביותר והציון הממוצע בקבוצת רמת הלימוד המקצועית היה הנמוך ביותר.
סיכום
שאלון YOUACO הוא כלי חדשני, מבוסס תרחישים מהעולם התעסוקתי, המספק למשתמשים פרופיל אישי של מניעי קריירה ומסייע בהתאמה אישית של המלצות למסלולי לימוד ותעסוקה. הכלי פותח כדי להקטין את השפעות הרצייה החברתית והחשיבה הסטריאוטיפית על מקצועות, ולאפשר מדידה רגישה ומותאמת לעולם העבודה העכשווי. ממצאי המחקר תומכים במהימנות ובתוקף המבנה של השאלון, וביכולתו להבחין בין תחומי מניעים ורמות לימוד שונות.
לאור ממצאי המחקר, הכוונה היא להמשיך ולבחון את הכלי בקרב אוכלוסיות נוספות, ולבדוק אם פרופיל המניעים שמתקבל בשאלון מנבא הצלחה תעסוקתית ואקדמית בעתיד.
על הכותבים
-
רענן הס – פסיכולוג ארגוני־תעסוקתי, מפתח מערכת YOUACO, בעל ניסיון רב בפיתוח מערכות מבוססות פסיכולוגיה ובייעוץ לארגונים. הס פיתח את גישת הוולידציה לייעוץ תעסוקתי וכן היה מעורב בפיתוח מערכות נוספות בתחום מיון עובדים והתנהגות בטיחותית.
-
ד"ר דניאל בן אליעזר – פסיכולוג קוגניטיבי ושיקומי, חוקר ומרצה, בעל ניסיון רב בתחומי הפסיכולוגיה הקוגניטיבית, השיקומית והתעסוקתית, טיפול בחרדות, שיפור תפקוד רגשי ותעסוקתי וניהול משאבי אנוש. ד"ר בן אליעזר משלב ידע נרחב בתחומי הפסיכולוגיה, טיפול ושיקום, ומציע מגוון שירותים טיפוליים והכשרות מקצועיות.
שאלות על שאלות – תפקידן של שאלות בהשגת מידע
ד"ר יועד קנת, מר תובל רז, הפקולטה למדעי הנתונים והחלטות – הטכניון
נסו לחשוב על השיחות שניהלתם היום, בין בעבודה בין עם חברים ומשפחה. ככל הנראה במהלכן שאלתם לפחות כמה שאלות, שהרי שאלות הן חלק בלתי נפרד מכל תקשורת בין אישית. אבל לפעמים כאשר משהו שגור מאוד ויום־יומי, קל לנו לקחת אותו בתור מובן מאליו. האם תהיתם פעם למה אנו שואלים שאלות?
באופן מפתיע, אנו יודעים מעט מאד על הערך הקוגניטיבי והפסיכולוגי של שאילת שאלות. מצב זה הוא תולדה של אתגרים הקשורים להגדרה של מהי שאלה ושל חוסר בכלים למדוד שאלות במעבדה ומחוץ לה.
האם בכלל יש הבדל בין השאלות שאנו שואלים? מה הופך שאלה אחת ליותר טובה בהשגת המטרה שלה מאחרת? כיצד ניתן בכלל למדוד שאלות? שאלות אלו עומדות בבסיסם של מחקרים אשר נערכו במעבדה שלנו לאורך השנים האחרונות. הטענה העיקרית שלנו היא ששאילת שאלות טובות יותר, כלומר אינפורמטיביות יותר ומורכבות יותר, עוזרת לאדם להשיג מידע עשיר ולהתמודד עם מצבים לא מוגדרים ומורכבים שהם חלק מחיי היום־יום שלנו.
תאוריה
התאוריות הראשונות על שאלות החלו סביב שנות ה־70 ומתבססות על ההנחה ששאילת שאלות היא פעילות קוגניטיבית שמטרתה לצמצם פערי ידע ולהבהיר סתירות אצל השואל. התהליך של שאילת שאלות הוא רב־שלבי, דינמי ומושפע מסקרנות, מיצירתיות, ומגורמים חברתיים והתפתחותיים. עם זאת תאוריות אלו הן תיאוריות בלבד, והן עסקו בעיקר בהגדרה של סוגים שונים של שאלות ופחות בתפקיד של שאלות ככלי להשגת מידע.
גישות מודרניות יותר מתארות את תהליך שאילת השאלות במונחים של תכנון ניסוי, כאשר כל שואל הוא מעין מדען שמנסח היפותזה אפקטיבית כדי למקסם את השגת המידע. מתוך ראייה כזו, לימוד של יכולת שאילת שאלות מורכבות ייעל את תהליך השגת המידע הרצוי.
לאחרונה, ערכנו סקירה מעודכנת ומקיפה על כלל תאוריות אלו ועל החשיבות הכללית של שאילת שאלות במגוון הקשרים, כגון למידה, התפתחות, יצירתיות, אינטראקציה חברתית ותקשורת עם בינה מלאכותית. הגישה שאנו נוקטים שמה דגש על החשיבות של שאילת שאלות מורכבות כמנגנון קוגניטיבי להשגת מידע עשיר שמאפשר מימוש שלל מטרות.
חיפוש מידע, הטקסונומיה של בלום ומורכבות
התנהגות של חיפוש מידע בהקשר הקוגניטיבי מוגדרת כתהליך שבו צרכי מידע מוגשמים, או כמצבים שדורשים פתרון בעיות וכוללים תהליך של רכישה, הבנה, והבנייה של ידע כדי לפתור מצבים, בדגש על מצבים עמומים שאינם מוגדרים היטב. באופן כללי ניתן להגדיר מידע כנתונים בעלי משמעות ורלוונטיות. כיצד אנחנו רוכשים מידע שכזה?
בשנת 1956 פרסמה קבוצה של אנשי חינוך, ובראשם בנג׳מין בלום, טקסונומיה למטרות חינוך, המכילה דרכים שונות להשגת מטרות למידה באמצעות סוגים שונים של שאלות. הטקסונומיה כוללת שש רמות הממחישות מעבר מחשיבה פשוטה לחשיבה מתקדמת ומורכבת יותר. מוסכם שככל שמתקדמים ברמות הטקסונומיה, כך השאלות הנדרשות עבור אותה רמה הן מורכבות יותר.

שש הרמות של הטקסונומיה של בלום
אך נראה כי בהקשר של שאילת שאלות, מדידה של מורכבות איננה דבר של מה בכך, ולמעשה קיים מחקר ניסויִי מועט ביותר על שאילת שאלות. זהו בדיוק האתגר שלקחנו על עצמנו. בפרט, בחנו כיצד אפשר להשתמש בטקסונומיה של בלום במחקר ניסויִי כדי לעמוד על הקשר בין שאילת שאלות מורכבות ויכולות קוגניטיביות כגון יצירתיות, סקרנות ופתרון בעיות.
מטלות ומדידה של שאילת שאלות במעבדה
במחקר הראשון שלנו בהקשר זה, פיתחנו מטלה למדידת שאילת שאלות: מטלת השאלות האלטרנטיביות (באנגלית AQT) מבקשת מאנשים לשאול שאלות יצירתיות ומעניינות על חפצים יום־יומיים כמו עיפרון או כרית. המטלה שלנו מבוססת על המטלה הסטנדרטית למדידת יצירתיות במעבדה, המטלה לשימושים אלטרנטיביים (באנגלית AUT), שבה אנשים מתבקשים לדווח על שימושים אפשריים לחפצים מוכרים. בדומה ל־AUT, אנו מודדים את המקוריות של השאלות שהמשתתפים במחקר שאלו. כמו כן קבוצה של שופטים בלתי תלויים דירגה באופן סובייקטיבי את רמת הבלום של כל שאלה, עם מהימנות בין שופטים של מעל 0.7.
ממצאי המחקר הראו כי לא קשה לחשוב על שאלות עבור חפצים מוכרים; שקיים קשר מובהק אך חלש בין שתי המטלות: AQT ו־AUT (שהוא r(109) = .247, p = .01); וכן שקיים קשר מובהק בין רמת הבלום הממוצעת של השאלות לבין המקוריות שלהן (r(109) = .510, p <.001). במיוחד, מצאנו יחס מפתיע בין רמת הבלום של השאלה ובין המקוריות שלה – שאלות ברמות מורכבות בלום נמוכות הן פחות יצירתיות, ושאלות ברמות מורכבות בלום גבוהות הן יותר יצירתיות. את התוצאות הללו תיקפנו בשני ניסויים שונים. מחקר זה בעיקר תיקף את המטלה שלנו והראה את החשיבות בשאילת שאלות ברמת חשיבה מורכבת גבוהה.
מה הן כל השאלות היצירתיות שאפשר לשאול על החפצים הללו?

המחשה של מטלת ה־AQT
בשל המיעוט במחקר ניסויי על שאילת שאלות, התחלנו להשתמש במטלת השאלות שלנו בהקשרים שונים כדי להתקדם בהבנה של התפקיד הקוגניטיבי והפסיכולוגי של שאילת שאלות. במחקר המשך, הראינו ששאילת שאלות מורכבות מסייעת בפתרון בעיות פתוחות, הכוללות מצבים עמומים שאינם מוגדרים היטב, ולא בפתרון בעיות סגורות, אשר להן תשובה אחת מוגדרת. מחקר זה המחיש ואישש את התאוריה שלנו – שאלות מורכבות עוזרות בהבניה של מצבים עמומים ולא מוגדרים היטב ומובילות להתמודדות טובה יותר עימם דרך פתרונות יצירתיים.
מחקרים אחרים שלנו בוחנים כיצד היכולת לשאול שאלות משתנה עם הזדקנות, מה הקשר בין שאילת שאלות לסקרנות, עד כמה אנשים טובים בהערכה העצמית של טיב השאלות שלהם/ן, כיצד היכולת לשאול שאלות מורכבות מסייעת ללמידה מוצלחת, מהם המנגנונים המוחיים המאפשרים לנו לשאול שאלות, ואם וכיצד אפשר לאמן אנשים לשאול שאלות מורכבות יותר.
במקביל, כדי לשפר ולייעל את תהליך המדידה וההערכה של שאילת שאלות פתוחות, אימנו מודל שפה גדול לנבא ציוני מורכבות של שאלות על סמך הטקסונומיה של בלום, דבר המאפשר אוטומטיזציה של מדידה של שאלות בלחיצת כפתור. את מודל השפה אימנו על סמך אלפי שאלות שאנשים שאלו בשלל מחקרי המעבדה שערכנו בשנים האחרונות, והגענו לרמת דיוק של r = 0.73 בניבוי מורכבות של שאלות ביחס לדירוג סובייקטיבי של בני אדם. דיוק זה הושג על שאלות שהמודל לא ראה ולא התאמן עליהן, והוא מצביע על יכולת הכללה טובה. מודל זה זמין בתור אפליקציה אינטרנטית חינמית, המאפשרת ציינון של מורכבות של שאלות ומנגישה אותו באופן ציבורי.
לצאת מהמעבדה ולחקור שאילת שאלות בסביבות טבעיות באמצעות משחקים
שיטה נוספת המיושמת אצלנו במעבדה שמה דגש על משחוק בתור כלי למדידת שאלות בסביבות טבעיות מחוץ למעבדה. הרי מי מאיתנו לא שיחק במשחק עשרים שאלות?
כשלב ראשון, שיחקנו אלפי משחקים עם המשחק Akinator (שחקו בו!), משחק שבו השחקן חושב על דמות, ובאמצעות שאילת שאלות מנסה מערכת המשחק (וכמעט תמיד מצליחה) לזהות את הדמות. תוצאות מחקר זה הצביעו על שיטתיות באופן שבו המשחק שואל שאלות כ״מראה״ לתהליכי שאילת שאלות אנושיים. עם זאת, המחקר הצביע בעיקר על הקושי בלחקור משחקים קיימים בשל סוגיות זכויות יוצרים ודחף אותנו לפתח משחקי און־ליין משל עצמנו.
באחד מן המחקרים בחנו כיצד בני אדם שואלים שאלות וכיצד תהליך זה קשור ליכולות קוגניטיביות ויצירתיות, באמצעות משחק מקוון בשם "Spot the Spy" (בואו ושחקו!). במשחק זה המשתתפים צריכים לזהות מרגל בחדר מלא דמויות על ידי כך שהם שואלים סוכן AI שאלות אסטרטגיות. מצאנו כי רוב המשתתפים הצליחו לזהות את המרגל, וכי שאילת שאלות אפקטיביות, למשל כאלו שהביאו לצמצום מספר החשודים, ניבאה הצלחה במשחק. נוסף על כך נמצא קשר חיובי בין רמת האינטליגנציה והיצירתיות של המשתתפים לבין האפקטיביות והגיוון של השאלות שהם שואלים.
בתקופה האחרונה פיתחנו משחק מקוון חדש בשם “The Martian game” (בואו ושחקו!). במשחק זה המשתמשים מתבקשים לתכנן מערכת אנרגייה סולארית למאדים, תחילה באמצעות שאילת שאלות מול סוכן AI כדי להשיג את כל המידע הדרוש לטובת המשימה, ולאחר מכן באמצעות תכנון מערכת סולארית שכזו. מטרת המשחק החדש היא לבחון באמצעות משחקים מקוונים מחוץ למעבדה את החשיבות של שאילת שאלות בבעיות מוגדרות (Spot the Spy) לעומת מצבים פתוחים שאינם מוגדרים (The Martian game), בדומה לממצאים של ניסויי המעבדה שלנו. באופן כללי, מחקרים אלו מדגישים את התפקיד המרכזי של חשיבה יצירתית ואסטרטגית בשאילת שאלות, ומראים כי שימוש במשחקים אינטראקטיביים יכול לשמש כלי מחקרי משמעותי לחקר תהליכים קוגניטיביים בעולם האמיתי.
החשיבות של שאילת שאלות בעידן הבינה המלאכותית
בהסתכלות עכשווית, אנו ערים לכך שיותר ויותר אנשים מתשאלים סוכני AI כמו ChatGPT ומסתמכים על המידע שהם מספקים. בשל החשיבות של שאילת שאלות מורכבות בהשגת מידע עשיר, הכרחי לשפר את האופן שבו אנו מתקשרים עם סוכנים אלו ולהשתמש בפרומפטים מורכבים ועשירים יותר. אם אפשר לחשוב על כתיבת פרומפטים כתקשורת או כשפה חדשה, עלינו ללמוד כיצד לתקשר בשפה זו בצורה עשירה ומורכבת יותר. את הטענות האלו בדיוק אנו מציעים במאמר תאורטי שלנו שהתפרסם לאחרונה, שבו אנו מקבילים בין תהליכי שאילת שאלות בבני אדם לכתיבת פרומפטים לסוכני AI. כחלק ממאמר זה, אנו מראים כיצד אפשר להשתמש ברמות הטקסונומיה של בלום כדי לנסח פרומפטים אפקטיביים.
דוגמאות לפרומפטים אפשריים על סמך שש הרמות של בלום
נסיים במילה אחרונה על החשיבות של שאילת שאלות מורכבות כשמשוחחים עם הבינה המלאכותית. מחקרים עכשוויים, כולל מחקר שלנו, מראים שמודלי ה־AI הפופולאריים נוטים להיות עקביים והומוגניים מאוד בתשובות שלהם, מה שיכול להוביל לצמצום בשונות המידע שאנו מקבלים בדיאלוג עם כלים אלו. הצורך לחזק ולטפח את שריר שאילת השאלות שלנו נראה חשוב מתמיד בעידן המכונה!
סיכום
שאילת שאלות היא פעילות יום־יומית אך הכרחית עבור תקשורת אנושית וגישור על פערי ידע אצל השואל. לצד זאת מדידה וכימות של השאלות שאנו שואלים הם תחום שלא נחקר מספיק. רק בשנים האחרונות מתרבים הצעדים המנסים להבין מה הופך שאלות לטובות יותר ומורכבות יותר, ובו בזמן מתפתחים כלים מתקדמים לדירוג וציון של שאלות בצורה אובייקטיבית ונגישה לכול.
התפתחויות אלו מאפשרות לנו להיות מחנכים וחוקרים טובים יותר, והן מנגישות את עולם הנתונים ומודלי השפה לתחומים כמו פסיכולוגיה וחינוך כדי למצות את הטוב משני העולמות. והכי חשוב, לעולם אל תפסיקו להתעניין ולשאול שאלות!
על הכותבים
-
ד״ר יועד קנת – מרצה בכיר בפקולטה למדעי הנתונים והחלטות בטכניון. ד״ר קנת חוקר את התפקיד של ידע בתהליכי חשיבה גבוהים בדגש על יצירתיות, חשיבה אסוציאטיבית, וחיפוש בזיכרון – באוכלוסיות תקינות וקליניות. במחקריו, ד״ר קנת משלב כלים חישוביים ממדעי הרשתות, בלשנות חישובית, למידת מכונה ובינה מלאכותית עם שיטות מחקר ניסוייות, קוגניטיביות ומוחיות. ד״ר קנת הוא האחראי על המחקר בוועד המנהל של האגודה למדעי המוח ויצירתיות, זכה ב־2021 בפרס ברליין על מחקר מצטיין כחוקר צעיר וב־2025 הוכר ככוכב עולה בחקר היצירתיות העולמי מטעם אגודת היצירתיות האירופאי ISSCI.
-
תובל רז – דוקטורנט בטכניון בפקולטה למדעי הנתונים וההחלטות תחת הנחייתו של ד"ר יועד קנת. תובל חוקר שאילת שאלות, יצירתיות ופתרון בעיות תוך שילוב כלים מפסיכולוגיה ומדעי הנתונים. מחקריו של תובל זכו להכרה בארץ ובעולם, כדוגמת פרס השופטים למחקר סטודנטים מצטיינים בכנס איגוד הפסיכולוגיה האמריקאי APA, וכן מלגת הצטיינות לדוקטורנטים מתחילים על שם משפחת פיין.
דבר היו"רית
אני שמחה לפתוח את גיליון הקיץ של המידעונט, ולהתחיל בהערכתי לגל ירמיהו, שלקחה על עצמה את עריכת המידעונט לאחר שלוש שנים שבהן אני מילאתי את התפקיד. תודה לך גל על העבודה המקצועית והיסודית, על ההשקעה, על האנרגייה הטובה שהבאת ועל החשיבה הפתוחה והיצירתית.
המידעונט הוא אחד הערוצים שלנו באפי לשתף ידע, רעיונות, פרסומים ותובנות מהשטח ומהמחקר. תודה גדולה לכל הכותבות והכותבים שתרמו לגיליון הנוכחי ושיתפו בעשייתם.
בחודשים האחרונים התקיימו ארבעה מפגשי אפיזום – הוובינר של אפי – בתדירות של אחת לחודש. בכל מפגש נרשמו כ־100 משתתפים, נתון שמעיד על עניין רב ורלוונטיות של הנושאים, גם מעבר לחברות הרשמית באפי. תודה לד"ר תמר מלינוביץ (מאל"ו), לעמיר סנדר (שירותי בריאות כללית), לד"ר שירן דנוך (Informed Decisions) ולרענן הס (Youaco) – על הרצאות מעשירות ומעוררות דיון.
באוגוסט ניקח פסק זמן קצר, ונשוב עם אפיזום נוסף בספטמבר.
נוסף על כך, קיימנו השנה סדנה ראשונה לחברי אפי בנושא עבודה עם בינה מלאכותית במחקר, בהנחיית ד"ר איל רבין. הסדנה התקיימה במתכונת אינטימית ונרשמה לה היענות רבה. בקרוב נציע מועד נוסף לחברי אפי נוספים שיבקשו להצטרף.
תודה מיוחדת לחברות ולחברי מועצת אפי ולבעלי ובעלות התפקידים הפועלים לצידם לאורך כל השנה. תודה על המחויבות, המעורבות והרוח הטובה.
תודה גדולה למיטל פלדמן, מזכירת אפי, ולמתן הר צבי, שמנהל את האתר (והרבה מעבר לכך), ועושה זאת במסירות רבה ובאדיבות אין קץ.
ובמבט קדימה – בחודש הקרוב נפרסם שלושה קולות קוראים:
-
בחירות למועצת אפי,
-
פרס אפי שיוקדש השנה לעבודת דוקטורט,
-
הרצאות לכינוס אפי 22 שיתקיים בט"ז בשבט, 3 בפברואר 2026 בבית ציוני אמריקה בתל אביב. שמרו את התאריך כבר עכשיו!
מחכה להיפגש איתכם, באפיזום, בכנס ובכל יוזמה שתהיה עוד בדרך.
בברכה לבבית,
ד"ר עינת נוטע־קורן
יו"ר אפי
הטיות מדידה במרחב הייצוגים של מודלי שפה גדולים:
עקרון אנה קרנינה והשפעותיו על משוב אוטומטי
אביגייל גורין־שלייפר, מכון וייצמן
Gurin Schleifer, A., Beigman Klebanov, B. & Alexandron, G. (2025). Uncovering Measurement Biases in LLM Embedding Spaces: The Anna Karenina Principle and Its Implications for Automated Feedback. Int J Artif Intell Educ.
השימוש במודלי שפה גדולים (LLMs) כמערכות להערכה אוטומטית ולמתן משוב מותאם אישית לתלמידים על תשובותיהם לשאלות פתוחות הולך וגובר. איכות האבחון שמערכות אלו מספקות תלויה באופן קריטי ביכולתן להבחין בדקויות שבין סוגים שונים של חשיבה ושל תפיסות מושגיות שגויות, המוגדרות כ"פרופילי ידע" (Knowledge Profiles).
כשבוחנים את הסוגיה כ"בעיית התאמה" (alignment problem), נשאלת השאלה עד כמה פרופילי ידע של תשובות תלמידים, הנוצרים באופן אוטומטי (bottom-up) מתוך מרחב הייצוגים (הווקטורים) הקונטקסטואליים של מודלי שפה (embedding space), תואמים לאותם פרופילי ידע שהוגדרו מראש על ידי מומחים (חוקרי חינוך ומורים).
במחקר ניתחנו תשובות של כ־700 תלמידי תיכון בישראל לשתי שאלות פתוחות בביולוגיה. תשובות אלו קודדו על ידי מומחים וסווגו לפרופילי ידע המדורגים לפי איכות התשובות. פרופילי הידע תופסים טיפוסי טעויות שזוהו אצל קבוצות תלמידים ונבדלים זה מזה בחומרת טיפוס הטעות שזוהה. נוסף על כך תשובות התלמידים סווגו לקלסטרים שחושבו על גבי הייצוגים הווקטורים של אותן תשובות במרחב הייצוגים של שלושה מודלי שפה גדולים – מודל ה־embeddings החד־לשוני, AlephBERT, והמודלים הרב־לשוניים: מודל embeddings של OpenAI ושכבת ה־embeddings של מודל צ'אט: Llama3.1. הקלסטרים חושבו על ידי שני מודלים: KMeans ו-HDBSCAN בניסיון לזהות את הפרופילים באופן אוטומטי. הן מודלי השפה והן מודלי הקלסטרים נבחרו בגלל שכיחות השימוש בהם ובגלל מאפיינים שונים שלהם שעושים אותם רלוונטיים במיוחד להקשר המחקרי.
הממצאים היו עקביים בכל שילובי מודלי השפה ומודלי הקלסטרים, והראו התאמה גלובלית נמוכה מאוד בין הקלסטרים שחושבו bottom-up לבין פרופילי הידע מבוססי התאוריה של המומחים. מדד ה־Adjusted Rand Index (או ARI) המודד את רמת ההסכמה (ערכים אפשריים נעים בין 1, הסכמה מלאה, 0, הסכמה מקרית, וערכים שליליים עד 1- עבור חוסר הסכמה) בין שתי ההשמות 0.19≥ עבור הקומבינציה הטובה ביותר של מודל שפה ושיטת קליסטור. ניתוח מעמיק יותר, ברמת פרופיל ידע, חשף הטיה בזיהוי (Discoverability Bias); המודלים הצליחו לזהות באופן סביר עד הולם את פרופיל הידע של התשובות הנכונות והמלאות, אך נכשלו לחלוטין בהבחנה בין הטיפוסים השונים של תשובות שגויות. פרופילי ידע "התערבבו" והושמו בקלסטרים נפרדים, וכתוצאה מכך תשובות המכילות טעויות קונספטואליות דומות הושמו בקלסטרים שונים. המשמעות העיקרית של ממצא זה היא שהמודל אינו מבחין בין תשובות המייצגות טיפוסי טעות שונים מאוד.
מקור הבעיה: "עקרון אנה קרנינה" בשאלות פתוחות
כדי להסביר את שורש כשל הזיהוי, ניתחנו את הדמיון הסמנטי בין ייצוגי תשובות התלמידים במרחב הייצוגים הפנימי של מודלי השפה. מהניתוח עלה קשר מובהק בין איכות התשובות לבין הדמיון הסמנטי שלהן. בפרט, ככל שהתשובות שגויות יותר, כך הן שונות יותר זו מזו במרחב זה. תופעה שכינינו "עקרון אנה קרנינה" של השאלות הפתוחות: כל התשובות הנכונות דומות זו לזו, אך כל תשובה שגויה – שגויה בדרכה. פרפרזה על משפט הפתיחה המפורסם של טולסטוי ברומן אנה קרנינה – "כל המשפחות המאושרות דומות זו לזו, אך המשפחות האומללות – אומללות כל אחת בדרכה".
יתרה מכך, נמצא כי תשובות שגויות מפרופילי ידע שונים נוטות להיות דומות יותר לתשובות הנכונות מאשר לתשובות אחרות המציגות את אותו טיפוס טעות. הממצא האחרון מצביע על אפיון גאומטרי של הייצוגים הווקטורים של התשובות – התשובות המלאות ממוקמות במרכז, ואילו ככל שאיכות התשובות יורדת הייצוג הווקטורי שלהן סובב סביב המרכז ברדיוס הולך וגדל (כמו בצל, היוריסטיקה באיור). תופעה זו מנעה מהמודל להבין שתשובות שונות, שמומחים סיווגו כמשקפות את אותה טעות קונספטואלית, אכן דומות זו לזו, ומצד שני, גרמה לו לחשוב שתשובות שהמומחים סיווגו כמשקפות דפוסי טעות שונים הן דומות.
גם פה, הממצאים הראו ש"עקרון אנה קרנינה" בשאלות פתוחות הוא עקבי ומובהק עבור מגוון מודלי שפה גדולים. מכך עולה שעבור תשובות לשאלות מורכבות, הייצוגים הווקטורים של המודלים אינם רגישים מספיק כדי להבחין במאפיינים שמורים זיהו כקריטיים לאפיון תשובות הלומדים. לכן, חשוב לבצע למודלים תהליך של התאמה למשימה (fine-tuning) כדי לבנות מערכות משוב מדויקות והוגנות.

איור: היוריסטיקה של עיקרון AK עבור ייצוגים וקטורים קונטקסטואליים של תשובות לשאלות פתוחות. תשובות מלאות במרכז (בשחור). ככל שהתשובות פחות נכונות כך הן מפוזרות רחוק יותר זו מזו ומהמרכז.
על הכותבת
אביגייל גורין שלייפר – דוקטורנטית בחינוך מדעי במכון ויצמן למדע. בדוקטורנט שלה היא חוקרת בינה מלאכותית ויישומיה לחינוך. המחקר עוסק בפיתוח מודלים מבוססי בינה מלאכותית וטכניקות של עיבוד שפה טבעית (NLP) לצורך הפקת משוב אוטומטי על תשובות תלמידים לשאלות פתוחות, ובהקשרים חינוכיים נוספים. המטרה היא לשפר את תהליך וחווית הלמידה בבתי הספר, ולפתח ארגז כלים פדגוגיים מבוססי בינה מלאכותית למורים.
אשליות קוגניטיביות במודלי שפה גדולים בבחינה של משתנים חבויים
תרגמה וסיכמה: גל ירמיהו
Peereboom, S., Schwabe, I., & Kleinberg, B. (2025). Cognitive phantoms in large language models through the lens of latent variables. Computers in Human Behavior: Artificial Humans, 4
מודלי שפה גדולים (LLMs) משתלבים יותר ויותר בחיי היום־יום שלנו, והם משמשים לאחזור מידע, לסיוע בשיעורי בית, לצרכי שירות לקוחות ועוד. ככל שהם הופכים מתוחכמים יותר, עם מיליארדי פרמטרים ונתוני אימון עצומים, עולה הצורך להבין טוב יותר את ההתנהגות שלהם. הערכה בשיטות מסורתיות הופכת למורכבת מאוד בשל גודלם, ולכן מתפתחות גישות אלטרנטיביות ששואבות השראה מעולם הפסיכולוגיה.
אחת הגישות היא התנהגות מכונה (Machine Behavior). גישה זו מתבוננת בהתנהגות גלויה של מכונות חכמות, ממש כמו חקר התנהגות בעלי חיים. היא בוחנת את ההתפתחות, האבולוציה, התפקוד והמנגנונים העומדים בבסיסה. גישה נוספת נקראת פסיכולוגיה של מכונות (Machine Psychology). גישה זו מעריכה LLMs באופן דומה למשתתפים במחקרים פסיכולוגיים מבוססי שפה על ידי בחינת הקשר בין קלט לפלט. מחקרים ראשוניים בתחום מצאו רמזים להתנהגות דמוית אנוש, כמו נטיות חנפניות, ואף טעויות קוגניטיביות כמו אצל בני אדם.
גישה אחרת היא הגישה הפסיכומטרית. רבות מהתכונות הפסיכולוגיות שאנו מנסים למדוד ב־LLMs כמו תכונות אישיות, נחשבות ל"משתנים חבויים" והן אינן ניתנות לצפייה או למדידה ישירה. אנו מודדים אותן בעקיפין, דרך התנהגויות נצפות שלכאורה נגרמות על ידי אותה תכונה חבויה. מתן שאלונים פסיכומטריים קיימים ל־LLMs נראה כדרך מהירה למדוד תכונות אלו. אך כאן טמון אתגר תוקף מהותי: האם התכונות החבויות קיימות בכלל ב־LLMs? השאלונים הפסיכומטריים תוכננו ותוקפו לבני אדם, ולכן מניחים את קיומן של התכונות גם במודלי השפה.
וגם - האם השאלונים מודדים את אותן התכונות באופן שווה בבני אדם וב־LLMs? אין ערובה לכך שכלי שתוקף לבני אדם תקף גם למודלי שפה. התעלמות מבעיה זו עלולה ליצור אשליה של אנושיות ב־LLMs.
במחקר שהתפרסם ב־Computers in Human Behavior: Artificial Humans (המחקר Peereboom et al., 2025) נבדקה בעיית התוקף הזו. החוקרים השוו תכונות חבויות של אישיות בין בני אדם לבין שלושה מודלי GPT (המודלים GPT-3.5-T, GPT-4, GPT-4-T). הם נתנו להם שני שאלוני אישיות תקפים, שאלון HEXACO-60 (או H60) ושאלון תכונות "הצד האפל של האנושות" (DSHS = Dark Side of Humanity Scale). פירוט מורחב על מתודולוגיית המחקר תוכלו למצוא במאמר המקורי (עמ' 3).
ממצאי המחקר
מחקר זה התבסס בעיקרו על שיטת ניתוח גורמים (Factor Analysis). הציפייה הייתה שאם ל־LLMs יש תכונות חבויות כמו לבני אדם, מבנה הגורמים התאורטי של השאלונים יהיה תואם גם בהם. עם זאת, בעוד שבמדגם האנושי מבנה הגורמים היה סביר ותואם במידה רבה למבנה התאורטי, ב־LLMs המצב היה שונה מאוד; התשובות של מודלי GPT הציגו גורמים שרירותיים ברובם. מעבר לכך, בשל היעדר שונות במספר פריטים בשני השאלונים, המודל GPT-4-T הוצא מהניתוח. כמו כן, נתוני ה־LLMs הפרו כמה הנחות בשאלון DSHS, ולא ניתן היה להצדיק ביצוע ניתוח גורמים. לכן, ניתוח גורמים בוצע רק על שאלון H60 במדגם האנושי ובמדגמים של המודלים GPT-3.5-T ו-GPT-4.
במחקר נעשה שימוש גם בניתוח גורמים מאשש (CFA) ובניתוח גורמים מגשש (EFA). ניתוח גורמים מאשש (CFA) נכשל בשני המודלים GPT-3.5-T ו-GPT-4 מכיוון שלא התקבלו בו נתונים תקפים. ניתוח גורמים מגשש (EFA) הראה שמבני הגורמים בתגובות של המודלים שרירותיים, לא עקביים ולעיתים לא הגיוניים. משיטות מחקר אלה עולה שאין ראיה לכך שתכונות אישיות שנמדדות אצל בני אדם קיימות גם במודלי השפה, או שאפשר למדוד אותן במודלים באופן תקף.
במחקר נעשה גם שימוש בניתוח ציונים מצרפיים (Composite Scores). לפי ניתוח זה, כל מודלי ה־GPT הציגו ציונים גבוהים יותר בתכונות אישיות "רצויות חברתית" (כמו פתיחות ונעימות) ונמוכים יותר בתכונות "פחות רצויות" (כמו פסיכופתיה) בהשוואה לבני אדם. עם זאת, המודל GPT-3.5-T הראה ציונים גבוהים יותר בתכונות "אכזריות סדיסטית" ו"זעם מתוך תחושת זכאות", מה שיכול לעורר דאגה לגבי בטיחותו.
כמצופה, במדגם האנושי נמצאו מתאמים שליליים בין מדד יושר–ענווה (H60) לבין ממדי האישיות האפלה (DSHS). המתאמים אצל GPT-4 ו-GPT-4-T היו שליליים, אך לרוב חלשים משמעותית לעומת המדגם האנושי. עבור GPT-3.5-T נמצאו מתאמים חיוביים בין תכונות אלה – קשר הפוך לחלוטין ממה שמצופה תאורטית. חשוב לציין כי ללא התייחסות למבנים חבויים, ניתן היה לפרש ממצאים אלה באופן שגוי כהוכחה לתוקף מבני של השאלונים עבור LLMs.
לסיכום
המחקר הציג ראיות חזקות לכך שתשובות של LLMs לשאלונים שפותחו עבור בני אדם אינן עומדות בסטנדרטים פסיכומטריים קפדניים. המבנים החבויים שנמצאו ב־LLMs הם שרירותיים ושונים מאוד מאלו של בני אדם. הפרקטיקה הנפוצה של פרשנות ציונים מצרפיים אינה מספקת, והגישה של משתנים חבויים היא קריטית במחקרי תוקף של כלים פסיכומטריים עבור LLMs. היא מגינה מפני ייחוס שווא של תכונות אנושיות למודלים ומסייעת להבחין בין "השפעות אמיתיות" לבין "אשליות קוגניטיביות".
לאן ממשיכים מכאן?
המחקר הנוכחי הוא צעד ראשון. יש צורך במחקרים נוספים שיבחנו מודלי LLMs שונים (כולל קוד פתוח), וכן שאלונים נוספים שבודקים תכונות אחרות. כמו כן קיימת סוגיה מורכבת – האם LLMs הוא כמו "אוכלוסייה" או "פרט"? הבנה זו תשפיע על השיטות הפסיכומטריות שיש להשתמש בהן. ייתכן גם ששאלונים הכוללים התייחסויות לחוויות גופניות (כמו "הדבר הראשון שאני עושה במקום חדש זה להתיידד"), ושאינם רלוונטיים ל־LLMs, תורמים למבנה גורמים שרירותי. בעתיד יהיה ניתן לחקור יכולות קוגניטיביות חבויות באופן מפורט יותר, למשל, באמצעות מודלי תגובה לפריט (IRT). הבנה פסיכומטרית מעמיקה היא המפתח להבנת ההתנהגות של מודלי שפה, והיא חיונית לפיתוח בטוח ואחראי של טכנולוגיות אלה.
פינת הריאיון
בשנים האחרונות נידונה שאלת הזהות המקצועית של הפסיכומטריקאי והגדרת תחומי תפקידו. בפינה הזו נראיין כל פעם אחד או אחת מהעוסקים בפסיכומטריקה, נכיר את תפקידם ונברר כיצד הם בעצמם מגדירים את התפקיד.
והפעם:
שם: באדר טאהא
תפקיד: פסיכומטריקאי מפתח בחינות וכלי הערכה
רקע אקדמי: תואר ראשון בפסיכולוגיה ובשפה וספרות ערבית, תואר שני בספרות כללית במסלול עם תזה, אוניברסיטת תל־אביב

שלום באדר ותודה שהסכמת להתראיין למידעונט אפי.
ספר לנו, מה אתה עושה בתפקידך הנוכחי ואיך היית מגדיר את תחום העיסוק שלך.
אני עוסק בפיתוח מבחנים למערכת החינוך. זה תפקיד מאוד מגוון בדרישותיו וזה לדעתי סוד הקסם שלו ובה בעת מה שמוסיף מורכבות על הגדרת התפקיד. הייתי מגדיר את התפקיד כפסיכומטריקאי מפתח בחינות. לצד צוות הכתיבה, אני פסיכומטריקאי שמלווה את תהליך הפיתוח של המבחן על כל שלביו.
כפי שחבר לעבודה אוהב להזכיר לי תמיד, "אתה החתום על המבחן". ומה זאת אומרת? אני אחראי על המבחן משלב איסוף החומר ועד לשלב שהמבחן עובר בשטח. תוך כדי התהליך, בראש מעייני כפסיכומטריקאי לדאוג לשאלות הבאות: האם המבחן עומד במתווה ששורטט לו? האם המבחן עומד בסטנדרטים של המבחנים החינוכיים והפסיכולוגיים? והכי חשוב, מתוך זה לוודא בכל שלב: האם המבחן בודק את מה שנועד לבדוק.
זו כמובן הגדרה כללית, ובפועל, התפקיד שלי הרבה יותר נזיל. במסגרת התפקיד אני משתתף בתהליך הכתיבה, בעריכה ובעיצוב, בתכנון האיורים הנלווים לבחינה, וגם בניתוח הנתונים ובפירושם, בהצגת התוצאות, ההחלטות והנימוקים בפני וועדת היגוי שמובילה את הפיתוח. למעשה מצופה ממני להיות מעורב בכל "פסיק" במבחן.
איך הגעת לעסוק בתחום הפסיכומטריקה?
אני מודה שאף פעם לא חלמתי להיות פסיכומטריקאי, ועד שלב מסוים לא ידעתי אפילו על קיומו של המקצוע. אני מניח שזה נכון גם לגבי הרבה מהעוסקים בתחום, כי זה תחום שלא מוגדר לו מסלול באקדמיה בישראל, ורבים מגיעים אליו דרך גלגולי החיים. למעשה התואר הראשון שלי הוא בפסיכולוגיה ובשפה וספרות ערבית, ולאחר מכן המשכתי לתואר שני מחקרי בספרות.
בראשית דרכי, בעודי סטודנט באוניברסיטת תל-אביב, עבדתי במטח (המרכז לטכנולוגיה חינוכית). זו הייתה עבודה מצוינת בשבילי: מקום עבודה קרוב למגורים ומה שהתבקשתי לעשות היה בעיקר לעבור על מבחנים ולכתוב הערות. אחר כך התגלגלתי לראמ"ה (הרשות הארצית למדידה והערכה בחינוך) בתור עוזר מחקר ועבדתי שם יותר מארבע שנים. שם הכרתי את התחום מקרוב יותר והתאהבתי בו. אחרי תקופת "הכשרה" בראמ"ה עברתי לטלדור אססמנט לתפקיד פסיכומטריקאי מפתח בחינות, ואני עובד שם כבר יותר משנתיים.
מה אתה אוהב במיוחד בתחום? מה מעורר בך סקרנות?
הרבה דברים, ואני לא מגזים. אם אני מתבקש להיות תמציתי, אז הייתי אומר בראש ובראשונה, היצירה – ליצור יש מאין – וזה דבר מרגש בפני עצמו בכל תחום כלשהו, ובעבודה שלנו יש לנו ההזדמנות לחוות את הרגעים האלה לעיתים קרובות.
דבר שני, להיכנס לנעליים של האחרים, לחשוב תמיד על האחר ובמקומו. לפעמים האחר הוא ילד בן 10, לפעמים הוא תלמיד חזק, או דווקא חלש, לפעמים הוא עם דיאלקט שונה, או תרבות שונה. זה דבר מרתק ואף מספק.
דבר שלישי ולא אחרון, הנתונים. כל פסיכומטריקאי מכיר את הרגע כשהוא פוגש את הנתונים, ומתפלא איך בכוחם של הנתונים ללמד על המבחן ולהאיר על מקומות שלא חשבת שיש בהם בעיה. זה תענוג מיוחד במינו. אני חושב שהנתונים הם "הפסיכומטריקאי" האולטימטיבי של המבחן, כלומר הנתונים הם אלה שמראים בצורה החותכת ביותר את טיב הפריט וטיב המבחן.
אם היית מתבקש להעביר מסר לצעירים בתחילת דרכם המקצועית בתחום – מה היה הטיפ שלך אליהם?
אני די צעיר בעצמי כך שקטונתי מלתת טיפים לצעירים בתחילת דרכם. עם זאת אני חושב שההתנסות בתחום חשובה מאוד. הייתי מציע להתחיל מתפקידים פשוטים יחסית שחושפים אותך לעולם הפסיכומטריקה, כך שתכיר את המקצוע יותר מקרוב ותראה אם הוא מעניין אותך. במילים אחרות "להרגיש את השטח" לפני ולבחון בעצמך אם עולם המבחנים והנתונים הוא בשבילך. בנוסף, ולא פחות חשוב, כדי להשתלב בתחום צריך לרכוש מיומנויות וכלים רלוונטיים וללמוד את עולם המושגים של התחום.