עבודת תזה במסגרת לימודים לתואר שני
שם הסטודנט:         דוד בן-מיכאל
שם המנחה:            ד"ר דן וילנצ'יק וד"ר הוואנה ריקה

נושא העבודה וההרצאה:  

המאפיין הגנטי של הערות סרקסטיות: שימוש במודל רשתות נוירונים לזיהוי הערות סרקסטיות ברשתות חברתיות

ההרצאה תתקיים ביום חמישי כד ניסן  2.5.2024 בשעה 11:00 בזום

https://openu.zoom.us/j/94750466258

תקציר

המשימה של זיהוי משפטים סרקסטיים מקבלת משקל רב יותר במחקר של עיבוד שפה טבעית עקב גדילתם של הרשתות החברתיות. חלק מהקושי של זיהוי סרקזם נובע מההקשר שבו נאמר המשפט הסרקסטי שלעיתים אינו מופיע במפורש ומסתמך על הידע הקדום של הקורא. סיבה נוספת לקושי נובעת מהגוונים השונים של המשפטים הסרקסטיים. חלק מהערות יותר הומוריסטיות וחלק יותר עוקצניות, בסופו של דבר לא כולם עשויות מקשה אחת.  בעבודה זו נציג מערכת זיהוי מבוססת על מודל BERT הבנוי בארכיטקטורה של רשתות נוירונים שתאפיין גוונים שונים של סרקזם (עוקצנות, הומור ואירוניה) ועל סמך זאת תזהה בדיוק טוב יותר משפטים סרקסטיים. מערכי נתונים של משפטים סרקסטיים שונים אחד מהשני בכמות וסוג הגוונים שלהם. לפיכך ביצוע הערכה בין תחומית של אימון מודל על מערך נתונים ממקור אחד ובדיקתו על מערך נתונים ממקור אחר תזהה סרקזם בדיוק נמוך יותר מאשר הערכה תוך תחומית (אימון ובדיקה על משפטים ממקור זהה). כדי להתגבר על הקושי של זיהוי סרקזם גם בהערכה בין תחומית, נשתמש בשיטה ייחודית של "הגדלת נתונים" (הוספת נתונים למערך נתונים קיים) שתתבסס על גווני הסרקזם שהמערך הנתונים המקורי חסר , באופן שיביא לשיפור משמעותי במבחן הזיהוי F1-score ללא צורך בתיוג משפטים נוספים.