אחד האתגרים עמו מתמודדות מערכות אנטי וירוס, הוא נפח קבצים עצום, איתו יש להתמודד על בסיס יומיומי. את אוסף הווירוסים הנפוצים במערכות מייקרוסופט, ניתן לחלק לתשע משפחות, המאופיינות ע"פ התנהגות הווירוס. לפיכך, שלב ראשוני בהתמודדות עם וירוס, יהיה לשייך אותו למשפחה המתאימה. בפרויקט זה בניתי מערכת לומדת, היודעת לסווג ווירוס למשפחה המתאימה ברמת דיוק גבוהה מאוד. בניית המערכת, נעשתה בשלושה שלבים מרכזיים:
1. עיבוד קבצי וירוס, על מנת לזהות התנהגות תבניתית בתוך הקבצים.
2. חקירת מודלים של מסווגים על מנת להתאים למשימה את המודל המתאים ביותר.
3. אימון המודל הסופי בצורה נכונה, כדי להפיק ממנו את ביצועים מקסימליים.