מערכת ניטור למוצרי SYE

בעבור מי שמנהל שרת עצמאי (Hosting) של מערכות הייפר, יצרנו כלי ניטור אוטומטי הסורק את מסדי הנתונים המותקנים בו, בוחן את זמינות השרתים ואת דיווחי המודולים בטבלה SYE_Monitor KeepAlive.
כלי הניטור הנו יישום בעל ממשק גראפי, למערכת Windows וגם ממשק HTML לצפיה במצב המערכות. כלי הניטור קורא מידע (Readonly) ואינו מתערב במערכות המבוקרות, למעט לחצן אחד, המבצע איפוס התרעות בטבלה הנ"ל.
בכדי לצפות בהדרכה המלאה, עליך להזדהות כלקוח / שותף של SYE ("כניסה למשתמש רשום").


מבוא

אם אינך מכיר את יישום הניטור, חשוב שתקרא את העמוד עד סופו.
הטבלה העליונה מציגה את רשימת ההתרעות הממתינות לטיפול כרגע. הטבלה התחתונה מציגה עד 120 התרעות קודמות לידיעה בלבד.
להלן הסבר אודות השדות הגלויים וגם כמה חבויים:
שם השדה תיאור
When אם מדובר בדיווח איחור (delayed), זהו זמן הדיווח האחרון של המודול (הרי מודול שקרס לא יכול לדווח על עצמו).
אם מדובר ברשומת דיווח על כישלון (failed), אזי זהו זמן הכישלון. הערכים ב- Universal Time Coordinate.
Type סיווג ההתרעה:
  • Technical: בחינות טכניות של השרת / תחנה עליה מותקן היישום. בד"כ מתקינים מוניטור אחד בכל cluster ולכן התוצאה מייצגת את כולו.
    בעת תקלה בשירות ה-dns שאליו מחובר היישום. או כאשר השעון של מערכת ההפעלה רחוק מדגימת שעון NTP pool.
  • Banks FX: כאשר הסנכרון המרוכז של שערי מטבע חוץ מהבנקים השונים - אל שרת ההפצה, נכשל.
  • Supervisor: תקלה הנוגעת לשרת ההפצה.
  • Database: תקלה באחד מהמודולים של הייפר CRM או ERP, מתוך מסדי הנתונים בתיקייה LIC.
  • Do It Yourself: תקלה באחד מהמודולים של הייפר CRM או ERP, מתוך התיקייה ERP_DIY_LIC שהינם מסדי נתונים ב-"שירות מוזל".
  • HTTP: תקלה באתר אינטרנט או web api. הבחינה על פי כתובת גרידה, כלומר אפשר להתקין את הבדיקה על כל אתר.
  • TP Sync: תקלה ביישום הקשור לסנכרון פלטפורמת מסחר אל הייפר. היישומים הללו זוכים לקטגוריה נפרדת בגלל חשיבותם.
  • PBX Sync: תקלה ביישום הקשור לסנכרון שרת/שירות טלפוניה אל הייפר. היישומים הללו זוכים לקטגוריה נפרדת בגלל חשיבותם.
LIC Name / URL שם התיקייה של מסד הנתונים או כתובת HTTP.
Alert Message התרעה בטקסט חופשי מאת המודולים וגם בטור הזה יכול להופיע אייקון (צלמית):
  • דגל ירוק מסמל התרעה שביקשתם לדלג ("לסלוח") עליה.
  • סימן קריאה מסמל איחור בתהליך תוכנה קריטי !
  • דגל אדום מסמל רשומת דיווח על כישלון. כלומר המודול פעיל ודיווח על בעיה.
Alert Time UTC שדה פנימי מחושב המכיל את הזמן ממנו יש להתריע. המוניטור יציג כל איחור / תקלה באופן מיידי אבל מועד שליחת מסרון או השמעת צפצוף יכולים להידחות בהתאם לסוג המשימה המדווחת.
למשל למודולים של סנכרון קיים מנגנון תיקון עצמי ולכן המוניטור יצפצף או ישלח מסרון באיחור של 5 דקות אם התקלה לא סודרה מעצמה.

בתוך היישום פועלים שלושה "מנועים" שונים לניטור:

  1. ניטור זמינות מערכות הייפר:
    בתוך היישום קיים מודול תוכנה ייעודי לניטור הייפר. היישום מריץ עד 7 שכפולים (instances) שלו.
    כל שכפול הנו תת תהליך נפרד הפועל במקביל לשכפולים האחרים. כל שכפול מחזיק ברשימת המערכות אותה הוא בוחן בטור (בזו אחר זו).
    היישום מתחבר אל מסד הנתונים בכל 0.5 עד 4 דקות (תלוי בהגדרות ובכמות המערכות) וקורא מתוכו מספר טבלאות (לרבות בנושאים כמו סליקה ואתרי האינטרנט המחוברים).
  2. ניטור HTTP עבור אתרי אינטרנט ויישומי רשת:
    כל כתובת אינטרנטית (URL) נבחנת בתזמון שהוגדר לה. המטרה היא לקבל HTTP 200 OK עם תוכן כלשהו, בתוך 20 שניות, אחרת מוצגת התרעה.
  3. ניטור שרת הפיקוח SYE Supervisor Server:
    כל ספק אירוח (Hosting) של הייפר, נדרש להתקין מערכת ניהול ופיקוח עבור מסדי הנתונים המתארחים אצלו. לכן נדרש גם ניטור של שרת הפיקוח.
    מחזור הבחינה הנו בכל דקה ומתבצעות בו בחינות לשעון המכונה, זמינות שרת הפיקוח, איתות כתובות IP לגישה, זמינות שערי מטבע יציגים מהבנקים ועוד.

תזמון המסרונים:

בכדי שלא לבזבז מסרונים סתם, היישום שולח הודעה אחת עם סוגי התקלות (לפי Type ולפי דחיפות). בטבלת ההתרעות הפעילות קיים שדה פנימי המתאר האם נשלח מסרון בנוגע לשורה.
מינימום 2 דקות בין הודעות והפסקת שליחות בשבת בין השעות 00:00 - 06:00 UTC. בחלון זמנים זה נהוג גם לאתחל שרתים (לפחות את מכונות העיבוד / אפליקציות).
  • בעת הגעת אירוע מסוג כישלון או איחור של מודול קריטי, מסרון ישלח לאחר שנייה אחת.
  • היישום ממתין 30 שניות מרגע הדיווח על איחור של מודול תוכנה (רגיל) לבין שליחת המסרון.
  • עבור מודולים מסוג TP + PBX היישום ממתין 3 דקות, מרגע האיחור, מכיוון שהם מכילים מנגנונים אוטומטיים לאתחול / תיקון עצמי.

בנוסף בהתאם להגדרות (ראה הדרכה בעמוד נפרד), ניתן להגדיר חלון זמנים יומי שבו לא ישלחו התראות שאינן קריטיות - כלומר רק סיווג קריטי ישלח 24/7.
למי שרוצה שקט בלילה...

תזמון צליל (html ding):

צליל ding יושמע רק בעמוד HTML או באפליקציית תצוגה מרחוק. יישום הניטור עצמו אינו מנגן צליל.
עבור כל התרעה חדשה יושמע צליל החל משנייה אחת ועד עשר שניות לאחר "רגע ההתרעה" שהוא זהה לתזמון המסרונים שהוסבר לעיל (מיד / 30 שניות / 3 דקות).
מכיוון שיש טיימר רענון בכל 6 שניות, אזי כל התרעה תשמיע 2-3 צלצולים.
צלילים לא מושמעים בשבת בין השעות 00:00 - 06:00 UTC. בחלון זמנים זה נהוג גם לאתחל שרתים (לפחות את מכונות העיבוד / אפליקציות).

הלחצנים בממשק:

Reset Alerts History מאפס את רשימת ההתרעות שנפתרו (הטבלה התחתונה).
Delete marked DB Alerts פותח תת תפריט עבור מחיקת אירועים במסד הנתונים שהסמן נמצא מעליו.
מדובר בפעולת שינוי בטבלה SYE_Monitor KeepAlive בלבד.
Delete "Failed' Records לאחר דיאלוג אישור, המוניטור יתחבר למסד הנתונים המסומן וימחק ממנו רשומות בסטטוס failed בלבד.
Delete "Delay" Records לאחר דיאלוג אישור, המוניטור יתחבר למסד הנתונים המסומן וימחק ממנו רשומות בסטטוס delayed ושאינן מוגדרות כמשימות קריטיות !
Skip this Alert מעתיקה את ההתרעה לטבלת "הדילוגים" בלשונית setup. זוהי רשימת ההתרעות עליהן המוניטור "יסלח" ולא יצפצף ולא ישלח מסרון.
SMS Enabled תיבת סימון: האם לשלוח מסרונים בעת התרעה.
Html Ding תיבת סימון: האם להשמיע צליל (ding) ב-3 שניות הראשונות להתרעה חדשה.