מה זה ETL?
ראשי התיבות ETL מייצג Extract-Transform-Load וזה תהליך של טעינת נתונים ממערכת המקור (המערכת שממנה המידע יוצא) למחסן הנתונים (Data Warehouse) אשר הינו סוג של מסד נתונים. את הנתונים מחלצים ממסד נתונים OLTP, ממירים כך שיתאימו לסכמת מחסן הנתונים וטוענים למסד הנתונים של מחסן הנתונים. מחסני נתונים רבים כוללים גם נתונים ממערכות שאינן OLTP כגון קבצי טקסט, מערכות מדור קודם וגיליונות אלקטרוניים.
מה זה Data WareHouse?
מחסן נתונים (DWH) הוא בסיס נתונים המיועד לשאילתא וניתוח נתונים.
מחסן הנתונים נבנה על ידי שילוב הנתונים ממקורות הטרוגניים מרובים המאפשר לחברה או לארגון לאחד את הנתונים מכמה מקורות ולהפריד בין העומס עבודה שבניתוח נתונים לבין עומס העבודה בעסקה. הנתונים הופכים למידע באיכות גבוהה בכדי לעמוד בדרישות הדיווח הארגוני עבור כל רמות המשתמשים.
בואו נראה איך זה עובד
ניקח לדוגמא חנות קמעונאית שיש בה מחלקות שונות כגון מכירות, שיווק, לוגיסטיקה וכו'. כל אחת מהן מטפלת במידע על הלקוחות באופן עצמאי, והדרך בה מאחסנים נתונים שונה לגמרי. מחלקת המכירות שמרה אותו לפי נתוני מכירות שוטפות, לעומת מחלקת השיווק ששמרה את הנתונים לפי קמפיינים..
כעת אם הם רוצים לבדוק את ההיסטוריה של הלקוח ורוצים לדעת מהם המוצרים השונים שהוא / היא קנו בגלל קמפיינים שיווקיים שונים, זה יהיה מייגע מאוד.
הפיתרון הוא להשתמש במחסן נתונים לאחסון מידע ממקורות שונים במבנה אחיד באמצעות ETL. ETL יכול להפוך מערכי נתונים שונים למבנה אחיד. יש להשתמש בכלי BI (בינה עסקית) כדי להפיק תובנות ודיווחים משמעותיים מנתונים אלה.
מדוע ארגונים זקוקים למחסן נתונים?
ארגונים עם מנהלי IT מסודרים מצפים ליצור את הרמה הבאה של טרנספורמציה טכנולוגית ולאמץ שינויים טכנולוגיים חדשים ותכופים. כאשר הארגונים מנסים להפוך את עצמם למבצעיים הרבה יותר בעזרת נתונים קלים לתפעול.
הנתונים הם החלק החשוב ביותר בכל ארגון. הם עשויים להיות נתונים יומיומיים או נתונים היסטוריים. נתונים הם עמוד השדרה של כל דוח, דוחות הם קו הבסיס עליו מתקבלות כל החלטות הניהול החיוניות.
מרבית החברות עושות צעד קדימה להקמת מחסן הנתונים משלהן לאחסון ופיקוח של נתונים בזמן אמת וכן על נתונים היסטוריים. עבודת מחסן נתונים יעילה אינה עבודה קלה. ארגונים רבים הפיצו מחלקות עם יישומים שונים הפועלים בטכנולוגיה מבוזרת, כלומר הנתונים נשמרים בשרתים שונים ברשת.
ה-ETL משמש בכדי ליצור שילוב ללא רבב בין מקורות נתונים שונים ממחלקות שונות. ה-ETL יעבוד כאינטגרטור ויחלץ נתונים ממקורות שונים; הפיכתם לפורמט המועדף על פי כללי הטרנספורמציה העסקית והעמסתם בבמסד נתונים מגובש הידוע הם Data Warehouse.
התרשים הבא מציג את מפת הדרכים של תהליך ה-ETL
Extract - חילוץ נתונים רלוונטיים
Transform - הפיכת נתונים לפורמט מחסן נתונים (DWH)
Load - טעינת נתונים למחסן הנתונים
אז מה זה בדיקת ETL?
בדיקת ETL נעשית על מנת להבטיח שהנתונים אשר נטענו מהמקור ליעד לאחר השינוי העיסקי מדוייקים. זה כרוך גם באימות נתונים בשלבי אמצע שונים המשמשים בין המקור ליעד. אני מזכיר שראשי התיבות של ETL הם Extract-Transform-Load.
תהליך בדיקת ETL
בדומה לתהליכי בדיקה אחרים, ETL גם כן עובר שלבים שונים. השלבים השונים של תהליך בדיקת ETL הם:
בדיקת ETL מתבצעת בחמישה שלבים:
סוגי בדיקות ETL
כיצד ליצור מקרי בדיקה ל-ETL?
במהלך ביצוע בדיקות ETL, שני מסמכים שתמיד ישמשו את מקרי הבדיקה הם:
תקלות שונות של באגים אשר ניתן למצוא בבדיקת ETL:
תחומי האחריות של בודק ה-ETL:
לסיכום:
במאמר זה סקרתי את נושא ה-ETL.
מה זה ETL, איך בנוי יישום ה-ETL ואיך הוא עובד. אילו סוגי בדיקות עושים ליישום ה-ETL.
מה חשוב לבדוק ביישום ה-ETL ואיך ניתן לבנות תסריטי בדיקה ליישום. אילו באגים ניתן למצוא כאשר בודקים את היישום.
כמו כן סקרנו את תחומי האחריות של הבודק.
חשוב להבהיר כי שלב ה-ETL הוא שלב מאוד חשוב בעבודה עם BI שכן טעות אחת קטנה יכולה לדוגמא להוביל לאיבוד הכנסה בסכומים מאוד גבוהים.