מהו כריית נתונים?

כריית נתונים היא תהליך של שימוש בכלים אנליטיים מתקדמים לשליפת מידע שימושי מצבירת נתונים.

סקירת כריית נתונים

כריית נתונים היא תהליך שליפת מידע שימושי מצבירת נתונים, לעתים קרובות ממחסן נתונים או מאיסוף של סטים מקושרים של נתונים. כלי כריית נתונים כוללים יכולות סטטיסטיות רבות עוצמה, מתמטיות וכלי ניתוח שמטרתם העיקרית היא לסייר בסטים גדולים של נתונים כדי לזהות מגמות, דפוסים וקשרים כדי לתמוך בקבלת החלטות ותכנון מושכלים.

 

לעתים קרובות קשורים לשאילתות מחלקת השיווק, כריית נתונים נתפסת על ידי מנהלים רבים כדרך לסייע להם להבין טוב יותר את הביקוש ולראות את ההשפעה שיש לשינויים במוצרים, בתמחור או בקידום על המכירות. אבל לכריית נתונים יש תועלת ניכרת גם לתחומים עסקיים אחרים. מהנדסים ומעצבים יכולים לנתח את היעילות של שינויי המוצר ולחפש סיבות אפשריות להצלחה או לכשל של המוצר הקשור לאופן השימוש, מתי ואיפה מוצרים נמצאים בשימוש. פעולות שירות ותיקון יכולות לתכנן טוב יותר מלאי חלקים ואיוש. ארגוני שירות מקצועיים יכולים להשתמש בכריית נתונים כדי לזהות הזדמנויות חדשות מתוך מגמות כלכליות משתנות ומשמרות דמוגרפיות.

 

כריית נתונים הופכת שימושית יותר ובעלת ערך עם סטים של נתונים גדולים יותר ועם יותר חוויית משתמש. מבחינה לוגית, ככל שיש יותר נתונים, צריך לקבור שם יותר תובנות ומודיעין. כמו כן, ככל שמשתמשים מקבלים יותר היכרות עם הכלים ומבינים טוב יותר את מסד הנתונים, כך הם יכולים להיות יצירתיים יותר עם החקר והניתוחים שלהם.

מדוע להשתמש בכריית נתונים?

התועלת העיקרית בכריית נתונים היא כוחה לזהות דפוסים וקשרים בנפחים גדולים של נתונים ממקורות מרובים. עם יותר ויותר נתונים זמינים - ממקורות מגוונים כמו מדיה חברתית, חיישנים מרוחקים ודיווחים מפורטים יותר ויותר על תנועת מוצרים ופעילות בשוק - כריית נתונים מציעה את הכלים לנצל באופן מלא את ביג דאטה ולהפוך אותו למודיעין בר-ביצוע. מה שיותר, זה יכול לשמש כמנגנון עבור "חשיבה מחוץ לקופסה".

 

תהליך כריית המידע יכול לגלות קשרים מפתיעים ומסקרנים ודפוסים בביטים לכאורה שאינם קשורים למידע. מכיוון שהמידע נוטה להיות מידור, מבחינה היסטורית הוא היה קשה או בלתי אפשרי לנתח אותו בכללותו. עם זאת, ייתכנו יחסים בין גורמים חיצוניים – אולי גורמים דמוגרפיים או כלכליים – לבין ביצוע של מוצרי חברה. ובעוד שמנהלים מסתכלים באופן קבוע על מספרי מכירות לפי טריטוריה, קו מוצר, ערוץ הפצה ואזור, לעתים קרובות הם חסרים הקשר חיצוני למידע זה. הניתוח שלהם מצביע על "מה שקרה" אבל לא עושה מעט כדי לחשוף את ה"למה זה קרה ככה". כריית נתונים יכולה למלא את הפער הזה.

 

כריית נתונים יכולה לחפש מתאמים עם גורמים חיצוניים; בעוד שקורלציה לא תמיד מציינת סיבתיות, מגמות אלו יכולות להיות סמנים בעלי ערך כדי להנחות החלטות ייצור, ערוץ ומוצר. אותו ניתוח נותן תועלת לחלקים אחרים של העסק מעיצוב המוצר ועד ליעילות תפעולית ואספקת שירות.

היסטוריית כריית נתונים

אנשים אוספים ומנתחים נתונים במשך אלפי שנים ובמובנים רבים התהליך נשאר זהה: לזהות את המידע הדרוש, למצוא מקורות נתונים איכותיים, לאסוף ולשלב את הנתונים, להשתמש בכלים היעילים ביותר הזמינים לניתוח הנתונים, ולהוון את מה שלמדת. ככל שמחשוב ומערכות מבוססות נתונים גדלו והתקדמו, כך יש להם את הכלים לניהול וניתוח נתונים. נקודת ההתנפחות האמיתית הגיעה בשנות השישים של המאה העשרים עם פיתוח טכנולוגיית בסיס נתונים יחסי וכלי שאילתות בשפה טבעית מונחית משתמש כמו שפת שאילתות מובנית (SQL). לא היו עוד נתונים זמינים רק באמצעות תוכניות מקודדות מותאמות אישית. עם פריצת דרך זו, משתמשים עסקיים יכלו לחקור באופן אינטראקטיבי את הנתונים שלהם ולהוציא את אבני הדרך הנסתרות של מודיעין שנקברו בפנים.

 

כריית נתונים הייתה באופן מסורתי מיומנות מומחיות שנקבעה במדעי הנתונים. כל דור חדש של כלים אנליטיים, לעומת זאת, מתחיל לדרוש כישורים טכניים מתקדמים אך מתפתח במהירות כדי להפוך לנגיש למשתמשים. אינטראקטיביות – היכולת לתת לנתונים לדבר איתך – היא הקידמה העיקרית. שאל שאלה; ראה את התשובה. בהתבסס על מה שאתה לומד, שאל שאלה אחרת. סוג זה של גיבוב לא מובנה באמצעות הנתונים לוקח את המשתמש אל מעבר לגבולות של תכנון בסיס הנתונים הייחודי ליישום ומאפשר גילוי קשרים החוצים גבולות פונקציונליים וארגוניים.

 

כריית נתונים היא מרכיב מרכזי בבינה עסקית. כלי כריית נתונים בנויים ללוחות מחוונים מנהלים, איסוף תובנות מ-Big Data, כולל נתונים ממדיה חברתית, אינטרנט של דברים (IoT) חיישן מזין, מכשירים מודעים למיקום, טקסט לא מובנה, וידאו ועוד. כריית נתונים מודרנית מסתמכת על הענן ומחשוב וירטואלי, כמו גם בסיסי נתונים בזיכרון פנימי, על מנת לנהל נתונים ממקורות רבים באופן חסכוני ולהתרחב לפי דרישה.

איך עובדים על כריית נתונים?

יש בערך כמה גישות לכריית נתונים כמו שיש בכורי מידע. הגישה תלויה בסוג השאלות הנשאלות ובתכנים ובארגון בסיס הנתונים או מערכי הנתונים המספקים את חומר הגלם לחיפוש ולניתוח. לדבריו, ישנם כמה שלבים ארגוניים והכנה שיש להשלים כדי להכין את הנתונים, הכלים והמשתמשים:

  1. להבין את הבעיה - או לפחות את תחום החקירה. מקבל ההחלטות העסקי, שאמור להיות במושב הנהג להרפתקאות זו של כריית מידע מחוץ לכביש, זקוק להבנה כללית של התחום בו הם יעבדו – סוגי הנתונים הפנימיים והחיצוניים שאמורים להיות חלק מהמחקר הזה. ההנחה היא שיש להם ידע אינטימי על העסק ועל התחומים הפונקציונליים הכרוכים בכך.
  2. איסוף נתונים. התחל במערכות הפנימיות ובבסיסי הנתונים שלך. קשר אותם במודלי הנתונים שלהם וכלים יחסיים שונים או אסוף את הנתונים יחד למחסן נתונים. זה כולל את כל הנתונים ממקורות חיצוניים שמהווים חלק מהפעולות שלך, כמו נתוני מכירות שדה ו/או שירות, IoT או נתוני מדיה חברתית. חפש וקנה את הזכויות לנתונים חיצוניים, כולל נתונים דמוגרפיים, נתונים כלכליים ומודיעין שוק, כגון מגמות בתעשייה ובוחן פיננסי מאגודות מסחר וממשלות. הבא אותם אל תוך תצוגת הרכש של ערכת הכלים (הפכם אותם למחסן הנתונים שלך או קשר אותם לסביבת כריית נתונים).
  3. הכנת נתונים והבנה. השתמש במומחים לנושא של העסק שלך כדי לעזור להגדיר, לחלק לקטגוריות ולארגן את הנתונים. חלק זה של התהליך נקרא לפעמים מיכון נתונים או מיונז. ייתכן שחלק מהנתונים יזדקקו לניקוי או ל"ניקוי" כדי להסיר כפילויות, חוסרי עקביות, רשומות לא שלמות או פורמטים מיושנים. ניקוי והכנת נתונים עשויים להיות משימה מתמשכת כאשר פרויקטים חדשים או נתונים מתחומי חקירה חדשים הופכים לעניין.
  4. הדרכת משתמשים. לא היית נותן לנער שלכם את המפתחות לפרארי המשפחתית מבלי שהם יעברו את השכלתו של הנהג, את הכשרת הנהג ואת ההתנהלות המפוקחת עם נהג מורשה - לכן הקפד לספק הכשרה רשמית לכורי הנתונים העתידיים שלך, כמו גם כמה תרגול מפוקח כשהם מתחילים להכיר את הכלים העוצמתיים האלה. חינוך מתמשך הוא גם רעיון טוב ברגע שישתלטו על היסודות ויכולים להתקדם לטכניקות מתקדמות יותר.

טכניקות כריית נתונים

יש לזכור שכריית נתונים מבוססת על ערכת כלים ולא על שגרה או תהליך קבועים. טכניקות ספציפיות לכריית מידע המצוטטות כאן הן רק דוגמאות לאופן השימוש בכלים על ידי ארגונים כדי לחקור את הנתונים שלהם בחיפוש אחר מגמות, קורלציות, מודיעין ותובנה עסקית.

 

באופן כללי, ניתן לסווג גישות כריית נתונים כמכוונות – ממוקדות בתוצאה רצויה ספציפית – או שאינן מכוונות כתהליך גילוי. מחקרים אחרים עשויים להיות מיועדים למיון או לסיווג נתונים, כגון קיבוץ לקוחות פוטנציאליים בהתאם לתכונות עסקיות כגון תעשייה, מוצרים, גודל ומיקום. יעד, ערך חריג או איתור חריגה דומה, הוא שיטה אוטומטית לזיהוי חריגות אמיתיות (ולא השתנות פשוטה) בתוך סט נתונים שמציג דפוסים ניתנים לזיהוי.

 

שיוך

יעד מעניין נוסף הוא שיוך – קישור שני אירועים או פעילויות לכאורה לא קשורים. סיפור קלאסי מהימים הראשונים של כלי ניתוח וכריית מידע, אולי פיקטיבי, יש שרשרת חנויות נוחות שמגלה קורלציה בין מכירות של בירה לחיתולים. בציינו שאבות חדשים שבורחים מאוחר בערב כדי לקבל חיתולים עלולים לקחת כמה חבילות של שש אריזות בזמן שהם נמצאים שם. החנויות מציבות את הבירה ואת החיתולים בקרבה ומגדילות את מכירות הבירה כתוצאה מכך.

 

קיבוץ באשכולות

גישה זו מכוונת לקיבוץ נתונים לפי דמיון ולא הנחות מוגדרות מראש. לדוגמה, כאשר אתה משכיר את פרטי המכירות של הלקוחות שלך בשילוב עם נתוני אשראי ודמוגרפיה חיצוניים של צרכן, אתה עשוי לגלות שהלקוחות הרווחיים ביותר הם מערים בגודל בינוני. רוב הזמן, כריית נתונים פועלת בתמיכה בתחזית או בחיזוי. ככל שתבין יותר תבניות והתנהגויות, כך תוכל לבצע עבודה טובה יותר של חיזוי פעולות עתידיות הקשורות לסיבתיות או לקורלציות.

 

רגרסיה

אחת הטכניקות המתמטיות המוצעות בערכות כלי כריית נתונים, ניתוח רגרסיה חוזה מספר המבוסס על תבניות היסטוריות הצפויות לעתיד. אלגוריתמים שונים של מעקב ואיתור דפוסים אחרים מספקים כלים גמישים כדי לעזור למשתמשים להבין טוב יותר את הנתונים ואת ההתנהגות שהם מייצגים. אלה רק כמה מהטכניקות והכלים הזמינים בערכות כלי כריית מידע. בחירת הכלי או הטכניקה היא אוטומטית במידת מה בכך שהטכניקות ייושמו בהתאם לאופן שבו נשאלת השאלה. בזמנים מוקדמים יותר, כריית נתונים כונתה "חיתוך וכיתוב" של בסיס הנתונים, אך הפרקטיקה היא מתוחכמת יותר כיום ומונחים כמו שיוך, קיבוץ ורגרסיה הם מקום משותף.

השתמש במקרים ודוגמאות

כריית נתונים היא המפתח לניתוח סנטימנט, ייעול מחירים, שיווק בסיסי נתונים, ניהול סיכוני אשראי, הכשרה ותמיכה, איתור הונאות, ביטוח בריאות ואבחנות רפואיות, הערכת סיכונים, מערכות המלצות (“לקוחות שקנו את זה גם אוהבים את… ”) והרבה יותר. זה יכול להיות כלי יעיל רק בכל ענף, כולל קמעונאות, הפצה סיטונאית, תעשיות שירות, תקשורת, ביטוח, חינוך, ייצור, בריאות, בנקאות, מדע, הנדסה ושיווק מקוון או מדיה חברתית.

  • פיתוח מוצרים: חברות שמעצבות, יוצרות או מפיצות מוצרים פיזיים יכולות לאתר הזדמנויות לקבוע כיעד טוב יותר את המוצרים שלהן באמצעות ניתוח דפוסי רכישה בשילוב עם נתונים כלכליים ודמוגרפיים. המעצבים והמהנדסים שלהם יכולים גם ליצור סימוכין צולבים למשוב לקוחות ומשתמשים, לתקן רשומות ונתונים אחרים כדי לזהות הזדמנויות לשיפור המוצר.

  • ייצור: יצרנים יכולים לעקוב אחר מגמות איכות, נתוני תיקון, שיעורי ייצור ונתוני ביצועי מוצר מהשדה כדי לזהות חששות בייצור. הם גם יכולים לזהות שדרוגי תהליך אפשריים שישפרו את האיכות, יחסוך זמן ועלות, ישפרו את ביצועי המוצר ו/או יצביעו על הצורך בציוד מפעל חדש או טוב יותר.

  • תעשיות שירות: בתעשיות שירות, משתמשים יכולים למצוא הזדמנויות דומות לשיפור מוצרים באמצעות מתן סימוכין צולבים למשוב לקוחות (ישירות או ממקורות אחרים) עם שירותים, ערוצים, נתוני ביצועים עמיתים, אזור, תמחור, נתונים דמוגרפיים, נתונים כלכליים ועוד.

לבסוף, יש להחזיר את כל הממצאים הללו לחיזוי ולתכנון כך שכל הארגון יצפה לשינויים צפויים בביקוש על בסיס ידע אינטימי יותר של הלקוח – ויהיה טוב יותר כדי לנצל הזדמנויות שזוהו לאחרונה.

אתגרי כריית נתונים

  • ביג דאטה: הנתונים נוצרים בקצב מהיר ומציעים הזדמנויות רבות יותר לכריית מידע. עם זאת, כלים מודרניים לכריית מידע נדרשים כדי לחלץ משמעות מביג דאטה, בהינתן הנפח הגבוה, המהירות הגבוהה והמגוון הרחב של מבני נתונים כמו גם הנפח הגדל של נתונים לא מובנים. מערכות קיימות רבות מתקשות לטפל, לאחסן ולעשות שימוש בהצפה זו של קלט.

  • כשירות משתמש: כלי ניתוח וכריית נתונים נועדו לסייע למשתמשים ולמקבלי ההחלטות לקבל משמעות ומשמעות קואקסית ותובנה מתוך מסות של נתונים. בעוד שכלים טכניים מאוד, הכלים העוצמתיים האלה ארוזים כעת בעיצוב חוויית משתמש מעולה כך שכל אחד יכול להשתמש בכלים אלה בהכשרה מינימלית. עם זאת, כדי לקבל את ההטבות במלואן, על המשתמש להבין את הנתונים הזמינים ואת ההקשר העסקי של המידע שהוא מחפש. הם גם חייבים לדעת, לפחות באופן כללי, איך הכלים עובדים ומה הם יכולים לעשות. זה לא מעבר להשגה של המנהל הממוצע או המנהל, אבל זה תהליך למידה והמשתמשים צריכים להשקיע קצת מאמץ בפיתוח מערך המיומנויות החדש הזה.

  • איכות וזמינות הנתונים: עם מסות של נתונים חדשים, יש גם מסות של נתונים לא מלאים, שגויים, מטעים, מהותיים, פגומים או פשוט חסרי תועלת. הכלים יכולים לעזור למיין את כל זה, אבל המשתמשים חייבים להיות מודעים באופן שוטף למקור הנתונים והאמינות והמהימנות שלהם. גם חששות לפרטיות חשובים, הן מבחינת רכישת הנתונים והן מבחינת הטיפול והטיפול ברגע שהם נמצאים ברשותכם.

שאלות נפוצות לכריית נתונים

כריית נתונים היא תהליך של שימוש בכלים אנליטיים מתקדמים לשליפת מידע שימושי מצבירת נתונים. למידת מכונה היא סוג של בינה מלאכותית (AI) שמאפשרת למערכות ללמוד מניסיון. כריית נתונים עשויה לעשות שימוש בלמידת מכונה, כאשר לתוכניות האנליטיות יש את היכולת להתאים את הפונקציונאליות שלהן בתגובה לניתוח הנתונים שהן מבצעות.

ניתוח נתונים או כלי ניתוח הם מונחים כלליים עבור סט רחב של שיטות עבודה המתמקדות בזיהוי מידע שימושי, הערכתו ואספקת תשובות ספציפיות. כריית נתונים היא סוג אחד של ניתוח נתונים שמתמקד בחפירה לסטים גדולים ומשולבים של נתונים כדי לגלות דפוסים, מגמות וקשרים שיכולים להוביל לתובנות וחיזויים.

מדעי המידע הוא מונח הכולל טכנולוגיות מידע רבות הכוללות סטטיסטיקה, מתמטיקה וטכניקות חישוביות מתוחכמות כפי שיושמו בנתונים. כריית נתונים היא מקרה שימוש עבור מדעי הנתונים המתמקדים בניתוח של סטים גדולים של נתונים ממגוון רחב של מקורות.

מחסן נתונים הוא אוסף נתונים, בדרך כלל ממקורות מרובים (ERP, CRM וכן הלאה) שחברה תשתלב במחסן לאחסון ארכיוני וניתוחים מבוססי הרחבה כמו כריית נתונים.

placeholder

הרחב את המומחיות שלך בניהול נתונים

הבן את תהליך ניהול הנתונים ואת היתרונות שלו.

placeholder

רעיונות שלא תמצא בשום מקום אחר

הירשם למנה של בינה עסקית ישירות לתיבת הדואר הנכנס שלך.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel