דף הבית PR|גוגל| החיפוש של גוגל|אלגוריתם דירוג גוגל|דירוג גוגל|אינדקס גוגל|אלגוריתם ציון של גוגל
לדף הבית פרופיל החברה פטרונות לקוחות פורטפוליו צור קשר

גורמי סיכון נוספים המשפיעים על PageRank

דיונים רבים עסקו בסוגיית קיומם של קריטריונים נוספים מעבר למבנה הקישורים באינטרנט יושמו באלגוריתם PageRank מאז פורסם המאמר המדעי אודותיו מאת לורנס פייג' וסרגיי ברין. לורנס פייג' עצמו מצביע על הגורמים הפוטנציאליים הבאים במסגרת הגדרות הפטנט ל-PageRank:
  • ראות הקישור
  • מקום הקישור בתוך מסמך
  • מרחק בין דפי אינטרנט
  • חשיבות דף מקשר
  • עדכניות הדף המקשר


  • ראשית, ההטמעה של קריטריונים נוספים ב-PageRank יביא לבחינת טובה יותר של שימוש אנושי במונחים של מודל הגולש האקראי. בחינת ראות הקישור ומיקומו במסמך מרמז על כך שמהמשתמש אינו לוחץ על קישורים באופן אקראי, אלא עוקב אחר הקישורים בעלי ראות גבוהה ומידית, ללא קשר לטקסט שסביבן. הקריטריונים הנוספים יקנו לגוגל גמישות רבה יותר, בהשוואה לשיטות שתוארו עד כה, בקביעת החשיבות של קישור נכנס.

    אין אפשרות להוכיח באופן אמפירי אם הגורמים שלעיל אכן מיושמים ב-PageRank והנושא לא יידון במסגרת זו. תחת זאת, יתקיים דיון על האופן שבו ניתן ליישם גורמים בעלי השפעה באלגוריתם PageRank ואילו אופציות עומדות כתוצאה מכך לרשות מנוע החיפוש של גוגל במונחים של השפעה על ערכי PageRank.

    שינוי אלגוריתם PageRank


    ליישום גורמים נוספים ב-PageRank, יש צורך לשנות שוב את האלגוריתם המקורי של PageRank. היות ועלינו להניח כי חישובי PageRank עדיין מבוססים על מספר איטרציות ומתבצעים לצורך קיצור זמני החישוב, עלינו להשתדל לשמור על מספר שאילתות קטן ככל האפשר לבסיס הנתונים במהלך האיטרציות. לכן, שינוי אלגוריתם PageRank יתבצע באופן הבא:

    PR(A) = (1-d) + d (PR(T1)×L(T1,A) + ... + PR(Tn)×L(Tn,A))

    בנוסחה זו, ( L(Ti,Aמהווה את הערכת הקישור המצביע מדף Ti לדף A. L(Ti, A) משנה את המשקל של דף Ti ב-PageRank במספר הקישורים היוצאים בדף Ti, אשר נתקבל באמצעות
    L(Ti,A).1/C(Ti) עשוי להכיל מספר גורמים, המחייבים הגדרה רק פעם אחת ולאחר מכן מכונסים לערך אחד לפני תחילת החישוב האיטרטיבי של PageRank. כך, מספר שאילתות בסיס הנתונים במהלך האיטרציות אינו משתנה למרות שבסיס נתונים גדול יותר מחייב שאילות בכל שלב בהשוואה לחישוב המתייחס לאלגוריתם המקורי, שכן כעת קיימת הערכה לקישור במקום הערכה לדפים (על פי מספר הקישורים היוצאים שלהם).

    הערכה שונה של קישורים בתוך מסך



    שני הקריטריונים להערכת הקישורים על פי לורנס פייג' בהגדרות הפטנט שלו הם ראות הקישור ומיקומו בתוך מסמך. בהתייחס למודל הגולש האקראי\ הקריטריונים הללו משקפים את הסבירות שבה גולש אקראי יקליק על קישור בדף אינטרנט מסוים. באלגוריתם PageRank המקורי, סבירות זו מבוטאת בביטוי (1/C(Ti)), כאשר הסבירות שווה לכל הקישורים המופיעים בדף אינטרנט אחד.

    ניתן, למשל, לייחס סבירויות שונות לכל קישור המופיע בדף אינטרנט, באופן הבא:

    אנו בוחנים אתר אינטרנט המורכב משלושה דפים - A, B ו-C, כאשר בכל אחד מהדפים הללו יש קישורים יוצאים לשני הדפים האחרים. הקישורים משוקללים על פי שני קריטריוני הערכה- X ו-Y. X מסמל את ראות הקישור. X שווה 1 אם לא מושם דגש מיוחד על קישור, ו-2 אם הקישור הוא, למשל מודגש או באותיות מוטות. Y מייצג את מיקום הקישור במסמך. Y שווה 1 אם הקישור מופיע בחציו התחתון של הדף ו-3 אם הוא מופיעה בחציו העליון. אם נניח מתאם הכפלה בין X ו-Y, מוערכים הקישורים בדוגמה שלנו באופן הבא:


    X(A,B) × Y(A,B) = 1 × 3 = 3
    X(A,C) × Y(A,C) = 1 × 1 = 1
    X(B,A) × Y(B,A) = 2 × 3 = 6
    X(B,C) × Y(B,C) = 2 × 1 = 2
    X(C,A) × Y(C,A) = 2 × 3 = 6
    X(C,B) × Y(C,B) = 2 × 1 = 2


    לצורך קביעת גורמי L, אין לשקלל את הקישור רק על פי מספר הקישורים היוצאים בדף אחד, אלא על פי סך הקישורים המוערכים בדף. לכת אנו מקבלים את מנות השקלול הבאות Z(Ti) לדפי Ti הנפרדים:

    Z(A) = X(A,B) × Y(A,B) + X(A,C) × Y(A,C) = 4
    Z(B) = X(B,A) × Y(B,A) + X(B,C) × Y(B,C) = 8
    Z(C) = X(C,A) × Y(C,A) + X(C,B) × Y(C,B) = 8

    גורמי ההערכה L(T1, T2) לקישור המפנה מדף 1T ל-2T מיוצגים אם כן באמצעות:

    L(T1,T2) = X(T1,T2) × Y(T1,T2) / Z(T1)

    הערכים שלהם בהתייחס לדוגמה שלנו הם כדלהלן:

    L(A,B) = 0.75
    L(A,C) = 0.25
    L(B,A) = 0.75
    L(B,C) = 0.25
    L(C,A) = 0.75
    L(C,B) = 0.25


    עם גורם צמצום d בערך של 0.5, אנו מקבלים את המשוואות הבאות לחישוב ערכי PageRank:

    PR(A) = 0.5 + 0.5 (0.75 PR(B) + 0.75 PR(C))
    PR(B) = 0.5 + 0.5 (0.75 PR(A) + 0.25 PR(C))
    PR(C) = 0.5 + 0.5 (0.25 PR(A) + 0.25 PR(B))


    פתרון המשוואות הללו מוביל לערכי PageRank הבאים ביחס לדוגמה שלנו:

    PR(A) = 819/693
    PR(B) = 721/693
    PR(C) = 539/693

    ראשית, ניתן לראות כי לדף A יש PageRank הגבוה ביותר מכל שלושת הדפים. הדבר נובע מתוך כך שדף A מקבל קישור בעל ערך יחסי גבוה יותר מדף B וכן מדף C.

    יתרה מכך, או רואים כי גם על ידי הערכת קישורים נפרדים, סכום ערכי PageRank בכל הדפים שווה ל-3 (2079/693) וכך סך מספר הדפים. לכן, גוגל יכולה להשתמש בערכי PageRank המחושבים על פי אלגוריתם PageRank המעודכן שלנו לדירוג כללי של דפי הרשת, ללא צורך בנרמול.

    הערכה שונה לקישורים על פי קריטריונים ספציפיים לדף



    מלבד ההערכה השונה של קישורים בתוך מסמך, מתייחס לורנס פייג' לאפשרות של הערכת קישורים על פי קריטריונים המבוססים על הדף המקשר. במבט ראשון, לא נראה כי קיים בכך צורך שכן העיקרון הראשי של PageRank הוא לדרג דפים ברמה גבוהה יותר ככל שיותר דפים בעלי דירוג גבוה מקשרים אליהם. אולם, במועד ביצוע העבודה המדעית שלהם על PageRank, פייג' וברין כבר הכירו בכך שהאלגוריתם שלהם חשוף לאינפלציה מלאכותית ב-PageRank.

    השפעה מלאכותית על PageRank עשויה להתבצע על ידי מנהלי רשת המייצרים מספר גדול של דפי רשת שקישוריהם מחלקים את PageRank באופן שבו דפים יחידים בתוך אותה מערכת זוכים לחשיבות מיוחדת. לדפים אלה יכול להיות דירוג PageRank גבוה ללא קישורים מדפים אחרים בעלי דירוג PageRank גבוה. לכן, לא רק שנפגע העיקרון של PageRank אלא שהאינדקס של מנוע החיפוש נפגע מכמות אינסופית של ספאם אשר נוצרו אך ורק כדי להשפיע על PageRank.

    בהגדרות הפטנט שלו ל-PageRank, לורנס מציג את הערכת הקישורים על פי המרחק בין הדפים כאמצעי להימנעות מאינפלציה מלאכותית ב-PageRank, שכן ככל שהמרחק בין שני דפים גדול יותר, כך פוחתת הסבירות כי למנהל רשת יחיד תהיה שליטה על שניהם. הקריטריון למרחק בין שני דפים עשוי להיות אם הם מצויים באותו דומיין או לא. בדרך זו, קישורים פנימיים יקבלו משקל פחות מקישורים חיצוניים. בסופו של דבר, ניתן להשתמש בכל מדד כללי של המרחק בין הקישורים לקביעת משקל זה. ההגדרה כוללת אם הדפים מצויים באותו השרת או לו וכן את המרחק הגיאוגרפי שבין השרתים.

    כמדד נוסף לחשיבות המסמך, מזכיר לורנס פייג' את מידת העדכניות של המסמכים המקשרים אליו. על פי טענה זו, הסבירות שהמידע המופיע בדף לא יהיה עדכני פוחתת על פי מספר הדפים המקשרים אליו ואשר עודכנו לאחרונה. לעומת זאת, עיקרון PageRank המקורי, כמו כל שיטה אחרת למדידת פופולריות קישורים, מעדיף מסמכים ישנים יותר אשר צברו את הקישורים הנכנסים שלהם בהמלך קיומם ואשר לא עודכנו לאחרונה כמו מסמכים חדשים. בעיקרון, ניתן להקנות למסמכים שעודכנו לאחרונה הערכה גבוהה יותר על ידי שקלול גורם (1-d). כך, גם המסמכים שעודכנו לאחרונה וגם אלה שאליהם הם מקושרים זוכים ל-PageRank גבוה יותר. אולם, אם דף לא עודכן לאחרונה, אין זה בהכרח מצביע על חשיבות המידע המופיע בו. לכן, כפי שממליץ לורנס פייג', כדאי שלא להעדיף דפים שעודכנו לאחרונה, אלא רק את הקישורים היוצאים שלהם.

    לסיכום, פייג' מתייחס לחשיבות מיקום הרשת של דף כגורם המצביע על חשיבות הקישורים היוצאים שלו. כדוגמה למיקום רשת חשוב הוא מציג את דף הבית של דומיין אולם, בסופו של דבר, גוגל יכולה להשפיע על PageRank באופן שרירותי לחלוטין.

    להטמעת ההערכה של הדף המקשר ב-PageRank על גורם ההערכה באלגוריתם המעודכן לכלול מספר מרכיבים. לקישור המפנה מדף Ti לדף A, ניתן למצוא את התוצאה באופן הבא:

    L(Ti,A) = K(Ti,A) × K1(Ti) × ... × Km(Ti)

    כאשר K(Ti, A) הוא המשקל האמור לקישור יחיד בדף על פי הראות או המיקום שלו. בנוסף לכך, מתקיימת הערכה של דף Ti על פי m קריטריונים המוצגים בגורמים Kj(Ti). להטמעת ההערכה של הדפים המקשרים, יש לעדכן לא רק האלגוריתם אלא גם תוצאות חישובי PageRank. את הפעולה הזו נמחיש באמצעות דוגמה.

    אנו בוחנים אתר אינטרנט הכולל שלושה דפים - A, B ו-C, כאשר דף A מקשר לדפים B ו-C, דף B מקשר לדף C ודף C מקשר לדף A. הקישורים היוצאים בדף אחד מוערכים באופן שווה, כך שאין שקלול על פי ראות או מיקום. אולם כעת, הדפים מוערכים על פי קריטריון אחד. באופן זה, קישור נכנס מדף C ייחשב כחשוב פי ארבעה מקישור נכנס מאחד הדפים האחרים. לאחר שקלול על פי מספר הדפים, אנו מגיעים לגורמים ההערכה הבאים:

    K(A) = 0.5
    K(B) = 0.5
    K(C) = 2



    בגורם צמצום d בערך של 0.5, המשוואות לחישוב ערכי PageRank מתקבלים על ידי:

    PR(A) = 0.5 + 0.5 × 2 PR(C)
    PR(B) = 0.5 + 0.5 × 0.5 × 0.5 PR(A)
    PR(C) = 0.5 + 0.5 (0.5 PR(B) + 0.5 × 0.5 PR(A))


    פתרון המשוואות מציג בפנינו את ערכי PageRank הבאים:

    PR(A) = 4/3
    PR(B) = 2/3
    PR(C) = 5/6

    בעדכונים הנוכחיים לאלגוריתם PageRank, ה-PageRank המצטבר לכל הדפים אינו שווה יותר למספר הדפים. הסיבה, אם כן, היא ששקלול הערכת הדף על פי מספר הדפים לא הייתה שיטה מתאימה. לקביעת השקלול המתאים, יהיה צורך לחזות את מבנה הקישורים של אתר - דבר שהוא בלתי אפשרי במקרה של ה- WWW. לכן, יש לנרמל את PageRank המחושב על פי הערכת הדפים המקשרים על מנת למנוע השפעות בלתי מבוססות על דירוג הדפים הכללי על ידי גוגל. במסגרת החישוב האיטרטיבי, יהיה צורך לבצע נרמול לאחר כל איטרציה על מנת לצמצם הופעה של עיוותים בלתי מכוונים.

    במקרה של אתר קטן, דפי ההערכה גורמים לעיתים לעיוותים חמורים. במקרה של ה-WWW, העיוותים הללו בדרך כלל יאוזנו על פי מספר הדפים. אכן, ניתן לצפות כי הערכת המרחקים בין דפים יגרום לעיוותים ב-PageRank שכן דפים עם קישורים נכנסים רבים נוטים להיות מחוברים מאזורים גיאוגרפיים שונים. אולם את ההשפעות הללו ניתן לחזות על בסיס ניסיון מתקופות חישוב קודמות, כך שפעולת הנרמול תהיה שולית בלבד.

    בכל מקרה, ניתן להוסיף גורמים נוספים ל-PageRank. אין ספק כי חישוב ערכי PageRank יצרכו יותר זמן.





    למה דוקא אנחנו? חברת פיסיליין, הינה חברה שמתמחה בפתרונות מתקדמים לניהול המחשוב הכוללים: פיתוח תוכנה, ניהול מחשוב ותחזוקת שרתים, אחסון אתרים,בניית אתרים דינמים,מערכות ניהול תוכן ואתרי מסחר אלקטרונים . חברי הצוות הם בעלי ידע רב בעולם התכנות והאינטרנט, ושואפים להשגת שלמות בעשייה. החברה רואה לעצמה כאינטרס ראשון במעלה את חשיבות הלקוח והצלחת כל תהליך. בתחום האינטרנט בפרט אנו מתמחים ב: בניית אתרי אינטנרט מתקדמים. מערכות ניהול תוכן מתקדמים, בניית אתרי מסחר אלקטרוני, קידום אתרים, פתרונות אחסון אתר, פתרונות FLASH. יש לנו מגוון לקוחות מרוצים המגיעים מתחומי עיסוק שונים ובינהם: GoodView, עדה לייס, בנק דיסקונט, אפקס-ציוד כבלים, טופאופטיק, מקפת שירותים פיננסים, משאבי ידע יועצים - ניהול ידע בארגונים, פלאפון תקשורת, פרסום ישיר, קרן השתלמות רעות, אוניברסיטת ת"א, רשת בתי אבות ביחד, גלובל פורקס חברה להשקעות מט"ח ועוד המון.
     

    דף הבית | פרופיל חברה | פתרונות
    לקוחות | פורטפוליו | צור קשר