לפני זמן מה גוגל הודיעה על שרות חדש הנקרא Google Prediction API (גוגל חיזוי) אשר מאפשר "להאכיל" את הקופסאות השחורות של גוגל בסדרות גדולות של נתוני קלט ופלט ולאחר תהליך של אימון (training) ניתן לקבל חיזוי של הפלט על-פי קלט חדש. גוגל חושפים כאן שרות שהם משתמשים בו לדוגמה לצורך זיהוי אוטומטי של שפות בשרות התרגום שלה או בזיהוי דואר זבל בגימייל. בגדול משהו בסגנון של רשתות עיצביות למי שמכיר.
לאורך השנים עסקתי לא פעם בתחום המקצועי שלי בחיזוי: חיזוי צריכת מים, התנהגות רשתות מים, זיהוי זיהום ועוד.אפילו רק לצורכי מחקר הייתי רוצה להתנסות בשרות החיזוי החדש של גוגל. השלב הראשון בתהליך הוא הכנת סדרות הנתונים לצורך אימון מודל החיזוי והעלאתן לשרות האיחסון החדש של גוגל.
גוגל איחסון – Google Storage for Developers – הוא למעשה שרות איחסון בענן הדומה מאד לשרות האיחסון הותיק של אמאזון S3. ב- S3 אני משתמש כבר מספר שנים בעיקר לצורכי גיבוי אבל עשיתי בו שימוש גם לצורך הגשת קבצים סטטיים בבלוגלי. השרות של אמאזון טוב, יציב (לרוב) ויחסית זול. השרות של גוגל כרגע מתומחר מעט יותר גבוה אבל קבלתי שטח לנסיונות בנפח של 100GB כך שאני יכול להתפרע. יתרון מיידי שאני רואה לשרות של גוגל הוא התמיכה באובייקטים גדולים מאד. אם S3 מגביל את הגודל של כל קובץ ל- 5GB, לפחות על הנייר גוגל תומכת בגדלים של מאות גיגות. ההתעסקות בפיצול קבצים היא מתישה.
בניגוד לעשרות הכלים, תוספים לדפדפנים, ספריות קוד ועוד הקיימים עבור S3, לשרות החדש של גוגל כמעט ואין דבר. גוגל מספקים ממשק גרפי בסיסי ביותר (Google Storage Manager) וכלי חופשי להפעלה משורת הקוד לביצוע כל הפעולות(GSUtil).
יש לי כבר סקריפט המגבה כל יום את כל הקבצים בכל חשבונות האיחסון שברשותי לאיחסון של אמאזון. הדבר מתאפשר בעזרת ספריית ל- PHP בשם Amazon S3 PHP Class. הספרייה המקבילה לאיחסון של גוגל נמצאת עדיין בחיתולים ורק לפני זמן קצר התווספה האפשרות להעלות קבצים. מלפני יומיים, לאחר שינוי קל של הסקריפט הקיים, כל הקבצים של הבלוג הזה מגובים גם לשרות של גוגל.
השלב הבא יהיה למצוא את הבעיה המתאימה לבדיקה בשרות החיזוי החדש, הכנת קבצי האימון והעלאתם לאיחסון של גוגל. יהיה מעניין.