Welcome to EverybodyWiki 😃 ! Nuvola apps kgpg.png Log in or ➕👤 create an account to improve, watchlist or create an article like a 🏭 company page or a 👨👩 bio (yours ?)...

AlphaGo

מתוך EverybodyWiki Bios & Wiki
קפיצה אל:ניווט, חיפוש

en:Master (software) AlphaGo היא תוכנת מחשב שמשחקת במשחק הקופסא Go. התוכנה פותחה ע״י חברת DeepMind Technologies שבהמשך נרכשה ע״י חברת Google. פיתוח התוכנה החל בשנת 2014[1]. מאז יוצרו מספר גרסאות של התוכנה, בין היתר כאלו שהתחרו מול שחקני Go מקצועיים. למשל גרסה בשם Master שזכתה להצלחה רבה (Master software). לאחר שפרש ממשחק תחרותי, AlphaGo Master הוחלף על ידי גרסה חזקה יותר המכונה AlphaGo Zero אשר הייתה אוטודידקטית לחלוטין – כלומר למדה לשחק מבלי ניתוח של משחקים אנושיים. AlphaGo Zero הוחלפה מאוחר יותר בתוכנת AlphaZero, ששיחקה משחקים נוספים מלבד Go, כולל שחמט ושוגי. בשנת 2019 שוחררה גרסה מתקדמת יותר בשם MuZero שביכולתה ללמוד לשחק באותם משחקים מבלי לדעת מראש את כללי המשחק.

AlphaGo משתמשת באלגוריתם חיפוש מונטה קרלו בעצים (Monte Carlo tree search) על מנת למצוא את מהלכיה על סמך ידע שנרכש בעבר תוך שימוש בלמידת מכונה שנשענת על רשת עצבית מלאכותית. הרשת העצבית מאומנת לזהות את המהלכים הטובים ביותר ואת אחוזי הזכייה של המהלכים הללו. רשת עצבית זו משפרת את יעילות החיפוש בעץ, וכתוצאה מכך בחירת מהלכים נעשת טובה יותר מאיטרציה לאיטרציה.

באוקטובר 2015, תוכנת AlphaGo התחרתה מול שחקן ה Go פאן חוי (Fan Hui) וניצחה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן Go מקצועי ללא פיצוי (handicap) ועל לוח משחק מלא בגודל 19 על 19. במרץ 2016, התוכנית ניצחה את שחקן ה Go המקצועי לי סדול (Lee Sedol) בתחרות שכללה חמישה משחקים (AlphaGo versus Lee Sedol) עם תוצאה של 4-1 לטובתה. בכך הפכה התוכנה לראשונה שהצליחה לנצח שחקן  Go בדרגת דן 9[2] ללא פיצוי. על ניצחון זה צולם סרט בשם AlphaGo [3]. ב 22 בדצמבר, 2016, הניצחון של AlphaGo נבחר ע״י Science כאחת מפריצות השנה.

במאי של 2017, הגרסה AlphaGo Master ניצחה עם תוצאה של 2-1 את השחקן קה גיי (Ke Jie) שנכון לקיום המשחק דורג ראשון בעולם. על ניצחון זה האסוציאציה הסינית Chinese weiqi Association זיכתה אותה בדרגת דן 9.

לאחר הניצחון על קה גיי, הושקה AlphaGo Zero שלומדת לשחק באופן אוטודידקטי. AlphaGo Zero השיג ניצחון 100–0 מול גרסת ה Master. יורשו של AlphaGo Zero בשם AlphaZero נתפס נכון לשנת 2019 כשחקן בעל הדירוג הגבוה ביותר ב Go ואולי גם בשחמט[4][5].

AlphaGo logo
לוגו AlphaGo

הִיסטוֹרִיָה[עריכה]

Go הינו משחק בעל כמות המשכים אפשריים גדולה מאוד אחרי כל מהלך. עובדה זו מקשה מאוד על המחשבים ללמוד את המשחק ע״י מתודות למידת המכונה המוכרות כמו גיזום אפלא-ביתא ושיטת היוריסטיקה.

כמעט שנתיים לאחר שמחשב יבמ בשם DeepBlue ניצח את אלוף העולם דאז, גארי קספרוב, בשחמט בשנת 1997, תוכנות המחשב החזקות ביותר שישיחקו Go הגיעו רק לרמה חובבנית (דן 5 ומטה) ועדיין לא יכלו לנצח שחקני Go מקצועיים ללא פיצוי בתחילת המשחק.

בשנת 2012, התוכנה Zen הצליחה לנצח פעמיים את מאסאקי טאקאמיה (Masaki Takemiya) שדירוגו היה דן 9. עם זאת ניחון זה הושג עם פיצוי של 4-5 אבנים לטובת התוכנה. בשנת 2013 התוכנה Crazy Stone ניצחה את יושיאו לשידא (Yoshio Ishida) שהיה בעל דן 9. גם במקרה זה הניצחון הושג עם פיצוי של 4 אבנים לטובת התוכנה.

המשחק מול פאן חוי[עריכה]

באוקטובר של שנת 2015, הגרסה הקיימת של AlphaGo ניצחה 5-0 את אלוף אירופאה דאז, פאן חוי. דירוגו נכון לזמן המשחק היה דן 2 (מתוך 9). זאת הייתה הפעם הראשונה בה תוכנת מחשב ניצחה שחקן Go מקצועי על לוח משחק מלא וללא פיצוי לטובת התוכנה. פרסום תוצאות המשחק התרחש רק בינואר 2016, במקביל לפרסום מאמר בכתב העת המדעי Nature המתאר את אלגוריתם הלמידה בו השתמשה התוכנה[6].

המשחק מול לי סדול[עריכה]

בשנת 2016, בתאריכים 9, 10, 12, 13 ו-15 במרץ, במלון ארבעת העונות בסיאול, נערכו חמישה משחקים בין AlphaGo לבין שחקן ה Go הדרום קוראני המקצועי בשם לי סדול. נכון לזמן התחרות דירוגו היה דן 9 (מתוך 9). המשחקים שודרו בשידור חי בכלי תיקשורת רבים. AlphaGo ניצחה את לי בארבעת מתוך חמשת המשחקים: בשלושת המשחקים הראשונים ובמשחק החמישי. במשחק הרביעי הצליח לי לגבור על AlphaGo. המשחק היחיד בו ניצח לי הפך אותו לאדם היחיד בעולם שניצח אי-פעם את AlphaGo מתוך כל 74 משחקיה הרשמיים.

AlphaGo רצה על גבי הענן של גוגל תוך שימוש בשרתים הממוקמים בארצות הברית. המשחק עשה שימוש בחוקים סיניים עם 7.5 נקודות קומי (komi), ולכל צד היו שעתיים של חשיבה בתוספת שלוש תקופות ביויומי (byoyomi) של 60 שניות. הגרסה של AlphaGo ששיחקה נגד לי השתמשה בכמות מחשוב דומה כמו שהייתה בשימוש במשחק מול פאן חוי. חשוב לציין ש AlphaGo לא אומנה באופן ספציפי לנצח את לי (כלומר לא אומנה ספציפית נגד סגנון המשחק של לי), אלה אומנה באופן באופן כללי, ללא מטרה ספציפית לנצח אדם ספציפי.

הפרס בתחרות היה מיליון דולר. מכיוון ש AlphaGo זכתה בארבעה מתוך חמשת המשחקים בסדרה, הפרס נתרם לעמותות, כולל יוניסף. לי קיבל 150 אלף דולר על השתתפות בכל חמשת המשחקים ותוספת של 20 אלף דולר עבור זכייתו במשחק 4.

ביוני 2016, בכנס שהתקיים באחת האוניברסיטאות בהולנד, חשף אג'ה הואנג, אחד מצוות DeepMind, כי הם זיהו ותיקנו את נקודת התורפה של AlphaGo שגרמה לתוכנה להפסיד ללי במהלך המשחק הרביעי ביניהם.

60 משחקים ברשת[עריכה]

ב- 29 בדצמבר 2016, חשבון חדש בשרת תיגי׳ם (Tygem) בשם "מגיסטר" (שהוצג כ 'מגיסט' בגרסה הסינית של השרת) מדרום קוריאה החל לשחק משחקים עם שחקנים מקצועיים. החשבון שינה את שמו ל- "Master" ב- 30 בדצמבר, ואז עברה לשרת FoxGo ב -1 בינואר 2017. ב -4 בינואר אישרה DeepMind כי "Magister" ו- "Master" הם חשבונות בהם משחקת הגרסה המעודכנת של AlphaGo, הנקראת AlphaGo Master. החל מה -5 בינואר 2017, AlphaGo Master קבע שיא של 60 ניצחונות ו- 0 הפסדים, כולל שלושה ניצחונות על השחקן בעל הדירוג הגבוה ביותר נכון לזמן המשחק, קה גיי. לאחר שנודע על ההפסדים של גיי לתוכנת המאסטר, שחקן ה Go גו לי (Gu Li) הציע סכום של 100,000 יואן (14,400 דולר) לשחקן האנושי הראשון שיכול להביס את מאסטר.

במהלך שישים המשחקים ברשת, המאסטר שיחק בקצב של 10 משחקים ביום. רבים חשדו במהרה שמדובר בשחקן AI בגלל מנוחה מועטה בין המשחקים. יריביו כללו אלופי עולם רבים . כל 60 המשחקים פרט לאחד היו משחקים מהירים עם שלושה ביויומיים באורך 20 או 30 שניות. המאסטר הציע להאריך את הביויומי לדקה כאשר שיחק עם ני ווייפינג בהתחשב בגילו. לאחר שניצח במשחקו ה -59, מאסטר חשף את עצמו בחדר הצ'אט.

לאחר השלמת המשחקים הללו, מייסד שותף של Google DeepMind, דמיס חסביס, אמר: "אנו מצפים לשחק בהמשך כמה משחקים רשמיים באורך מלא בשיתוף ארגוני Go ומומחים".

מומחי Go התרשמו מביצועי התוכנית וסגנון המשחק הלא אנושי שלה; קה גיי הצהיר כי "אחרי שהאנושות השקיעה אלפי שנים בשיפור הטקטיקה שלה, מחשבים אומרים לנו שבני אדם טועים לחלוטין ... הייתי מרחיק לכת ואומר שאף בן אדם לא נגע בקצה האמת של Go.

פסגת גו של 2017[עריכה]

בפסגה גו שהתקיים בוווז'ן במאי 2017, AlphaGo Master שיחק שלושה משחקים עם Ke Jie, השחקן המדורג במקום הראישון בעולם, כמו גם שני משחקים עם כמה אנשי מקצוע סיניים מובילים, משחק גו זוג אחד ואחד נגד שיתוף פעולה צוות של חמישה שחקנים אנושיים. [7]

Google DeepMind הציעה פרסים זוכים של 1.5 מיליון דולר למשחק שלושת המשחקים בין Ke Jie ו- Master בעוד שהצד המפסיד לקח 300,000 דולר. [8] [9] מאסטר ניצח את שלושת המשחקים נגד Ke Jie, [10] [11] ולאחריו הוענק 9-dan (הדרגה הגבוה ביותר ב Go) מקצועי על ידי התאחדות Weiqi הסינית ל AlphaGo.[12]

לאחר שניצחה את שלושת המשחקים שלה מול Ke Jie, שחקן ה- Go העולמי המדורג ביותר, אלפאגו פרש. DeepMind פירקה גם את הצוות שעבד על המשחק כדי להתמקד במחקר AI בתחומים אחרים.[13] לאחר הפסגה צוות Deepmind פרסם 50 משחקי AlphaGo נגד עצמו באורך מלא, כמתנה לקהילת ה- Go.[14]

AlphaGo Zero ו- AlphaZero[עריכה]

ב -19 באוקטובר 2017 הצוות של AlphaGo פרסם מאמר בכתב העת Nature, בו הציג את AlphaGo Zero, גרסה ללא נתונים אנושיים וחזקה יותר מכל גרסה קודמת שמנצחת אלוף אנושי. בכך שהיא שיחקה משחקים נגד עצמה, AlphaGo Zero עלתה על כוחה של AlphaGo Lee תוך שלושה ימים בכך שניצחה 100 משחקים ל -0, הגיעה לרמה של מסטר ב AlphaGo תוך 21 יום, ועברה את כל הגרסאות הישנות תוך 40 יום.[15]

במאמר שפורסם ב- arXiv ב -5 בדצמבר 2017, טען DeepMind כי היא היכללה את גישתו של AlphaGo Zero לאלגוריתם יחיד של AlphaZero, שהשיג תוך 24 שעות רמה של משחק על אנושי במשחקי השחמט, השוגי ו- Go על ידי ניצחון על התוכנות אלוף העולם Stockfish, Elmo, וגרסת 3 ימים ל- AlphaGo Zero בכל מקרה.

כלי הוראה[עריכה]

ב־11 בדצמבר 2017, DeepMind פרסמה את כלי ההוראה של AlphaGo באתר האינטרנט שלה [16] כדי לנתח את שיעורי הזכייה של פתחי Go שונים כפי שחושב על ידי AlphaGo Master .[17] כלי ההוראה אוסף 6,000 פתחי Go מ -230,000 משחקים אנושיים שכל אחד מהם נותח עם 10,000,000 סימולציות על ידי AlphaGo Master. רבים מהפתחים כוללים הצעות למהלך אנושי.

גרסאות[עריכה]

גרסה מוקדמת של AlphaGo נבדקה על חומרה עם מספר שונה של מעבדים ו- GPUs, הפועלים במצב אסינכרוני או מבוזר. שתי שניות של זמן חשיבה ניתנו לכל מהלך. דירוגי Elo המתקבלים מפורטים להלן. במשחקים עם יותר זמן לכל מהלך מושגים דירוגים גבוהים יותר.

תצורה וביצועים
תְצוּרָה מספר

תהליכונים

מספר המעבד מספר GPU דירוג Elo
יחיד עמ ' 10–11 40 48 1 2,181
יחיד 40 48 2 2,738
יחיד 40 48 4 2,850
יחיד 40 48 8 2,890
מופץ 12 428 64 2,937
מופץ 24 764 112 3,079
מופץ 40 1,202 176 3,140
מופץ 64 1,920 280 3,168

במאי 2016 חשפה גוגל " יחידות עיבוד טנזור " חומרה קנייניות משלה, שלדבריה כבר נפרסו במספר פרויקטים פנימיים בגוגל, כולל המשחק AlphaGo נגד לי סדול. [18] [19]

בפסגת העתיד של Go במאי 2017, DeepMind חשפה כי הגרסה של AlphaGo ששימשה בפסגה זו הייתה AlphaGo Master,[20] [21] וגילתה שהיא מדדה את חוזק הגרסאות השונות של התוכנה. AlphaGo Lee, הגרסה המשמשת נגד Lee, יכולה לתת ל- AlphaGo Fan, הגרסה המשמשת ב- AlphaGo vs. אוהד האו, שלוש אבנים, ו- AlphaGo Master היו אפילו שלוש אבנים חזקות יותר. [22]

תצורה ועוצמה[23]
גרסאות חוּמרָה דירוג Elo תַאֲרִיך תוצאות
אוהד AlphaGo 176 GPUs,[24] מופצים 3,144 [25] אוקטובר 2015 5: 0 נגד פאן הוי
AlphaGo Lee 48 TPUs, מופץ 3,739 מרץ 2016 4: 1 נגד לי סדול
מאסטר AlphaGo 4 TPU, מכונה אחת 4,858 מאי 2017 60: 0 נגד שחקנים מקצועיים;



</br> העתיד של פסגת גו
AlphaGo Zero (40 חסימות) 4 TPU, מכונה אחת 5,185 אוקטובר 2017 100: 0 נגד AlphaGo Lee

89:11 נגד AlphaGo Master

AlphaZero (20 חסימות) 4 TPU, מכונה אחת 5,018 דצמבר 2017 60:40 נגד AlphaGo Zero (20 חסימות)

אַלגוֹרִיתְם[עריכה]

החל משנת 2016, האלגוריתם של AlphaGo משתמש בשילוב של טכניקות למידת מכונה וחיפוש עצים, בשילוב אימונים נרחבים, הן ממשחק אנושי והן ממחשב. היא משתמשת בחיפוש עצים במונטה קרלו, המונחה על ידי "רשת ערכים" ו"רשת מדיניות ", שניהם מיושמים באמצעות טכנולוגיית רשת עצבית עמוקה.[26][27]כמות מוגבלת של עיבוד מקדים של זיהוי תכונות ספציפיות למשחק (למשל, כדי להדגיש אם מהלך תואם לתבנית nakade ) מוחל על הקלט לפני שהוא נשלח לרשתות העצביות.[27]

הרשתות העצביות של המערכת הושקו בתחילה ממומחיות משחק אנושית. בתחילה הוכשרה AlphaGo לחקות משחק אנושי על ידי ניסיון להתאים למהלכים של שחקנים מומחים ממשחקים היסטוריים מוקלטים, תוך שימוש במאגר של כ -30 מיליון מהלכים.[28] לאחר שהגיעה למידה מסוימת של בקיאות, היא הוכשרה בהמשך על ידי כך שהיא הוגדרה לשחק מספר רב של משחקים מול מקרים אחרים של עצמה, תוך שימוש בלמידת חיזוק לשיפור המשחק שלה.[29] כדי להימנע מבזבוז זמן "של כבוד" של יריבו, התוכנית מתוכנתת במיוחד להתפטר אם הערכת ההסתברות שלה לזכות נופלת מתחת לסף מסוים; למשחק נגד לי, סף ההתפטרות נקבע ל -20%. [30]

סגנון המשחק[עריכה]

טובי מאנינג, שופט המשחק של AlphaGo vs. Fan Hui, תיאר את סגנון התוכנית כ"שמרני ".[31] סגנון המשחק של AlphaGo תומך בחדות בהסתברות גדולה יותר לזכות בפחות נקודות לעומת בהסתברות נמוכה יותר לזכות בנקודות רבות יותר.[32] האסטרטגיה שלה למקסם את הסיכוי שלה לזכות נבדלת ממה שהשחקנים האנושיים נוטים לעשות שהוא למקסם את הרווחים הטריטוריאליים, ומסבירה כמה מהמהלכים המוזרים למראה. [33] זה עושה הרבה מהלכי פתיחה שמעולם או לעיתים רחוקות נעשו על ידי בני אדם, תוך הימנעות ממהלכי פתיחה רבים מהשורה השנייה ששחקנים אנושיים אוהבים לבצע. הוא אוהב להשתמש shoulder hits, במיוחד אם היריב מרוכז יתר על המידה.שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.[דרוש מקור]

  1. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.Timeline of AlphaGo - Timelines, timelines.issarice.com (בEnglish)
  2. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.{{{מחבר}}}, Go ranks and ratings, Wikipedia, 2021-02-15
  3. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.AlphaGo Movie, AlphaGo Movie (בEnglish)
  4. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.Pete (Pete), AlphaZero Crushes Stockfish In New 1,000-Game Match, Chess.com (בen-US)
  5. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play, Science 362, 2018-12-07, עמ' 1140–1144 doi: 10.1126/science.aar6404
  6. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.David Silver, Aja Huang, Chris J. Maddison, Arthur Guez, Mastering the game of Go with deep neural networks and tree search, Nature 529, 2016-01-01, עמ' 484–489 doi: 10.1038/nature16961
  7. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  8. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  9. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  10. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  11. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  12. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  13. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  14. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  15. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  16. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  17. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  18. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  19. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  20. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  21. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  22. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  23. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  24. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  25. שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.Zen computer Go program beats Takemiya Masaki with just 4 stones!, web.archive.org, ‏2016-02-01
  26. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  27. 27.0 27.1 שגיאת תסריט: היחידה "ParamValidator" אינה קיימת.AlphaGo: Mastering the ancient game of Go with Machine Learning, Google AI Blog (בEnglish)
  28. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  29. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  30. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  31. שגיאת תסריט: היחידה "Citation/CS1" אינה קיימת.
  32. שגיאת תסריט: היחידה "citation/CS1" אינה קיימת.
  33. שגיאת תסריט: היחידה "Citation/CS1" אינה קיימת.


This article "AlphaGo" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:AlphaGo. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.



Read or create/edit this page in another language

עוגיות עוזרות לנו לספק את השירותים שלנו. שימוש בשירותים שלנו מהווה את הסכמתך לשימוש בעוגיות.