2020: การเพิ่มขึ้นของเครื่องจักร

Bruno Fitoussi เปิดตัวโรงเรียนสอนโป๊กเกอร์ออนไลน์ของเขา


James Grosjean นับฉันเป็นหนึ่งในโดรนของ Netflix ที่ชื่นชอบ The Queen’s Gambit (2020) แต่ฉันเป็นคนที่ชอบเล่นหมากรุกมาโดยตลอด ในช่วงเรียนมหาวิทยาลัยฉันอาจจะกินครัวซองต์ช็อคโกแลตหนึ่งพันชิ้นในขณะที่ฉันดู Murray Turnbull (หรือที่เรียกว่า “เซียนหมากรุก”) ที่แปลกตาและสวยงามออกสู่ตลาดทุกคนที่เข้ามาในจัตุรัส – “$ 2 คืนเงินหากคุณชนะหรือเสมอ” ได้รับเกียรติในการถ่ายภาพคาร์เพเทียนขนาดใหญ่ที่ล้อมรอบด้วยกระจกสีของ Memorial Hall เมื่อเขาสร้างเครื่องจำลองที่มีสี่แผ่นในพื้นที่ ฉันเป็นส่วนหนึ่งของสื่อมวลชนของนักเรียนเมื่อคาสปารอฟกล่าวคำพูดที่ขัดแย้งกันในตอนนั้นว่าคอมพิวเตอร์จะเป็นแชมป์ที่ยิ่งใหญ่ก่อนที่เธอจะเป็นผู้หญิง เมื่อฉันบันทึกการสนทนาเกี่ยวกับผู้หญิงที่เป็นไปได้ของคาสปารอฟสำหรับฟอรัมถัดไปและในวันถัดไปฉันใช้คำพูดของเขาเป็นเพียงการคาดการณ์โดยอาศัยการสังเกตเชิงประจักษ์ของชุมชนหมากรุก การมีส่วนร่วมของสตรีมีน้อยและเพิ่มขึ้นอย่างไม่มีจุดหมายในขณะที่คอมพิวเตอร์มีความเข้มแข็งและแข็งแกร่งขึ้นอย่างรวดเร็ว เครื่องจักรเหล่านี้จะนำเสนอความเท่าเทียมกันใหม่ – ที่ซึ่งทุกเพศจะถูกบดขยี้เหมือนมด ทฤษฎีบทของ Zermel บอกเราว่าเกมที่มีข้อมูลครบถ้วน (ผู้เล่นทั้งสองฝ่ายเห็นชิ้นส่วนทั้งหมดบนกระดาน) ซึ่งถือเป็นที่สิ้นสุด (เกมจะจบลงหลังจากมีการเคลื่อนไหวจำนวนหนึ่ง) มีวิธีแก้ปัญหาและหากทั้งสองฝ่ายเล่นวิธีแก้ปัญหาที่ดีที่สุดนี้ จากนั้นแต่ละเกมจะมีผลลัพธ์เหมือนกัน หมากรุกค่อนข้างซับซ้อนดังนั้นเราจึงไม่แน่ใจว่าผลลัพธ์จะเป็นอย่างไร แต่เราคิดว่าไวท์จะชนะเสมอ ในกรณีนี้ไม่มีคำตอบสีดำที่สามารถเปลี่ยนผลลัพธ์ได้ เกม Connect Four ยังอยู่ภายใต้ทฤษฎีบทของ Zermel และการวิเคราะห์ระบุว่าในเกมนี้คุณจะชนะคนที่ร้ายกาจเสมอหากคุณไปก่อนและเล่นอย่างเหมาะสมที่สุด หากคุณเป็น AP ที่ชอบ QGambit และกำลังมองหาเนื้อหาเพิ่มเติมในช่วงการระบาดที่ไม่สิ้นสุดนี้ภารกิจต่อไปของคุณคือการดู AlphaGo สารคดีเกี่ยวกับการเพิ่มขึ้นของคอมพิวเตอร์ในเกม Go โบราณซึ่งมีความซับซ้อนมากขึ้น กว่าหมากรุก ฉันไม่ได้ล้อเล่นภาพยนตร์เรื่องนี้เป็นการฉีกแนวของผู้คนที่มีความสนใจในด้านนี้และชื่นชมกับละครอารมณ์เข้มข้นสำหรับมนุษยชาติ Lee Sedol ซึ่งเป็นสิ่งที่ดีที่สุดที่เขาเคยทำมา ภาพยนตร์เรื่องนี้ถ่ายทอดความทุกข์ยากความกล้าหาญความฉลาดและความอ่อนน้อมถ่อมตนของเซดอลเพราะเขาตระหนักดีว่าการต่อสู้กับเครื่องจักรนี้ไม่ใช่แค่เกม แต่เป็นการเกิดขึ้นของระเบียบโลกใหม่ เซดอลซึ่งไม่ใช่โปรแกรมเมอร์ไม่ได้ชื่นชมสิ่งที่เขาจะต่อต้าน แต่ในฐานะผู้เชี่ยวชาญในงานฝีมือของเขาเขารู้สึกได้ถึงน้ำหนักที่ไม่ลดละและไม่สามารถยอมรับได้ของคู่ต่อสู้บนเรือ เมื่อคุณสนุกกับ AlphaGo ฉันขอแนะนำ (จริงๆแล้ว Google แนะนำ) ให้คุณดูหนึ่งในการแข่งขันโป๊กเกอร์ระหว่าง Dan Negreanu โรงเรียนเก่ากับโคลนคอมพิวเตอร์สมัยใหม่ Doug Polk ผู้เล่นที่ดีที่สุดในโลกคือเครื่องจักรดังนั้นคนฉลาดอย่าง Polk จึงเลียนแบบกลยุทธ์ของเครื่องจักร ปรับตัวหรือตาย ครั้งหนึ่งฉันเคยแลกเปลี่ยนสั้น ๆ กับ Howard Lederer ฉันถามเขาเกี่ยวกับหุ่นยนต์ในเว็บไซต์โป๊กเกอร์ เขาปฏิเสธปัญหาด้วยคำพูดที่ว่า“ โป๊กเกอร์ไม่เหมือนหมากรุก โป๊กเกอร์เป็นเกมที่มีข้อมูลไม่สมบูรณ์ คอมพิวเตอร์ไม่ดีที่ “ฉันไม่สามารถบอกได้ว่าเขาเป็นคนโง่ไร้เดียงสาหรือเป็นสิบแปดมงกุฎสำหรับ Full Tilt Poker ไม่ว่าจะด้วยวิธีใดฉันไม่อยากคุยต่อเมื่อ 15 ปีที่แล้ว แต่ตอนนี้เราอยู่ที่นี่ในปี 2021 และถึงเวลาแล้วที่จะสนทนาต่อไปโดยหักล้างข้อผิดพลาดแรกเกี่ยวกับ GTO (ทฤษฎีเกมที่เหมาะสมที่สุด) และข้อผิดพลาดอื่น ๆ ที่ทับซ้อนกันทั้งหมดที่เป็นไดโนเสาร์โป๊กเกอร์และผู้เล่นโป๊กเกอร์ที่ประกาศตัวเอง ยึดติดกับ: Deception no. 1: คอมพิวเตอร์ไม่ถนัดเกมที่มีข้อมูลไม่ครบถ้วน นี่เป็นเรื่องงมงาย เป็นเรื่องจริงที่ทฤษฎีบทของ Zermel ใช้ไม่ได้กับเกมอย่างโป๊กเกอร์ เมื่อพูดถึงโป๊กเกอร์มีประโยคอื่น ๆ ที่บอกว่าเกมมีวิธีแก้ปัญหาและโดยทั่วไปแล้วโซลูชันคอมพิวเตอร์จะมี “กลยุทธ์แบบผสม” ซึ่งหมายความว่ากลยุทธ์นี้ยังมีองค์ประกอบการสุ่ม (เช่นเรียกกรรไกรด้วยความน่าจะเป็น 1/3). ). คอมพิวเตอร์ค่อนข้างดีและดีกว่ามนุษย์ในการคำนวณความคาดหวังเกี่ยวกับผลลัพธ์ของความน่าจะเป็นโดยเฉพาะอย่างยิ่งเมื่อทราบการแจกแจงความน่าจะเป็นเช่นเดียวกับในเกมไพ่ ตัวอย่างเช่นคอมพิวเตอร์รู้แน่ชัดว่าความน่าจะเป็นของ Backdoor Flush คืออะไรและโอกาสที่เป็นไปได้ที่จะต้องใช้เพื่อพิสูจน์การไล่ล่า แม้ว่าโป๊กเกอร์จะมีข้อมูลที่ไม่ครบถ้วน แต่โป๊กเกอร์แบบไม่มีขีด จำกัด เป็นเกมที่ง่ายกว่า Go แม้ว่า Go จะมีข้อมูลที่ครบถ้วน (ข้อมูลที่รู้จักกันดี) หมายเลขการหลอกลวง 2: ความเหนือกว่าของคอมพิวเตอร์มาจากความสามารถในการจำทุกมือที่ฉันเล่นและปรับเปลี่ยนตามนั้น ในขณะที่ “บอทหาประโยชน์” จะวิเคราะห์เกมในอดีตของคุณและปรับให้เข้ากับจุดอ่อนที่รับรู้ แต่บอท GTO มาตรฐาน (ซึ่งเราเคยเรียกว่า “บอทแนช”) เป็นโป๊กเกอร์ที่เทียบเท่ากับ BS ในแบล็คแจ็ค กลยุทธ์ GTO ไม่เปลี่ยนแปลงไม่ว่าคุณจะเล่นชุดที่ผ่านมาอย่างไร เขาไม่ต้องการข้อมูลนี้และไม่สนใจ หมายเลขการหลอกลวง 3: วิธีแก้ปัญหา GTO นั้น “ถูกต้อง” ก็ต่อเมื่อคุณเล่นกับหุ่นยนต์ GTO ตัวอื่นเท่านั้นเนื่องจากสิ่งนี้ถูกสันนิษฐานระหว่างการพัฒนาหุ่นยนต์ – หุ่นยนต์ “เรียนรู้” โดยการเล่นกับตัวเอง นั่นไม่เป็นความจริง “บอทที่เรียนรู้โป๊กเกอร์กับตัวเอง” เป็นลักษณะที่ไม่ถูกต้องของกระบวนการพัฒนา สื่อชอบโปรโมต clickbait ของตนเพื่อให้ทุกผลลัพธ์ในเสียงการคำนวณดูเหมือนเป็นความก้าวหน้าในยุคปัจจุบันโดยอ้างอิงถึง HAL และ Skynet หุ่นยนต์ GTO ไม่รู้อะไรเกี่ยวกับโป๊กเกอร์ การใช้กลยุทธ์ GTO เป็นแบบฝึกหัดการคำนวณที่เป็นไปได้เนื่องจากหน่วยความจำและซีพียูที่มีอยู่ในคอมพิวเตอร์ปัจจุบันมีความเร็วมหาศาลและการพัฒนาอัลกอริทึมที่มีประสิทธิภาพสำหรับการคำนวณ (“การลดความสำนึกผิด”) เราไม่เคยอธิบายอัลกอริทึมว่า “แมชชีนเลิร์นนิง” หรือ “AI” – เราเรียกมันว่า “ปีนขึ้นเนิน” หรือ “การเพิ่มประสิทธิภาพ” หรือ “การเพิ่มประสิทธิภาพ” ในแต่ละขั้นตอนของอัลกอริทึมการทำซ้ำคอมพิวเตอร์ได้พัฒนากลยุทธ์ที่ทันสมัยสำหรับแต่ละตำแหน่งที่โต๊ะ กลยุทธ์ปัจจุบันนี้อาจเรียกกันอย่างแพร่หลายว่า “คนเดียว” เช่นเดียวกับใน “PokerSnowie เล่นกับตัวเอง” แต่จริงๆแล้วมันเป็นเพียงการวนซ้ำระหว่างทางขึ้นเขาที่กำลังจะมาถึงจุดสูงสุด – เป็นกลยุทธ์ที่ดีที่สุดสำหรับโป๊กเกอร์ ความเหมาะสมนี้ไม่ได้คาดเดาคู่ต่อสู้ที่เจาะจง มีวิธีอื่นที่เราสามารถคำนวณวิธีแก้ปัญหาได้ (แม้ว่าอาจจะไม่เร็วนัก) และมันก็ใช้ได้เหมือนกัน กลยุทธ์ GTO นี้เป็น “หนังสือ” สำหรับโป๊กเกอร์และจะไม่มีวันเสียเปรียบโดยไม่คำนึงถึงฝ่ายตรงข้าม ไม่มีกลยุทธ์ใดที่จะได้รับประโยชน์จากสิ่งนี้ ความผิดพลาด # 4: บ็อต GTO ถือว่าฉันกำลังจะเล่นด้วยวิธีใดวิธีหนึ่ง แต่ฉันจะหลอกมันด้วยการเล่นชุดนอก 72 ของฉันออกจากตำแหน่ง ไม่ถูกต้อง. บ็อต GTO ไม่ได้คิดอะไรเกี่ยวกับวิธีการเล่นของคุณ ไม่เป็นไร. ไม่สามารถเอาชนะได้กับกลยุทธ์ที่ขัดแย้งกันใด ๆ ลองนึกภาพการต่อสู้ที่กำลังจะเกิดขึ้นกับ Floyd Mayweather รอคุณอยู่และคุณพูดว่า “Floyd คาดหวังให้ฉันปรากฏตัวในสภาพร่างกายที่สมบูรณ์ เขาคาดว่าจะฝึกหนักในอีกหกเดือนข้างหน้า ฉันจะนอกใจเขา – ฉันจะดู Netflix และกินลูกสนไปอีกหกเดือนข้างหน้า “ ฟลอยด์ไม่รู้ว่าคุณฝึกหนักแค่ไหน เขารู้ดีว่าหากเขาพิสูจน์ตัวเองในรูปแบบที่สมบูรณ์แบบแล้วจะไม่มีคู่ต่อสู้ใดได้เปรียบเขา มันสมเหตุสมผลแล้วที่จะพูดว่า “บ็อตคิดว่าฉันจะเล่นได้ดี ฉันจะหลอกหุ่นยนต์ด้วยการเล่นโป๊กเกอร์ชั่วร้าย! “ใช่คุณต้องแสดงให้พวกเขาเห็น! หมายเลขการหลอกลวง 5: ฉันพบจุดอ่อน – ถ้าฉันมีเช่นนั้นจากตำแหน่งนั้นและเช่นนั้นหุ่นยนต์ควรทำ X แต่ Y ผิด รองเท้าไม่มีจุดอ่อน คุณกำลังดู Handholder ที่เฉพาะเจาะจงและผลลัพธ์ที่เฉพาะเจาะจง แต่ขึ้นอยู่กับความน่าจะเป็นที่คุณจะกลายเป็นในสถานการณ์นี้และมือที่เป็นไปได้ทั้งหมดที่คุณถือได้คุณกำลังมองไปที่หุ่นยนต์เกมนั้นถูกต้องและคุณอาจไม่พบ หลุมที่นั่น มันอันตรายมากที่จะมองเกมอย่างโดดเดี่ยว หุ่นยนต์ทำการเคลื่อนไหวเพื่อปรับระดับช่วงของมันดังนั้นคุณจึงไม่สามารถตัดหญ้าในสถานการณ์อื่นหรือหากการ์ดใบอื่นมาที่แม่น้ำ หากคุณไม่เห็นความผิดนั้นอยู่ในความคิดของคุณเองไม่ใช่ในหุ่นยนต์ หมายเลขการหลอกลวง 6: ถ้าฉันเล่นไปสักพักฉันจะรู้ว่ามันเล่นยังไงและหาจุดอ่อน ไม่ถูกต้อง. ไม่มีความอ่อนแอ. ในความเป็นจริงเราสามารถเผยแพร่กลยุทธ์ของหุ่นยนต์ได้และจะไม่สร้างความแตกต่าง ถ้าฉันบอกคุณว่าฉันจะเล่น Scissors, Rock and Paper โดยมีความน่าจะเป็น 1/3 ในแต่ละอันการที่คุณรู้ว่ากลยุทธ์ของฉันไม่ได้ทำให้คุณได้เปรียบเลย ไม่มีส้น Achilles หมายเลขการหลอกลวง 7: หุ่นยนต์ Heads-Up Limit ที่นำเข้าสู่คาสิโนสามารถเอาชนะได้สูงดังนั้นอาจเป็นหุ่นยนต์ GTO เช่นกัน นี่ไม่ใช่การเปรียบเทียบที่มีความหมาย หุ่นยนต์บางตัวในคาสิโนได้รับคำสั่งไม่ให้เล่นเกม A เพราะมันแข็งแกร่งเกินไปสำหรับคนทั่วไป หากคาสิโนกำหนดให้หุ่นยนต์เล่นเกม B เพื่อให้บรรลุเป้าหมายคือ 5% เป็นผู้นำมากกว่าผู้เล่นส่วนใหญ่คนที่เก่งจริงๆสามารถสร้างรายได้จากหุ่นยนต์ GTSO ตัวนี้ (หุ่นยนต์ที่ด้อยกว่าจากทฤษฎีเกม) แต่นั่นเป็นเรื่องที่แตกต่างออกไป ฉันไม่สนใจว่าคุณเป็นใคร: ถ้าคุณเล่นหัวกับ PokerSnowie คุณจะแพ้ หมายเลขการหลอกลวง 8: หุ่นยนต์ GTO สามารถเอาชนะผู้เล่นที่อ่อนแอได้ แต่จะมีปัญหากับคู่ต่อสู้ที่เก่งที่สุดเช่น Phil Ivey หรือ Dan Negreanu ไม่ถูกต้อง. สิ่งที่สวยงามเกี่ยวกับการบูต GTO คือไม่สำคัญว่าคู่ต่อสู้จะเป็นใคร อย่างดีที่สุดมีคนเล่นกับหุ่นยนต์ได้ วงแหวนของหุ่นยนต์ GTO จะเป็นเหมือนอ่างเงินที่ไหลตามเข็มนาฬิกาและไล่ตามปุ่มและถูกปล่อยออกจากกลางโต๊ะเนื่องจากคราด ปัญหาในทางปฏิบัติที่มืออาชีพตัวจริงมีในอดีตคือการตัดสินใจว่าทักษะของพวกเขาเพียงพอที่จะก้าวไปสู่การเดิมพันที่สูงขึ้นต่อไปซึ่งผู้เล่นมีแนวโน้มที่จะแข็งแกร่งขึ้น แต่ตอนนี้ผู้เล่นที่เลียนแบบกลยุทธ์ GTO สามารถนั่งที่โต๊ะใดก็ได้ในโลกในการเดิมพันใดก็ได้และไม่ต้องกังวลว่าจะเป็นปลา อย่างดีที่สุดเกมจะมีความสมดุล (นอกคราด) และในทางปฏิบัติกลยุทธ์ GTO ให้ประโยชน์อย่างมากกับทุกคนที่คุณพบในป่า หมายเลขการหลอกลวง 9: Dan Negreanu เป็นมืออาชีพในการเล่นโป๊กเกอร์ที่มีสร้อยข้อมือ N มานานเขาจึงเอาชนะคอมพิวเตอร์ยอดนิยมอย่าง Doug Polk ซึ่งไม่เข้าใจความแตกต่างของโป๊กเกอร์จริง ถ้าคนอย่าง Polk จำ “ตาราง” ได้และเลียนแบบกลยุทธ์ GTO เขาก็ไม่จำเป็นต้องเข้าใจปีศาจ เขาไม่จำเป็นต้องรู้ว่าคำว่า “แตกต่างกันนิดหน่อย” หมายถึงอะไร ประสบการณ์โป๊กเกอร์จากมืออาชีพเช่น Negreanu ทำให้พวกเขาได้พบกับเกมที่ดีที่สุดในสถานการณ์ที่ซับซ้อน ตอนนี้ประสบการณ์นี้ล้าสมัยเมื่อคอมพิวเตอร์เพิ่งคำนวณว่าเกมที่เหมาะสมคืออะไร บางทีในปี 1950 ประสบการณ์ของผู้เล่นทำให้เขาพบว่าการตี 14 VT นั้นดีกว่าการยืน เมื่อ Four Riders คำนวณแผนภูมิ BS แล้วประสบการณ์การเล่นแบล็คแจ็คนี้ก็ไม่เกี่ยวข้อง หนังสือทำให้ประสบการณ์นั้นไร้ประโยชน์ Doug Polk ไม่ใช่หุ่นยนต์ GTO ในตอนนี้ เขาเป็นมืออาชีพอันดับต้น ๆ ที่ใช้กลยุทธ์ GTO การแทรกแซงของ Negreanu เพียงอย่างเดียวที่ Polka พ่ายแพ้คือถ้าการจำลอง GTO ของ Polk ไม่ถูกต้องและหากช่องมีขนาดใหญ่พอที่ Negreanu จะค้นหาและใช้งานได้ ฉันสงสัย. ความปรารถนาอีกประการหนึ่งคือถ้าพวกเขาเล่นสดและถ้า Polk มีคำแนะนำทางกายภาพที่จัดการข้อมูลเกี่ยวกับไพ่ของเขาไปยังหลุมและถ้าเขาสามารถอ่านมันให้ Negreanu ด้วย หรือถ้า Polk มีปัญหาในการเอียงและเริ่มหลงจาก GTO หากเขามีไพ่ผิด ไม่น่าใช่ หรือบางทีเกมอาจจะสั้นพอที่ Negreanu จะโชคดีในการสาธิตเล็กน้อย หลังจากการแข่งขันกับ AlphaGo ลีเซดอลยกเกมของเขาและเริ่มบดขยี้ทุกคน (ไม่ใช่ว่าเขาจะทำไปแล้ว) แต่แล้วเขาก็ออกจากเกม เขายอมรับว่าเขาได้รับรางวัล (ช่างเป็นแนวคิด!) และไม่มีใครเคยนึกถึงผู้เล่นที่ดีที่สุดในโลก AlphaGo เราจะดูว่า Negreanu มีการเปิดเผยแบบเดียวกันหรือไม่ ทวีตล่าสุดทำให้ฉันคิดได้เพราะ Negreanu ดูเหมือนจะตั้งคำถามกับเกมหุ่นยนต์และแสดงให้เห็นว่ามีเส้นบาง ๆ ระหว่างอัจฉริยะและความกล้าหาญ ฉันคิดว่าเขายังคงหวังว่าจะมีข้อผิดพลาดในกลยุทธ์ของ GTO มันไม่ใช่. ครั้งสุดท้ายที่ฉันได้ยินว่า Negreanu อยู่ในการแข่งขันมีข้อบ่งชี้ว่าหนึ่งในเหตุผลคือเพื่อเป็นเกียรติแก่เขา Negreanu กำลังฝึกอบรมกับ PokerSnowie และปรับตัว! หาก Negreanu สามารถเรียนรู้กลยุทธ์ GTO ได้อย่างรวดเร็วเขาก็สามารถยกระดับสนามแข่งขันได้ซึ่งจะประสบความสำเร็จอย่างมาก วิธีเดียวที่ไดโนเสาร์จะอยู่รอดได้คือการวิวัฒนาการ เราจะได้เห็นในปี 2021

[Next time, I’ll discuss some of the limitations and weaknesses of the poker bots, unless we thrash them out in the Comments below.]


ปอยเปต คาสิโน
เกมส์ยิ่งปลา คาสิโน ได้เงินจริงไหม
เล่น คาสิโน
คาสิโน191
คาสิโน 88

Leave a Reply

Your email address will not be published. Required fields are marked *