ตำแหน่งปัจจุบัน:หน้าแรก > สล็อตแมชชีน >

อัลกอริทึมของโจร (ปัญหาสล็อตแมชชีน)

ปัญหาของโจรถูกเสนอครั้งแรกโดยเฮอร์เบิร์ต ร็อบบินส์ในปี 1952 และมีการใช้กันอย่างแพร่หลายในการทดลองทางคลินิก การจัดการพอร์ตโฟลิโอ ระบบการแนะนำ และสาขาอื่นๆ รวมถึง AlphaGo
 
สล็อตแมชชีน (โจร) เป็นแมชชีนทั่วไปในคาสิโน ผู้เล่นใส่เหรียญแล้วดึงคันโยกลง จากนั้นรูปแบบต่างๆ จะปรากฏขึ้นแบบสุ่ม หากรูปแบบเดียวกันปรากฏขึ้นเมื่อหยุด คุณจะได้รับรางวัลเฉพาะตามอัตราต่อรองที่เกี่ยวข้อง . พูดง่ายๆ ก็คือ ความน่าจะเป็นที่คุณจะสามารถทำเงินได้นั้นแตกต่างกันไปในแต่ละสล็อตแมชชีน และคุณจะทำเงินได้มากขึ้นได้อย่างไรคือปัญหาของโจร
 
ในแง่ของการจัดวางโฆษณาอาจจะเข้าใจได้ง่ายขึ้น สมมติว่า คุณมีโอกาสที่จะวางโฆษณา 100 รายการสำหรับผู้ใช้รายเดียวกัน โฆษณา 100 รายการเหล่านี้แบ่งออกเป็นสิบประเภท เช่น โฆษณาหนังสือ โฆษณากีฬา เป็นต้น ในกระบวนการของ คุณต้องหาว่าโฆษณาประเภทใดที่ผู้ใช้ชอบและเพิ่มอัตราการคลิก CTR ให้สูงสุด นี่คือปัญหาของโจร
 
แต่มีปัญหาคือเมื่อคุณเพิ่งเริ่มเล่นสล็อตแมชชีน คุณไม่รู้ว่าความน่าจะเป็นของแต่ละสล็อตแมชชีนที่สร้างรายได้ให้กับคุณเป็นอย่างไร หรือเมื่อคุณเพิ่งเริ่มโฆษณา คุณไม่รู้ว่าโฆษณาประเภทใดที่ผู้ใช้แต่ละคนชอบ จึงมีการนำแนวคิด "สำรวจ" มาใช้ กล่าวโดยย่อคือ ลองเล่น สล็อตแมชชีน เพื่อดูว่ามีโอกาสทำกำไรสูงหรือไม่ ลองวางประเภทโฆษณา และดูว่าผู้ใช้คลิกเข้าไปหรือไม่ และเห็นมัน หลังจากรวบรวมเวลาสำรวจเพียงพอแล้ว หลังจากที่เข้าใจถึงความน่าจะเป็นในการทำกำไรของแต่ละเครื่องและอัตราการคลิกผ่านของโฆษณาแต่ละรายการแล้ว แนวคิดอื่นของ "การเอารัดเอาเปรียบ" ก็ถูกแนะนำ นั่นคือ คุณผ่านก่อนหน้านี้ "การเอารัดเอาเปรียบ" คุณรู้อยู่แล้วว่าสล็อตแมชชีนใดมีโอกาสทำกำไรสูงสุด จากนั้นคุณจะเล่นสล็อตแมชชีนนี้ต่อไป และประเภทโฆษณาที่ผู้ใช้ชื่นชอบมากที่สุด แล้วคุณจะให้บริการโฆษณาประเภทนี้แก่ผู้ใช้รายนี้ต่อไป (ในที่อื่นๆ คำให้ "พัฒนา" ) เพื่อเพิ่มผลกำไรสูงสุด
 
อันที่จริง นี่คือปัญหา EE (การสำรวจ - การแสวงประโยชน์) ซึ่งเป็นหนึ่งในปัญหาคลาสสิกสองข้อในด้านระบบการแนะนำ (อีกปัญหาหนึ่งคือปัญหาการเริ่มเย็นของผู้ใช้ ซึ่งจะกล่าวถึงในภายหลัง)
 
วิธีจัดการกับปัญหา EE ให้ดีขึ้นคือแก่นของปัญหา Bandit กล่าวโดยสรุป หากคุณสำรวจมากเกินไป คุณอาจเสียเวลามากกับเครื่องสล็อตแมชชีนที่มีโอกาสทำกำไรต่ำ (หรือโฆษณาอัตราการคลิกผ่านต่ำ) ไม่เช่นนั้น หากการสำรวจน้อยเกินไปเป็นปัญหา คุณอาจพลาดเครื่องสล็อตต่อไปนี้ที่มีโอกาสทำกำไรสูง (โฆษณาอัตราการคลิกผ่านสูง)
 
ตามข้อเสนอนี้
 
ε-อันดับแรก: แนวทางในการสร้างสมดุลระหว่างการสำรวจและการพัฒนา (หรือที่เรียกว่าอัลกอริทึม Naive Bandit)
ε ใน ε แรกหมายถึงเปอร์เซ็นต์ของเวลาในการสำรวจกับจำนวนครั้งทั้งหมด
 
สมมติว่าผู้เล่นสามารถเล่นสล็อตแมชชีนได้เพียง 1,000 ครั้ง ε = 10% จากนั้นผู้เล่นจะอยู่ในขั้นตอนการสำรวจในช่วง 100 เกมแรก โดยสำรวจความน่าจะเป็นในการทำกำไรของเครื่องสล็อตต่างๆ (อัตราการคลิกผ่านของโฆษณาต่างๆ) และใน 900 เกมถัดไป ทั้งหมดเล่นสล็อตแมชชีนที่มีโอกาสได้กำไรสูงสุด (โฆษณาที่มีอัตราการคลิกผ่านสูงสุด) ตราบใดที่พบค่า ε ที่เหมาะสมที่สุด กำไรก็จะเพิ่มขึ้นสูงสุด
 
แต่จริง ๆ แล้ว ε มีปัญหาใหญ่สองประการ อย่างแรก ใน 100 เกมแรก สำรวจเพียงพอจริงหรือ? หากวันนี้มีความเป็นไปได้ในการจ่ายคืนที่เป็นไปได้ 250 (ความน่าจะเป็น 250 CTR) ดังนั้นใน 100 เกมแรกเราอาจไม่สามารถหาทางออกที่ดีที่สุดได้ (สล็อตแมชชีนที่จ่ายสูงสุดหรือโฆษณา CTR สูงสุด) อีกปัญหาหนึ่งก็คือใน 100 เกมแรก การสำรวจ เรามีความเป็นไปได้สูงที่เราจะได้ผลตอบแทนต่ำมากเท่านั้น ซึ่งหมายความว่าเราอาจเสียการสำรวจส่วนใหญ่ 100 ครั้งในกลยุทธ์ที่ให้ผลตอบแทนต่ำ
 
จากสองคำถามนี้
 
ε-โลภ: เรียนรู้ขณะเล่น (โลภ)
 
ε-ความโลภคือการพยายามสำรวจเป็นครั้งคราวในขณะที่พยายามพัฒนา ดังนั้นในแต่ละรอบของการคัดเลือก มีความเป็นไปได้ที่ ε จะสุ่มเลือกแผนการสำรวจ (โดยไม่คำนึงถึงประโยชน์) และมีความน่าจะเป็น 1-ε คือการเลือกการพัฒนาโซลูชันที่ทำกำไรได้มากที่สุด
 
ด้วยวิธีนี้ ε-greedy จะแก้ปัญหาสองข้อที่กล่าวถึงไป อย่างแรกคือ จำนวนการสำรวจไม่เพียงพอหรือไม่ ε-greedy มีโอกาสสำรวจในตอนต้นของแต่ละรอบ ตราบใดที่กำไรสูงสุดยังไม่หมด ประสบความสำเร็จมีความเป็นไปได้ที่จะสำรวจอยู่เสมอ ประการที่สอง ขั้นตอนการสำรวจของ ε ก่อนนั้นทำให้เสียรายได้อย่างมาก ในขณะที่ ε-greedy จะสำรวจหรือพัฒนาความน่าจะเป็นที่สอดคล้องกันตามขนาดของค่า ε ที่คุณตั้งไว้ที่จุดเริ่มต้นของแต่ละรอบ ε-ขั้นตอนการสำรวจครั้งแรก กำไรจะดีขึ้น.
 
แต่แต่แต่
 
อย่างไรก็ตาม เมื่อจำนวนครั้งที่ n เพิ่มขึ้น คุณจะตระหนักถึงความน่าจะเป็นของกำไรของแผนการต่าง ๆ มากขึ้นและบทบาทของการสำรวจจะลดลงเรื่อยๆ ในเวลานี้ จากนั้น คุณยังคงมีความน่าจะเป็นที่ ε จะสำรวจที่ จุดเริ่มต้นของแต่ละรอบ กล่าวคือ รายได้สูญเปล่า ดังนั้น ε-greedy จึงขยายไปถึง εn-greedy นั่นคือ ในตอนเริ่มต้นของแต่ละรอบ มีความเป็นไปได้ที่ εn จะต้องสำรวจ และความน่าจะเป็นของ 1 - εn เพื่อพัฒนา (เลือกรูปแบบผลตอบแทนสูงสุด) ด้วยวิธีนี้ เมื่อจำนวนรอบเพิ่มขึ้น ความน่าจะเป็นของการสำรวจจะลดลง ซึ่งบรรลุเป้าหมายในการเพิ่มรายได้สูงสุดด้วย
 
โมเดลขนาดใหญ่ที่กำหนดโดย ε จะมีความยืดหยุ่นมากกว่า (สามารถสำรวจสิ่งที่ไม่รู้จักได้เร็วขึ้นและปรับให้เข้ากับการเปลี่ยนแปลง) และ ε ขนาดเล็กจะมีความเสถียรมากขึ้น (มีโอกาสมากขึ้นในการ "พัฒนา")

  • 关注微信

คุณอาจชอบ