AI ได้รับข้อมูลมาจากไหน?

เคยนั่งเกาหัวแล้วสงสัยไหมว่า... เรื่องพวกนี้มันมาจากไหนกันแน่ ? คือ AI ไม่ได้ไปค้นหาหนังสือเก่าๆ ในห้องสมุด หรือแอบดูวิดีโอสั้นๆ ใน YouTube สักหน่อย แต่มันกลับสามารถหาคำตอบได้ทุกอย่าง ตั้งแต่เคล็ดลับการทำลาซานญ่าไปจนถึงฟิสิกส์ของหลุมดำ ราวกับว่ามันมีตู้เก็บเอกสารที่ไม่มีวันหมดอยู่ข้างใน ความจริงแล้วมันแปลกประหลาดและน่าสนใจกว่าที่คุณคิด ลองมาวิเคราะห์กันดู (และอาจจะมาล้างความเข้าใจผิดบางอย่างไปพร้อมๆ กันด้วย)

นี่คือเวทมนตร์หรือเปล่า? 🌐

ไม่ใช่เวทมนตร์ แม้บางครั้งจะรู้สึกอย่างนั้นก็ตาม สิ่งที่เกิดขึ้นเบื้องหลังนั้นโดยพื้นฐานแล้วคือ การทำนายรูปแบบ โมเดล ภาษาขนาดใหญ่ (LLMs) ไม่ได้ เก็บข้อเท็จจริง เหมือนที่สมองของคุณจำสูตรคุกกี้ของคุณยายได้ แต่จะถูกฝึกให้เดาคำถัดไป (โทเค็น) โดยอิงจากสิ่งที่มาก่อน [2] ในทางปฏิบัติ นั่นหมายความว่าพวกมันจะยึดติดกับความสัมพันธ์: คำใดที่อยู่ด้วยกัน ประโยคมักจะมีรูปร่างอย่างไร แนวคิดทั้งหมดถูกสร้างขึ้นอย่างไรเหมือนนั่งร้าน นั่นเป็นเหตุผลที่ผลลัพธ์ฟัง ดูถูก ต้อง แม้ว่า—พูดตามตรง—มันเป็นการเลียนแบบทางสถิติ ไม่ใช่ความเข้าใจ [4]

แล้วอะไรคือสิ่งที่ทำให้ข้อมูลที่สร้างโดย AI มีประโยชน์ ? มีอยู่ไม่กี่อย่าง:

ความหลากหลายของข้อมูล - ดึงข้อมูลจากแหล่งข้อมูลมากมาย ไม่ใช่จากแหล่งข้อมูลแคบๆ เพียงแหล่งเดียว
การอัปเดต - หากไม่มีรอบการรีเฟรช ข้อมูลจะล้าสมัยอย่างรวดเร็ว
การกรอง - ในอุดมคติคือการดักจับสิ่งสกปรกก่อนที่จะซึมเข้าไป (แต่เอาเข้าจริง ตาข่ายก็มีรูอยู่ดี)
การตรวจสอบข้าม - การอ้างอิงแหล่งข้อมูลที่เชื่อถือได้ (เช่น NASA, WHO, มหาวิทยาลัยชั้นนำ) ซึ่งเป็นสิ่งจำเป็นในคู่มือการกำกับดูแล AI ส่วนใหญ่ [3]

ถึงกระนั้น บางครั้งมันก็สร้างเรื่องขึ้นมาอย่างมั่นใจ สิ่งที่เรียกว่า ภาพหลอน ? โดยพื้นฐานแล้วเป็นเรื่องไร้สาระที่ถูกขัดเกลามาอย่างดีและพูดออกมาอย่างหน้าตาเฉย [2][3]

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 ปัญญาประดิษฐ์สามารถทำนายหมายเลขล็อตเตอรี่ได้หรือไม่
สำรวจความเชื่อผิดๆ และข้อเท็จจริงเกี่ยวกับการทำนายผลลอตเตอรี่ด้วย AI.

🔗 การใช้แนวทางแบบองค์รวมกับ AI หมายความว่าอย่างไร
ทำความเข้าใจปัญญาประดิษฐ์ (AI) ด้วยมุมมองที่สมดุลทั้งด้านจริยธรรมและผลกระทบ.

🔗 คัมภีร์ไบเบิลกล่าวถึงปัญญาประดิษฐ์อย่างไร
ศึกษาทัศนะของพระคัมภีร์เกี่ยวกับเทคโนโลยีและการสร้างสรรค์ของมนุษย์.

เปรียบเทียบอย่างรวดเร็ว: AI ดึงข้อมูลมาจากที่ไหนบ้าง 📊

แหล่งข้อมูลทุกแหล่งอาจไม่เหมือนกัน แต่ทุกแหล่งล้วนมีบทบาทของตนเอง นี่คือภาพรวมโดยสังเขป.

ประเภทแหล่งที่มา	ใครเป็นผู้ใช้งาน (AI)	ต้นทุน/มูลค่า	เหตุผลที่มันได้ผล (หรือไม่ได้ผล...)
หนังสือและบทความ	แบบจำลองภาษาขนาดใหญ่	ล้ำค่า (ประมาณนั้น)	ความรู้ที่เข้มข้นและมีโครงสร้างชัดเจนนั้น ล้าสมัยได้อย่างรวดเร็ว.
เว็บไซต์และบล็อก	แทบทุก AI	ฟรี (มีเสียงรบกวน)	หลากหลายอย่างเหลือเชื่อ มีทั้งส่วนที่ยอดเยี่ยมและส่วนที่ห่วยแตกอย่างสิ้นเชิง.
บทความวิชาการ	ปัญญาประดิษฐ์ที่เน้นการวิจัย	บางครั้งต้องเสียค่าสมัครสมาชิกจึงจะเข้าถึงได้	ความแม่นยำและความน่าเชื่อถือ แต่ใช้ศัพท์เฉพาะทางที่เข้าใจยาก.
ข้อมูลผู้ใช้	ปัญญาประดิษฐ์ส่วนบุคคล	ไวต่อสิ่งเร้ามาก ⚠️	การตัดเย็บเฉียบคม แต่ปัญหาเรื่องความเป็นส่วนตัวมีมากมาย.
เว็บแบบเรียลไทม์	AI ที่เชื่อมโยงกับการค้นหา	ฟรี (หากใช้งานผ่านระบบออนไลน์)	ช่วยให้ข้อมูลทันสมัยอยู่เสมอ ข้อเสียคือมีความเสี่ยงที่จะทำให้ข่าวลือแพร่กระจายเร็วขึ้น.

จักรวาลข้อมูลการฝึกอบรม 🌌

นี่คือช่วง “การเรียนรู้ในวัยเด็ก” ลองนึกภาพการมอบ หนังสือนิทาน ข่าวตัดแปะ และข้อมูลในวิกิพีเดีย จำนวนนับล้าน ข้อมูลที่เปิดเผยต่อสาธารณะ แหล่งข้อมูลที่ได้รับอนุญาต และข้อความที่ผู้ฝึกสอนสร้างขึ้นมามา [2]

ซ้อนทับด้านบน: ตัวอย่างของมนุษย์ที่คัดสรรมาแล้ว - คำตอบที่ดี คำตอบที่ไม่ดี การกระตุ้นไปในทิศทางที่ถูกต้อง - ก่อนที่การเสริมแรงจะเริ่มต้น [1].

ข้อควรระวังเรื่องความโปร่งใส: บริษัทต่างๆ ไม่ได้เปิดเผยรายละเอียดทุกอย่าง ข้อจำกัดบางประการถือเป็นความลับ (ทรัพย์สินทางปัญญา ข้อกังวลด้านความปลอดภัย) ดังนั้นคุณจึงได้เห็นเพียงบางส่วนของส่วนผสมที่แท้จริงเท่านั้น [2].

ค้นหาแบบเรียลไทม์: ท็อปปิ้งพิเศษ 🍒

โมเดลบางรุ่นสามารถมองเห็นนอกฟองสบู่การฝึกอบรมได้แล้ว นั่นคือ การสร้างเสริมการดึงข้อมูล (RAG) โดยพื้นฐานแล้วคือการดึงส่วนต่างๆ จากดัชนีสดหรือที่เก็บเอกสาร จากนั้นจึงนำมาผสานเข้ากับการตอบกลับ [5] เหมาะอย่างยิ่งสำหรับสิ่งต่างๆ ที่เปลี่ยนแปลงอย่างรวดเร็ว เช่น หัวข้อข่าวหรือราคาหุ้น

ปัญหาคืออะไร? อินเทอร์เน็ตมีทั้งความอัจฉริยะและความวุ่นวายปะปนกันไป หากตัวกรองหรือการตรวจสอบแหล่งที่มาอ่อนแอ คุณอาจเสี่ยงที่ข้อมูลขยะจะเล็ดลอดกลับเข้ามา ซึ่งเป็นสิ่งที่กรอบความเสี่ยงเตือนไว้ [3].

วิธีแก้ปัญหาที่นิยมใช้กันคือ บริษัทต่างๆ เชื่อมโยงโมเดลเข้ากับ ของตนเอง เพื่อให้คำตอบอ้างอิงถึงนโยบายด้านทรัพยากรบุคคลปัจจุบันหรือเอกสารผลิตภัณฑ์ที่อัปเดตแล้ว แทนที่จะตอบแบบสุ่มสี่สุ่มห้า ลองคิดดู: ลดโอกาสที่จะเกิดความผิดพลาด และเพิ่มความน่าเชื่อถือของคำตอบ

การปรับแต่งขั้นสุดท้าย: ขั้นตอนการขัดเกลาของ AI 🧪

โมเดลที่ฝึกฝนไว้ล่วงหน้าแบบดิบๆ นั้นใช้งานได้ไม่ค่อยดีนัก ดังนั้นจึงต้อง ปรับแต่งเพิ่มเติม :

สอนให้พวกเขามี ประโยชน์ ไม่เป็นอันตราย ซื่อสัตย์ (ผ่านการเรียนรู้เสริมแรงจากผลตอบรับของมนุษย์ RLHF) [1]
ขัดขอบที่ไม่ปลอดภัยหรือเป็นพิษออก (การจัดแนว) [1].
ปรับระดับน้ำเสียงให้เหมาะสม ไม่ว่าจะเป็นน้ำเสียงที่เป็นมิตร เป็นทางการ หรือประชดประชันอย่างสนุกสนาน.

มันไม่ใช่การขัดเพชรให้เงาวับเสียทีเดียว แต่เป็นการควบคุมมวลข้อมูลทางสถิติที่ถาโถมเข้ามาให้มีพฤติกรรมคล้ายกับคู่สนทนามากกว่า.

อุปสรรคและความล้มเหลว 🚧

อย่าแสร้งทำเป็นว่ามันสมบูรณ์แบบเลย:

ภาพหลอน - คำตอบที่ชัดเจนซึ่งผิดอย่างสิ้นเชิง [2][3]
อคติ - สะท้อนรูปแบบที่ฝังอยู่ในข้อมูล และอาจขยายรูปแบบเหล่านั้นได้หากไม่ตรวจสอบ [3][4]
ไม่มีประสบการณ์ตรง - สามารถ พูด ถึงสูตรซุปได้ แต่ไม่เคยชิมซุปเลย [4]
ความมั่นใจมากเกินไป - การเขียนเรียงความลื่นไหลราวกับว่ารู้ทุกอย่าง แม้ว่าจริงๆ แล้วจะไม่รู้ก็ตาม กรอบความเสี่ยงเน้นย้ำถึงสมมติฐานที่ชี้ให้เห็น [3]

ทำไมเรา ถึงรู้สึก เหมือนรู้ 🧠

มันไม่มีความเชื่อ ไม่มีความทรงจำในความหมายของมนุษย์ และแน่นอนว่าไม่มีตัวตน แต่เนื่องจากมันเรียงประโยคเข้าด้วยกันได้อย่างราบรื่น สมองของคุณจึงอ่านมันราวกับว่ามัน เข้าใจ สิ่งที่เกิดขึ้นเป็นเพียง การทำนายโทเค็นถัดไปในระดับมหาศาล : ประมวลผลความน่าจะเป็นหลายล้านล้านรายการในเสี้ยววินาที [2]

บรรยากาศ "สติปัญญา" เป็นพฤติกรรมที่เกิดขึ้นใหม่ นักวิจัยเรียกมันอย่างติดตลกว่า "ปรากฏการณ์นกแก้วสุ่ม" [4]

อุปมาอุปไมยที่เข้าใจง่ายสำหรับเด็ก 🎨

ลองนึกภาพนกแก้วตัวหนึ่งที่อ่านหนังสือทุกเล่มในห้องสมุด มันอาจจะไม่ เข้าใจ เรื่องราว แต่สามารถนำคำพูดเหล่านั้นมาเรียบเรียงใหม่ให้ฟังดูฉลาดได้ บางครั้งก็ถูกต้องแม่นยำ บางครั้งก็ไร้สาระ แต่ด้วยลีลาที่เฉียบคม คุณก็อาจแยกแยะไม่ออกว่าอันไหนจริงหรือเท็จ

สรุป: แหล่งที่มาของข้อมูล AI 📌

พูดให้เข้าใจง่ายๆ คือ:

ข้อมูลการฝึกอบรมจำนวนมาก (สาธารณะ + ได้รับอนุญาต + สร้างโดยผู้ฝึกสอน) [2]
การปรับแต่งอย่างละเอียด ด้วยข้อเสนอแนะจากมนุษย์เพื่อกำหนดโทนเสียง/พฤติกรรม [1]
ระบบการเรียกค้น เมื่อเชื่อมต่อกับสตรีมข้อมูลสด [5]

AI ไม่ได้ “รู้” สิ่งต่างๆ แต่ ทำนายข้อความ นั่นคือทั้งจุดแข็งและจุดอ่อนของมัน สรุปคือ ควรตรวจสอบข้อมูลสำคัญกับแหล่งข้อมูลที่เชื่อถือได้เสมอ [3]

เอกสารอ้างอิง

Ouyang, L. และคณะ (2022). การฝึกโมเดลภาษาให้ปฏิบัติตามคำสั่งด้วยการตอบรับจากมนุษย์ (InstructGPT) . arXiv .
OpenAI (2023). รายงานทางเทคนิค GPT-4 - การผสมผสานระหว่างข้อมูลที่ได้รับอนุญาต ข้อมูลสาธารณะ และข้อมูลที่สร้างโดยมนุษย์; วัตถุประสงค์และข้อจำกัดของการทำนายโทเค็นถัด ไป arXiv
NIST (2023). เสี่ยง ด้านปัญญาประดิษฐ์ (AI RMF 1.0) - ที่มา ความน่าเชื่อถือ และการควบคุมความเสี่ยง PDF
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). เกี่ยวกับอันตรายของนกแก้วสุ่ม: แบบจำลองภาษามีขนาดใหญ่เกินไปได้หรือไม่ ? PDF
Lewis, P. และคณะ (2020). การสร้างผลลัพธ์ที่เสริมการค้นหาสำหรับ NLP ที่เน้นความรู้ . arXiv .

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก

ประเทศ/ภูมิภาค