Generative AI คืออะไร?

ปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) หมายถึงโมเดลที่ สร้างเนื้อหาใหม่ เช่น ข้อความ รูปภาพ เสียง วิดีโอ โค้ด โครงสร้างข้อมูล โดยอาศัยรูปแบบที่เรียนรู้จากชุดข้อมูลขนาดใหญ่ แทนที่จะเพียงแค่ติดป้ายกำกับหรือจัดอันดับสิ่งต่างๆ ระบบเหล่านี้จะสร้างผลลัพธ์ใหม่ที่ คล้ายกับ สิ่งที่เห็นโดยไม่จำเป็นต้องเป็นสำเนาที่เหมือนกันทุกประการ ลองนึกถึงการเขียนย่อหน้า การสร้างโลโก้ การร่าง SQL การแต่งทำนองเพลง นั่นคือแนวคิดหลัก [1]

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 อธิบาย AI เชิงตัวแทนคืออะไร
ค้นพบว่า AI เชิงตัวแทนวางแผน ดำเนินการ และเรียนรู้โดยอัตโนมัติตามกาลเวลาอย่างไร

🔗 ความสามารถในการปรับขนาดของ AI ในทางปฏิบัติในปัจจุบันคืออะไร
เรียนรู้ว่าเหตุใดระบบ AI ที่ปรับขนาดได้จึงมีความสำคัญต่อการเติบโตและความน่าเชื่อถือ

🔗 กรอบซอฟต์แวร์สำหรับ AI คืออะไร
ทำความเข้าใจกรอบงาน AI ที่สามารถนำกลับมาใช้ใหม่ได้ซึ่งจะช่วยเร่งการพัฒนาและปรับปรุงความสม่ำเสมอ

🔗 การเรียนรู้ของเครื่องจักรกับ AI: อธิบายความแตกต่างที่สำคัญ
เปรียบเทียบแนวคิด ความสามารถ และการใช้งานจริงของ AI และการเรียนรู้ของเครื่องจักร

ทำไมผู้คนถึงยังคงถามว่า "Generative AI คืออะไร" อยู่เรื่อย 🙃

เพราะมันให้ความรู้สึกราวกับมีเวทมนตร์ แค่พิมพ์คำสั่ง ก็ปรากฏสิ่งที่มีประโยชน์ออกมา บางครั้งก็ยอดเยี่ยม บางครั้งก็แปลกประหลาด นี่เป็นครั้งแรกที่ซอฟต์แวร์ดูเป็นการสนทนาและสร้างสรรค์ในระดับขนาดใหญ่ ยิ่งไปกว่านั้น มันยังซ้อนทับกับเครื่องมือค้นหา ผู้ช่วย การวิเคราะห์ การออกแบบ และเครื่องมือพัฒนา ซึ่งทำให้หมวดหมู่ต่างๆ เลือนลาง และพูดตรงๆ ก็คือทำให้งบประมาณบานปลาย

อะไรที่ทำให้ Generative AI มีประโยชน์ ✅

ความเร็วในการร่าง - ช่วยให้คุณผ่านรอบแรกได้ดีและรวดเร็วอย่างไม่น่าเชื่อ
การสังเคราะห์รูปแบบ - ผสมผสานแนวคิดจากแหล่งต่างๆ ที่คุณอาจไม่สามารถเชื่อมโยงได้ในเช้าวันจันทร์
อินเทอร์เฟซที่ยืดหยุ่น - แชท เสียง รูปภาพ การเรียก API ปลั๊กอิน เลือกเส้นทางของคุณ
การปรับแต่ง - จากรูปแบบการแจ้งเตือนน้ำหนักเบาไปจนถึงการปรับแต่งอย่างสมบูรณ์บนข้อมูลของคุณเอง
เวิร์กโฟลว์แบบผสมผสาน - การเชื่อมโยงขั้นตอนสำหรับงานหลายระดับ เช่น การวิจัย → โครงร่าง → ฉบับร่าง → การตรวจสอบคุณภาพ
การใช้เครื่องมือ - โมเดลหลายตัวสามารถเรียกใช้เครื่องมือภายนอกหรือฐานข้อมูลระหว่างการสนทนาได้ ดังนั้นจึงไม่ได้อาศัยการคาดเดาเพียงอย่างเดียว
เทคนิคการจัดตำแหน่ง - แนวทางเช่น RLHF ช่วยให้โมเดลมีพฤติกรรมที่เป็นประโยชน์และปลอดภัยมากขึ้นในการใช้งานในชีวิตประจำวัน [2]

เอาเข้าจริง ๆ นะ ทั้งหมดนี้ไม่ได้ทำให้มันเป็นลูกแก้ววิเศษเลย มันเหมือนเด็กฝึกงานที่เก่งแต่ไม่เคยหลับ แถมยังประสาทหลอนบรรณานุกรมอีกต่างหาก

เวอร์ชันย่อของวิธีการทำงาน 🧩

โมเดลข้อความยอดนิยมส่วนใหญ่ใช้ ทรานส์ฟอร์เมอร์ ซึ่งเป็นสถาปัตยกรรมเครือข่ายประสาทที่โดดเด่นในการตรวจจับความสัมพันธ์ระหว่างลำดับต่างๆ ดังนั้นจึงสามารถทำนายโทเค็นถัดไปในลักษณะที่ให้ความรู้สึกสอดคล้องกัน สำหรับรูปภาพและวิดีโอ โมเดลการแพร่กระจายเป็น ที่นิยมใช้กัน โดยจะเรียนรู้ที่จะเริ่มต้นจากสัญญาณรบกวนและค่อยๆ ลบสัญญาณรบกวนออกทีละน้อยจนเผยให้เห็นภาพหรือคลิปที่ดูสมจริง นี่เป็นการทำให้ง่ายขึ้น แต่ก็มีประโยชน์ [3][4]

Transformers: เก่งด้านภาษา รูปแบบการใช้เหตุผล และงานหลายโหมดเมื่อได้รับการฝึกฝนในลักษณะนั้น [3]
การแพร่กระจาย: แข็งแกร่งในด้านภาพที่สมจริง สไตล์ที่สม่ำเสมอ และการแก้ไขที่ควบคุมได้ผ่านคำแนะนำหรือมาสก์ [4]

นอกจากนี้ยังมีไฮบริด การตั้งค่าที่เพิ่มการเรียกข้อมูล และสถาปัตยกรรมเฉพาะทาง - ยังคงมีเรื่องให้คิดอีกมาก

ตารางเปรียบเทียบ: ตัวเลือก AI เชิงสร้างสรรค์ยอดนิยม 🗂️

ตั้งใจให้ไม่สมบูรณ์แบบ - บางเซลล์มีลักษณะแปลก ๆ เล็กน้อยเพื่อสะท้อนความคิดเห็นของผู้ซื้อในโลกแห่งความเป็นจริง ราคามีการเปลี่ยนแปลง ดังนั้นให้ถือว่าสิ่งเหล่านี้เป็น รูปแบบการกำหนดราคาไม่ใช่ตัวเลขตายตัว

เครื่องมือ	เหมาะที่สุดสำหรับ	รูปแบบราคา	ทำไมมันถึงได้ผล (ใช้เวลารวดเร็ว)
แชทจีพีที	การเขียนทั่วไป, ถาม-ตอบ, การเขียนโค้ด	ฟรีเมียม + สมัครสมาชิก	ทักษะภาษาที่แข็งแกร่ง ระบบนิเวศที่กว้างขวาง
คล็อด	เอกสารยาว สรุปอย่างละเอียด	ฟรีเมียม + สมัครสมาชิก	การจัดการบริบทที่ยาวนาน น้ำเสียงที่อ่อนโยน
ราศีเมถุน	คำเตือนแบบหลายโหมด	ฟรีเมียม + สมัครสมาชิก	รูปภาพ + ข้อความในครั้งเดียว ผสานรวมกับ Google
ความสับสน	คำตอบเชิงวิจัยพร้อมแหล่งที่มา	ฟรีเมียม + สมัครสมาชิก	ดึงข้อมูลในขณะที่กำลังเขียน - รู้สึกมั่นคง
GitHub Copilot	การเติมโค้ดให้สมบูรณ์ ความช่วยเหลือแบบอินไลน์	การสมัครสมาชิก	IDE-native เพิ่มความเร็ว "การไหล" มาก
ช่วงกลางการเดินทาง	รูปภาพสไตล์	การสมัครสมาชิก	สุนทรียศาสตร์อันแข็งแกร่ง สไตล์อันมีชีวิตชีวา
ดัลล์ อี	ไอเดียภาพ + การแก้ไข	จ่ายตามการใช้งาน	การแก้ไขที่ดี การเปลี่ยนแปลงองค์ประกอบ
การแพร่กระจายที่เสถียร	เวิร์กโฟลว์ภาพท้องถิ่นหรือส่วนตัว	โอเพนซอร์ส	ควบคุม + ปรับแต่ง สวรรค์ของนักปรับแต่ง
รันเวย์	การสร้างและตัดต่อวิดีโอ	การสมัครสมาชิก	เครื่องมือแปลงข้อความเป็นวิดีโอสำหรับผู้สร้าง
ลูม่า / ปิก้า	คลิปวิดีโอสั้น ๆ	ฟรีเมียม	ผลลัพธ์ที่สนุกสนาน ทดลองแต่ปรับปรุง

หมายเหตุเล็กน้อย: ผู้ขายแต่ละรายเผยแพร่ระบบความปลอดภัย ขีดจำกัดอัตรา และนโยบายที่แตกต่างกัน ควรดูเอกสารของพวกเขาเสมอ โดยเฉพาะอย่างยิ่งหากคุณกำลังส่งสินค้าให้กับลูกค้า

ภายใต้ฝากระโปรง: ทรานส์ฟอร์เมอร์ในลมหายใจเดียว 🌀

Transformer ใช้ ความสนใจ เพื่อชั่งน้ำหนักว่าส่วนใดของอินพุตมีความสำคัญที่สุดในแต่ละขั้นตอน แทนที่จะอ่านจากซ้ายไปขวาเหมือนปลาทองที่ส่องไฟฉาย พวกมันจะมองไปทั่วทั้งลำดับพร้อมกันและเรียนรู้รูปแบบต่างๆ เช่น หัวข้อ เอนทิตี และไวยากรณ์ การทำงานแบบขนานนี้ - และการคำนวณจำนวนมาก - ช่วยให้โมเดลสามารถปรับขนาดได้ หากคุณเคยได้ยินเกี่ยวกับโทเค็นและหน้าต่างบริบท นี่คือที่ที่มันอยู่ [3]

ภายใต้ฝากระโปรง: การแพร่กระจายในลมหายใจเดียว 🎨

โมเดลการแพร่กระจายเรียนรู้สองเทคนิค: เพิ่มสัญญาณรบกวนให้กับภาพฝึกฝน จากนั้น ย้อนกลับ สัญญาณรบกวนทีละเล็กทีละน้อยเพื่อกู้คืนภาพที่สมจริง ในระหว่างการสร้าง โมเดลจะเริ่มต้นจากสัญญาณรบกวนล้วนๆ และค่อยๆ ย้อนกลับไปเป็นภาพที่สอดคล้องกันโดยใช้กระบวนการลดสัญญาณรบกวนที่เรียนรู้มา มันคล้ายกับการแกะสลักจากภาพนิ่งอย่างประหลาด - ไม่ใช่คำอุปมาที่สมบูรณ์แบบ แต่คุณคงเข้าใจ [4]

การจัดวาง ความปลอดภัย และ “อย่าหลงผิด” 🛡️

เหตุใดโมเดลแชทบางโมเดลจึงปฏิเสธคำขอหรือถามคำถามเพิ่มเติม? ส่วนสำคัญคือ การเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF): มนุษย์ให้คะแนนเอาต์พุตตัวอย่าง โมเดลรางวัลเรียนรู้ความชอบเหล่านั้น และโมเดลพื้นฐานจะถูกกระตุ้นให้แสดงพฤติกรรมที่เป็นประโยชน์มากขึ้น นี่ไม่ใช่การควบคุมจิตใจ แต่เป็นการชี้นำพฤติกรรมโดยใช้การตัดสินของมนุษย์เป็นตัวช่วย [2]

สำหรับความเสี่ยงขององค์กร กรอบการทำงานต่างๆ เช่น NIST AI Risk Management Framework และ Generative AI Profile จะให้คำแนะนำสำหรับการประเมินความปลอดภัย การรักษาความปลอดภัย การกำกับดูแล แหล่งที่มา และการตรวจสอบ หากคุณกำลังนำสิ่งนี้ไปใช้ในที่ทำงาน เอกสารเหล่านี้เป็นรายการตรวจสอบที่ใช้งานได้จริงอย่างน่าประหลาดใจ ไม่ใช่แค่ทฤษฎี [5]

เกร็ดเล็กเกร็ดน้อย: ในเวิร์คช็อปนำร่อง ทีมสนับสนุนได้เรียง สรุป → ดึงข้อมูลสำคัญ → ร่างคำตอบ → ตรวจสอบโดยมนุษย์ขั้นตอนดังกล่าวไม่ได้ลดบทบาทของมนุษย์ลง แต่ทำให้การตัดสินใจของพวกเขารวดเร็วและสม่ำเสมอมากขึ้นในแต่ละกะการทำงาน

จุดที่ Generative AI โดดเด่นเมื่อเทียบกับจุดที่มันสะดุด 🌤️↔️⛈️

ส่องแสงที่:

ร่างเนื้อหา เอกสาร อีเมล ข้อมูลจำเพาะ สไลด์แรก
บทสรุปของเนื้อหายาวๆ ที่คุณไม่อยากอ่าน
ความช่วยเหลือด้านรหัสและการลดขนาดโค้ด
การระดมความคิดเกี่ยวกับชื่อ โครงสร้าง กรณีทดสอบ และคำกระตุ้น
แนวคิดภาพ ภาพโซเชียล โมเดลผลิตภัณฑ์
การจัดการข้อมูลน้ำหนักเบาหรือการสร้างโครงร่าง SQL

สะดุดที่:

ความแม่นยำของข้อเท็จจริงโดยไม่ต้องค้นหาหรือใช้เครื่องมือ
การคำนวณหลายขั้นตอนเมื่อไม่ได้รับการตรวจยืนยันอย่างชัดเจน
ข้อจำกัดโดเมนที่ละเอียดอ่อนในกฎหมาย การแพทย์ หรือการเงิน
กรณีขอบ การเสียดสี และความรู้แบบหางยาว
การจัดการข้อมูลส่วนตัวหากคุณไม่ได้กำหนดค่าอย่างถูกต้อง

ราวกั้นช่วยได้ แต่วิธีที่ถูกต้องคือ การออกแบบระบบเพิ่มการดึงข้อมูล การตรวจสอบ การตรวจสอบโดยมนุษย์ และบันทึกการตรวจสอบ น่าเบื่อก็จริง แต่น่าเบื่อก็มั่นคง

วิธีนำไปใช้ได้จริงในปัจจุบัน 🛠️

เขียนได้ดีขึ้น เร็วขึ้น: วางโครงร่าง → ขยาย → ย่อ → ขัดเกลา ทำซ้ำไปเรื่อยๆ จนกว่าจะฟังดูเป็นตัวคุณ
การวิจัยโดยไม่ต้องเจาะลึก: ขอรับข้อมูลสรุปแบบมีโครงสร้างพร้อมแหล่งที่มา จากนั้นจึงค้นหาข้อมูลอ้างอิงที่คุณสนใจจริงๆ
การช่วยเหลือด้านโค้ด: อธิบายฟังก์ชัน เสนอการทดสอบ ร่างแผนการรีแฟกเตอร์ ห้ามวางความลับ
งานข้อมูล: สร้างโครงร่าง SQL, regex หรือเอกสารระดับคอลัมน์
แนวคิดในการออกแบบ: สำรวจรูปแบบภาพ จากนั้นส่งต่อให้ผู้ออกแบบดำเนินการตกแต่ง
การดำเนินงานของลูกค้า: ร่างคำตอบ การแบ่งประเภทเจตนา สรุปการสนทนาเพื่อส่งต่อ
ผลิตภัณฑ์: สร้างเรื่องราวของผู้ใช้ เกณฑ์การยอมรับ และสำเนาตัวแปร จากนั้นทำการทดสอบโทนเสียงแบบ A/B

เคล็ดลับ: บันทึกพรอมต์ประสิทธิภาพสูงเป็นเทมเพลต หากใช้งานได้ครั้งหนึ่ง ก็อาจจะใช้งานได้อีกครั้งหากปรับแต่งเล็กน้อย

เจาะลึก: การกระตุ้นที่ใช้งานได้จริง 🧪

ระบุโครงสร้าง: บทบาท เป้าหมาย ข้อจำกัด สไตล์ นางแบบชอบรายการตรวจสอบ
ตัวอย่างแบบย่อ: ควรแสดงตัวอย่างที่ดี 2-3 ตัวอย่างของข้อมูลนำเข้า → ผลลัพธ์ในอุดมคติ
คิดแบบเป็นขั้นตอน: ขอเหตุผลหรือผลลัพธ์แบบเป็นขั้นเป็นตอนเมื่อความซับซ้อนเพิ่มขึ้น
ตรึงน้ำเสียงไว้: วางตัวอย่างสั้นๆ ของน้ำเสียงที่คุณชอบ แล้วพูดว่า “เลียนแบบสไตล์นี้”
การประเมินชุด: ขอให้แบบจำลองวิจารณ์คำตอบของตัวเองโดยเทียบกับเกณฑ์ จากนั้นแก้ไข
การใช้เครื่องมือเช่น การดึงข้อมูล การค้นหาทางเว็บ เครื่องคิดเลข หรือ API สามารถลดอาการประสาทหลอนได้มาก [2]

ถ้าจำแค่สิ่งเดียวได้: บอกสิ่งที่ต้องละเว้นข้อจำกัดคืออำนาจ

ข้อมูล ความเป็นส่วนตัว และการกำกับดูแล - ส่วนที่ไม่น่าดึงดูดใจ 🔒

เส้นทางข้อมูล: ชี้แจงให้ชัดเจนว่าข้อมูลใดบ้างที่ถูกบันทึก เก็บรักษา หรือใช้สำหรับการฝึกอบรม
ข้อมูลส่วนบุคคลและข้อมูลลับ: อย่านำข้อมูลเหล่านี้ไปแสดงในข้อความแจ้งเตือน เว้นแต่การตั้งค่าของคุณจะอนุญาตและปกป้องข้อมูลเหล่านั้นอย่างชัดเจน
การควบคุมการเข้าถึง: ปฏิบัติต่อโมเดลเหมือนฐานข้อมูลการผลิต ไม่ใช่ของเล่น
การประเมิน: ติดตามคุณภาพ อคติ และความคลาดเคลื่อน วัดด้วยงานจริง ไม่ใช่การสั่นสะเทือน
การจัดเรียงนโยบาย: แมปคุณสมบัติกับหมวดหมู่ NIST AI RMF เพื่อที่คุณจะได้ไม่แปลกใจในภายหลัง [5]

คำถามที่พบบ่อยที่ฉันได้รับตลอดเวลา 🙋‍♀️

สร้างสรรค์หรือแค่รีมิกซ์?
อยู่ตรงกลางระหว่างนั้น มันผสมผสานรูปแบบต่างๆ เข้าด้วยกันในรูปแบบใหม่ๆ ไม่ใช่ความคิดสร้างสรรค์ของมนุษย์ แต่บ่อยครั้งก็มีประโยชน์

ฉันเชื่อข้อเท็จจริงได้ไหม?
เชื่อแต่ต้องตรวจสอบ เพิ่มการสืบค้นข้อมูลหรือใช้เครื่องมือสำหรับสิ่งที่มีความเสี่ยงสูง [2]

โมเดลภาพมีความสอดคล้องกันของสไตล์ได้อย่างไร?
วิศวกรรมเชิงพรอมต์บวกกับเทคนิคต่างๆ เช่น การปรับสภาพภาพ อะแดปเตอร์ LoRA หรือการปรับแต่งอย่างละเอียด รากฐานการแพร่กระจายช่วยในเรื่องความสอดคล้อง แม้ว่าความแม่นยำของข้อความในภาพอาจยังคงสั่นคลอนได้ [4]

เหตุใดโมเดลแชทจึง “ปฏิเสธ” ข้อความแจ้งเตือนที่มีความเสี่ยง?
เทคนิคการจัดเรียงเช่น RLHF และเลเยอร์นโยบาย ไม่สมบูรณ์แบบ แต่มีประโยชน์อย่างเป็นระบบ [2]

พรมแดนใหม่ที่กำลังเกิดขึ้น 🔭

มัลติโหมดทุกอย่าง: การผสมผสานข้อความ รูปภาพ เสียง และวิดีโอที่ราบรื่นยิ่งขึ้น
โมเดลที่เล็กกว่าและเร็วกว่า: สถาปัตยกรรมที่มีประสิทธิภาพสำหรับอุปกรณ์และกรณีขอบ
วงจรการทำงานของเครื่องมือที่กระชับยิ่งขึ้น: เอเจนต์เรียกใช้ฟังก์ชัน ฐานข้อมูล และแอปพลิเคชันได้อย่างง่ายดายราวกับไม่มีอะไรเกิดขึ้น
แหล่งที่มาที่ดีขึ้น: ลายน้ำ ข้อมูลรับรองเนื้อหา และท่อส่งข้อมูลที่ตรวจสอบได้
การกำกับดูแลที่รวมอยู่ใน: ชุดการประเมินและชั้นควบคุมที่ให้ความรู้สึกเหมือนเครื่องมือพัฒนาปกติ [5]
โมเดลที่ปรับแต่งตามโดเมน: ประสิทธิภาพเฉพาะทางเอาชนะความสามารถในการพูดจาแบบทั่วไปสำหรับงานหลายๆ งาน

หากคุณรู้สึกว่าซอฟต์แวร์กำลังกลายเป็นผู้ทำงานร่วมกัน นั่นคือประเด็น

ยาวเกินไป ฉันไม่ได้อ่าน - Generative AI คืออะไร? 🧾

เป็นกลุ่มของโมเดลที่ สร้าง เนื้อหาใหม่แทนที่จะตัดสินเนื้อหาที่มีอยู่แล้ว ระบบข้อความมักจะเป็น ทรานส์ฟอร์เมอร์ ที่ทำนายโทเค็น ระบบรูปภาพและวิดีโอจำนวนมากเป็น การแพร่กระจาย ที่ลดความสุ่มให้กลายเป็นสิ่งที่สอดคล้องกัน คุณจะได้รับความเร็วและอำนาจในการสร้างสรรค์ โดยแลกกับความไม่สมเหตุสมผลที่เกิดขึ้นเป็นครั้งคราว ซึ่งคุณสามารถควบคุมได้ด้วยการดึงข้อมูล เครื่องมือ และเทคนิคการจัดเรียง เช่น RLHFสำหรับทีม ให้ปฏิบัติตามแนวทางปฏิบัติ เช่น NIST AI RMF เพื่อส่งมอบอย่างมีความรับผิดชอบโดยไม่หยุดชะงัก [3][4][2][5]

เอกสารอ้างอิง

IBM - Generative AI คืออะไร
อ่านเพิ่มเติม
OpenAI - การจัดแนวโมเดลภาษาเพื่อปฏิบัติตามคำสั่ง (RLHF)
อ่านเพิ่มเติม
บล็อก NVIDIA - Transformer Model คืออะไร
อ่านเพิ่มเติม
Hugging Face - Diffusion Models (หน่วยวิชาที่ 1)
อ่านเพิ่มเติม
NIST - กรอบการจัดการความเสี่ยงด้าน AI (และโปรไฟล์ AI เชิงสร้างสรรค์)
อ่านเพิ่มเติม

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก