โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร?

โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร?

คำตอบสั้นๆ: โมเดลพื้นฐานคือโมเดล AI ขนาดใหญ่ที่ใช้งานได้หลากหลาย ซึ่งได้รับการฝึกฝนด้วยชุดข้อมูลขนาดใหญ่และหลากหลาย จากนั้นจึงปรับให้เข้ากับงานต่างๆ มากมาย (การเขียน การค้นหา การเขียนโค้ด รูปภาพ) ผ่านการกระตุ้น การปรับแต่ง เครื่องมือ หรือการดึงข้อมูล หากคุณต้องการคำตอบที่เชื่อถือได้ ควรใช้โมเดลเหล่านี้ควบคู่ไปกับการวางรากฐาน (เช่น RAG) ข้อจำกัดที่ชัดเจน และการตรวจสอบ แทนที่จะปล่อยให้โมเดลทำงานโดยไม่มีแบบแผน

ประเด็นสำคัญ:

คำจำกัดความ : โมเดลพื้นฐานที่ได้รับการฝึกฝนมาอย่างกว้างขวางหนึ่งเดียว สามารถนำมาใช้ซ้ำได้กับงานหลายอย่าง ไม่ใช่ใช้โมเดลละงาน

การปรับตัว : ใช้การกระตุ้น การปรับแต่งอย่างละเอียด LoRA/อะแดปเตอร์ RAG และเครื่องมือต่างๆ เพื่อชี้นำพฤติกรรม

ความเหมาะสมเชิงสร้างสรรค์ : เทคโนโลยีนี้ขับเคลื่อนการสร้างข้อความ รูปภาพ เสียง โค้ด และเนื้อหาแบบมัลติมีเดีย

ตัวชี้วัดคุณภาพ : ให้ความสำคัญกับความสามารถในการควบคุม การเกิดภาพหลอนน้อยลง ความสามารถในการรับรู้หลายรูปแบบ และการอนุมานที่มีประสิทธิภาพ

การควบคุมความเสี่ยง : วางแผนรับมือกับภาพหลอน อคติ การรั่วไหลของข้อมูลส่วนตัว และการฉีดข้อมูลอย่างรวดเร็วผ่านการกำกับดูแลและการทดสอบ

โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? (อินโฟกราฟิก)

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 บริษัท AI คืออะไร
ทำความเข้าใจว่าบริษัท AI สร้างผลิตภัณฑ์ ทีมงาน และโมเดลรายได้อย่างไร.

🔗 โค้ด AI มีลักษณะอย่างไร
ดูตัวอย่างโค้ด AI ตั้งแต่โมเดล Python ไปจนถึง API.

🔗 อัลกอริทึม AI คืออะไร
เรียนรู้ว่าอัลกอริทึม AI คืออะไร และพวกมันตัดสินใจอย่างไร.

🔗 เทคโนโลยี AI คืออะไร
สำรวจเทคโนโลยี AI หลักที่ขับเคลื่อนระบบอัตโนมัติ การวิเคราะห์ และแอปพลิเคชันอัจฉริยะ.


1) แบบจำลองพื้นฐาน - คำจำกัดความที่ชัดเจน 🧠

แบบ จำลองพื้นฐาน (Foundation model ) คือแบบจำลอง AI ขนาดใหญ่ที่ใช้งานได้ทั่วไป ซึ่งได้รับการฝึกฝนด้วยข้อมูลที่หลากหลาย (โดยปกติจะมีจำนวนมหาศาล) เพื่อให้สามารถปรับใช้กับงานได้หลายอย่าง ไม่ใช่แค่เพียงงานเดียว ( NIST , Stanford CRFM )

แทนที่จะสร้างโมเดลแยกต่างหากสำหรับ:

  • การเขียนอีเมล

  • การตอบคำถาม

  • การสรุปไฟล์ PDF

  • การสร้างภาพ

  • การจำแนกประเภทตั๋วสนับสนุน

  • การแปลภาษา

  • การเสนอแนะโค้ด

...คุณฝึกฝนโมเดลพื้นฐานขนาดใหญ่หนึ่งโมเดลที่ "เรียนรู้โลก" ในลักษณะทางสถิติแบบคลุมเครือ จากนั้นคุณ ปรับ โมเดลนั้นให้เข้ากับงานเฉพาะด้วยคำแนะนำ การปรับแต่ง หรือเครื่องมือเพิ่มเติม ( Bommasani et al., 2021 )

กล่าวอีกนัยหนึ่งคือ มันคือ เครื่องยนต์ทั่วไป ที่คุณสามารถควบคุมทิศทางได้

ใช่แล้ว คำสำคัญคือ “ทั่วไป” นั่นแหละคือเคล็ดลับทั้งหมด.


2) โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? (และเหมาะสมอย่างไรโดยเฉพาะ) 🎨📝

แล้ว โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? มันคือโมเดลพื้นฐานที่ขับเคลื่อนระบบซึ่งสามารถ สร้าง เนื้อหาใหม่ได้ ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง โค้ด วิดีโอ และที่สำคัญมากขึ้นเรื่อยๆ คือการผสมผสานของสิ่งเหล่านี้ทั้งหมด ( NIST , NIST Generative AI Profile )

ปัญญาประดิษฐ์เชิงสร้างสรรค์ไม่ได้มีแค่การทำนายป้ายกำกับอย่าง “สแปม/ไม่ใช่สแปม” เท่านั้น แต่ยังเกี่ยวกับการสร้างผลลัพธ์ที่ดูเหมือนว่าสร้างขึ้นโดยมนุษย์ด้วย.

  • ย่อหน้า

  • บทกวี

  • คำอธิบายผลิตภัณฑ์

  • ภาพประกอบ

  • ท่วงทำนอง

  • ต้นแบบแอป

  • เสียงสังเคราะห์

  • และบางครั้งก็เป็นเรื่องไร้สาระที่แสดงความมั่นใจเกินจริง 🙃

แบบจำลองพื้นฐานนั้น เป็นพิเศษ ในกรณีนี้เนื่องจาก:

  • พวกเขาได้ซึมซับรูปแบบกว้างๆ จากชุดข้อมูลขนาดใหญ่ ( Bommasani et al., 2021 )

  • พวกเขาสามารถนำไปปรับใช้กับคำถามใหม่ๆ ได้ (แม้แต่คำถามที่แปลกประหลาด) ( Brown et al., 2020 )

  • สามารถนำไปใช้ใหม่เพื่อสร้างผลลัพธ์ได้หลายสิบรายการโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่เริ่มต้น ( Bommasani et al., 2021 )

มันเป็นเหมือน "ฐาน" หรือแป้งขนมปัง คุณสามารถนำไปอบเป็นบาแกตต์ พิซซ่า หรือซินนามอนโรลได้... อาจจะไม่ใช่คำเปรียบเทียบที่สมบูรณ์แบบ แต่คุณคงเข้าใจ 😄


3) เหตุใดพวกเขาจึงเปลี่ยนแปลงทุกอย่าง (และเหตุใดผู้คนจึงพูดถึงพวกเขาไม่หยุด) 🚀

ก่อนที่จะมีโมเดลพื้นฐาน AI จำนวนมากถูกออกแบบมาให้ใช้งานเฉพาะด้าน:

  • ฝึกฝนโมเดลสำหรับการวิเคราะห์ความรู้สึก

  • ฝึกคนอื่นให้ทำงานแปล

  • ฝึกอีกตัวหนึ่งสำหรับการจำแนกภาพ

  • ฝึกอีกคนหนึ่งเพื่อการระบุชื่อเอนทิตี

วิธีนั้นได้ผล แต่ช้า แพง และค่อนข้าง...เปราะบาง.

นางแบบของ Foundation พลิกสถานการณ์:

  • ฝึกฝนล่วงหน้าหนึ่งครั้ง (ใช้ความพยายามมาก)

  • ใช้ซ้ำได้ทุกที่ (ผลตอบแทนมหาศาล) ( Bommasani et al., 2021 )

การนำกลับมาใช้ซ้ำนั้นคือตัวคูณ บริษัทต่างๆ สามารถสร้างฟีเจอร์ได้ถึง 20 อย่างบนพื้นฐานของตระกูลโมเดลเดียว แทนที่จะต้องคิดค้นสิ่งใหม่ๆ ถึง 20 ครั้ง.

นอกจากนี้ ประสบการณ์การใช้งานของผู้ใช้ยังเป็นธรรมชาติมากขึ้น:

  • คุณไม่ได้ "ใช้ตัวจำแนกประเภท"

  • คุณคุยกับนางแบบราวกับว่าเป็นเพื่อนร่วมงานที่คอยช่วยเหลือและไม่เคยนอนหลับเลย ☕🤝

บางครั้งมันก็เหมือนกับเพื่อนร่วมงานที่เข้าใจอะไรผิดไปหมดอย่างมั่นใจ แต่ก็ช่างเถอะ นั่นคือการพัฒนาตนเอง.


4) แนวคิดหลัก: การเตรียมตัวก่อนฝึก + การปรับตัว 🧩

แบบจำลองพื้นฐานเกือบทั้งหมดเป็นไปตามรูปแบบเดียวกัน ( Stanford CRFM , NIST ):

ขั้นตอนการเตรียมความพร้อมก่อนเข้าทำงาน (ช่วง "เรียนรู้จากอินเทอร์เน็ต") 📚

แบบจำลองนี้ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่และกว้างขวางโดยใช้การเรียนรู้แบบกำกับตนเอง ( NIST ) สำหรับแบบจำลองภาษา นั่นมักหมายถึงการทำนายคำที่หายไปหรือโทเค็นถัดไป ( Devlin et al., 2018 , Brown et al., 2020 )

จุดประสงค์ไม่ใช่การสอนให้มันทำงานเพียงอย่างเดียว จุดประสงค์คือการสอนให้มัน เข้าใจ ภาพรวมทั่วไป

  • ไวยากรณ์

  • ข้อเท็จจริง (ประมาณนั้น)

  • รูปแบบการให้เหตุผล (บางครั้ง)

  • รูปแบบการเขียน

  • โครงสร้างโค้ด

  • เจตนาของมนุษย์ทั่วไป

การปรับใช้ (ขั้นตอน "ทำให้ใช้งานได้จริง") 🛠️

จากนั้นปรับเปลี่ยนโดยใช้วิธีใดวิธีหนึ่งหรือมากกว่านั้น:

  • การกระตุ้นเตือน (คำแนะนำด้วยภาษาที่เข้าใจง่าย)

  • การปรับแต่งคำสั่ง (การฝึกให้ปฏิบัติตามคำสั่ง) ( Wei et al., 2021 )

  • การปรับแต่ง (การฝึกฝนด้วยข้อมูลเฉพาะด้านของคุณ)

  • อะแดปเตอร์ LoRA (วิธีการปรับแต่งน้ำหนักเบา) ( Hu et al., 2021 )

  • RAG (การสร้างข้อมูลที่เสริมด้วยการดึงข้อมูล - โมเดลจะปรึกษาเอกสารของคุณ) ( Lewis et al., 2020 )

  • การใช้งานเครื่องมือ (การเรียกใช้ฟังก์ชัน การเรียกดูระบบภายใน ฯลฯ)

นี่แหละคือเหตุผลว่าทำไมโมเดลพื้นฐานเดียวกันถึงสามารถเขียนฉากโรแมนติกได้...แล้วก็ช่วยแก้ไขข้อผิดพลาดของคำสั่ง SQL ได้ภายในห้าวินาที 😭


5) อะไรคือคุณสมบัติของแบบจำลองพื้นฐานที่ดี? ✅

นี่คือส่วนที่คนส่วนใหญ่ข้ามไป แล้วก็มาเสียใจภายหลัง.

แบบจำลองพื้นฐานที่ดีไม่ได้หมายความว่าต้องมีขนาดใหญ่เท่านั้น ขนาดใหญ่ย่อมช่วยได้แน่นอน...แต่ไม่ใช่ปัจจัยเดียว แบบจำลองพื้นฐานที่ดีมักมีคุณสมบัติดังนี้:

การสรุปแบบกว้างๆ 🧠

ระบบนี้ทำงานได้ดีในหลายๆ งานโดยไม่จำเป็นต้องมีการฝึกอบรมเฉพาะงาน ( Bommasani et al., 2021 )

การบังคับเลี้ยวและการควบคุม 🎛️

มันสามารถปฏิบัติตามคำสั่งได้อย่างน่าเชื่อถือ เช่น:

  • “จงกระชับ”

  • “ใช้สัญลักษณ์หัวข้อย่อย”

  • “เขียนด้วยน้ำเสียงที่เป็นมิตร”

  • “อย่าเปิดเผยข้อมูลที่เป็นความลับ”

บางรุ่นฉลาดแต่ก็ควบคุมยาก เหมือนกับการพยายามถือสบู่ในห้องอาบน้ำนั่นแหละ มีประโยชน์แต่ก็ควบคุมไม่ค่อยได้ 😅

มีแนวโน้มที่จะเห็นภาพหลอนน้อย (หรืออย่างน้อยก็ไม่แน่ใจอย่างตรงไปตรงมา) 🧯

ไม่มีนางแบบคนไหนที่ไม่เป็นโรคประสาทหลอน แต่พวกนางแบบเก่งๆ น่ะสิ:

  • เห็นภาพหลอนน้อยลง

  • ยอมรับความไม่แน่นอนบ่อยขึ้น

  • ควรยึดติดกับบริบทที่ให้มาเมื่อใช้การค้นหา ( Ji et al., 2023 , Lewis et al., 2020 )

มีความสามารถในการใช้สื่อหลายรูปแบบได้ดี (เมื่อจำเป็น) 🖼️🎧

หากคุณกำลังสร้างผู้ช่วยที่อ่านภาพ ตีความแผนภูมิ หรือเข้าใจเสียง การสื่อสารหลายรูปแบบมีความสำคัญอย่างมาก ( Radford et al., 2021 )

การอนุมานที่มีประสิทธิภาพ ⚡

ความหน่วงและต้นทุนเป็นเรื่องสำคัญ โมเดลที่แรงแต่ช้าก็เหมือนรถสปอร์ตที่ยางแบน.

ความปลอดภัยและพฤติกรรมการจัดระเบียบร่างกาย 🧩

ไม่ใช่แค่ “ปฏิเสธทุกอย่าง” แต่ต้องเป็น:

  • หลีกเลี่ยงคำแนะนำที่เป็นอันตราย

  • ลดอคติ

  • ควรจัดการกับหัวข้อที่ละเอียดอ่อนด้วยความระมัดระวัง

  • ต้านทานความพยายามเจาะระบบขั้นพื้นฐาน (ในระดับหนึ่ง…) ( NIST AI RMF 1.0 , NIST Generative AI Profile )

เอกสารประกอบ + ระบบนิเวศ 🌱

ฟังดูแห้งแล้ง แต่เป็นเรื่องจริง:

  • เครื่องมือ

  • สายรัดประเมินผล

  • ตัวเลือกการปรับใช้

  • การควบคุมขององค์กร

  • การสนับสนุนการปรับแต่งอย่างละเอียด

ใช่แล้ว คำว่า “ระบบนิเวศ” เป็นคำที่คลุมเครือ ฉันก็ไม่ชอบเหมือนกัน แต่คำนี้สำคัญนะ.


6) ตารางเปรียบเทียบ - ตัวเลือกแบบจำลองฐานรากทั่วไป (และข้อดีของแต่ละแบบ) 🧾

ด้านล่างนี้คือตารางเปรียบเทียบเชิงปฏิบัติ ซึ่งอาจไม่สมบูรณ์แบบนัก มันไม่ใช่ "รายชื่อที่ถูกต้องที่สุด" แต่เป็นเพียงสิ่งที่ผู้คนเลือกใช้ในชีวิตจริง.

ประเภทเครื่องมือ/รุ่น ผู้ชม ราคาค่อนข้างสูง เหตุผลที่มันได้ผล
หลักสูตร LLM เฉพาะของบริษัท (รูปแบบการสนทนา) ทีมที่ต้องการความเร็วและความแม่นยำ คิดค่าบริการตามการใช้งาน / สมัครสมาชิก คำแนะนำดีเยี่ยม ปฏิบัติตามได้ดี ประสิทธิภาพโดยรวมสูง มักจะดีที่สุดเมื่อใช้งานโดยไม่ต้องปรับแต่งอะไรเพิ่มเติม 😌
หลักสูตร LLM แบบเปิดกว้าง (สามารถโฮสต์เองได้) ผู้สร้างที่ต้องการควบคุม ต้นทุนโครงสร้างพื้นฐาน (และปัญหาปวดหัว) ปรับแต่งได้ตามต้องการ เป็นมิตรกับความเป็นส่วนตัว สามารถทำงานบนเครื่องโลคอลได้...หากคุณชอบปรับแต่งอะไรเล่นๆ ตอนเที่ยงคืน
เครื่องกำเนิดภาพการแพร่กระจาย นักสร้างสรรค์, ทีมออกแบบ จากฟรีไปจนถึงเสียเงิน การสังเคราะห์ภาพที่ยอดเยี่ยม ความหลากหลายของสไตล์ กระบวนการทำงานแบบวนซ้ำ (นอกจากนี้: นิ้วอาจคลาดเคลื่อนได้) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 )
แบบจำลอง “การมองเห็น-ภาษา” แบบหลายรูปแบบ แอปที่อ่านรูปภาพและข้อความ อิงตามการใช้งาน ช่วยให้คุณตั้งคำถามเกี่ยวกับรูปภาพ ภาพหน้าจอ และแผนภาพได้ ซึ่งมีประโยชน์อย่างน่าประหลาดใจ ( Radford et al., 2021 )
แบบจำลองรากฐานการฝังตัว ระบบค้นหา + RAG ค่าใช้จ่ายต่อการโทรต่ำ แปลงข้อความให้เป็นเวกเตอร์สำหรับการค้นหาเชิงความหมาย การจัดกลุ่ม และการแนะนำ - ใช้พลังงานน้อยมาก ( Karpukhin et al., 2020 , Douze et al., 2024 )
แบบจำลองพื้นฐานการแปลงเสียงเป็นข้อความ ศูนย์บริการลูกค้า, ผู้สร้างสรรค์ คิดค่าบริการตามการใช้งาน / ในพื้นที่ ถอดเสียงเร็ว รองรับหลายภาษา คุณภาพดีพอสำหรับไฟล์เสียงที่มีเสียงรบกวน (โดยทั่วไป) 🎙️ ( กระซิบ )
แบบจำลองพื้นฐานการแปลงข้อความเป็นเสียงพูด ทีมผลิตภัณฑ์, สื่อ อิงตามการใช้งาน การสร้างเสียงธรรมชาติ รูปแบบเสียง การบรรยาย สามารถทำให้ดูสมจริงจนน่าขนลุกได้ ( Shen et al., 2017 )
LLM ที่เน้นการเขียนโค้ด นักพัฒนา คิดค่าบริการตามการใช้งาน / สมัครสมาชิก เก่งเรื่องรูปแบบการเขียนโค้ด การดีบั๊ก การปรับโครงสร้างโค้ด...แต่ก็ยังอ่านใจคนไม่ได้อยู่ดี 😅

โปรดสังเกตว่า “แบบจำลองพื้นฐาน” ไม่ได้หมายถึง “แชทบอท” เพียงอย่างเดียว การฝังข้อมูลและแบบจำลองเสียงพูดก็สามารถเป็นพื้นฐานได้เช่นกัน เนื่องจากมีความกว้างและสามารถนำกลับมาใช้ซ้ำได้ในงานต่างๆ ( Bommasani et al., 2021 , NIST )


7) เจาะลึก: วิธีที่แบบจำลองพื้นฐานภาษาเรียนรู้ (เวอร์ชัน Vibe) 🧠🧃

แบบจำลองพื้นฐานทางภาษา (มักเรียกว่า LLM) โดยทั่วไปจะได้รับการฝึกฝนจากชุดข้อความขนาดใหญ่ พวกมันเรียนรู้โดยการทำนายโทเค็น ( Brown et al., 2020 ) แค่นั้นเอง ไม่มีอะไรซับซ้อนหรือลึกลับ

แต่ความมหัศจรรย์อยู่ที่ว่า การทำนายโทเค็นจะบังคับให้โมเดลเรียนรู้โครงสร้าง ( CSET ):

  • ไวยากรณ์และโครงสร้างประโยค

  • ความสัมพันธ์ของหัวข้อ

  • รูปแบบคล้ายการใช้เหตุผล (บางครั้ง)

  • ลำดับความคิดทั่วไป

  • วิธีที่ผู้คนอธิบายสิ่งต่างๆ โต้แย้ง ขอโทษ เจรจาต่อรอง และสอน

มันเหมือนกับการเรียนรู้ที่จะเลียนแบบบทสนทนานับล้านโดยที่ไม่ "เข้าใจ" ในแบบที่มนุษย์เข้าใจ ซึ่งฟังดูเหมือนจะเป็นไปไม่ได้...แต่กลับได้ผลอยู่เสมอ.

อาจจะพูดเกินจริงไปสักหน่อย: มันก็เหมือนกับการบีบอัดลายมือมนุษย์ลงไปในสมองเชิงความน่าจะเป็นขนาดยักษ์นั่นแหละ
แต่เอาเข้าจริง คำเปรียบเทียบนี้ก็ฟังดูแปลกๆ ไปหน่อย แต่ช่างเถอะ 😄


8) เจาะลึก: โมเดลการแพร่กระจาย (เหตุใดภาพจึงทำงานแตกต่างกัน) 🎨🌀

แบบจำลองพื้นฐานของภาพมักใช้ วิธี การแพร่กระจาย Ho et al., 2020 , Rombach et al., 2021 )

แนวคิดคร่าวๆ:

  1. เพิ่มสัญญาณรบกวนให้กับภาพจนกระทั่งภาพนั้นกลายเป็นเหมือนสัญญาณรบกวนทางทีวี

  2. ฝึกโมเดลเพื่อลดสัญญาณรบกวนนั้นทีละขั้นตอน

  3. ในขั้นตอนการสร้างภาพ เริ่มต้นด้วยสัญญาณรบกวนและ "ลดสัญญาณรบกวน" ลงในภาพโดยมีคำแนะนำเป็นตัวชี้นำ ( Ho et al., 2020 )

นี่จึงเป็นเหตุผลว่าทำไมการสร้างภาพจึงรู้สึกเหมือนกับการ "ปรับแต่ง" รูปถ่าย เพียงแต่รูปถ่ายนั้นเป็นรูปมังกรใส่รองเท้าผ้าใบเดินอยู่ในซูเปอร์มาร์เก็ต 🛒🐉

แบบจำลองการแพร่กระจายนั้นดีเพราะ:

  • พวกเขาสร้างภาพที่มีคุณภาพสูง

  • พวกเขาสามารถถูกชี้นำอย่างมากโดยข้อความได้

  • พวกเขาสนับสนุนการปรับปรุงแบบวนซ้ำ (การเปลี่ยนแปลง การเติมเต็ม การขยายขนาด) ( Rombach et al., 2021 )

บางครั้งพวกเขาก็ประสบปัญหาในเรื่องต่อไปนี้:

  • การแสดงผลข้อความภายในรูปภาพ

  • รายละเอียดทางกายวิภาคที่ประณีต

  • การรักษาเอกลักษณ์ของตัวละครให้คงที่ในทุกฉาก (แม้จะดีขึ้นแล้ว แต่ก็ยังไม่ชัดเจน)


9) เจาะลึกรายละเอียด: โมเดลพื้นฐานแบบมัลติโมดอล (ข้อความ + รูปภาพ + เสียง) 👀🎧📝

แบบจำลองพื้นฐานแบบหลายโมดอลมีเป้าหมายเพื่อทำความเข้าใจและสร้างแบบจำลองจากข้อมูลหลายประเภท:

เหตุใดเรื่องนี้จึงมีความสำคัญในชีวิตจริง:

  • ฝ่ายสนับสนุนลูกค้าสามารถตีความภาพหน้าจอได้

  • เครื่องมืออำนวยความสะดวกสามารถอธิบายภาพได้

  • แอปเพื่อการศึกษาสามารถอธิบายแผนภาพได้

  • ผู้สร้างสามารถผสมผสานรูปแบบต่างๆ ได้อย่างรวดเร็ว

  • เครื่องมือทางธุรกิจสามารถ "อ่าน" ภาพหน้าจอแดชบอร์ดและสรุปข้อมูลได้

ภายใต้กลไกการทำงาน ระบบมัลติโมดอลมักจะปรับการแสดงผลให้สอดคล้องกัน:

  • แปลงรูปภาพให้เป็นเวクターฝังตัว

  • แปลงข้อความให้เป็นการฝังข้อมูล

  • เรียนรู้พื้นที่ร่วมกันที่ "แมว" ตรงกับพิกเซลของแมว 😺 ( Radford et al., 2021 )

มันอาจจะไม่สวยงามเสมอไป บางครั้งก็ดูเหมือนเย็บปะติดปะต่อกันอย่างไม่เรียบร้อย แต่ก็ใช้งานได้ดี.


10) การปรับแต่งอย่างละเอียด เทียบกับ การกระตุ้น เทียบกับ RAG (วิธีการปรับเปลี่ยนโมเดลพื้นฐาน) 🧰

หากคุณพยายามสร้างแบบจำลองพื้นฐานที่ใช้งานได้จริงสำหรับโดเมนเฉพาะ (เช่น กฎหมาย การแพทย์ บริการลูกค้า ความรู้ภายในองค์กร) คุณมีเครื่องมืออยู่สองสามอย่าง:

การแจ้งเตือน 🗣️

เร็วที่สุดและง่ายที่สุด.

  • ข้อดี: ไม่ต้องฝึกอบรม เริ่มใช้งานได้ทันที

  • ข้อเสีย: อาจไม่สม่ำเสมอ มีข้อจำกัดด้านบริบท และความเปราะบางของข้อความแจ้งเตือน

การปรับแต่งอย่างละเอียด 🎯

ฝึกฝนโมเดลเพิ่มเติมด้วยตัวอย่างของคุณ.

  • ข้อดี: พฤติกรรมสม่ำเสมอมากขึ้น, ภาษาที่ใช้ในโดเมนดีขึ้น, สามารถลดความยาวของข้อความแจ้งเตือนได้

  • ข้อเสีย: ค่าใช้จ่าย, ข้อกำหนดด้านคุณภาพข้อมูล, ความเสี่ยงต่อการเกิดภาวะโอเวอร์ฟิตติ้ง, การบำรุงรักษา

การปรับแต่งแบบน้ำหนักเบา (LoRA / อะแดปเตอร์) 🧩

เวอร์ชันที่มีประสิทธิภาพมากขึ้นของการปรับแต่งอย่างละเอียด ( Hu et al., 2021 )

  • ข้อดี: ราคาถูกกว่า, ปรับเปลี่ยนได้ง่าย, เปลี่ยนชิ้นส่วนได้ง่ายกว่า

  • ข้อเสีย: ยังต้องการกระบวนการฝึกอบรมและการประเมินผลเพิ่มเติม

RAG (การสร้างข้อมูลเสริมจากการดึงข้อมูล) 🔎

แบบจำลองจะดึงเอกสารที่เกี่ยวข้องจากฐานความรู้ของคุณและตอบคำถามโดยใช้เอกสารเหล่านั้น ( Lewis et al., 2020 )

  • ข้อดี: ความรู้ที่ทันสมัย, การอ้างอิงภายใน (หากคุณนำไปใช้), การฝึกอบรมซ้ำน้อยลง

  • ข้อเสีย: คุณภาพการค้นหาอาจเป็นตัวชี้วัดความสำเร็จหรือความล้มเหลว จำเป็นต้องมีการแบ่งกลุ่มข้อมูลและการฝังข้อมูลที่ดี

พูดกันตรงๆ: ระบบที่ประสบความสำเร็จหลายระบบใช้การผสมผสานระหว่างการแจ้งข้อความแจ้งเตือนและการใช้ RAG (Remote Access Guide) การปรับแต่งอย่างละเอียดนั้นมีประสิทธิภาพ แต่ไม่จำเป็นเสมอไป คนส่วนใหญ่รีบร้อนเกินไปเพราะมันฟังดูน่าประทับใจ 😅


11) ความเสี่ยง ข้อจำกัด และส่วนที่ “โปรดอย่านำไปใช้โดยไม่ตรวจสอบให้ดี” 🧯😬

โมเดลพื้นฐานนั้นทรงพลัง แต่ไม่เสถียรเหมือนซอฟต์แวร์แบบดั้งเดิม มันเหมือนกับ...เด็กฝึกงานที่มีความสามารถแต่ขาดความมั่นใจมากกว่า.

ข้อจำกัดสำคัญที่ต้องวางแผนรับมือ:

ภาพหลอน 🌀

แบบจำลองอาจคิดค้นสิ่งต่อไปนี้:

  • แหล่งข้อมูลปลอม

  • ข้อเท็จจริงที่ไม่ถูกต้อง

  • ขั้นตอนที่ดูสมเหตุสมผลแต่ผิดพลาด ( Ji et al., 2023 )

มาตรการบรรเทาผลกระทบ:

  • RAG ที่มีบริบทที่เป็นรูปธรรม ( Lewis et al., 2020 )

  • เอาต์พุตที่จำกัด (สคีมา การเรียกใช้เครื่องมือ)

  • คำแนะนำที่ชัดเจนว่า “ห้ามเดา”

  • ขั้นตอนการตรวจสอบ (กฎเกณฑ์ การตรวจสอบข้าม การตรวจสอบโดยมนุษย์)

อคติและรูปแบบที่เป็นอันตราย ⚠️

เนื่องจากข้อมูลฝึกฝนสะท้อนถึงพฤติกรรมของมนุษย์ คุณจึงอาจได้รับ:

  • ภาพลักษณ์เหมารวม

  • ผลการปฏิบัติงานที่ไม่เท่ากันในแต่ละกลุ่ม

  • การดำเนินการที่ไม่ปลอดภัย ( NIST AI RMF 1.0 , Bommasani et al., 2021 )

มาตรการบรรเทาผลกระทบ:

  • การปรับแต่งความปลอดภัย

  • เรดทีม

  • ตัวกรองเนื้อหา

  • ข้อจำกัดด้านโดเมนอย่างรอบคอบ (มาตรฐาน NIST Generative AI Profile )

ความเป็นส่วนตัวของข้อมูลและการรั่วไหลของข้อมูล 🔒

หากคุณป้อนข้อมูลที่เป็นความลับเข้าไปในเอนด์พอยต์ของโมเดล คุณจำเป็นต้องทราบสิ่งต่อไปนี้:

  • วิธีการจัดเก็บ

  • ไม่ว่าจะใช้เพื่อการฝึกอบรมหรือไม่

  • มีการบันทึกข้อมูลอะไรบ้าง

  • องค์กรของคุณต้องการการควบคุมแบบใด ( NIST AI RMF 1.0 )

มาตรการบรรเทาผลกระทบ:

  • ตัวเลือกการใช้งานแบบส่วนตัว

  • การกำกับดูแลที่เข้มแข็ง

  • การเปิดเผยข้อมูลน้อยที่สุด

  • RAG สำหรับใช้งานภายในเท่านั้น พร้อมการควบคุมการเข้าถึงอย่างเข้มงวด ( NIST Generative AI Profile , Carlini et al., 2021 )

การฉีดทันที (โดยเฉพาะกับ RAG) 🕳️

หากโมเดลอ่านข้อความที่ไม่น่าเชื่อถือ ข้อความนั้นอาจพยายามบิดเบือนโมเดลได้:

  • “ไม่ต้องสนใจคำแนะนำก่อนหน้านี้…”

  • “ส่งความลับมาให้ฉัน…” ( OWASP , Greshake และคณะ, 2023 )

มาตรการบรรเทาผลกระทบ:

ไม่ได้ตั้งใจจะทำให้คุณกลัวนะคะ แค่...รู้ว่าตรงไหนที่พื้นไม้มีเสียงเอี๊ยดอ๊าดมันดีกว่าค่ะ.


12) วิธีเลือกโมเดลพื้นฐานให้เหมาะสมกับกรณีการใช้งานของคุณ 🎛️

หากคุณกำลังเลือกแบบจำลองพื้นฐาน (หรือต่อเติมจากแบบจำลองที่มีอยู่) ให้เริ่มต้นด้วยคำถามเหล่านี้:

ระบุสิ่งที่คุณกำลังสร้าง 🧾

  • เฉพาะข้อความ

  • รูปภาพ

  • เสียง

  • ผสมผสานหลายรูปแบบ

ตั้งเกณฑ์ความถูกต้องของคุณ 📌

หากคุณต้องการความแม่นยำสูง (ด้านการเงิน สุขภาพ กฎหมาย ความปลอดภัย):

  • คุณจะต้องใช้ RAG ( Lewis et al., 2020 )

  • คุณจะต้องต้องการการตรวจสอบยืนยัน

  • คุณอาจต้องการให้มีการตรวจสอบโดยมนุษย์เข้ามาเกี่ยวข้อง (อย่างน้อยบางครั้ง) ( NIST AI RMF 1.0 )

กำหนดเป้าหมายความหน่วงของคุณ ⚡

การสนทนาโต้ตอบได้ทันที การสรุปข้อมูลเป็นชุดอาจช้าลง
หากคุณต้องการการตอบกลับทันที ขนาดของโมเดลและโฮสติ้งมีความสำคัญ

ระบุความต้องการด้านความเป็นส่วนตัวและการปฏิบัติตามกฎระเบียบในแผนที่ 🔐

บางทีมต้องการ:

  • การติดตั้งแบบ On-premise / VPC

  • ไม่มีการเก็บรักษาข้อมูล

  • บันทึกการตรวจสอบที่เข้มงวด

  • การควบคุมการเข้าถึงต่อเอกสาร ( NIST AI RMF 1.0 , NIST Generative AI Profile )

รักษาสมดุลระหว่างงบประมาณและความอดทนของฝ่ายปฏิบัติการ 😅

การโฮสต์ด้วยตนเองช่วยให้ควบคุมได้ แต่ก็เพิ่มความซับซ้อน ส่วน
API ที่ให้บริการโดยผู้ให้บริการนั้นใช้งานง่าย แต่ราคาสูง และปรับแต่งได้น้อยกว่า

เคล็ดลับเล็กๆ น้อยๆ ที่นำไปใช้ได้จริง: เริ่มจากการสร้างต้นแบบจากสิ่งที่ง่ายๆ ก่อน แล้วค่อยพัฒนาให้ซับซ้อนขึ้น การเริ่มต้นด้วยสิ่งที่ "สมบูรณ์แบบ" มักจะทำให้ทุกอย่างช้าลง.


13) โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? (โมเดลในใจแบบย่อ) 🧠✨

กลับมาที่ประเด็นหลักกันอีกครั้ง โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร?

ได้แก่:

  • แบบจำลองขนาดใหญ่ทั่วไปที่ฝึกฝนด้วยข้อมูลหลากหลาย ( NIST , Stanford CRFM )

  • สามารถสร้างเนื้อหา (ข้อความ รูปภาพ เสียง ฯลฯ) ได้ (ตาม มาตรฐาน NIST Generative AI Profile )

  • สามารถปรับใช้ได้กับงานหลายอย่างผ่านการกระตุ้น การปรับแต่ง และการเรียกคืนข้อมูล ( Bommasani et al., 2021 )

  • ชั้นพื้นฐานที่ขับเคลื่อนผลิตภัณฑ์ AI สร้างสรรค์สมัยใหม่ส่วนใหญ่

พวกมันไม่ใช่สถาปัตยกรรมหรือแบรนด์เดียว แต่เป็นหมวดหมู่ของโมเดลที่ทำงานเหมือนแพลตฟอร์ม.

โมเดลพื้นฐานนั้นไม่เหมือนเครื่องคิดเลข แต่เหมือนห้องครัวมากกว่า คุณสามารถทำอาหารได้หลายอย่างในนั้น คุณอาจปิ้งขนมปังไหม้ได้ถ้าไม่ระวัง... แต่ห้องครัวก็ยังใช้งานได้สะดวกอยู่ดี 🍳🔥


14) สรุปและข้อคิดที่ได้ ✅🙂

แบบจำลองพื้นฐานเป็นกลไกที่นำกลับมาใช้ใหม่ได้ของปัญญาประดิษฐ์เชิงสร้างสรรค์ แบบจำลองเหล่านี้ได้รับการฝึกฝนอย่างกว้างขวาง จากนั้นจึงปรับให้เข้ากับงานเฉพาะผ่านการกระตุ้น การปรับแต่ง และการเรียกใช้ ( NIST , Stanford CRFM ) แบบจำลองเหล่านี้อาจน่าทึ่ง ไม่เรียบร้อย ทรงพลัง และบางครั้งก็ดูตลกขบขันไปพร้อมๆ กัน

สรุป:

  • แบบจำลองพื้นฐาน = แบบจำลองพื้นฐานอเนกประสงค์ ( NIST )

  • ปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) = การสร้างเนื้อหา ไม่ใช่แค่การจำแนกประเภท ( ตามโปรไฟล์ปัญญาประดิษฐ์เชิงสร้างสรรค์ของ NIST )

  • วิธีการปรับตัว (การกระตุ้น, RAG, การปรับแต่ง) ทำให้สามารถนำไปใช้ได้จริง ( Lewis et al., 2020 , Hu et al., 2021 )

  • การเลือกโมเดลนั้นเกี่ยวกับการแลกเปลี่ยนข้อดีข้อเสีย ได้แก่ ความแม่นยำ ต้นทุน ความหน่วง ความเป็นส่วนตัว และความปลอดภัย ( NIST AI RMF 1.0 )

ถ้าคุณกำลังสร้างอะไรก็ตามด้วย AI แบบสร้างสรรค์ การเข้าใจแบบจำลองพื้นฐานนั้นไม่ใช่เรื่องที่เลือกได้ เพราะมันคือพื้นทั้งหมดที่อาคารตั้งอยู่…และใช่ บางครั้งพื้นก็อาจโยกเยกได้บ้าง 😅

คำถามที่พบบ่อย

แบบจำลองฐานราก ในแง่ที่เข้าใจง่าย

แบบจำลองพื้นฐาน (Foundation model) คือแบบจำลอง AI ขนาดใหญ่ที่ใช้งานได้ทั่วไป ซึ่งได้รับการฝึกฝนด้วยข้อมูลจำนวนมากเพื่อให้สามารถนำกลับมาใช้ซ้ำได้สำหรับงานหลายอย่าง แทนที่จะสร้างแบบจำลองหนึ่งแบบต่อหนึ่งงาน คุณเริ่มต้นด้วยแบบจำลอง "พื้นฐาน" ที่แข็งแกร่งและปรับแต่งตามความจำเป็น การปรับแต่งนั้นมักเกิดขึ้นผ่านการกระตุ้น การปรับแต่งอย่างละเอียด การดึงข้อมูล (RAG) หรือเครื่องมือต่างๆ แนวคิดหลักคือความครอบคลุมและความสามารถในการควบคุม.

โมเดลพื้นฐานแตกต่างจากโมเดล AI เฉพาะงานแบบดั้งเดิมอย่างไร

AI แบบดั้งเดิมมักฝึกโมเดลแยกต่างหากสำหรับแต่ละงาน เช่น การวิเคราะห์ความรู้สึกหรือการแปล แต่โมเดลพื้นฐานจะกลับรูปแบบนั้น: ฝึกเพียงครั้งเดียว แล้วนำไปใช้ซ้ำในหลายๆ ฟีเจอร์และผลิตภัณฑ์ ซึ่งสามารถลดความซ้ำซ้อนและเร่งการส่งมอบความสามารถใหม่ๆ ได้ ข้อเสียคืออาจคาดเดาได้ยากกว่าซอฟต์แวร์แบบคลาสสิก เว้นแต่จะเพิ่มข้อจำกัดและการทดสอบเข้าไป.

แบบจำลองพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์

ในปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) โมเดลพื้นฐานคือระบบหลักที่สามารถสร้างเนื้อหาใหม่ๆ เช่น ข้อความ รูปภาพ เสียง โค้ด หรือผลลัพธ์แบบหลายรูปแบบ โมเดลเหล่านี้ไม่ได้จำกัดอยู่แค่การติดป้ายหรือการจำแนกประเภทเท่านั้น แต่ยังสร้างผลลัพธ์ที่คล้ายกับงานที่มนุษย์สร้างขึ้น เนื่องจากเรียนรู้รูปแบบกว้างๆ ในระหว่างการฝึกฝนเบื้องต้น จึงสามารถจัดการกับประเภทและรูปแบบของคำถามได้หลากหลาย พวกมันคือ "ชั้นพื้นฐาน" ที่อยู่เบื้องหลังประสบการณ์การสร้างสรรค์สมัยใหม่ส่วนใหญ่.

โมเดลพื้นฐานเรียนรู้ได้อย่างไรในระหว่างการฝึกอบรมเบื้องต้น

แบบจำลองพื้นฐานภาษาส่วนใหญ่เรียนรู้โดยการทำนายโทเค็น เช่น คำถัดไปหรือคำที่หายไปในข้อความ เป้าหมายง่ายๆ นี้ผลักดันให้พวกมันซึมซับโครงสร้างต่างๆ เช่น ไวยากรณ์ รูปแบบ และรูปแบบการอธิบายทั่วไป นอกจากนี้พวกมันยังสามารถดูดซับความรู้เกี่ยวกับโลกได้มากมาย แม้ว่าจะไม่น่าเชื่อถือเสมอไปก็ตาม ผลลัพธ์ที่ได้คือการแสดงภาพรวมที่แข็งแกร่งซึ่งคุณสามารถนำไปใช้ในงานเฉพาะด้านได้ในภายหลัง.

ความแตกต่างระหว่างการแจ้งเตือน การปรับแต่งอย่างละเอียด LoRA และ RAG

การกระตุ้น (Prompting) เป็นวิธีที่เร็วที่สุดในการควบคุมพฤติกรรมโดยใช้คำสั่ง แต่ก็อาจมีความเปราะบาง การปรับแต่งอย่างละเอียด (Fine-tuning) คือการฝึกฝนโมเดลเพิ่มเติมด้วยตัวอย่างของคุณเพื่อให้ได้พฤติกรรมที่สม่ำเสมอมากขึ้น แต่จะเพิ่มต้นทุนและการบำรุงรักษา LoRA/อะแดปเตอร์เป็นวิธีการปรับแต่งอย่างละเอียดที่เบากว่า มักจะมีราคาถูกกว่า และมีความยืดหยุ่นมากกว่า RAG จะดึงเอกสารที่เกี่ยวข้องและให้โมเดลตอบคำถามโดยใช้บริบทนั้น ซึ่งช่วยให้โมเดลมีความสดใหม่และมีพื้นฐานที่มั่นคง.

เมื่อใดควรใช้ RAG แทนการปรับแต่งอย่างละเอียด

RAG มักเป็นตัวเลือกที่ดีเมื่อคุณต้องการคำตอบที่อิงจากเอกสารปัจจุบันหรือฐานความรู้ภายในของคุณ มันสามารถลดการ "เดา" โดยการป้อนบริบทที่เกี่ยวข้องให้กับโมเดลในขณะสร้างคำตอบ การปรับแต่งอย่างละเอียดจะเหมาะสมกว่าเมื่อคุณต้องการรูปแบบที่สอดคล้องกัน การใช้ถ้อยคำในโดเมน หรือพฤติกรรมที่การถามไม่สามารถสร้างได้อย่างน่าเชื่อถือ ระบบที่ใช้งานได้จริงหลายระบบจึงผสมผสานการถาม + RAG ก่อนที่จะทำการปรับแต่งอย่างละเอียด.

วิธีลดอาการประสาทหลอนและรับคำตอบที่น่าเชื่อถือมากขึ้น

แนวทางทั่วไปคือการสร้างแบบจำลองโดยใช้การดึงข้อมูล (RAG) เพื่อให้แบบจำลองนั้นอยู่ใกล้เคียงกับบริบทที่ให้มา นอกจากนี้ คุณยังสามารถจำกัดผลลัพธ์ด้วยสคีมา กำหนดให้มีการเรียกใช้เครื่องมือสำหรับขั้นตอนสำคัญ และเพิ่มคำแนะนำ "ห้ามเดา" อย่างชัดเจน เลเยอร์การตรวจสอบก็มีความสำคัญเช่นกัน เช่น การตรวจสอบกฎ การตรวจสอบข้าม และการตรวจสอบโดยมนุษย์สำหรับกรณีการใช้งานที่มีความเสี่ยงสูง ควรปฏิบัติต่อแบบจำลองเหมือนเป็นตัวช่วยเชิงความน่าจะเป็น ไม่ใช่แหล่งข้อมูลที่ถูกต้องโดยค่าเริ่มต้น.

ความเสี่ยงที่ใหญ่ที่สุดของแบบจำลองฐานรากในการผลิต

ความเสี่ยงทั่วไป ได้แก่ ภาพหลอน รูปแบบที่ลำเอียงหรือเป็นอันตรายจากข้อมูลการฝึกอบรม และการรั่วไหลของข้อมูลส่วนตัวหากจัดการข้อมูลที่ละเอียดอ่อนอย่างไม่เหมาะสม ระบบยังอาจเสี่ยงต่อการถูกแทรกแซงโดยไม่ได้รับอนุญาต โดยเฉพาะอย่างยิ่งเมื่อแบบจำลองอ่านข้อความที่ไม่น่าเชื่อถือจากเอกสารหรือเนื้อหาบนเว็บ มาตรการลดความเสี่ยงโดยทั่วไป ได้แก่ การกำกับดูแล การทดสอบเจาะระบบ การควบคุมการเข้าถึง รูปแบบการแจ้งเตือนที่ปลอดภัยยิ่งขึ้น และการประเมินอย่างเป็นระบบ ควรวางแผนรับมือกับความเสี่ยงเหล่านี้ตั้งแต่เนิ่นๆ แทนที่จะแก้ไขในภายหลัง.

การฉีดแบบทันทีและเหตุใดจึงมีความสำคัญในระบบ RAG

การโจมตีแบบ Prompt injection คือการที่ข้อความที่ไม่น่าเชื่อถือพยายามแทรกแซงคำสั่ง เช่น “ละเว้นคำสั่งก่อนหน้า” หรือ “เปิดเผยความลับ” ใน RAG เอกสารที่ดึงมาได้อาจมีคำสั่งที่เป็นอันตรายเหล่านั้น และโมเดลอาจปฏิบัติตามคำสั่งเหล่านั้นหากคุณไม่ระมัดระวัง วิธีการทั่วไปคือการแยกคำสั่งของระบบ ทำความสะอาดเนื้อหาที่ดึงมา และใช้หลักการตามเครื่องมือแทนที่จะใช้แค่ข้อความแจ้งเตือนเพียงอย่างเดียว การทดสอบด้วยข้อมูลป้อนเข้าที่เป็นอันตรายจะช่วยให้เห็นจุดอ่อนได้ชัดเจนขึ้น.

วิธีการเลือกโมเดลพื้นฐานให้เหมาะสมกับกรณีการใช้งานของคุณ

เริ่มต้นด้วยการกำหนดสิ่งที่คุณต้องการสร้าง: ข้อความ รูปภาพ เสียง โค้ด หรือเอาต์พุตแบบหลายรูปแบบ จากนั้นกำหนดเกณฑ์ความถูกต้องแม่นยำ - โดเมนที่มีความแม่นยำสูงมักต้องการการตรวจสอบความถูกต้อง (RAG) การตรวจสอบ และบางครั้งก็ต้องการการตรวจสอบจากมนุษย์ พิจารณาความหน่วงและต้นทุน เพราะโมเดลที่แข็งแกร่งแต่ช้าหรือมีราคาแพงอาจใช้งานได้ยาก สุดท้าย จับคู่ความต้องการด้านความเป็นส่วนตัวและการปฏิบัติตามกฎระเบียบกับตัวเลือกและการควบคุมการใช้งาน.

เอกสารอ้างอิง

  1. สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - แบบจำลองพื้นฐาน (คำศัพท์ในพจนานุกรม) - csrc.nist.gov

  2. สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - NIST AI 600-1: โปรไฟล์ AI เชิงสร้างสรรค์ - nvlpubs.nist.gov

  3. สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - NIST AI 100-1: กรอบการบริหารความเสี่ยงด้านปัญญาประดิษฐ์ (AI RMF 1.0) - nvlpubs.nist.gov

  4. ศูนย์วิจัยแบบจำลองฐานรากแห่งมหาวิทยาลัยสแตนฟอร์ด (CRFM) - รายงาน - crfm.stanford.edu

  5. arXiv - เกี่ยวกับโอกาสและความเสี่ยงของแบบจำลองพื้นฐาน (Bommasani et al., 2021) - arxiv.org

  6. arXiv - แบบจำลองภาษาเรียนรู้ด้วยจำนวนครั้งน้อย (Brown et al., 2020) - arxiv.org

  7. arXiv - การสร้างผลลัพธ์เสริมการค้นหาสำหรับงาน NLP ที่เน้นความรู้ (Lewis et al., 2020) - arxiv.org

  8. arXiv - LoRA: การปรับตัวของแบบจำลองภาษาขนาดใหญ่ด้วยอันดับต่ำ (Hu et al., 2021) - arxiv.org

  9. arXiv - BERT: การฝึกฝนเบื้องต้นของ Deep Bidirectional Transformers เพื่อการทำความเข้าใจภาษา (Devlin et al., 2018) - arxiv.org

  10. arXiv - โมเดลภาษาที่ปรับแต่งอย่างละเอียดคือผู้เรียนรู้แบบ Zero-Shot (Wei et al., 2021) - arxiv.org

  11. ACM Digital Library - การสำรวจปรากฏการณ์ภาพหลอนในการสร้างภาษาธรรมชาติ (Ji et al., 2023) - dl.acm.org

  12. arXiv - การเรียนรู้แบบจำลองภาพที่ถ่ายโอนได้จากการกำกับดูแลภาษาธรรมชาติ (Radford et al., 2021) - arxiv.org

  13. arXiv - การลดสัญญาณรบกวนในแบบจำลองความน่าจะเป็นของการแพร่กระจาย (Ho et al., 2020) - arxiv.org

  14. arXiv - การสังเคราะห์ภาพความละเอียดสูงด้วยแบบจำลองการแพร่กระจายแฝง (Rombach et al., 2021) - arxiv.org

  15. arXiv - การค้นหาข้อความหนาแน่นสำหรับการตอบคำถามในโดเมนเปิด (Karpukhin et al., 2020) - arxiv.org

  16. arXiv - ห้องสมุด Faiss (Douze et al., 2024) - arxiv.org

  17. OpenAI - ขอแนะนำ Whisper - openai.com

  18. arXiv - การสังเคราะห์ TTS แบบธรรมชาติโดยการปรับสภาพ WaveNet บนการทำนายสเปกโตรแกรม Mel (Shen et al., 2017) - arxiv.org

  19. ศูนย์ความปลอดภัยและเทคโนโลยีเกิดใหม่ (CSET) มหาวิทยาลัยจอร์จทาวน์ - พลังอันน่าทึ่งของการทำนายคำถัดไป: คำอธิบายเกี่ยวกับแบบจำลองภาษาขนาดใหญ่ (ตอนที่ 1) - cset.georgetown.edu

  20. USENIX - การดึงข้อมูลการฝึกอบรมจากแบบจำลองภาษาขนาดใหญ่ (Carlini et al., 2021) - usenix.org

  21. OWASP - LLM01: Prompt Injection - genai.owasp.org

  22. arXiv - มากกว่าที่คุณขอ: การวิเคราะห์อย่างครอบคลุมเกี่ยวกับภัยคุกคามการแทรกข้อความแจ้งเตือนแบบใหม่ต่อแบบจำลองภาษาขนาดใหญ่ที่บูรณาการกับแอปพลิเคชัน (Greshake et al., 2023) - arxiv.org

  23. ชุดเอกสารสรุป OWASP - เอกสารสรุปการป้องกันการโจมตีแบบ Prompt Injection สำหรับหลักสูตร LLM - cheatsheetseries.owasp.org

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก