คำตอบสั้นๆ: โมเดลพื้นฐานคือโมเดล AI ขนาดใหญ่ที่ใช้งานได้หลากหลาย ซึ่งได้รับการฝึกฝนด้วยชุดข้อมูลขนาดใหญ่และหลากหลาย จากนั้นจึงปรับให้เข้ากับงานต่างๆ มากมาย (การเขียน การค้นหา การเขียนโค้ด รูปภาพ) ผ่านการกระตุ้น การปรับแต่ง เครื่องมือ หรือการดึงข้อมูล หากคุณต้องการคำตอบที่เชื่อถือได้ ควรใช้โมเดลเหล่านี้ควบคู่ไปกับการวางรากฐาน (เช่น RAG) ข้อจำกัดที่ชัดเจน และการตรวจสอบ แทนที่จะปล่อยให้โมเดลทำงานโดยไม่มีแบบแผน
ประเด็นสำคัญ:
คำจำกัดความ : โมเดลพื้นฐานที่ได้รับการฝึกฝนมาอย่างกว้างขวางหนึ่งเดียว สามารถนำมาใช้ซ้ำได้กับงานหลายอย่าง ไม่ใช่ใช้โมเดลละงาน
การปรับตัว : ใช้การกระตุ้น การปรับแต่งอย่างละเอียด LoRA/อะแดปเตอร์ RAG และเครื่องมือต่างๆ เพื่อชี้นำพฤติกรรม
ความเหมาะสมเชิงสร้างสรรค์ : เทคโนโลยีนี้ขับเคลื่อนการสร้างข้อความ รูปภาพ เสียง โค้ด และเนื้อหาแบบมัลติมีเดีย
ตัวชี้วัดคุณภาพ : ให้ความสำคัญกับความสามารถในการควบคุม การเกิดภาพหลอนน้อยลง ความสามารถในการรับรู้หลายรูปแบบ และการอนุมานที่มีประสิทธิภาพ
การควบคุมความเสี่ยง : วางแผนรับมือกับภาพหลอน อคติ การรั่วไหลของข้อมูลส่วนตัว และการฉีดข้อมูลอย่างรวดเร็วผ่านการกำกับดูแลและการทดสอบ

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:
🔗 บริษัท AI คืออะไร
ทำความเข้าใจว่าบริษัท AI สร้างผลิตภัณฑ์ ทีมงาน และโมเดลรายได้อย่างไร.
🔗 โค้ด AI มีลักษณะอย่างไร
ดูตัวอย่างโค้ด AI ตั้งแต่โมเดล Python ไปจนถึง API.
🔗 อัลกอริทึม AI คืออะไร
เรียนรู้ว่าอัลกอริทึม AI คืออะไร และพวกมันตัดสินใจอย่างไร.
🔗 เทคโนโลยี AI คืออะไร
สำรวจเทคโนโลยี AI หลักที่ขับเคลื่อนระบบอัตโนมัติ การวิเคราะห์ และแอปพลิเคชันอัจฉริยะ.
1) แบบจำลองพื้นฐาน - คำจำกัดความที่ชัดเจน 🧠
แบบ จำลองพื้นฐาน (Foundation model ) คือแบบจำลอง AI ขนาดใหญ่ที่ใช้งานได้ทั่วไป ซึ่งได้รับการฝึกฝนด้วยข้อมูลที่หลากหลาย (โดยปกติจะมีจำนวนมหาศาล) เพื่อให้สามารถปรับใช้กับงานได้หลายอย่าง ไม่ใช่แค่เพียงงานเดียว ( NIST , Stanford CRFM )
แทนที่จะสร้างโมเดลแยกต่างหากสำหรับ:
-
การเขียนอีเมล
-
การตอบคำถาม
-
การสรุปไฟล์ PDF
-
การสร้างภาพ
-
การจำแนกประเภทตั๋วสนับสนุน
-
การแปลภาษา
-
การเสนอแนะโค้ด
...คุณฝึกฝนโมเดลพื้นฐานขนาดใหญ่หนึ่งโมเดลที่ "เรียนรู้โลก" ในลักษณะทางสถิติแบบคลุมเครือ จากนั้นคุณ ปรับ โมเดลนั้นให้เข้ากับงานเฉพาะด้วยคำแนะนำ การปรับแต่ง หรือเครื่องมือเพิ่มเติม ( Bommasani et al., 2021 )
กล่าวอีกนัยหนึ่งคือ มันคือ เครื่องยนต์ทั่วไป ที่คุณสามารถควบคุมทิศทางได้
ใช่แล้ว คำสำคัญคือ “ทั่วไป” นั่นแหละคือเคล็ดลับทั้งหมด.
2) โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? (และเหมาะสมอย่างไรโดยเฉพาะ) 🎨📝
แล้ว โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? มันคือโมเดลพื้นฐานที่ขับเคลื่อนระบบซึ่งสามารถ สร้าง เนื้อหาใหม่ได้ ไม่ว่าจะเป็นข้อความ รูปภาพ เสียง โค้ด วิดีโอ และที่สำคัญมากขึ้นเรื่อยๆ คือการผสมผสานของสิ่งเหล่านี้ทั้งหมด ( NIST , NIST Generative AI Profile )
ปัญญาประดิษฐ์เชิงสร้างสรรค์ไม่ได้มีแค่การทำนายป้ายกำกับอย่าง “สแปม/ไม่ใช่สแปม” เท่านั้น แต่ยังเกี่ยวกับการสร้างผลลัพธ์ที่ดูเหมือนว่าสร้างขึ้นโดยมนุษย์ด้วย.
-
ย่อหน้า
-
บทกวี
-
คำอธิบายผลิตภัณฑ์
-
ภาพประกอบ
-
ท่วงทำนอง
-
ต้นแบบแอป
-
เสียงสังเคราะห์
-
และบางครั้งก็เป็นเรื่องไร้สาระที่แสดงความมั่นใจเกินจริง 🙃
แบบจำลองพื้นฐานนั้น เป็นพิเศษ ในกรณีนี้เนื่องจาก:
-
พวกเขาได้ซึมซับรูปแบบกว้างๆ จากชุดข้อมูลขนาดใหญ่ ( Bommasani et al., 2021 )
-
พวกเขาสามารถนำไปปรับใช้กับคำถามใหม่ๆ ได้ (แม้แต่คำถามที่แปลกประหลาด) ( Brown et al., 2020 )
-
สามารถนำไปใช้ใหม่เพื่อสร้างผลลัพธ์ได้หลายสิบรายการโดยไม่ต้องฝึกอบรมใหม่ตั้งแต่เริ่มต้น ( Bommasani et al., 2021 )
มันเป็นเหมือน "ฐาน" หรือแป้งขนมปัง คุณสามารถนำไปอบเป็นบาแกตต์ พิซซ่า หรือซินนามอนโรลได้... อาจจะไม่ใช่คำเปรียบเทียบที่สมบูรณ์แบบ แต่คุณคงเข้าใจ 😄
3) เหตุใดพวกเขาจึงเปลี่ยนแปลงทุกอย่าง (และเหตุใดผู้คนจึงพูดถึงพวกเขาไม่หยุด) 🚀
ก่อนที่จะมีโมเดลพื้นฐาน AI จำนวนมากถูกออกแบบมาให้ใช้งานเฉพาะด้าน:
-
ฝึกฝนโมเดลสำหรับการวิเคราะห์ความรู้สึก
-
ฝึกคนอื่นให้ทำงานแปล
-
ฝึกอีกตัวหนึ่งสำหรับการจำแนกภาพ
-
ฝึกอีกคนหนึ่งเพื่อการระบุชื่อเอนทิตี
วิธีนั้นได้ผล แต่ช้า แพง และค่อนข้าง...เปราะบาง.
นางแบบของ Foundation พลิกสถานการณ์:
-
ฝึกฝนล่วงหน้าหนึ่งครั้ง (ใช้ความพยายามมาก)
-
ใช้ซ้ำได้ทุกที่ (ผลตอบแทนมหาศาล) ( Bommasani et al., 2021 )
การนำกลับมาใช้ซ้ำนั้นคือตัวคูณ บริษัทต่างๆ สามารถสร้างฟีเจอร์ได้ถึง 20 อย่างบนพื้นฐานของตระกูลโมเดลเดียว แทนที่จะต้องคิดค้นสิ่งใหม่ๆ ถึง 20 ครั้ง.
นอกจากนี้ ประสบการณ์การใช้งานของผู้ใช้ยังเป็นธรรมชาติมากขึ้น:
-
คุณไม่ได้ "ใช้ตัวจำแนกประเภท"
-
คุณคุยกับนางแบบราวกับว่าเป็นเพื่อนร่วมงานที่คอยช่วยเหลือและไม่เคยนอนหลับเลย ☕🤝
บางครั้งมันก็เหมือนกับเพื่อนร่วมงานที่เข้าใจอะไรผิดไปหมดอย่างมั่นใจ แต่ก็ช่างเถอะ นั่นคือการพัฒนาตนเอง.
4) แนวคิดหลัก: การเตรียมตัวก่อนฝึก + การปรับตัว 🧩
แบบจำลองพื้นฐานเกือบทั้งหมดเป็นไปตามรูปแบบเดียวกัน ( Stanford CRFM , NIST ):
ขั้นตอนการเตรียมความพร้อมก่อนเข้าทำงาน (ช่วง "เรียนรู้จากอินเทอร์เน็ต") 📚
แบบจำลองนี้ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่และกว้างขวางโดยใช้การเรียนรู้แบบกำกับตนเอง ( NIST ) สำหรับแบบจำลองภาษา นั่นมักหมายถึงการทำนายคำที่หายไปหรือโทเค็นถัดไป ( Devlin et al., 2018 , Brown et al., 2020 )
จุดประสงค์ไม่ใช่การสอนให้มันทำงานเพียงอย่างเดียว จุดประสงค์คือการสอนให้มัน เข้าใจ ภาพรวมทั่วไป
-
ไวยากรณ์
-
ข้อเท็จจริง (ประมาณนั้น)
-
รูปแบบการให้เหตุผล (บางครั้ง)
-
รูปแบบการเขียน
-
โครงสร้างโค้ด
-
เจตนาของมนุษย์ทั่วไป
การปรับใช้ (ขั้นตอน "ทำให้ใช้งานได้จริง") 🛠️
จากนั้นปรับเปลี่ยนโดยใช้วิธีใดวิธีหนึ่งหรือมากกว่านั้น:
-
การกระตุ้นเตือน (คำแนะนำด้วยภาษาที่เข้าใจง่าย)
-
การปรับแต่งคำสั่ง (การฝึกให้ปฏิบัติตามคำสั่ง) ( Wei et al., 2021 )
-
การปรับแต่ง (การฝึกฝนด้วยข้อมูลเฉพาะด้านของคุณ)
-
อะแดปเตอร์ LoRA (วิธีการปรับแต่งน้ำหนักเบา) ( Hu et al., 2021 )
-
RAG (การสร้างข้อมูลที่เสริมด้วยการดึงข้อมูล - โมเดลจะปรึกษาเอกสารของคุณ) ( Lewis et al., 2020 )
-
การใช้งานเครื่องมือ (การเรียกใช้ฟังก์ชัน การเรียกดูระบบภายใน ฯลฯ)
นี่แหละคือเหตุผลว่าทำไมโมเดลพื้นฐานเดียวกันถึงสามารถเขียนฉากโรแมนติกได้...แล้วก็ช่วยแก้ไขข้อผิดพลาดของคำสั่ง SQL ได้ภายในห้าวินาที 😭
5) อะไรคือคุณสมบัติของแบบจำลองพื้นฐานที่ดี? ✅
นี่คือส่วนที่คนส่วนใหญ่ข้ามไป แล้วก็มาเสียใจภายหลัง.
แบบจำลองพื้นฐานที่ดีไม่ได้หมายความว่าต้องมีขนาดใหญ่เท่านั้น ขนาดใหญ่ย่อมช่วยได้แน่นอน...แต่ไม่ใช่ปัจจัยเดียว แบบจำลองพื้นฐานที่ดีมักมีคุณสมบัติดังนี้:
การสรุปแบบกว้างๆ 🧠
ระบบนี้ทำงานได้ดีในหลายๆ งานโดยไม่จำเป็นต้องมีการฝึกอบรมเฉพาะงาน ( Bommasani et al., 2021 )
การบังคับเลี้ยวและการควบคุม 🎛️
มันสามารถปฏิบัติตามคำสั่งได้อย่างน่าเชื่อถือ เช่น:
-
“จงกระชับ”
-
“ใช้สัญลักษณ์หัวข้อย่อย”
-
“เขียนด้วยน้ำเสียงที่เป็นมิตร”
-
“อย่าเปิดเผยข้อมูลที่เป็นความลับ”
บางรุ่นฉลาดแต่ก็ควบคุมยาก เหมือนกับการพยายามถือสบู่ในห้องอาบน้ำนั่นแหละ มีประโยชน์แต่ก็ควบคุมไม่ค่อยได้ 😅
มีแนวโน้มที่จะเห็นภาพหลอนน้อย (หรืออย่างน้อยก็ไม่แน่ใจอย่างตรงไปตรงมา) 🧯
ไม่มีนางแบบคนไหนที่ไม่เป็นโรคประสาทหลอน แต่พวกนางแบบเก่งๆ น่ะสิ:
-
เห็นภาพหลอนน้อยลง
-
ยอมรับความไม่แน่นอนบ่อยขึ้น
-
ควรยึดติดกับบริบทที่ให้มาเมื่อใช้การค้นหา ( Ji et al., 2023 , Lewis et al., 2020 )
มีความสามารถในการใช้สื่อหลายรูปแบบได้ดี (เมื่อจำเป็น) 🖼️🎧
หากคุณกำลังสร้างผู้ช่วยที่อ่านภาพ ตีความแผนภูมิ หรือเข้าใจเสียง การสื่อสารหลายรูปแบบมีความสำคัญอย่างมาก ( Radford et al., 2021 )
การอนุมานที่มีประสิทธิภาพ ⚡
ความหน่วงและต้นทุนเป็นเรื่องสำคัญ โมเดลที่แรงแต่ช้าก็เหมือนรถสปอร์ตที่ยางแบน.
ความปลอดภัยและพฤติกรรมการจัดระเบียบร่างกาย 🧩
ไม่ใช่แค่ “ปฏิเสธทุกอย่าง” แต่ต้องเป็น:
-
หลีกเลี่ยงคำแนะนำที่เป็นอันตราย
-
ลดอคติ
-
ควรจัดการกับหัวข้อที่ละเอียดอ่อนด้วยความระมัดระวัง
-
ต้านทานความพยายามเจาะระบบขั้นพื้นฐาน (ในระดับหนึ่ง…) ( NIST AI RMF 1.0 , NIST Generative AI Profile )
เอกสารประกอบ + ระบบนิเวศ 🌱
ฟังดูแห้งแล้ง แต่เป็นเรื่องจริง:
-
เครื่องมือ
-
สายรัดประเมินผล
-
ตัวเลือกการปรับใช้
-
การควบคุมขององค์กร
-
การสนับสนุนการปรับแต่งอย่างละเอียด
ใช่แล้ว คำว่า “ระบบนิเวศ” เป็นคำที่คลุมเครือ ฉันก็ไม่ชอบเหมือนกัน แต่คำนี้สำคัญนะ.
6) ตารางเปรียบเทียบ - ตัวเลือกแบบจำลองฐานรากทั่วไป (และข้อดีของแต่ละแบบ) 🧾
ด้านล่างนี้คือตารางเปรียบเทียบเชิงปฏิบัติ ซึ่งอาจไม่สมบูรณ์แบบนัก มันไม่ใช่ "รายชื่อที่ถูกต้องที่สุด" แต่เป็นเพียงสิ่งที่ผู้คนเลือกใช้ในชีวิตจริง.
| ประเภทเครื่องมือ/รุ่น | ผู้ชม | ราคาค่อนข้างสูง | เหตุผลที่มันได้ผล |
|---|---|---|---|
| หลักสูตร LLM เฉพาะของบริษัท (รูปแบบการสนทนา) | ทีมที่ต้องการความเร็วและความแม่นยำ | คิดค่าบริการตามการใช้งาน / สมัครสมาชิก | คำแนะนำดีเยี่ยม ปฏิบัติตามได้ดี ประสิทธิภาพโดยรวมสูง มักจะดีที่สุดเมื่อใช้งานโดยไม่ต้องปรับแต่งอะไรเพิ่มเติม 😌 |
| หลักสูตร LLM แบบเปิดกว้าง (สามารถโฮสต์เองได้) | ผู้สร้างที่ต้องการควบคุม | ต้นทุนโครงสร้างพื้นฐาน (และปัญหาปวดหัว) | ปรับแต่งได้ตามต้องการ เป็นมิตรกับความเป็นส่วนตัว สามารถทำงานบนเครื่องโลคอลได้...หากคุณชอบปรับแต่งอะไรเล่นๆ ตอนเที่ยงคืน |
| เครื่องกำเนิดภาพการแพร่กระจาย | นักสร้างสรรค์, ทีมออกแบบ | จากฟรีไปจนถึงเสียเงิน | การสังเคราะห์ภาพที่ยอดเยี่ยม ความหลากหลายของสไตล์ กระบวนการทำงานแบบวนซ้ำ (นอกจากนี้: นิ้วอาจคลาดเคลื่อนได้) ✋😬 ( Ho et al., 2020 , Rombach et al., 2021 ) |
| แบบจำลอง “การมองเห็น-ภาษา” แบบหลายรูปแบบ | แอปที่อ่านรูปภาพและข้อความ | อิงตามการใช้งาน | ช่วยให้คุณตั้งคำถามเกี่ยวกับรูปภาพ ภาพหน้าจอ และแผนภาพได้ ซึ่งมีประโยชน์อย่างน่าประหลาดใจ ( Radford et al., 2021 ) |
| แบบจำลองรากฐานการฝังตัว | ระบบค้นหา + RAG | ค่าใช้จ่ายต่อการโทรต่ำ | แปลงข้อความให้เป็นเวกเตอร์สำหรับการค้นหาเชิงความหมาย การจัดกลุ่ม และการแนะนำ - ใช้พลังงานน้อยมาก ( Karpukhin et al., 2020 , Douze et al., 2024 ) |
| แบบจำลองพื้นฐานการแปลงเสียงเป็นข้อความ | ศูนย์บริการลูกค้า, ผู้สร้างสรรค์ | คิดค่าบริการตามการใช้งาน / ในพื้นที่ | ถอดเสียงเร็ว รองรับหลายภาษา คุณภาพดีพอสำหรับไฟล์เสียงที่มีเสียงรบกวน (โดยทั่วไป) 🎙️ ( กระซิบ ) |
| แบบจำลองพื้นฐานการแปลงข้อความเป็นเสียงพูด | ทีมผลิตภัณฑ์, สื่อ | อิงตามการใช้งาน | การสร้างเสียงธรรมชาติ รูปแบบเสียง การบรรยาย สามารถทำให้ดูสมจริงจนน่าขนลุกได้ ( Shen et al., 2017 ) |
| LLM ที่เน้นการเขียนโค้ด | นักพัฒนา | คิดค่าบริการตามการใช้งาน / สมัครสมาชิก | เก่งเรื่องรูปแบบการเขียนโค้ด การดีบั๊ก การปรับโครงสร้างโค้ด...แต่ก็ยังอ่านใจคนไม่ได้อยู่ดี 😅 |
โปรดสังเกตว่า “แบบจำลองพื้นฐาน” ไม่ได้หมายถึง “แชทบอท” เพียงอย่างเดียว การฝังข้อมูลและแบบจำลองเสียงพูดก็สามารถเป็นพื้นฐานได้เช่นกัน เนื่องจากมีความกว้างและสามารถนำกลับมาใช้ซ้ำได้ในงานต่างๆ ( Bommasani et al., 2021 , NIST )
7) เจาะลึก: วิธีที่แบบจำลองพื้นฐานภาษาเรียนรู้ (เวอร์ชัน Vibe) 🧠🧃
แบบจำลองพื้นฐานทางภาษา (มักเรียกว่า LLM) โดยทั่วไปจะได้รับการฝึกฝนจากชุดข้อความขนาดใหญ่ พวกมันเรียนรู้โดยการทำนายโทเค็น ( Brown et al., 2020 ) แค่นั้นเอง ไม่มีอะไรซับซ้อนหรือลึกลับ
แต่ความมหัศจรรย์อยู่ที่ว่า การทำนายโทเค็นจะบังคับให้โมเดลเรียนรู้โครงสร้าง ( CSET ):
-
ไวยากรณ์และโครงสร้างประโยค
-
ความสัมพันธ์ของหัวข้อ
-
รูปแบบคล้ายการใช้เหตุผล (บางครั้ง)
-
ลำดับความคิดทั่วไป
-
วิธีที่ผู้คนอธิบายสิ่งต่างๆ โต้แย้ง ขอโทษ เจรจาต่อรอง และสอน
มันเหมือนกับการเรียนรู้ที่จะเลียนแบบบทสนทนานับล้านโดยที่ไม่ "เข้าใจ" ในแบบที่มนุษย์เข้าใจ ซึ่งฟังดูเหมือนจะเป็นไปไม่ได้...แต่กลับได้ผลอยู่เสมอ.
อาจจะพูดเกินจริงไปสักหน่อย: มันก็เหมือนกับการบีบอัดลายมือมนุษย์ลงไปในสมองเชิงความน่าจะเป็นขนาดยักษ์นั่นแหละ
แต่เอาเข้าจริง คำเปรียบเทียบนี้ก็ฟังดูแปลกๆ ไปหน่อย แต่ช่างเถอะ 😄
8) เจาะลึก: โมเดลการแพร่กระจาย (เหตุใดภาพจึงทำงานแตกต่างกัน) 🎨🌀
แบบจำลองพื้นฐานของภาพมักใช้ วิธี การแพร่กระจาย Ho et al., 2020 , Rombach et al., 2021 )
แนวคิดคร่าวๆ:
-
เพิ่มสัญญาณรบกวนให้กับภาพจนกระทั่งภาพนั้นกลายเป็นเหมือนสัญญาณรบกวนทางทีวี
-
ฝึกโมเดลเพื่อลดสัญญาณรบกวนนั้นทีละขั้นตอน
-
ในขั้นตอนการสร้างภาพ เริ่มต้นด้วยสัญญาณรบกวนและ "ลดสัญญาณรบกวน" ลงในภาพโดยมีคำแนะนำเป็นตัวชี้นำ ( Ho et al., 2020 )
นี่จึงเป็นเหตุผลว่าทำไมการสร้างภาพจึงรู้สึกเหมือนกับการ "ปรับแต่ง" รูปถ่าย เพียงแต่รูปถ่ายนั้นเป็นรูปมังกรใส่รองเท้าผ้าใบเดินอยู่ในซูเปอร์มาร์เก็ต 🛒🐉
แบบจำลองการแพร่กระจายนั้นดีเพราะ:
-
พวกเขาสร้างภาพที่มีคุณภาพสูง
-
พวกเขาสามารถถูกชี้นำอย่างมากโดยข้อความได้
-
พวกเขาสนับสนุนการปรับปรุงแบบวนซ้ำ (การเปลี่ยนแปลง การเติมเต็ม การขยายขนาด) ( Rombach et al., 2021 )
บางครั้งพวกเขาก็ประสบปัญหาในเรื่องต่อไปนี้:
-
การแสดงผลข้อความภายในรูปภาพ
-
รายละเอียดทางกายวิภาคที่ประณีต
-
การรักษาเอกลักษณ์ของตัวละครให้คงที่ในทุกฉาก (แม้จะดีขึ้นแล้ว แต่ก็ยังไม่ชัดเจน)
9) เจาะลึกรายละเอียด: โมเดลพื้นฐานแบบมัลติโมดอล (ข้อความ + รูปภาพ + เสียง) 👀🎧📝
แบบจำลองพื้นฐานแบบหลายโมดอลมีเป้าหมายเพื่อทำความเข้าใจและสร้างแบบจำลองจากข้อมูลหลายประเภท:
-
ข้อความ
-
รูปภาพ
-
เสียง
-
วิดีโอ
-
บางครั้งอาจเป็นข้อมูลป้อนเข้าที่คล้ายเซ็นเซอร์ (ตาม โปรไฟล์ AI เชิงสร้างสรรค์ของ NIST )
เหตุใดเรื่องนี้จึงมีความสำคัญในชีวิตจริง:
-
ฝ่ายสนับสนุนลูกค้าสามารถตีความภาพหน้าจอได้
-
เครื่องมืออำนวยความสะดวกสามารถอธิบายภาพได้
-
แอปเพื่อการศึกษาสามารถอธิบายแผนภาพได้
-
ผู้สร้างสามารถผสมผสานรูปแบบต่างๆ ได้อย่างรวดเร็ว
-
เครื่องมือทางธุรกิจสามารถ "อ่าน" ภาพหน้าจอแดชบอร์ดและสรุปข้อมูลได้
ภายใต้กลไกการทำงาน ระบบมัลติโมดอลมักจะปรับการแสดงผลให้สอดคล้องกัน:
-
แปลงรูปภาพให้เป็นเวクターฝังตัว
-
แปลงข้อความให้เป็นการฝังข้อมูล
-
เรียนรู้พื้นที่ร่วมกันที่ "แมว" ตรงกับพิกเซลของแมว 😺 ( Radford et al., 2021 )
มันอาจจะไม่สวยงามเสมอไป บางครั้งก็ดูเหมือนเย็บปะติดปะต่อกันอย่างไม่เรียบร้อย แต่ก็ใช้งานได้ดี.
10) การปรับแต่งอย่างละเอียด เทียบกับ การกระตุ้น เทียบกับ RAG (วิธีการปรับเปลี่ยนโมเดลพื้นฐาน) 🧰
หากคุณพยายามสร้างแบบจำลองพื้นฐานที่ใช้งานได้จริงสำหรับโดเมนเฉพาะ (เช่น กฎหมาย การแพทย์ บริการลูกค้า ความรู้ภายในองค์กร) คุณมีเครื่องมืออยู่สองสามอย่าง:
การแจ้งเตือน 🗣️
เร็วที่สุดและง่ายที่สุด.
-
ข้อดี: ไม่ต้องฝึกอบรม เริ่มใช้งานได้ทันที
-
ข้อเสีย: อาจไม่สม่ำเสมอ มีข้อจำกัดด้านบริบท และความเปราะบางของข้อความแจ้งเตือน
การปรับแต่งอย่างละเอียด 🎯
ฝึกฝนโมเดลเพิ่มเติมด้วยตัวอย่างของคุณ.
-
ข้อดี: พฤติกรรมสม่ำเสมอมากขึ้น, ภาษาที่ใช้ในโดเมนดีขึ้น, สามารถลดความยาวของข้อความแจ้งเตือนได้
-
ข้อเสีย: ค่าใช้จ่าย, ข้อกำหนดด้านคุณภาพข้อมูล, ความเสี่ยงต่อการเกิดภาวะโอเวอร์ฟิตติ้ง, การบำรุงรักษา
การปรับแต่งแบบน้ำหนักเบา (LoRA / อะแดปเตอร์) 🧩
เวอร์ชันที่มีประสิทธิภาพมากขึ้นของการปรับแต่งอย่างละเอียด ( Hu et al., 2021 )
-
ข้อดี: ราคาถูกกว่า, ปรับเปลี่ยนได้ง่าย, เปลี่ยนชิ้นส่วนได้ง่ายกว่า
-
ข้อเสีย: ยังต้องการกระบวนการฝึกอบรมและการประเมินผลเพิ่มเติม
RAG (การสร้างข้อมูลเสริมจากการดึงข้อมูล) 🔎
แบบจำลองจะดึงเอกสารที่เกี่ยวข้องจากฐานความรู้ของคุณและตอบคำถามโดยใช้เอกสารเหล่านั้น ( Lewis et al., 2020 )
-
ข้อดี: ความรู้ที่ทันสมัย, การอ้างอิงภายใน (หากคุณนำไปใช้), การฝึกอบรมซ้ำน้อยลง
-
ข้อเสีย: คุณภาพการค้นหาอาจเป็นตัวชี้วัดความสำเร็จหรือความล้มเหลว จำเป็นต้องมีการแบ่งกลุ่มข้อมูลและการฝังข้อมูลที่ดี
พูดกันตรงๆ: ระบบที่ประสบความสำเร็จหลายระบบใช้การผสมผสานระหว่างการแจ้งข้อความแจ้งเตือนและการใช้ RAG (Remote Access Guide) การปรับแต่งอย่างละเอียดนั้นมีประสิทธิภาพ แต่ไม่จำเป็นเสมอไป คนส่วนใหญ่รีบร้อนเกินไปเพราะมันฟังดูน่าประทับใจ 😅
11) ความเสี่ยง ข้อจำกัด และส่วนที่ “โปรดอย่านำไปใช้โดยไม่ตรวจสอบให้ดี” 🧯😬
โมเดลพื้นฐานนั้นทรงพลัง แต่ไม่เสถียรเหมือนซอฟต์แวร์แบบดั้งเดิม มันเหมือนกับ...เด็กฝึกงานที่มีความสามารถแต่ขาดความมั่นใจมากกว่า.
ข้อจำกัดสำคัญที่ต้องวางแผนรับมือ:
ภาพหลอน 🌀
แบบจำลองอาจคิดค้นสิ่งต่อไปนี้:
-
แหล่งข้อมูลปลอม
-
ข้อเท็จจริงที่ไม่ถูกต้อง
-
ขั้นตอนที่ดูสมเหตุสมผลแต่ผิดพลาด ( Ji et al., 2023 )
มาตรการบรรเทาผลกระทบ:
-
RAG ที่มีบริบทที่เป็นรูปธรรม ( Lewis et al., 2020 )
-
เอาต์พุตที่จำกัด (สคีมา การเรียกใช้เครื่องมือ)
-
คำแนะนำที่ชัดเจนว่า “ห้ามเดา”
-
ขั้นตอนการตรวจสอบ (กฎเกณฑ์ การตรวจสอบข้าม การตรวจสอบโดยมนุษย์)
อคติและรูปแบบที่เป็นอันตราย ⚠️
เนื่องจากข้อมูลฝึกฝนสะท้อนถึงพฤติกรรมของมนุษย์ คุณจึงอาจได้รับ:
-
ภาพลักษณ์เหมารวม
-
ผลการปฏิบัติงานที่ไม่เท่ากันในแต่ละกลุ่ม
-
การดำเนินการที่ไม่ปลอดภัย ( NIST AI RMF 1.0 , Bommasani et al., 2021 )
มาตรการบรรเทาผลกระทบ:
-
การปรับแต่งความปลอดภัย
-
เรดทีม
-
ตัวกรองเนื้อหา
-
ข้อจำกัดด้านโดเมนอย่างรอบคอบ (มาตรฐาน NIST Generative AI Profile )
ความเป็นส่วนตัวของข้อมูลและการรั่วไหลของข้อมูล 🔒
หากคุณป้อนข้อมูลที่เป็นความลับเข้าไปในเอนด์พอยต์ของโมเดล คุณจำเป็นต้องทราบสิ่งต่อไปนี้:
-
วิธีการจัดเก็บ
-
ไม่ว่าจะใช้เพื่อการฝึกอบรมหรือไม่
-
มีการบันทึกข้อมูลอะไรบ้าง
-
องค์กรของคุณต้องการการควบคุมแบบใด ( NIST AI RMF 1.0 )
มาตรการบรรเทาผลกระทบ:
-
ตัวเลือกการใช้งานแบบส่วนตัว
-
การกำกับดูแลที่เข้มแข็ง
-
การเปิดเผยข้อมูลน้อยที่สุด
-
RAG สำหรับใช้งานภายในเท่านั้น พร้อมการควบคุมการเข้าถึงอย่างเข้มงวด ( NIST Generative AI Profile , Carlini et al., 2021 )
การฉีดทันที (โดยเฉพาะกับ RAG) 🕳️
หากโมเดลอ่านข้อความที่ไม่น่าเชื่อถือ ข้อความนั้นอาจพยายามบิดเบือนโมเดลได้:
-
“ไม่ต้องสนใจคำแนะนำก่อนหน้านี้…”
-
“ส่งความลับมาให้ฉัน…” ( OWASP , Greshake และคณะ, 2023 )
มาตรการบรรเทาผลกระทบ:
-
คำสั่งระบบแยก
-
ทำความสะอาดเนื้อหาที่ดึงมา
-
ใช้การกำหนดนโยบายตามเครื่องมือ (ไม่ใช่แค่การแจ้งเตือน)
-
ทดสอบด้วยอินพุตที่เป็นปฏิปักษ์ ( เอกสารสรุปแนวทางปฏิบัติของ OWASP , โปรไฟล์ AI เชิงสร้างสรรค์ของ NIST )
ไม่ได้ตั้งใจจะทำให้คุณกลัวนะคะ แค่...รู้ว่าตรงไหนที่พื้นไม้มีเสียงเอี๊ยดอ๊าดมันดีกว่าค่ะ.
12) วิธีเลือกโมเดลพื้นฐานให้เหมาะสมกับกรณีการใช้งานของคุณ 🎛️
หากคุณกำลังเลือกแบบจำลองพื้นฐาน (หรือต่อเติมจากแบบจำลองที่มีอยู่) ให้เริ่มต้นด้วยคำถามเหล่านี้:
ระบุสิ่งที่คุณกำลังสร้าง 🧾
-
เฉพาะข้อความ
-
รูปภาพ
-
เสียง
-
ผสมผสานหลายรูปแบบ
ตั้งเกณฑ์ความถูกต้องของคุณ 📌
หากคุณต้องการความแม่นยำสูง (ด้านการเงิน สุขภาพ กฎหมาย ความปลอดภัย):
-
คุณจะต้องใช้ RAG ( Lewis et al., 2020 )
-
คุณจะต้องต้องการการตรวจสอบยืนยัน
-
คุณอาจต้องการให้มีการตรวจสอบโดยมนุษย์เข้ามาเกี่ยวข้อง (อย่างน้อยบางครั้ง) ( NIST AI RMF 1.0 )
กำหนดเป้าหมายความหน่วงของคุณ ⚡
การสนทนาโต้ตอบได้ทันที การสรุปข้อมูลเป็นชุดอาจช้าลง
หากคุณต้องการการตอบกลับทันที ขนาดของโมเดลและโฮสติ้งมีความสำคัญ
ระบุความต้องการด้านความเป็นส่วนตัวและการปฏิบัติตามกฎระเบียบในแผนที่ 🔐
บางทีมต้องการ:
-
การติดตั้งแบบ On-premise / VPC
-
ไม่มีการเก็บรักษาข้อมูล
-
บันทึกการตรวจสอบที่เข้มงวด
-
การควบคุมการเข้าถึงต่อเอกสาร ( NIST AI RMF 1.0 , NIST Generative AI Profile )
รักษาสมดุลระหว่างงบประมาณและความอดทนของฝ่ายปฏิบัติการ 😅
การโฮสต์ด้วยตนเองช่วยให้ควบคุมได้ แต่ก็เพิ่มความซับซ้อน ส่วน
API ที่ให้บริการโดยผู้ให้บริการนั้นใช้งานง่าย แต่ราคาสูง และปรับแต่งได้น้อยกว่า
เคล็ดลับเล็กๆ น้อยๆ ที่นำไปใช้ได้จริง: เริ่มจากการสร้างต้นแบบจากสิ่งที่ง่ายๆ ก่อน แล้วค่อยพัฒนาให้ซับซ้อนขึ้น การเริ่มต้นด้วยสิ่งที่ "สมบูรณ์แบบ" มักจะทำให้ทุกอย่างช้าลง.
13) โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร? (โมเดลในใจแบบย่อ) 🧠✨
กลับมาที่ประเด็นหลักกันอีกครั้ง โมเดลพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์คืออะไร?
ได้แก่:
-
แบบจำลองขนาดใหญ่ทั่วไปที่ฝึกฝนด้วยข้อมูลหลากหลาย ( NIST , Stanford CRFM )
-
สามารถสร้างเนื้อหา (ข้อความ รูปภาพ เสียง ฯลฯ) ได้ (ตาม มาตรฐาน NIST Generative AI Profile )
-
สามารถปรับใช้ได้กับงานหลายอย่างผ่านการกระตุ้น การปรับแต่ง และการเรียกคืนข้อมูล ( Bommasani et al., 2021 )
-
ชั้นพื้นฐานที่ขับเคลื่อนผลิตภัณฑ์ AI สร้างสรรค์สมัยใหม่ส่วนใหญ่
พวกมันไม่ใช่สถาปัตยกรรมหรือแบรนด์เดียว แต่เป็นหมวดหมู่ของโมเดลที่ทำงานเหมือนแพลตฟอร์ม.
โมเดลพื้นฐานนั้นไม่เหมือนเครื่องคิดเลข แต่เหมือนห้องครัวมากกว่า คุณสามารถทำอาหารได้หลายอย่างในนั้น คุณอาจปิ้งขนมปังไหม้ได้ถ้าไม่ระวัง... แต่ห้องครัวก็ยังใช้งานได้สะดวกอยู่ดี 🍳🔥
14) สรุปและข้อคิดที่ได้ ✅🙂
แบบจำลองพื้นฐานเป็นกลไกที่นำกลับมาใช้ใหม่ได้ของปัญญาประดิษฐ์เชิงสร้างสรรค์ แบบจำลองเหล่านี้ได้รับการฝึกฝนอย่างกว้างขวาง จากนั้นจึงปรับให้เข้ากับงานเฉพาะผ่านการกระตุ้น การปรับแต่ง และการเรียกใช้ ( NIST , Stanford CRFM ) แบบจำลองเหล่านี้อาจน่าทึ่ง ไม่เรียบร้อย ทรงพลัง และบางครั้งก็ดูตลกขบขันไปพร้อมๆ กัน
สรุป:
-
แบบจำลองพื้นฐาน = แบบจำลองพื้นฐานอเนกประสงค์ ( NIST )
-
ปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) = การสร้างเนื้อหา ไม่ใช่แค่การจำแนกประเภท ( ตามโปรไฟล์ปัญญาประดิษฐ์เชิงสร้างสรรค์ของ NIST )
-
วิธีการปรับตัว (การกระตุ้น, RAG, การปรับแต่ง) ทำให้สามารถนำไปใช้ได้จริง ( Lewis et al., 2020 , Hu et al., 2021 )
-
การเลือกโมเดลนั้นเกี่ยวกับการแลกเปลี่ยนข้อดีข้อเสีย ได้แก่ ความแม่นยำ ต้นทุน ความหน่วง ความเป็นส่วนตัว และความปลอดภัย ( NIST AI RMF 1.0 )
ถ้าคุณกำลังสร้างอะไรก็ตามด้วย AI แบบสร้างสรรค์ การเข้าใจแบบจำลองพื้นฐานนั้นไม่ใช่เรื่องที่เลือกได้ เพราะมันคือพื้นทั้งหมดที่อาคารตั้งอยู่…และใช่ บางครั้งพื้นก็อาจโยกเยกได้บ้าง 😅
คำถามที่พบบ่อย
แบบจำลองฐานราก ในแง่ที่เข้าใจง่าย
แบบจำลองพื้นฐาน (Foundation model) คือแบบจำลอง AI ขนาดใหญ่ที่ใช้งานได้ทั่วไป ซึ่งได้รับการฝึกฝนด้วยข้อมูลจำนวนมากเพื่อให้สามารถนำกลับมาใช้ซ้ำได้สำหรับงานหลายอย่าง แทนที่จะสร้างแบบจำลองหนึ่งแบบต่อหนึ่งงาน คุณเริ่มต้นด้วยแบบจำลอง "พื้นฐาน" ที่แข็งแกร่งและปรับแต่งตามความจำเป็น การปรับแต่งนั้นมักเกิดขึ้นผ่านการกระตุ้น การปรับแต่งอย่างละเอียด การดึงข้อมูล (RAG) หรือเครื่องมือต่างๆ แนวคิดหลักคือความครอบคลุมและความสามารถในการควบคุม.
โมเดลพื้นฐานแตกต่างจากโมเดล AI เฉพาะงานแบบดั้งเดิมอย่างไร
AI แบบดั้งเดิมมักฝึกโมเดลแยกต่างหากสำหรับแต่ละงาน เช่น การวิเคราะห์ความรู้สึกหรือการแปล แต่โมเดลพื้นฐานจะกลับรูปแบบนั้น: ฝึกเพียงครั้งเดียว แล้วนำไปใช้ซ้ำในหลายๆ ฟีเจอร์และผลิตภัณฑ์ ซึ่งสามารถลดความซ้ำซ้อนและเร่งการส่งมอบความสามารถใหม่ๆ ได้ ข้อเสียคืออาจคาดเดาได้ยากกว่าซอฟต์แวร์แบบคลาสสิก เว้นแต่จะเพิ่มข้อจำกัดและการทดสอบเข้าไป.
แบบจำลองพื้นฐานในปัญญาประดิษฐ์เชิงสร้างสรรค์
ในปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) โมเดลพื้นฐานคือระบบหลักที่สามารถสร้างเนื้อหาใหม่ๆ เช่น ข้อความ รูปภาพ เสียง โค้ด หรือผลลัพธ์แบบหลายรูปแบบ โมเดลเหล่านี้ไม่ได้จำกัดอยู่แค่การติดป้ายหรือการจำแนกประเภทเท่านั้น แต่ยังสร้างผลลัพธ์ที่คล้ายกับงานที่มนุษย์สร้างขึ้น เนื่องจากเรียนรู้รูปแบบกว้างๆ ในระหว่างการฝึกฝนเบื้องต้น จึงสามารถจัดการกับประเภทและรูปแบบของคำถามได้หลากหลาย พวกมันคือ "ชั้นพื้นฐาน" ที่อยู่เบื้องหลังประสบการณ์การสร้างสรรค์สมัยใหม่ส่วนใหญ่.
โมเดลพื้นฐานเรียนรู้ได้อย่างไรในระหว่างการฝึกอบรมเบื้องต้น
แบบจำลองพื้นฐานภาษาส่วนใหญ่เรียนรู้โดยการทำนายโทเค็น เช่น คำถัดไปหรือคำที่หายไปในข้อความ เป้าหมายง่ายๆ นี้ผลักดันให้พวกมันซึมซับโครงสร้างต่างๆ เช่น ไวยากรณ์ รูปแบบ และรูปแบบการอธิบายทั่วไป นอกจากนี้พวกมันยังสามารถดูดซับความรู้เกี่ยวกับโลกได้มากมาย แม้ว่าจะไม่น่าเชื่อถือเสมอไปก็ตาม ผลลัพธ์ที่ได้คือการแสดงภาพรวมที่แข็งแกร่งซึ่งคุณสามารถนำไปใช้ในงานเฉพาะด้านได้ในภายหลัง.
ความแตกต่างระหว่างการแจ้งเตือน การปรับแต่งอย่างละเอียด LoRA และ RAG
การกระตุ้น (Prompting) เป็นวิธีที่เร็วที่สุดในการควบคุมพฤติกรรมโดยใช้คำสั่ง แต่ก็อาจมีความเปราะบาง การปรับแต่งอย่างละเอียด (Fine-tuning) คือการฝึกฝนโมเดลเพิ่มเติมด้วยตัวอย่างของคุณเพื่อให้ได้พฤติกรรมที่สม่ำเสมอมากขึ้น แต่จะเพิ่มต้นทุนและการบำรุงรักษา LoRA/อะแดปเตอร์เป็นวิธีการปรับแต่งอย่างละเอียดที่เบากว่า มักจะมีราคาถูกกว่า และมีความยืดหยุ่นมากกว่า RAG จะดึงเอกสารที่เกี่ยวข้องและให้โมเดลตอบคำถามโดยใช้บริบทนั้น ซึ่งช่วยให้โมเดลมีความสดใหม่และมีพื้นฐานที่มั่นคง.
เมื่อใดควรใช้ RAG แทนการปรับแต่งอย่างละเอียด
RAG มักเป็นตัวเลือกที่ดีเมื่อคุณต้องการคำตอบที่อิงจากเอกสารปัจจุบันหรือฐานความรู้ภายในของคุณ มันสามารถลดการ "เดา" โดยการป้อนบริบทที่เกี่ยวข้องให้กับโมเดลในขณะสร้างคำตอบ การปรับแต่งอย่างละเอียดจะเหมาะสมกว่าเมื่อคุณต้องการรูปแบบที่สอดคล้องกัน การใช้ถ้อยคำในโดเมน หรือพฤติกรรมที่การถามไม่สามารถสร้างได้อย่างน่าเชื่อถือ ระบบที่ใช้งานได้จริงหลายระบบจึงผสมผสานการถาม + RAG ก่อนที่จะทำการปรับแต่งอย่างละเอียด.
วิธีลดอาการประสาทหลอนและรับคำตอบที่น่าเชื่อถือมากขึ้น
แนวทางทั่วไปคือการสร้างแบบจำลองโดยใช้การดึงข้อมูล (RAG) เพื่อให้แบบจำลองนั้นอยู่ใกล้เคียงกับบริบทที่ให้มา นอกจากนี้ คุณยังสามารถจำกัดผลลัพธ์ด้วยสคีมา กำหนดให้มีการเรียกใช้เครื่องมือสำหรับขั้นตอนสำคัญ และเพิ่มคำแนะนำ "ห้ามเดา" อย่างชัดเจน เลเยอร์การตรวจสอบก็มีความสำคัญเช่นกัน เช่น การตรวจสอบกฎ การตรวจสอบข้าม และการตรวจสอบโดยมนุษย์สำหรับกรณีการใช้งานที่มีความเสี่ยงสูง ควรปฏิบัติต่อแบบจำลองเหมือนเป็นตัวช่วยเชิงความน่าจะเป็น ไม่ใช่แหล่งข้อมูลที่ถูกต้องโดยค่าเริ่มต้น.
ความเสี่ยงที่ใหญ่ที่สุดของแบบจำลองฐานรากในการผลิต
ความเสี่ยงทั่วไป ได้แก่ ภาพหลอน รูปแบบที่ลำเอียงหรือเป็นอันตรายจากข้อมูลการฝึกอบรม และการรั่วไหลของข้อมูลส่วนตัวหากจัดการข้อมูลที่ละเอียดอ่อนอย่างไม่เหมาะสม ระบบยังอาจเสี่ยงต่อการถูกแทรกแซงโดยไม่ได้รับอนุญาต โดยเฉพาะอย่างยิ่งเมื่อแบบจำลองอ่านข้อความที่ไม่น่าเชื่อถือจากเอกสารหรือเนื้อหาบนเว็บ มาตรการลดความเสี่ยงโดยทั่วไป ได้แก่ การกำกับดูแล การทดสอบเจาะระบบ การควบคุมการเข้าถึง รูปแบบการแจ้งเตือนที่ปลอดภัยยิ่งขึ้น และการประเมินอย่างเป็นระบบ ควรวางแผนรับมือกับความเสี่ยงเหล่านี้ตั้งแต่เนิ่นๆ แทนที่จะแก้ไขในภายหลัง.
การฉีดแบบทันทีและเหตุใดจึงมีความสำคัญในระบบ RAG
การโจมตีแบบ Prompt injection คือการที่ข้อความที่ไม่น่าเชื่อถือพยายามแทรกแซงคำสั่ง เช่น “ละเว้นคำสั่งก่อนหน้า” หรือ “เปิดเผยความลับ” ใน RAG เอกสารที่ดึงมาได้อาจมีคำสั่งที่เป็นอันตรายเหล่านั้น และโมเดลอาจปฏิบัติตามคำสั่งเหล่านั้นหากคุณไม่ระมัดระวัง วิธีการทั่วไปคือการแยกคำสั่งของระบบ ทำความสะอาดเนื้อหาที่ดึงมา และใช้หลักการตามเครื่องมือแทนที่จะใช้แค่ข้อความแจ้งเตือนเพียงอย่างเดียว การทดสอบด้วยข้อมูลป้อนเข้าที่เป็นอันตรายจะช่วยให้เห็นจุดอ่อนได้ชัดเจนขึ้น.
วิธีการเลือกโมเดลพื้นฐานให้เหมาะสมกับกรณีการใช้งานของคุณ
เริ่มต้นด้วยการกำหนดสิ่งที่คุณต้องการสร้าง: ข้อความ รูปภาพ เสียง โค้ด หรือเอาต์พุตแบบหลายรูปแบบ จากนั้นกำหนดเกณฑ์ความถูกต้องแม่นยำ - โดเมนที่มีความแม่นยำสูงมักต้องการการตรวจสอบความถูกต้อง (RAG) การตรวจสอบ และบางครั้งก็ต้องการการตรวจสอบจากมนุษย์ พิจารณาความหน่วงและต้นทุน เพราะโมเดลที่แข็งแกร่งแต่ช้าหรือมีราคาแพงอาจใช้งานได้ยาก สุดท้าย จับคู่ความต้องการด้านความเป็นส่วนตัวและการปฏิบัติตามกฎระเบียบกับตัวเลือกและการควบคุมการใช้งาน.
เอกสารอ้างอิง
-
สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - แบบจำลองพื้นฐาน (คำศัพท์ในพจนานุกรม) - csrc.nist.gov
-
สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - NIST AI 600-1: โปรไฟล์ AI เชิงสร้างสรรค์ - nvlpubs.nist.gov
-
สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - NIST AI 100-1: กรอบการบริหารความเสี่ยงด้านปัญญาประดิษฐ์ (AI RMF 1.0) - nvlpubs.nist.gov
-
ศูนย์วิจัยแบบจำลองฐานรากแห่งมหาวิทยาลัยสแตนฟอร์ด (CRFM) - รายงาน - crfm.stanford.edu
-
arXiv - เกี่ยวกับโอกาสและความเสี่ยงของแบบจำลองพื้นฐาน (Bommasani et al., 2021) - arxiv.org
-
arXiv - แบบจำลองภาษาเรียนรู้ด้วยจำนวนครั้งน้อย (Brown et al., 2020) - arxiv.org
-
arXiv - การสร้างผลลัพธ์เสริมการค้นหาสำหรับงาน NLP ที่เน้นความรู้ (Lewis et al., 2020) - arxiv.org
-
arXiv - LoRA: การปรับตัวของแบบจำลองภาษาขนาดใหญ่ด้วยอันดับต่ำ (Hu et al., 2021) - arxiv.org
-
arXiv - BERT: การฝึกฝนเบื้องต้นของ Deep Bidirectional Transformers เพื่อการทำความเข้าใจภาษา (Devlin et al., 2018) - arxiv.org
-
arXiv - โมเดลภาษาที่ปรับแต่งอย่างละเอียดคือผู้เรียนรู้แบบ Zero-Shot (Wei et al., 2021) - arxiv.org
-
ACM Digital Library - การสำรวจปรากฏการณ์ภาพหลอนในการสร้างภาษาธรรมชาติ (Ji et al., 2023) - dl.acm.org
-
arXiv - การเรียนรู้แบบจำลองภาพที่ถ่ายโอนได้จากการกำกับดูแลภาษาธรรมชาติ (Radford et al., 2021) - arxiv.org
-
arXiv - การลดสัญญาณรบกวนในแบบจำลองความน่าจะเป็นของการแพร่กระจาย (Ho et al., 2020) - arxiv.org
-
arXiv - การสังเคราะห์ภาพความละเอียดสูงด้วยแบบจำลองการแพร่กระจายแฝง (Rombach et al., 2021) - arxiv.org
-
arXiv - การค้นหาข้อความหนาแน่นสำหรับการตอบคำถามในโดเมนเปิด (Karpukhin et al., 2020) - arxiv.org
-
arXiv - ห้องสมุด Faiss (Douze et al., 2024) - arxiv.org
-
OpenAI - ขอแนะนำ Whisper - openai.com
-
arXiv - การสังเคราะห์ TTS แบบธรรมชาติโดยการปรับสภาพ WaveNet บนการทำนายสเปกโตรแกรม Mel (Shen et al., 2017) - arxiv.org
-
ศูนย์ความปลอดภัยและเทคโนโลยีเกิดใหม่ (CSET) มหาวิทยาลัยจอร์จทาวน์ - พลังอันน่าทึ่งของการทำนายคำถัดไป: คำอธิบายเกี่ยวกับแบบจำลองภาษาขนาดใหญ่ (ตอนที่ 1) - cset.georgetown.edu
-
USENIX - การดึงข้อมูลการฝึกอบรมจากแบบจำลองภาษาขนาดใหญ่ (Carlini et al., 2021) - usenix.org
-
OWASP - LLM01: Prompt Injection - genai.owasp.org
-
arXiv - มากกว่าที่คุณขอ: การวิเคราะห์อย่างครอบคลุมเกี่ยวกับภัยคุกคามการแทรกข้อความแจ้งเตือนแบบใหม่ต่อแบบจำลองภาษาขนาดใหญ่ที่บูรณาการกับแอปพลิเคชัน (Greshake et al., 2023) - arxiv.org
-
ชุดเอกสารสรุป OWASP - เอกสารสรุปการป้องกันการโจมตีแบบ Prompt Injection สำหรับหลักสูตร LLM - cheatsheetseries.owasp.org