ปัญญาประดิษฐ์ (AI) ทำงานอย่างไร?

ปัญญาประดิษฐ์ (AI) ทำงานอย่างไร?

ปัญญาประดิษฐ์อาจดูเหมือนมายากลที่ทุกคนพยักหน้าเห็นด้วยไปพร้อมๆ กับคิดในใจว่า…เดี๋ยวก่อน มันทำงานยังไงกัน แน่ ? ข่าวดีก็คือ เราจะไขความลับของมันโดยไม่พูดจาไร้สาระ เน้นความเข้าใจง่าย และใช้ตัวอย่างเปรียบเทียบที่ไม่สมบูรณ์แบบแต่ก็ช่วยให้เข้าใจได้ง่ายขึ้น หากคุณต้องการแค่ใจความสำคัญ ให้ข้ามไปดูคำตอบสั้นๆ ด้านล่าง แต่เอาจริงๆ แล้ว รายละเอียดต่างๆ นั่นแหละที่จะทำให้คุณเข้าใจอย่างถ่องแท้ 💡

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 GPT ย่อมาจากอะไร
คำอธิบายสั้นๆ เกี่ยวกับคำย่อ GPT และความหมายของมัน.

🔗 ปัญญาประดิษฐ์ (AI) ได้รับข้อมูลมาจากไหน
แหล่งข้อมูลที่ AI ใช้ในการเรียนรู้ ฝึกฝน และตอบคำถาม.

🔗 วิธีการนำ AI มาใช้ในธุรกิจของคุณ
ขั้นตอน เครื่องมือ และกระบวนการทำงานที่เป็นรูปธรรมเพื่อบูรณาการ AI อย่างมีประสิทธิภาพ.

🔗 วิธีเริ่มต้นบริษัท AI
จากแนวคิดสู่การเปิดตัว: การตรวจสอบความถูกต้อง การระดมทุน ทีมงาน และการดำเนินการ.


AI ทำงานอย่างไร? คำตอบในหนึ่งนาที ⏱️

AI เรียนรู้รูปแบบจากข้อมูลเพื่อทำนายหรือสร้างเนื้อหา โดยไม่จำเป็นต้องมีกฎที่เขียนด้วยมือ ระบบจะรับตัวอย่าง วัดความผิดพลาดผ่านฟังก์ชันการสูญเสีย และปรับพารามิเตอร์ภายใน เพื่อ ให้มีความผิดพลาดน้อยลงในแต่ละครั้ง ทำซ้ำไปเรื่อยๆ จนกว่าจะดีขึ้น เมื่อทำซ้ำมากพอ ระบบก็จะใช้งานได้จริง เรื่องราวก็เหมือนกันไม่ว่าคุณจะจำแนกอีเมล ตรวจหาเนื้องอก เล่นเกมกระดาน หรือเขียนไฮกุ สำหรับพื้นฐานภาษาที่เข้าใจง่ายเกี่ยวกับ "การเรียนรู้ของเครื่อง" ภาพรวมของ IBM นั้นยอดเยี่ยม [1]

ปัญญาประดิษฐ์สมัยใหม่ส่วนใหญ่คือการเรียนรู้ของเครื่องจักร เวอร์ชันที่ง่ายที่สุดคือ ป้อนข้อมูลเข้าไป เรียนรู้การจับคู่จากข้อมูลนำเข้าไปยังข้อมูลส่งออก จากนั้นจึงนำไปใช้กับสิ่งใหม่ๆ ไม่ใช่คณิตศาสตร์มหัศจรรย์ แต่เป็นการคำนวณ และถ้าพูดกันตามตรง ก็มีศิลปะอยู่บ้างเล็กน้อย.


“ปัญญาประดิษฐ์ทำงานอย่างไร?” ✅

เมื่อผู้คนค้นหาใน Google ด้วยคำว่า "AI ทำงานอย่างไร?" พวกเขามักจะต้องการทราบสิ่งต่อไปนี้:

  • แบบจำลองทางจิตที่นำกลับมาใช้ใหม่ได้ซึ่งพวกเขาสามารถไว้วางใจได้

  • แผนผังแสดงประเภทการเรียนรู้หลัก ๆ เพื่อให้ศัพท์เฉพาะทางไม่น่ากลัวอีกต่อไป

  • การแอบดูโครงสร้างภายในของโครงข่ายประสาทเทียมโดยไม่หลงทาง

  • ทำไมหม้อแปลงไฟฟ้าถึงดูเหมือนจะครองโลกอยู่ในตอนนี้

  • กระบวนการทำงานที่เป็นรูปธรรมตั้งแต่ข้อมูลไปจนถึงการใช้งานจริง

  • ตารางเปรียบเทียบแบบย่อที่คุณสามารถแคปหน้าจอเก็บไว้ได้

  • หลักเกณฑ์ด้านจริยธรรม อคติ และความน่าเชื่อถือที่ไม่ใช่การคลุมเครือ

นี่แหละคือสิ่งที่คุณจะได้เจอที่นี่ ถ้าฉันเดินเตร็ดเตร่ ก็เพราะตั้งใจทำแบบนั้นแหละ เช่น เลือกเส้นทางชมวิวสวยๆ เพื่อจะได้จำถนนหนทางได้ดีขึ้นในครั้งต่อไป 🗺️


ส่วนประกอบหลักของระบบ AI ส่วนใหญ่ 🧪

ลองนึกภาพระบบ AI เหมือนกับห้องครัว มีส่วนประกอบสี่อย่างที่ปรากฏขึ้นซ้ำแล้วซ้ำเล่า:

  1. ข้อมูล — ตัวอย่างที่มีหรือไม่มีป้ายกำกับ

  2. แบบจำลอง — ฟังก์ชันทางคณิตศาสตร์ที่มีพารามิเตอร์ที่ปรับได้

  3. วัตถุประสงค์ — ฟังก์ชันความสูญเสียที่ใช้วัดว่าการเดานั้นแย่แค่ไหน

  4. การปรับให้เหมาะสม — อัลกอริทึมที่ปรับเปลี่ยนพารามิเตอร์เพื่อลดการสูญเสีย

ในการเรียนรู้เชิงลึก การกระตุ้นนั้นมักจะ เป็นการไล่ระดับลง พร้อมกับ การแพร่กระจายย้อนกลับ ซึ่งเป็นวิธีที่มีประสิทธิภาพในการหาว่าปุ่มใดบนแผงควบคุมเสียงขนาดใหญ่ส่งเสียงดัง แล้วจึงปรับลดลงเล็กน้อย [2]

ตัวอย่างย่อ: เราเปลี่ยนตัวกรองสแปมแบบใช้กฎที่ค่อนข้างเปราะบางด้วยโมเดลแบบมีผู้กำกับดูแลขนาดเล็ก หลังจากวนลูปการติดป้ายกำกับ → การวัดผล → การอัปเดตเป็นเวลาหนึ่งสัปดาห์ จำนวนการแจ้งเตือนผิดพลาดลดลงและจำนวนคำขอความช่วยเหลือลดลง ไม่มีอะไรซับซ้อน เพียงแค่กำหนดเป้าหมายให้ชัดเจนขึ้น (ความแม่นยำในการแยกอีเมลที่ไม่ใช่สแปม) และการเพิ่มประสิทธิภาพที่ดีขึ้น


รูปแบบการเรียนรู้โดยสังเขป 🎓

  • การเรียนรู้แบบมีผู้กำกับดูแล
    คุณให้คู่ข้อมูลเข้า-ข้อมูลออก (รูปภาพที่มีป้ายกำกับ อีเมลที่ทำเครื่องหมายว่าเป็นสแปม/ไม่ใช่สแปม) โมเดลจะเรียนรู้ข้อมูลเข้า → ข้อมูลออก เป็นแกนหลักของระบบปฏิบัติจริงหลายระบบ [1]

  • การเรียนรู้แบบไม่ใช้การกำกับดูแล (Unsupervised learning)
    ไม่มีการติดป้ายกำกับ ค้นหาโครงสร้าง เช่น กลุ่มข้อมูล การบีอัดข้อมูล ปัจจัยแฝง เหมาะสำหรับการสำรวจหรือการฝึกฝนเบื้องต้น

  • การเรียนรู้แบบกำกับตนเอง
    โมเดลสร้างป้ายกำกับของตัวเอง (ทำนายคำถัดไป หรือส่วนของภาพที่หายไป) เปลี่ยนข้อมูลดิบให้เป็นสัญญาณการฝึกฝนในระดับใหญ่ ซึ่งเป็นพื้นฐานของโมเดลภาษาและการมองเห็นสมัยใหม่

  • การเรียนรู้แบบเสริมแรง
    ตัวแทนจะทำการกระทำ รวบรวม รางวัล และเรียนรู้นโยบายที่เพิ่มรางวัลสะสมให้สูงสุด หากคำว่า “ฟังก์ชันค่า” “นโยบาย” และ “การเรียนรู้ความแตกต่างเชิงเวลา” คุ้นหู นี่คือบ้านของพวกมัน [5]

ใช่แล้ว ในทางปฏิบัติ ขอบเขตของหมวดหมู่ต่างๆ ค่อนข้างคลุมเครือ วิธีการแบบผสมผสานเป็นเรื่องปกติ ชีวิตจริงนั้นยุ่งเหยิง วิศวกรรมที่ดีจึงต้องปรับตัวให้เข้ากับสถานการณ์นั้นๆ.


ภายในโครงข่ายประสาทเทียมที่ไร้ปัญหาปวดหัว 🧠

โครงข่ายประสาทเทียมประกอบด้วยชั้นของหน่วยทางคณิตศาสตร์ขนาดเล็ก (เซลล์ประสาท) แต่ละชั้นจะแปลงอินพุตด้วยน้ำหนัก ไบแอส และฟังก์ชันไม่เชิงเส้นแบบยืดหยุ่น เช่น ReLU หรือ GELU ชั้นแรกๆ จะเรียนรู้คุณลักษณะง่ายๆ ส่วนชั้นที่ลึกกว่าจะเข้ารหัสสิ่งที่เป็นนามธรรม "ความมหัศจรรย์" – ถ้าเราจะเรียกมันว่าอย่างนั้น – คือ การประกอบฟังก์ชันเข้าด้วยกัน : การเชื่อมต่อฟังก์ชันเล็กๆ เข้าด้วยกันจะทำให้เราสามารถจำลองปรากฏการณ์ที่ซับซ้อนอย่างมากได้

วงจรฝึกซ้อม, เฉพาะเสียงสั่นสะเทือน:

  • เดา → วัดข้อผิดพลาด → ระบุสาเหตุโดยใช้การแพร่กระจายย้อนกลับ → ปรับน้ำหนัก → ทำซ้ำ.

ทำเช่นนี้ไปเรื่อยๆ เหมือนกับนักเต้นที่เงอะงะที่ค่อยๆ พัฒนาฝีมือในแต่ละเพลง โมเดลจะหยุดเหยียบเท้าคุณ สำหรับบท backprop ที่เป็นมิตรและเข้มงวด โปรดดู [2].


เหตุใดทรานส์ฟอร์เมอร์จึงได้รับความนิยม และ "ความสนใจ" นั้นหมายความว่าอย่างไรกันแน่ 🧲

ทรานสฟอร์เมอร์ใช้ กลไกการให้ความสนใจตนเอง (self-attention) เพื่อประเมินว่าส่วนใดของข้อมูลขาเข้ามีความสำคัญต่อกันในคราวเดียว แทนที่จะอ่านประโยคจากซ้ายไปขวาอย่างเคร่งครัดเหมือนรุ่นเก่า ทรานสฟอร์เมอร์สามารถมองไปทุกทิศทางและประเมินความสัมพันธ์แบบไดนามิกได้ เหมือนกับการสแกนห้องที่เต็มไปด้วยผู้คนเพื่อดูว่าใครกำลังพูดกับใคร

การออกแบบนี้ละทิ้งการเกิดซ้ำและการแปลงแบบคอนโวลูชันสำหรับการสร้างแบบจำลองลำดับ ทำให้สามารถประมวลผลแบบขนานได้อย่างมหาศาลและปรับขนาดได้อย่างยอดเยี่ยม บทความที่เริ่มต้นเรื่องนี้ - Attention Is All You Need - ได้วางโครงสร้างสถาปัตยกรรมและผลลัพธ์ไว้ [3]

กลไก Self-attention ในบรรทัดเดียว: สร้าง query , key และ value สำหรับแต่ละโทเค็น คำนวณความคล้ายคลึงกันเพื่อรับน้ำหนักของ attention และผสมผสานค่าต่างๆ ตามความเหมาะสม พิถีพิถันในรายละเอียด แต่สง่างามในแก่นแท้

ข้อควรระวัง: โครงข่ายประสาทเทียมแบบ Transformer นั้นครองตลาด แต่ไม่ได้ผูกขาด โครงข่ายประสาทเทียมแบบ CNN, RNN และโครงข่ายประสาทเทียมแบบ Tree Ensemble ยังคงได้เปรียบในบางประเภทข้อมูลและภายใต้ข้อจำกัดด้านความหน่วง/ต้นทุน เลือกสถาปัตยกรรมให้เหมาะสมกับงาน ไม่ใช่ตามกระแส


AI ทำงานอย่างไร? ขั้นตอนการทำงานจริงที่คุณจะได้ใช้ 🛠️

  1. การกำหนดปัญหา
    คุณกำลังคาดการณ์หรือสร้างอะไร และจะวัดความสำเร็จได้อย่างไร?

  2. ข้อมูล
    ติดป้ายกำกับหากจำเป็น ทำความสะอาด และแบ่งข้อมูล คาดการณ์ค่าที่หายไปและกรณีพิเศษต่างๆ

  3. การสร้างแบบจำลอง
    ด้วยสิ่งง่ายๆ แบบจำลองพื้นฐาน (เช่น การถดถอยโลจิสติกส์ การเพิ่มประสิทธิภาพแบบไล่ระดับ หรือทรานส์ฟอร์เมอร์ขนาดเล็ก) มักจะดีกว่าแบบจำลองที่ซับซ้อนเกินไป

  4. การฝึกฝน
    เลือกเป้าหมาย เลือกตัวปรับแต่ง ตั้งค่าพารามิเตอร์ ทำซ้ำ

  5. การประเมินผล ให้
    ใช้การทดสอบแบบแยกกลุ่ม การตรวจสอบแบบไขว้ และตัวชี้วัดที่เชื่อมโยงกับเป้าหมายที่แท้จริงของคุณ (ความแม่นยำ, F1, AUROC, BLEU, ค่าความซับซ้อน, เวลาแฝง)

  6. การใช้งาน:
    ให้บริการผ่าน API หรือฝังในแอปพลิเคชัน ติดตามความหน่วง ค่าใช้จ่าย และปริมาณงาน

  7. การตรวจสอบและการกำกับดูแล
    สังเกตการเบี่ยงเบน ความเป็นธรรม ความแข็งแกร่ง และความปลอดภัย กรอบการจัดการความเสี่ยง AI ของ NIST (GOVERN, MAP, MEASURE, MANAGE) เป็นรายการตรวจสอบที่ใช้งานได้จริงสำหรับระบบที่น่าเชื่อถือตั้งแต่ต้นจนจบ [4]

กรณีศึกษาขนาดเล็ก: โมเดลจำลองการมองเห็นทำงานได้ดีเยี่ยมในห้องแล็บ แต่กลับทำงานผิดพลาดในภาคสนามเมื่อสภาพแสงเปลี่ยนไป การตรวจสอบพบความคลาดเคลื่อนในฮิสโตแกรมอินพุต การปรับปรุงเล็กน้อยและการปรับแต่งอย่างละเอียดอ่อนช่วยฟื้นฟูประสิทธิภาพได้ น่าเบื่อไหม? ใช่ ได้ผลไหม? ก็ใช่เช่นกัน


ตารางเปรียบเทียบ - วิธีการต่างๆ เหมาะสำหรับใคร ค่าใช้จ่ายโดยประมาณ และเหตุผลที่ได้ผล 📊

ไม่สมบูรณ์แบบโดยเจตนา: การใช้ถ้อยคำที่ไม่สม่ำเสมอเล็กน้อยช่วยให้รู้สึกถึงความเป็นมนุษย์.

เข้าใกล้ กลุ่มเป้าหมายที่เหมาะสม ราคาค่อนข้างสูง เหตุผลที่มันได้ผล / หมายเหตุ
การเรียนรู้ภายใต้การดูแล นักวิเคราะห์, ทีมผลิตภัณฑ์ ต่ำ-ปานกลาง การแมปอินพุตโดยตรง→ป้ายกำกับ ดีมากเมื่อมีป้ายกำกับอยู่แล้ว เป็นแกนหลักของระบบที่ใช้งานจริงจำนวนมาก [1].
ไร้การควบคุมดูแล นักสำรวจข้อมูล, ฝ่ายวิจัยและพัฒนา ต่ำ ค้นหาคลัสเตอร์/การบีบอัด/ปัจจัยแฝง - เหมาะสำหรับการค้นพบและการฝึกฝนเบื้องต้น.
ควบคุมตนเอง ทีมแพลตฟอร์ม ปานกลาง สร้างป้ายกำกับของตัวเองจากข้อมูลดิบ - ปรับขนาดได้ด้วยการประมวลผลและข้อมูล.
การเรียนรู้แบบเสริมแรง วิทยาการหุ่นยนต์ การวิจัยปฏิบัติการ ปานกลาง-สูง เรียนรู้นโยบายจากสัญญาณรางวัล อ่าน Sutton & Barto สำหรับหลักเกณฑ์ [5].
ทรานส์ฟอร์เมอร์ส NLP, วิชั่น, มัลติโมดอล ปานกลาง-สูง Self-attention จับการพึ่งพาระยะไกลและขนานกันได้ดี ดูเอกสารต้นฉบับ [3].
ML แบบคลาสสิก (แบบต้นไม้) แอปธุรกิจแบบตาราง ต่ำ การกำหนดค่าพื้นฐานที่ราคาถูก รวดเร็ว และมักจะแม่นยำอย่างน่าประหลาดใจสำหรับข้อมูลที่มีโครงสร้าง.
ตามกฎเกณฑ์/เชิงสัญลักษณ์ การปฏิบัติตามกฎเกณฑ์ที่แน่นอน ต่ำมาก ตรรกะที่โปร่งใส มีประโยชน์ในระบบไฮบริดเมื่อคุณต้องการตรวจสอบได้.
การประเมินและความเสี่ยง ทุกคน แตกต่างกันไป ใช้ GORUN-MAP-MEASURE-MANAGE ของ NIST เพื่อรักษาความปลอดภัยและประโยชน์ใช้สอย [4].

ราคาโดยประมาณ = การติดป้ายข้อมูล + การประมวลผล + บุคลากร + การให้บริการ.


เจาะลึกบทที่ 1 - ฟังก์ชันการสูญเสีย เกรเดียนต์ และขั้นตอนเล็กๆ ที่เปลี่ยนแปลงทุกสิ่ง 📉

ลองนึกภาพการหาเส้นตรงเพื่อทำนายราคาบ้านจากขนาด คุณเลือกพารามิเตอร์ (w) และ (b) ทำนาย (\hat{y} = wx + b) และวัดความคลาดเคลื่อนด้วยค่าความสูญเสียกำลังสองเฉลี่ย ค่าความชันจะบอกคุณว่าควรปรับ (w) และ (b) ไปในทิศทางใดเพื่อลดค่าความสูญเสียได้เร็วที่สุด เหมือนกับการเดินลงเนินในหมอกโดยอาศัยความรู้สึกว่าพื้นลาดเอียงไปทางไหน อัปเดตหลังจากแต่ละชุดข้อมูล และเส้นตรงของคุณจะเข้าใกล้ความเป็นจริงมากขึ้น.

ในโครงข่ายลึก มันก็เป็นเพลงเดียวกันแต่มีวงดนตรีที่ใหญ่กว่า Backprop คำนวณว่าพารามิเตอร์ของแต่ละเลเยอร์ส่งผลต่อข้อผิดพลาดสุดท้ายอย่างไรอย่างมีประสิทธิภาพ ดังนั้นคุณจึงสามารถปรับปุ่มนับล้าน (หรือพันล้าน) ปุ่มไปในทิศทางที่ถูกต้องได้ [2]

ข้อสังเกตสำคัญ:

  • ความสูญเสียเป็นสิ่งที่ก่อร่างสร้างภูมิทัศน์.

  • ความลาดชันคือเข็มทิศของคุณ.

  • อัตราการเรียนรู้เปรียบเสมือนขนาดของก้าวเดิน ถ้าใหญ่เกินไปคุณก็จะทรงตัวไม่อยู่ ถ้าเล็กเกินไปคุณก็จะง่วงนอน.

  • การใช้ Regularization จะช่วยป้องกันไม่ให้คุณจดจำชุดข้อมูลฝึกฝนได้เหมือนนกแก้วที่จำได้แม่นยำแต่ไม่เข้าใจเนื้อหา.


เจาะลึกบทที่ 2 - การฝังข้อมูล การกระตุ้น และการดึงข้อมูล 🧭

การฝังข้อมูล (Embeddings) คือการแมปคำ รูปภาพ หรือสิ่งของลงในพื้นที่เวกเตอร์ โดยที่สิ่งที่มีลักษณะคล้ายกันจะอยู่ใกล้กัน ซึ่งช่วยให้คุณสามารถ:

  • ค้นหาข้อความที่มีความหมายคล้ายคลึงกัน

  • การค้นหาที่มีประสิทธิภาพซึ่งเข้าใจความหมาย

  • เสียบปลั๊ก การสร้างข้อความเสริมด้วยการดึงข้อมูล (RAG) เพื่อให้แบบจำลองภาษาสามารถค้นหาข้อเท็จจริงก่อนที่จะเขียน

การให้ข้อเสนอแนะ คือวิธีการชี้นำโมเดลสร้างข้อมูล – อธิบายงาน ให้ตัวอย่าง กำหนดข้อจำกัด นึกภาพเหมือนกับการเขียนข้อกำหนดโดยละเอียดให้กับเด็กฝึกงานที่ทำงานเร็วมาก: กระตือรือร้น และบางครั้งก็มั่นใจเกินไป

เคล็ดลับเชิงปฏิบัติ: หากโมเดลของคุณเกิดอาการประสาทหลอน ให้เพิ่มการดึงข้อมูล กระชับคำถาม หรือประเมินด้วยตัวชี้วัดที่เป็นรูปธรรมแทนที่จะใช้ "ความรู้สึก"


เจาะลึกครั้งที่ 3 - การประเมินผลโดยปราศจากอคติ 🧪

การประเมินที่ดีมักรู้สึกน่าเบื่อ ซึ่งนั่นแหละคือจุดประสงค์หลัก.

  • ใช้ชุดทดสอบที่ล็อกไว้.

  • เลือกตัวชี้วัดที่สะท้อนถึงปัญหาของผู้ใช้งาน.

  • ทำการทดสอบด้วยวิธี Ablation เพื่อให้รู้ว่าอะไรคือสาเหตุที่ช่วยได้จริง.

  • บันทึกข้อผิดพลาดด้วยตัวอย่างจริงที่ซับซ้อน.

ในการผลิต การตรวจสอบคือการประเมินที่ไม่เคยหยุดนิ่ง การเปลี่ยนแปลงเกิดขึ้นได้ มีคำศัพท์ใหม่ๆ ปรากฏขึ้น เซ็นเซอร์ได้รับการปรับเทียบใหม่ และโมเดลของเมื่อวานก็เลื่อนไปเล็กน้อย กรอบงาน NIST เป็นเอกสารอ้างอิงเชิงปฏิบัติสำหรับการจัดการความเสี่ยงและการกำกับดูแลอย่างต่อเนื่อง ไม่ใช่เอกสารนโยบายที่จะเก็บไว้เฉยๆ [4].


หมายเหตุเกี่ยวกับจริยธรรม อคติ และความน่าเชื่อถือ ⚖️

ระบบ AI สะท้อนข้อมูลและบริบทการใช้งาน ซึ่งนำมาซึ่งความเสี่ยง: อคติ ข้อผิดพลาดที่ไม่เท่ากันในแต่ละกลุ่ม ความเปราะบางภายใต้การเปลี่ยนแปลงการกระจาย การใช้งานอย่างมีจริยธรรมไม่ใช่ทางเลือก แต่เป็นสิ่งที่จำเป็น NIST ชี้ให้เห็นถึงแนวปฏิบัติที่เป็นรูปธรรม: บันทึกความเสี่ยงและผลกระทบ วัดอคติที่เป็นอันตราย สร้างระบบสำรอง และให้มนุษย์มีส่วนร่วมในกระบวนการเมื่อมีความเสี่ยงสูง [4].

ขั้นตอนที่เป็นรูปธรรมที่ช่วยได้:

  • รวบรวมข้อมูลที่หลากหลายและเป็นตัวแทน

  • วัดประสิทธิภาพในกลุ่มประชากรย่อยต่างๆ

  • เอกสารแบบจำลองบัตรและแผ่นข้อมูล

  • เพิ่มการกำกับดูแลโดยมนุษย์ในกรณีที่มีความเสี่ยงสูง

  • ออกแบบระบบป้องกันความผิดพลาดเมื่อระบบอยู่ในสภาวะไม่แน่นอน


AI ทำงานอย่างไร? ในฐานะแบบจำลองทางความคิด คุณสามารถนำกลับมาใช้ใหม่ได้ 🧩

รายการตรวจสอบขนาดกะทัดรัดที่คุณสามารถนำไปใช้กับระบบ AI เกือบทุกระบบได้:

  • จุดประสงค์คืออะไร? การทำนาย การจัดอันดับ การสร้าง หรือการควบคุม?

  • สัญญาณการเรียนรู้มาจากไหน? ป้ายกำกับ งานที่ผู้เรียนควบคุมตนเองทำ หรือรางวัล?

  • ใช้สถาปัตยกรรมแบบใด? โมเดลเชิงเส้น, กลุ่มต้นไม้, CNN, RNN, ทรานส์ฟอร์เมอร์ [3]?

  • ปรับให้เหมาะสมอย่างไร? การเปลี่ยนแปลงการลดระดับความชัน/การแพร่กระจายย้อนกลับ [2]?

  • ระบบข้อมูลแบบไหน? ชุดข้อมูลที่มีป้ายกำกับขนาดเล็ก, ข้อความที่ไม่มีป้ายกำกับจำนวนมหาศาล, หรือสภาพแวดล้อมจำลอง?

  • โหมดความล้มเหลวและมาตรการป้องกันคืออะไร? อคติ การเบี่ยงเบน ภาพลวงตา ความล่าช้า ต้นทุนที่แมปกับ GOVERN-MAP-MEASURE-MANAGE ของ NIST [4]

ถ้าคุณตอบคำถามเหล่านั้นได้ แสดงว่าคุณเข้าใจระบบโดยพื้นฐานแล้ว ส่วนที่เหลือเป็นเรื่องรายละเอียดการนำไปใช้และความรู้เฉพาะด้าน.


แหล่งข้อมูลด่วนที่ควรบันทึกไว้ 🔖

  • บทนำภาษาธรรมดาเกี่ยวกับแนวคิดการเรียนรู้ของเครื่อง (IBM) [1]

  • การแพร่กระจายย้อนกลับด้วยแผนภาพและคณิตศาสตร์แบบอ่อนโยน [2]

  • เอกสารเกี่ยวกับหม้อแปลงไฟฟ้าที่เปลี่ยนแปลงการสร้างแบบจำลองลำดับ [3]

  • กรอบการจัดการความเสี่ยง AI ของ NIST (การกำกับดูแลเชิงปฏิบัติ) [4]

  • ตำราเรียนการเรียนรู้แบบเสริมแรงมาตรฐาน (ฟรี) [5]


คำถามที่พบบ่อย (FAQ) รอบด่วน ⚡

ปัญญาประดิษฐ์ (AI) เป็นเพียงแค่สถิติใช่หรือไม่?
มันคือสถิติบวกกับการปรับให้เหมาะสม การคำนวณ วิศวกรรมข้อมูล และการออกแบบผลิตภัณฑ์ สถิติเป็นเพียงโครงสร้าง ส่วนที่เหลือคือกล้ามเนื้อ

โมเดลขนาดใหญ่ชนะเสมอไปหรือไม่?
การขยายขนาดช่วยได้ แต่คุณภาพของข้อมูล การประเมินผล และข้อจำกัดในการใช้งานมักมีความสำคัญมากกว่า โมเดลขนาดเล็กที่สุดที่บรรลุเป้าหมายของคุณมักจะดีที่สุดสำหรับผู้ใช้และงบประมาณ

AI เข้าใจได้หรือไม่?
นิยามคำว่า "เข้าใจ" ? โมเดลสามารถจับโครงสร้างในข้อมูลและสรุปผลได้อย่างน่าประทับใจ แต่ก็มีจุดบอดและอาจผิดพลาดได้อย่างแน่นอน จงปฏิบัติต่อพวกมันเหมือนเครื่องมือที่มีประสิทธิภาพ ไม่ใช่ปราชญ์

ยุคของทรานส์ฟอร์เมอร์จะคงอยู่ตลอดไปหรือไม่?
อาจจะไม่ตลอดไป ปัจจุบันมันเป็นที่นิยมเพราะความสนใจสามารถขนานและปรับขนาดได้ดี ดังที่เอกสารต้นฉบับแสดงให้เห็น [3] แต่การวิจัยยังคงดำเนินต่อไป


AI ทำงานอย่างไร? ยาวเกินไป อ่านไม่จบ 🧵

  • AI เรียนรู้รูปแบบจากข้อมูล ลดการสูญเสียให้น้อยที่สุด และสรุปผลไปยังข้อมูลป้อนเข้าใหม่ [1,2].

  • การเรียนรู้แบบมีผู้กำกับดูแล แบบไม่มีผู้กำกับดูแล แบบกำกับดูแลตนเอง และแบบเสริมแรง เป็นการตั้งค่าการฝึกอบรมหลัก RL เรียนรู้จากรางวัล [5].

  • เครือข่ายประสาทใช้การแพร่กระจายย้อนกลับและการไล่ระดับความชันเพื่อปรับพารามิเตอร์นับล้านอย่างมีประสิทธิภาพ [2].

  • Transformer ครอบงำงานลำดับหลายอย่างเนื่องจาก self-attention จับความสัมพันธ์แบบขนานในระดับขนาดใหญ่ [3].

  • AI ในโลกแห่งความเป็นจริงเป็นกระบวนการตั้งแต่การกำหนดปัญหาไปจนถึงการใช้งานและการกำกับดูแล และกรอบงานของ NIST ช่วยให้คุณซื่อสัตย์เกี่ยวกับความเสี่ยง [4].

ถ้ามีใครถามอีก ว่า AI ทำงานอย่างไร คุณก็แค่ยิ้ม จิบกาแฟ แล้วตอบว่า: มันเรียนรู้จากข้อมูล ปรับค่าความสูญเสียให้เหมาะสม และใช้สถาปัตยกรรมอย่างเช่น Transformer หรือ Tree Ensemble ขึ้นอยู่กับปัญหา แล้วก็ขยิบตาให้ด้วย เพราะคำตอบนี้ทั้งเรียบง่ายและสมบูรณ์แบบอย่างแนบเนียน 😉


เอกสารอ้างอิง

[1] IBM - Machine Learning คืออะไร?
อ่านเพิ่มเติม

[2] Michael Nielsen - วิธีการทำงานของอัลกอริทึม Backpropagation
อ่านเพิ่มเติม

[3] Vaswani et al. - Attention Is All You Need (arXiv)
อ่านเพิ่มเติม

[4] NIST - กรอบการจัดการความเสี่ยงด้านปัญญาประดิษฐ์ (AI RMF 1.0)
อ่านเพิ่มเติม

[5] Sutton & Barto - การเรียนรู้แบบเสริมแรง: บทนำ (ฉบับที่ 2)
อ่านเพิ่มเติม

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก