โครงข่ายประสาทเทียมอาจฟังดูซับซ้อนจนกระทั่งมันไม่ใช่เรื่องลึกลับอีกต่อไป หากคุณเคยสงสัยว่า โครงข่ายประสาทเทียมใน AI คืออะไร และมันเป็นเพียงแค่คณิตศาสตร์ที่แต่งตัวหรูหราหรือไม่ คุณมาถูกที่แล้ว เราจะอธิบายในเชิงปฏิบัติ มีการอธิบายเพิ่มเติมเล็กน้อย และใช่แล้ว – มีอีโมจิบ้าง คุณจะเข้าใจว่าระบบเหล่านี้คืออะไร ทำไมมันถึงทำงานได้ มันล้มเหลวตรงไหน และจะพูดถึงมันได้อย่างไรโดยไม่ต้องอธิบายแบบอ้อมค้อม
บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:
🔗 อคติของ AI คืออะไร
ทำความเข้าใจอคติในระบบ AI และกลยุทธ์เพื่อให้เกิดความเป็นธรรม.
🔗 ปัญญาประดิษฐ์เชิงทำนายคืออะไร?
ปัญญาประดิษฐ์เชิงพยากรณ์ใช้รูปแบบอย่างไรในการคาดการณ์ผลลัพธ์ในอนาคต.
🔗 AI Trainer คืออะไร
สำรวจบทบาทและความรับผิดชอบของผู้เชี่ยวชาญที่ฝึกอบรม AI.
🔗 คอมพิวเตอร์วิชั่นในปัญญาประดิษฐ์คืออะไร
ปัญญาประดิษฐ์ (AI) ตีความและวิเคราะห์ข้อมูลภาพผ่านระบบคอมพิวเตอร์วิชั่นได้อย่างไร.
โครงข่ายประสาทเทียมใน AI คืออะไร? คำตอบใน 10 วินาที ⏱️
เครือข่ายประสาทเทียมคือกลุ่มของหน่วยคำนวณอย่างง่ายที่เรียกว่าเซลล์ประสาท ซึ่งส่งผ่านตัวเลขไปข้างหน้า ปรับความแข็งแรงของการเชื่อมต่อระหว่างการฝึกฝน และค่อยๆ เรียนรู้รูปแบบในข้อมูล เมื่อคุณได้ยินคำว่า การเรียนรู้เชิงลึก นั่นมักหมายถึงเครือข่ายประสาทเทียมที่มีเลเยอร์ซ้อนกันหลายชั้น ซึ่งเรียนรู้คุณลักษณะโดยอัตโนมัติ แทนที่จะให้คุณเขียนโค้ดด้วยตนเอง กล่าวอีกนัยหนึ่งคือ ชิ้นส่วนทางคณิตศาสตร์เล็กๆ จำนวนมาก จัดเรียงอย่างชาญฉลาด ฝึกฝนกับข้อมูลจนกว่าจะมีประโยชน์ [1]
อะไรทำให้โครงข่ายประสาทเทียมมีประโยชน์? ✅
-
พลังในการแสดงผล : ด้วยสถาปัตยกรรมและขนาดที่เหมาะสม เครือข่ายสามารถประมาณฟังก์ชันที่ซับซ้อนอย่างมากได้ (ดูทฤษฎีบทการประมาณสากล) [4]
-
การเรียนรู้แบบครบวงจร : แทนที่จะออกแบบคุณลักษณะด้วยมือ โมเดลจะค้นพบคุณลักษณะเหล่านั้น [1]
-
การสรุปทั่วไป : เครือข่ายที่มีการควบคุมที่ดีไม่ได้แค่จดจำเท่านั้น แต่ยังทำงานกับข้อมูลใหม่ที่ไม่เคยเห็นมาก่อนด้วย [1]
-
ความสามารถในการปรับขนาด : ชุดข้อมูลขนาดใหญ่บวกกับโมเดลขนาดใหญ่มักจะปรับปรุงผลลัพธ์ให้ดีขึ้นเรื่อยๆ… จนถึงขีดจำกัดในทางปฏิบัติ เช่น การคำนวณและคุณภาพของข้อมูล [1]
-
ความสามารถในการถ่ายโอน : คุณสมบัติที่เรียนรู้ในงานหนึ่งสามารถช่วยงานอื่นได้ (การเรียนรู้แบบถ่ายโอนและการปรับแต่ง) [1]
บันทึกย่อขนาดเล็ก (ตัวอย่างสถานการณ์): ทีมจำแนกประเภทผลิตภัณฑ์ขนาดเล็กเปลี่ยนจากการใช้คุณลักษณะที่สร้างด้วยมือมาใช้โครงข่ายประสาทเทียมแบบ CNN ขนาดกะทัดรัด เพิ่มการปรับแต่งอย่างง่าย (พลิก/ตัดภาพ) และสังเกตว่าข้อผิดพลาดในการตรวจสอบลดลง ไม่ใช่เพราะโครงข่ายนั้น "มหัศจรรย์" แต่เป็นเพราะมันเรียนรู้คุณลักษณะที่มีประโยชน์มากขึ้นโดยตรงจากพิกเซล
“โครงข่ายประสาทเทียมใน AI คืออะไร?” อธิบายง่ายๆ ด้วยคำอุปมาที่ไม่ค่อยตรงนัก 🍞
ลองนึกภาพสายการผลิตขนมปัง ส่วนผสมถูกป้อนเข้าไป พนักงานปรับแต่งสูตร ผู้ทดสอบรสชาติบ่น และทีมก็ปรับปรุงสูตรอีกครั้ง ในเครือข่าย อินพุตจะไหลผ่านเลเยอร์ ฟังก์ชันการสูญเสียจะให้คะแนนเอาต์พุต และการไล่ระดับจะผลักดันน้ำหนักเพื่อให้ทำได้ดีขึ้นในครั้งต่อไป ไม่ใช่คำอุปมาที่สมบูรณ์แบบนัก เพราะขนมปังไม่สามารถหาอนุพันธ์ได้ แต่ก็ยังใช้ได้ดี [1].
กายวิภาคของเครือข่ายประสาท 🧩
-
เซลล์ประสาท : เครื่องคำนวณขนาดเล็กที่ใช้ผลรวมถ่วงน้ำหนักและฟังก์ชันกระตุ้น
-
น้ำหนักและค่าเบี่ยงเบน : ปุ่มปรับที่กำหนดวิธีการรวมสัญญาณ
-
ชั้นต่างๆ : ชั้นอินพุตรับข้อมูล ชั้นซ่อนแปลงข้อมูล และชั้นเอาต์พุตทำนายผล
-
ฟังก์ชันการกระตุ้น : ฟังก์ชันที่ไม่เป็นเชิงเส้น เช่น ReLU, sigmoid, tanh และ softmax ทำให้การเรียนรู้มีความยืดหยุ่นมากขึ้น
-
ฟังก์ชันความสูญเสีย : คะแนนที่แสดงว่าการทำนายผิดพลาดมากน้อยเพียงใด (เอนโทรปีไขว้สำหรับการจำแนกประเภท, MSE สำหรับการถดถอย)
-
ตัวปรับแต่งค่า : อัลกอริทึมเช่น SGD หรือ Adam ใช้ค่าความชันเพื่ออัปเดตค่าน้ำหนัก
-
การปรับค่าโมเดล (Regularization) : เทคนิคต่างๆ เช่น dropout หรือ weight decay เพื่อป้องกันไม่ให้โมเดลเกิดการ overfitting
หากคุณต้องการเนื้อหาที่เป็นทางการ (แต่ยังอ่านได้) ตำราเรียนแบบเปิด Deep Learning ครอบคลุมเนื้อหาทั้งหมด: พื้นฐานทางคณิตศาสตร์ การเพิ่มประสิทธิภาพ และการสรุปผล [1]
ฟังก์ชันการเปิดใช้งาน อธิบายสั้นๆ แต่มีประโยชน์ ⚡
-
ReLU : ค่าเป็นศูนย์สำหรับค่าลบ ค่าเป็นเส้นตรงสำหรับค่าบวก เรียบง่าย รวดเร็ว และมีประสิทธิภาพ
-
ฟังก์ชันซิกมอยด์ : บีบค่าให้อยู่ระหว่าง 0 และ 1 - มีประโยชน์ แต่ก็อาจถึงจุดอิ่มตัวได้
-
Tanh : คล้ายกับฟังก์ชันซิกมอยด์ แต่สมมาตรโดยมีจุดศูนย์กลางอยู่ที่ศูนย์
-
Softmax : แปลงคะแนนดิบให้เป็นความน่าจะเป็นระหว่างคลาสต่างๆ
คุณไม่จำเป็นต้องจำรูปทรงเส้นโค้งทุกแบบ เพียงแค่รู้ถึงข้อดีข้อเสียและค่าเริ่มต้นทั่วไปก็พอ [1, 2].
การเรียนรู้เกิดขึ้นได้อย่างไร: การย้อนกลับการแพร่กระจาย แต่ไม่น่ากลัว 🔁
-
การส่งผ่าน ข้อมูลไปข้างหน้า: ข้อมูลไหลทีละชั้นเพื่อสร้างการคาดการณ์
-
คำนวณค่าความคลาดเคลื่อน : เปรียบเทียบผลการทำนายกับค่าความจริง
-
การย้อนกลับการแพร่กระจาย (Backpropagation) : คำนวณเกรเดียนต์ของฟังก์ชันความสูญเสียเทียบกับน้ำหนักแต่ละตัวโดยใช้กฎลูกโซ่
-
อัปเดต : ตัวปรับแต่งค่าได้เปลี่ยนแปลงน้ำหนักเล็กน้อย
-
ทำซ้ำ : หลายรอบ (epochs) โมเดลจะค่อยๆ เรียนรู้
สำหรับความเข้าใจเชิงปฏิบัติด้วยภาพและคำอธิบายที่เกี่ยวข้องกับโค้ด โปรดดูบันทึก CS231n คลาสสิกเกี่ยวกับการแพร่กระจายย้อนกลับและการเพิ่มประสิทธิภาพ [2].
ภาพรวมของตระกูลหลักๆ ของโครงข่ายประสาทเทียม 🏡
-
เครือข่ายฟีดฟอร์เวิร์ด (MLPs) : เป็นชนิดที่ง่ายที่สุด ข้อมูลเคลื่อนที่ไปข้างหน้าเท่านั้น
-
โครงข่ายประสาทเทียมแบบ Convolutional (CNNs) : เหมาะสำหรับรูปภาพเนื่องจากมีตัวกรองเชิงพื้นที่ที่ตรวจจับขอบ พื้นผิว และรูปร่าง [2]
-
เครือข่ายประสาทแบบวนซ้ำ (RNNs) และรูปแบบต่างๆ : สร้างขึ้นสำหรับลำดับเช่นข้อความหรืออนุกรมเวลาโดยรักษาความรู้สึกของลำดับ [1]
-
Transformers : ใช้ความสนใจเพื่อสร้างแบบจำลองความสัมพันธ์ระหว่างตำแหน่งในลำดับพร้อมกันทั้งหมด โดดเด่นในภาษาและอื่นๆ [3]
-
โครงข่ายประสาทกราฟ (GNNs) : ทำงานบนโหนดและขอบของกราฟ - มีประโยชน์สำหรับโมเลกุล เครือข่ายสังคม และระบบแนะนำ [1]
-
Autoencoders & VAEs : เรียนรู้การแสดงผลแบบบีบอัดและสร้างรูปแบบต่างๆ [1]
-
โมเดลสร้าง : ตั้งแต่ GAN ไปจนถึงโมเดลการแพร่กระจาย ใช้สำหรับรูปภาพ เสียง หรือแม้แต่โค้ด [1]
เอกสาร CS231n เป็นมิตรกับ CNN เป็นพิเศษ ในขณะที่เอกสาร Transformer เป็นแหล่งข้อมูลหลักสำหรับโมเดลที่ใช้กลไกความสนใจ [2, 3].
ตารางเปรียบเทียบ: ประเภทของโครงข่ายประสาทเทียมที่ใช้กันทั่วไป เหมาะสำหรับใคร ราคาโดยประมาณ และเหตุผลที่มันได้ผล 📊
| เครื่องมือ / ประเภท | ผู้ชม | ราคาค่อนข้างสูง | เหตุผลที่มันได้ผล |
|---|---|---|---|
| ฟีดฟอร์เวิร์ด (MLP) | ผู้เริ่มต้น, นักวิเคราะห์ | ต่ำ-ปานกลาง | เรียบง่าย ยืดหยุ่น และมีพื้นฐานที่ดี |
| ซีเอ็นเอ็น | ทีมวิสัยทัศน์ | ปานกลาง | รูปแบบท้องถิ่น + การแชร์พารามิเตอร์ |
| RNN / LSTM / GRU | ลำดับครับ | ปานกลาง | หน่วยความจำเชิงเวลา… บันทึกลำดับเหตุการณ์ |
| หม้อแปลง | NLP, มัลติโมดอล | ปานกลาง-สูง | ความสนใจมุ่งเน้นไปที่ความสัมพันธ์ที่เกี่ยวข้อง |
| จีเอ็นเอ็น | นักวิทยาศาสตร์, recsys | ปานกลาง | การส่งต่อข้อความบนกราฟเผยให้เห็นโครงสร้าง |
| ออโต้เอนโคเดอร์ / VAE | นักวิจัย | ต่ำ-ปานกลาง | เรียนรู้การแสดงผลแบบบีบอัด |
| GAN / การแพร่กระจาย | ห้องปฏิบัติการสร้างสรรค์ | ปานกลาง-สูง | เทคนิคการลดสัญญาณรบกวนแบบต่อต้านหรือแบบวนซ้ำ |
หมายเหตุ: ราคาขึ้นอยู่กับการประมวลผลและเวลา ผลลัพธ์อาจแตกต่างกันไป เซลล์บางเซลล์อาจมีการส่งข้อมูลมากเป็นพิเศษโดยเจตนา.
“โครงข่ายประสาทเทียมใน AI คืออะไร?” เมื่อเทียบกับอัลกอริธึมการเรียนรู้ของเครื่องแบบดั้งเดิม ⚖️
-
การสร้างคุณลักษณะ : ML แบบคลาสสิกมักอาศัยคุณลักษณะที่กำหนดเอง เครือข่ายประสาทเรียนรู้คุณลักษณะโดยอัตโนมัติ ซึ่งเป็นข้อได้เปรียบอย่างมากสำหรับข้อมูลที่ซับซ้อน [1]
-
ความกระหายข้อมูล : เครือข่ายมักจะโดดเด่นเมื่อมีข้อมูลมากขึ้น ข้อมูลน้อยอาจเอื้อต่อโมเดลที่เรียบง่ายกว่า [1]
-
การคำนวณ : เครือข่ายชอบตัวเร่งความเร็วเช่น GPU [1]
-
ขีดจำกัดประสิทธิภาพ : สำหรับข้อมูลที่ไม่มีโครงสร้าง (รูปภาพ เสียง ข้อความ) เครือข่ายเชิงลึกมักจะมีประสิทธิภาพเหนือกว่า [1, 2]
ขั้นตอนการฝึกอบรมที่ได้ผลจริงในทางปฏิบัติ 🛠️
-
กำหนดวัตถุประสงค์ : การจำแนกประเภท, การถดถอย, การจัดอันดับ, การสร้าง - เลือกฟังก์ชันความสูญเสียที่เหมาะสม
-
การจัดการข้อมูล : แบ่งข้อมูลออกเป็นชุดฝึก ชุดตรวจสอบ และชุดทดสอบ ปรับค่าคุณลักษณะให้เป็นมาตรฐาน กระจายจำนวนคลาสให้สมดุล สำหรับรูปภาพ ให้พิจารณาการปรับแต่ง เช่น การพลิกภาพ การตัดภาพ การเพิ่มสัญญาณรบกวนเล็กน้อย
-
การเลือกโครงสร้างสถาปัตยกรรม : เริ่มจากสิ่งที่เรียบง่าย เพิ่มขีดความสามารถเฉพาะเมื่อจำเป็นเท่านั้น
-
ขั้นตอนการฝึกฝน : แบ่งข้อมูลเป็นชุดๆ ส่งต่อข้อมูลไปข้างหน้า คำนวณค่าความสูญเสีย ย้อนกลับการแพร่กระจาย อัปเดต บันทึกค่าเมตริก
-
การควบคุม : การเลิกเรียนกลางคัน การลดน้ำหนัก การหยุดเรียนก่อนกำหนด
-
ประเมินผล : ใช้ชุดข้อมูลตรวจสอบความถูกต้องสำหรับค่าพารามิเตอร์ และกันชุดข้อมูลทดสอบไว้สำหรับการตรวจสอบขั้นสุดท้าย
-
ขนส่งอย่างระมัดระวัง : ตรวจสอบการเบี่ยงเบน ตรวจสอบความคลาดเคลื่อน วางแผนการย้อนกลับ
สำหรับการสอนแบบครบวงจรที่เน้นการเขียนโค้ดพร้อมทฤษฎีที่แข็งแกร่ง ตำราเรียนแบบเปิดและบันทึกย่อ CS231n ถือเป็นจุดอ้างอิงที่เชื่อถือได้ [1, 2].
การโอเวอร์ฟิตติ้ง การสรุปแบบทั่วไป และปัญหาอื่นๆ 👀
-
โอเวอร์ฟิตติ้ง (Overfitting) : โมเดลจดจำลักษณะเฉพาะของการฝึกฝน แก้ไขได้ด้วยการเพิ่มข้อมูล ใช้การควบคุมความสม่ำเสมอที่เข้มงวดมากขึ้น หรือใช้โครงสร้างที่เรียบง่ายกว่า
-
การฝึกฝนที่ไม่เหมาะสม : โมเดลง่ายเกินไป หรือการฝึกฝนเบาเกินไป ควรเพิ่มขีดความสามารถหรือฝึกฝนให้นานขึ้น
-
ข้อมูลรั่วไหล : ข้อมูลจากชุดทดสอบอาจเล็ดลอดเข้าไปในชุดข้อมูลฝึกฝน ตรวจสอบผลลัพธ์แต่ละส่วนอย่างละเอียดอีกครั้ง
-
การปรับเทียบที่ไม่ดี : โมเดลที่มั่นใจแต่ผิดพลาดนั้นเป็นอันตราย ควรพิจารณาการปรับเทียบหรือการกำหนดค่าน้ำหนักความสูญเสียที่แตกต่างกัน
-
การเปลี่ยนแปลงรูปแบบการกระจายข้อมูล : ข้อมูลในโลกแห่งความเป็นจริงมีการเคลื่อนย้ายอยู่เสมอ ต้องติดตามและปรับตัว
สำหรับทฤษฎีเบื้องหลังการวางนัยทั่วไปและการทำให้เป็นระเบียบ ให้อ้างอิงถึงเอกสารอ้างอิงมาตรฐาน [1, 2].
ความปลอดภัย ความสามารถในการตีความ และการใช้งานอย่างมีความรับผิดชอบ 🧭
เครือข่ายประสาทเทียมสามารถตัดสินใจที่มีความเสี่ยงสูงได้ การที่มันทำงานได้ดีบนกระดานผู้นำนั้นไม่เพียงพอ คุณต้องมีขั้นตอนการกำกับดูแล การวัดผล และการลดผลกระทบตลอดวงจรชีวิต กรอบการจัดการความเสี่ยง AI ของ NIST ได้กำหนดฟังก์ชันเชิงปฏิบัติไว้ ได้แก่ จัดการ เพื่อช่วยให้ทีมต่างๆ สามารถบูรณาการการจัดการความเสี่ยงเข้ากับการออกแบบและการใช้งาน [5]
คำแนะนำสั้นๆ สองสามข้อ:
-
การตรวจสอบความลำเอียง : ประเมินผลในกลุ่มประชากรย่อยต่างๆ ตามความเหมาะสมและถูกต้องตามกฎหมาย
-
ความสามารถในการตีความ : ใช้เทคนิคต่างๆ เช่น จุดเด่น หรือการระบุคุณลักษณะ เทคนิคเหล่านี้อาจไม่สมบูรณ์แบบ แต่ก็มีประโยชน์
-
การตรวจสอบ : ตั้งค่าการแจ้งเตือนเมื่อค่าตัวชี้วัดลดลงอย่างกะทันหันหรือข้อมูลมีการเปลี่ยนแปลงอย่างผิดปกติ
-
การกำกับดูแลโดยมนุษย์ : ให้มนุษย์มีส่วนร่วมในการตัดสินใจที่มีผลกระทบสูง ไม่ใช่การแสดงวีรกรรม แต่เป็นการดูแลให้ทุกอย่างเป็นไปอย่างถูกต้อง
คำถามยอดฮิตที่คุณแอบสงสัยอยู่เงียบๆ 🙋
โดยพื้นฐานแล้วโครงข่ายประสาทเทียมก็คือสมองใช่หรือไม่?
ได้รับแรงบันดาลใจจากสมอง ใช่ แต่เรียบง่ายกว่า นิวรอนในเครือข่ายเป็นฟังก์ชันทางคณิตศาสตร์ นิวรอนทางชีววิทยาเป็นเซลล์ที่มีชีวิตที่มีพลวัตที่ซับซ้อน ความรู้สึกคล้ายกัน แต่ฟิสิกส์แตกต่างกันมาก [1].
ฉันต้องใช้กี่ชั้น?
เริ่มจากขนาดเล็ก หากขนาดไม่เหมาะสม ให้เพิ่มความกว้างหรือความลึก หากขนาดมากเกินไป ให้ปรับค่าหรือลดความจุ ไม่มีตัวเลขวิเศษ มีเพียงเส้นโค้งการตรวจสอบและความอดทน [1].
ฉันจำเป็นต้องใช้ GPU เสมอหรือไม่?
ไม่เสมอไป โมเดลขนาดเล็กบนข้อมูลขนาดปานกลางสามารถฝึกฝนบน CPU ได้ แต่สำหรับรูปภาพ โมเดลข้อความขนาดใหญ่ หรือชุดข้อมูลขนาดใหญ่ ตัวเร่งความเร็วจะช่วยประหยัดเวลาได้มาก [1].
ทำไมคนถึงบอกว่าการได้รับความสนใจนั้นทรงพลัง?
เนื่องจากความสนใจช่วยให้โมเดลสามารถมุ่งเน้นไปที่ส่วนที่เกี่ยวข้องมากที่สุดของอินพุตโดยไม่ต้องดำเนินการตามลำดับอย่างเคร่งครัด มันสามารถจับความสัมพันธ์โดยรวม ซึ่งเป็นเรื่องสำคัญมากสำหรับงานด้านภาษาและมัลติโมดอล [3].
“โครงข่ายประสาทเทียมใน AI คืออะไร?” แตกต่างจาก “การเรียนรู้เชิงลึกคืออะไร?” หรือไม่?
การเรียนรู้เชิงลึกเป็นแนวทางที่กว้างขึ้นซึ่งใช้เครือข่ายประสาทเทียมเชิงลึก ดังนั้นการถามว่า เครือข่ายประสาทเทียมใน AI คืออะไร? จึงเหมือนกับการถามถึงตัวละครหลัก การเรียนรู้เชิงลึกคือภาพยนตร์ทั้งเรื่อง [1]
เคล็ดลับที่ใช้งานได้จริงและอาจมีมุมมองส่วนตัวบ้างเล็กน้อย 💡
-
ด้วย การใช้ข้อมูลพื้นฐานที่เรียบง่าย ก่อน แม้แต่โครงข่ายประสาทเทียมแบบหลายชั้นขนาดเล็กก็สามารถบอกได้ว่าข้อมูลนั้นสามารถนำมาเรียนรู้ได้หรือไม่
-
ทำให้ กระบวนการประมวลผลข้อมูลของคุณสามารถทำซ้ำได้ หากคุณไม่สามารถรันซ้ำได้ คุณก็ไม่สามารถเชื่อถือได้
-
อัตราการเรียนรู้ สำคัญกว่าที่คุณคิด ลองจัดตารางเวลาดู การวอร์มอัพช่วยได้
-
ขนาดของชุดข้อมูลมีข้อแลกเปลี่ยน อยู่ ชุดข้อมูลขนาดใหญ่ช่วยให้ค่าความชันคงที่มากขึ้น แต่ผลลัพธ์โดยรวมอาจแตกต่างออกไป
-
เมื่อสับสน ให้ลองดู เส้นกราฟแสดงการสูญเสีย และ ค่ามาตรฐานน้ำหนัก คุณจะประหลาดใจว่าคำตอบมักอยู่ในกราฟเหล่านั้นบ่อยแค่ไหน
-
ข้อสมมติฐานเกี่ยวกับเอกสาร ตัวคุณในอนาคตจะลืมสิ่งต่างๆ อย่างรวดเร็ว [1, 2].
เจาะลึกประเด็นเพิ่มเติม: บทบาทของข้อมูล หรือทำไมข้อมูลที่ไม่ถูกต้องจึงส่งผลให้ผลลัพธ์ไม่ถูกต้องเช่นกัน 🗑️➡️✨
เครือข่ายประสาทเทียมไม่ได้แก้ไขข้อมูลที่ผิดพลาดได้อย่างมหัศจรรย์ ป้ายกำกับที่บิดเบี้ยว ข้อผิดพลาดในการระบุคำอธิบาย หรือการสุ่มตัวอย่างที่แคบ ล้วนจะสะท้อนผ่านโมเดล คัดสรร ตรวจสอบ และเสริมข้อมูล และหากคุณไม่แน่ใจว่าคุณต้องการข้อมูลเพิ่มเติมหรือโมเดลที่ดีกว่า คำตอบมักจะง่ายอย่างน่ารำคาญ: ทั้งสองอย่าง - แต่เริ่มต้นด้วยคุณภาพของข้อมูล [1].
“โครงข่ายประสาทเทียมใน AI คืออะไร?” - คำจำกัดความสั้นๆ ที่คุณสามารถนำไปใช้ได้ 🧾
-
เครือข่ายประสาทเทียมเป็นตัวประมาณฟังก์ชันแบบหลายชั้นที่เรียนรู้รูปแบบที่ซับซ้อนโดยการปรับน้ำหนักโดยใช้สัญญาณเกรเดียนต์ [1, 2].
-
เป็นระบบที่แปลงอินพุตเป็นเอาต์พุตผ่านขั้นตอนที่ไม่เชิงเส้นต่อเนื่องกัน โดยได้รับการฝึกฝนให้ลดการสูญเสียให้น้อยที่สุด [1]
-
เป็นวิธีการสร้างแบบจำลองที่ยืดหยุ่นและต้องการข้อมูลจำนวนมาก ซึ่งทำงานได้ดีกับข้อมูลป้อนเข้าที่ไม่เป็นโครงสร้าง เช่น รูปภาพ ข้อความ และเสียง [1, 2, 3].
ยาวเกินไป อ่านไม่จบ และข้อคิดเห็นสุดท้าย 🎯
ถ้ามีคนถามคุณว่า โครงข่ายประสาทเทียมใน AI คืออะไร คำตอบสั้นๆ ก็คือ โครงข่ายประสาทเทียมคือกลุ่มของหน่วยง่ายๆ ที่แปลงข้อมูลทีละขั้นตอน เรียนรู้การแปลงโดยการลดการสูญเสียและติดตามความชัน โครงข่ายประสาทเทียมมีประสิทธิภาพสูงเพราะสามารถปรับขนาดได้ เรียนรู้คุณลักษณะโดยอัตโนมัติ และสามารถแสดงฟังก์ชันที่ซับซ้อนมากได้ [1, 4] แต่ก็มีความเสี่ยงหากคุณละเลยคุณภาพของข้อมูล การกำกับดูแล หรือการตรวจสอบ [5] และมันไม่ใช่เวทมนตร์ มันเป็นเพียงคณิตศาสตร์ การคำนวณ และวิศวกรรมที่ดี พร้อมด้วยความเหมาะสมเล็กน้อย
เอกสารอ่านเพิ่มเติมที่คัดสรรมาอย่างดี (ไม่รวมการอ้างอิง)
-
เอกสารประกอบการเรียนวิชา CS231n ของ Stanford - เข้าใจง่ายและนำไปใช้ได้จริง: https://cs231n.github.io/
-
DeepLearningBook.org - แหล่งอ้างอิงหลัก: https://www.deeplearningbook.org/
-
กรอบการบริหารความเสี่ยงด้าน AI ของ NIST - แนวทางการใช้งาน AI อย่างมีความรับผิดชอบ: https://www.nist.gov/itl/ai-risk-management-framework
-
“สิ่งที่คุณต้องการคือความสนใจ” - บทความ Transformer: https://arxiv.org/abs/1706.03762
เอกสารอ้างอิง
[1] Goodfellow, I., Bengio, Y., & Courville, A. Deep Learning . MIT Press. เวอร์ชันออนไลน์ฟรี: อ่านเพิ่มเติม
[2] Stanford CS231n. เครือข่ายประสาทเทียมแบบ Convolutional สำหรับการจดจำภาพ (บันทึกการเรียน): อ่านเพิ่มเติม
[3] Vaswani, A., Shazeer, N., Parmar, N. และคณะ (2017). Attention Is All You Need . NeurIPS. arXiv: อ่านเพิ่มเติม
[4] Cybenko, G. (1989). การประมาณค่าโดยการซ้อนทับของฟังก์ชันซิกมอยด์ คณิตศาสตร์ ของการควบคุม สัญญาณ และระบบ 2, 303–314. Springer: อ่านเพิ่มเติม
[5] NIST. กรอบการจัดการความเสี่ยง AI (AI RMF) : อ่านเพิ่มเติม