หากคุณเคยปลดล็อกโทรศัพท์ด้วยใบหน้า สแกนใบเสร็จ หรือจ้องมองกล้องที่เครื่องคิดเงินอัตโนมัติแล้วสงสัยว่ามันกำลังตัดสินอะโวคาโดของคุณอยู่หรือเปล่า คุณก็เคยสัมผัสกับเทคโนโลยีการประมวลผลภาพด้วยคอมพิวเตอร์มาแล้ว กล่าวโดยง่าย การประมวลผลภาพด้วยคอมพิวเตอร์ใน AI คือวิธีการที่เครื่องจักรเรียนรู้ที่จะ มองเห็น และ เข้าใจ ภาพและวิดีโอได้ดีพอที่จะตัดสินใจได้ มีประโยชน์ไหม? แน่นอน บางครั้งก็ทำให้ประหลาดใจไหม? ก็ใช่ และบางครั้งก็ดูน่ากลัวเล็กน้อยหากเราพูดกันตามตรง ในด้านที่ดีที่สุด มันจะเปลี่ยนพิกเซลที่ยุ่งเหยิงให้เป็นการกระทำที่ใช้งานได้จริง ในด้านที่แย่ที่สุด มันจะเดาและผิดพลาด มาเจาะลึกกันอย่างจริงจังดีกว่า
บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:
🔗 อคติใน AI คืออะไร
อคติเกิดขึ้นในระบบ AI ได้อย่างไร และมีวิธีตรวจจับและลดอคติอย่างไร
🔗 ปัญญาประดิษฐ์เชิงทำนายคืออะไร?
ปัญญาประดิษฐ์เชิงทำนายใช้ข้อมูลอย่างไรในการคาดการณ์แนวโน้มและผลลัพธ์
🔗 ผู้ฝึกสอน AI คืออะไร
หน้าที่ ทักษะ และเครื่องมือที่ผู้เชี่ยวชาญด้านการฝึกอบรม AI ใช้
🔗 Google Vertex AI คืออะไร?
ภาพรวมของแพลตฟอร์ม AI แบบครบวงจรของ Google สำหรับการสร้างและใช้งานโมเดล
คอมพิวเตอร์วิชั่นใน AI คืออะไรกันแน่? 📸
คอมพิวเตอร์วิชั่นใน AI คือสาขาหนึ่งของปัญญาประดิษฐ์ที่สอนให้คอมพิวเตอร์ตีความและให้เหตุผลเกี่ยวกับข้อมูลภาพ เป็นกระบวนการจากพิกเซลดิบไปสู่ความหมายที่มีโครงสร้าง เช่น “นี่คือป้ายหยุด” “นั่นคือคนเดินเท้า” “รอยเชื่อมมีข้อบกพร่อง” “ยอดรวมใบแจ้งหนี้อยู่ที่นี่” ครอบคลุมงานต่างๆ เช่น การจำแนกประเภท การตรวจจับ การแบ่งส่วน การติดตาม การประมาณความลึก OCR และอื่นๆ ที่เชื่อมโยงกันด้วยแบบจำลองการเรียนรู้รูปแบบ สาขาที่เป็นทางการครอบคลุมตั้งแต่เรขาคณิตแบบคลาสสิกไปจนถึงการเรียนรู้เชิงลึกสมัยใหม่ พร้อมด้วยคู่มือปฏิบัติที่คุณสามารถคัดลอกและปรับแต่งได้ [1]
ขอเล่าเรื่องสั้นๆ สักหน่อย: ลองนึกภาพสายการผลิตบรรจุภัณฑ์ที่มีกล้องความละเอียด 720p ธรรมดาๆ ตัวตรวจจับน้ำหนักเบาจะตรวจจับฝาขวด และตัวติดตามแบบง่ายๆ จะตรวจสอบว่าฝาขวดอยู่ในตำแหน่งที่ถูกต้องติดต่อกันห้าเฟรมก่อนที่จะอนุญาตให้ขวดผ่านเข้าไปได้ ไม่ได้หรูหราอะไร แต่ราคาถูก รวดเร็ว และลดการทำงานซ้ำซ้อน
อะไรทำให้ Computer Vision มีประโยชน์ใน AI? ✅
-
กระบวนการจากสัญญาณสู่การกระทำ: ข้อมูลภาพกลายเป็นผลลัพธ์ที่นำไปปฏิบัติได้จริง ลดการใช้แดชบอร์ด เพิ่มการตัดสินใจ
-
การสรุปโดยทั่วไป: ด้วยข้อมูลที่เหมาะสม โมเดลหนึ่งๆ สามารถจัดการกับภาพได้หลากหลายประเภทมาก ไม่สมบูรณ์แบบเสมอไป แต่บางครั้งก็ทำได้ดีอย่างน่าประหลาดใจ
-
การใช้ประโยชน์จากข้อมูล: กล้องมีราคาถูกและหาได้ทั่วไป การประมวลผลภาพจะเปลี่ยนข้อมูลจำนวนมหาศาลเหล่านั้นให้กลายเป็นข้อมูลเชิงลึก
-
ความเร็ว: โมเดลเหล่านี้สามารถประมวลผลเฟรมได้แบบเรียลไทม์บนฮาร์ดแวร์ระดับกลาง หรือใกล้เคียงเรียลไทม์ ขึ้นอยู่กับงานและความละเอียด
-
ความสามารถในการประกอบ: เชื่อมโยงขั้นตอนง่ายๆ เข้าด้วยกันเพื่อสร้างระบบที่เชื่อถือได้: การตรวจจับ → การติดตาม → การควบคุมคุณภาพ
-
ระบบนิเวศ: เครื่องมือ โมเดลที่ฝึกฝนไว้ล่วงหน้า เกณฑ์มาตรฐาน และการสนับสนุนจากชุมชน - ตลาดซื้อขายโค้ดขนาดใหญ่ที่กระจัดกระจาย
พูดกันตามตรง เคล็ดลับความสำเร็จไม่ใช่ความลับอะไรเลย: ข้อมูลที่ดี การประเมินผลอย่างเป็นระบบ การนำไปใช้อย่างรอบคอบ ที่เหลือก็คือการฝึกฝน...และบางทีก็กาแฟ ☕
วิธี คอมพิวเตอร์วิชั่นใน AI ในขั้นตอนเดียวอย่างเป็นระบบ 🧪
-
การเก็บภาพ
กล้อง สแกนเนอร์ โดรน โทรศัพท์ เลือกประเภทเซ็นเซอร์ ค่าแสง เลนส์ และอัตราเฟรมอย่างระมัดระวัง ข้อมูลที่ไม่ถูกต้อง ฯลฯ -
การประมวลผลล่วงหน้า
ปรับขนาด ครอบตัด ปรับให้เป็นมาตรฐาน ลดความเบลอ หรือลดสัญญาณรบกวนหากจำเป็น บางครั้งการปรับความคมชัดเพียงเล็กน้อยก็สามารถสร้างความแตกต่างได้อย่างมาก [4] -
ป้ายกำกับและชุดข้อมูล:
กรอบล้อมรอบ, รูปหลายเหลี่ยม, จุดสำคัญ, ช่วงข้อความ ป้ายกำกับที่สมดุลและเป็นตัวแทนที่ดี มิเช่นนั้นโมเดลของคุณจะเรียนรู้พฤติกรรมที่ไม่สมดุล -
การสร้างแบบจำลอง
-
การจำแนกประเภท: “อยู่ในหมวดหมู่ใด?”
-
การตรวจจับ: “วัตถุอยู่ที่ไหน?”
-
การแบ่งส่วนภาพ: “พิกเซลใดเป็นของสิ่งใด?”
-
จุดสำคัญและท่าทาง: “ข้อต่อหรือจุดสังเกตอยู่ตรงไหนบ้าง?”
-
OCR: “ข้อความในภาพคืออะไร?”
-
ความลึกและ 3 มิติ: “ทุกอย่างอยู่ไกลแค่ไหน?”
สถาปัตยกรรมมีความหลากหลาย แต่โครงข่ายประสาทเทียมแบบคอนโวลูชันและโมเดลแบบทรานส์ฟอร์เมอร์เป็นที่นิยม [1]
-
-
สำหรับการฝึกอบรม
ปรับพารามิเตอร์ ปรับแต่ง และเพิ่มข้อมูล หยุดการฝึกอบรมก่อนที่จะจำภาพพื้นหลังได้ขึ้นใจ -
การประเมินผล
ใช้ตัวชี้วัดที่เหมาะสมกับงาน เช่น mAP, IoU, F1, CER/WER สำหรับ OCR อย่าเลือกเฉพาะส่วนที่ดี เปรียบเทียบอย่างยุติธรรม [3] -
การใช้งาน
ให้เหมาะสมกับเป้าหมาย: งานประมวลผลแบบแบตช์บนคลาวด์, การประมวลผลแบบอนุมานบนอุปกรณ์, เซิร์ฟเวอร์เอดจ์ ตรวจสอบการเปลี่ยนแปลงอย่างต่อเนื่อง ฝึกฝนใหม่เมื่อโลกเปลี่ยนแปลงไป
โครงข่ายประสาทเทียมเชิงลึกทำให้เกิดความก้าวหน้าเชิงคุณภาพเมื่อชุดข้อมูลขนาดใหญ่และการประมวลผลถึงจุดวิกฤต เกณฑ์มาตรฐานเช่นความท้าทาย ImageNet ทำให้ความก้าวหน้านั้นปรากฏให้เห็นและไม่หยุดยั้ง [2]
ภารกิจหลักที่คุณจะใช้จริง ๆ (และเมื่อไหร่) 🧩
-
การจำแนกประเภทภาพ: หนึ่งป้ายกำกับต่อภาพ ใช้สำหรับการกรองอย่างรวดเร็ว การคัดแยก หรือการตรวจสอบคุณภาพ
-
การตรวจจับวัตถุ: การติดตั้งกรอบรอบสิ่งของ การป้องกันการสูญเสียในธุรกิจค้าปลีก การตรวจจับยานพาหนะ การนับจำนวนสัตว์ป่า
-
การแบ่งส่วนภาพตามวัตถุ: ภาพเงาที่แม่นยำระดับพิกเซลต่อวัตถุแต่ละชิ้น เหมาะสำหรับงานผลิตชิ้นส่วนที่มีตำหนิ เครื่องมือผ่าตัด และเทคโนโลยีทางการเกษตร
-
การแบ่งส่วนเชิงความหมาย (Semantic segmentation): จำแนกประเภทตามพิกเซลโดยไม่แยกแต่ละอินสแตนซ์ ตัวอย่างเช่น ฉากถนนในเมือง และการปกคลุมของพื้นที่
-
การตรวจจับจุดสำคัญและท่าทาง: ข้อต่อ จุดสังเกต ลักษณะใบหน้า การวิเคราะห์ด้านกีฬา หลักการยศาสตร์ เทคโนโลยี AR
-
การติดตาม: ติดตามวัตถุในช่วงเวลาต่างๆ ด้านโลจิสติกส์ การจราจร ความปลอดภัย
-
OCR และ AI สำหรับเอกสาร: การดึงข้อความและการวิเคราะห์โครงสร้างเอกสาร ใบแจ้งหนี้ ใบเสร็จรับเงิน แบบฟอร์ม
-
ความลึกและสามมิติ: การสร้างภาพขึ้นใหม่จากมุมมองหลายมุมหรือจากภาพเดียว หุ่นยนต์, เทคโนโลยีความเป็นจริงเสริม (AR), การทำแผนที่
-
การใส่คำบรรยายภาพ: สรุปฉากต่างๆ ด้วยภาษาธรรมชาติ เพื่อความสะดวกในการเข้าถึงและการค้นหา
-
แบบจำลองภาษาและภาพ: การให้เหตุผลแบบหลายรูปแบบ, การมองเห็นที่เสริมด้วยการดึงข้อมูล, การถามตอบแบบอิงข้อมูลจริง
ระบบการทำงานแบบละเอียดรอบคอบ: ในร้านค้า เครื่องตรวจจับจะแจ้งเตือนเมื่อสินค้าบนชั้นวางหายไป ระบบติดตามจะป้องกันการนับซ้ำเมื่อพนักงานเติมสินค้า และกฎง่ายๆ จะส่งเฟรมที่มีความน่าเชื่อถือต่ำไปให้มนุษย์ตรวจสอบ มันเหมือนกับวงดนตรีขนาดเล็กที่ทำงานได้อย่างลงตัว
ตารางเปรียบเทียบ: เครื่องมือที่จะช่วยให้จัดส่งสินค้าได้เร็วขึ้น 🧰
ตั้งใจให้ดูแปลก ๆ นิดหน่อย ใช่แล้ว ระยะห่างดูแปลก ๆ ฉันรู้.
| เครื่องมือ / เฟรมเวิร์ก | เหมาะที่สุดสำหรับ | ใบอนุญาต/ราคา | เหตุผลที่มันได้ผลในทางปฏิบัติ |
|---|---|---|---|
| โอเพ่นซีวี | การประมวลผลเบื้องต้น, ประวัติย่อแบบคลาสสิก, การทดสอบแนวคิดอย่างรวดเร็ว | ฟรี - โอเพนซอร์ส | ชุดเครื่องมือขนาดใหญ่ API ที่เสถียร ผ่านการทดสอบมาแล้ว บางครั้งก็เป็นสิ่งที่คุณต้องการทั้งหมด [4] |
| ไพทอร์ช | การฝึกอบรมที่เอื้อต่อการวิจัย | ฟรี | กราฟแบบไดนามิก ระบบนิเวศขนาดใหญ่ และบทช่วยสอนมากมาย. |
| เทนเซอร์โฟลว์/เคราส์ | การผลิตในระดับอุตสาหกรรม | ฟรี | ตัวเลือกการเสิร์ฟที่ครบครัน เหมาะสำหรับมือถือและอุปกรณ์พกพาด้วย. |
| อัลตร้าไลติกส์ โยโล | การตรวจจับวัตถุอย่างรวดเร็ว | ส่วนเสริมฟรีและแบบชำระเงิน | วงจรฝึกซ้อมที่ง่าย ความเร็วและความแม่นยำในการแข่งขัน มีเอกลักษณ์เฉพาะตัวแต่ก็สวมใส่สบาย. |
| Detectron2 / MMDetection | เกณฑ์พื้นฐานที่แข็งแกร่ง การแบ่งส่วน | ฟรี | โมเดลมาตรฐานที่ให้ผลลัพธ์ที่ทำซ้ำได้. |
| OpenVINO / ONNX Runtime | การเพิ่มประสิทธิภาพการอนุมาน | ฟรี | ลดเวลาในการตอบสนอง ขยายการใช้งานได้อย่างกว้างขวางโดยไม่ต้องเขียนโค้ดใหม่. |
| เทสเซอแร็กต์ | OCR ในราคาประหยัด | ฟรี | ใช้งานได้ดีพอสมควรหากคุณทำความสะอาดภาพ...บางครั้งคุณควรทำอย่างนั้นจริงๆ. |
อะไรคือปัจจัยที่ขับเคลื่อนคุณภาพในด้าน คอมพิวเตอร์วิชั่นและปัญญาประดิษฐ์ 🔧
-
การครอบคลุมข้อมูล: การเปลี่ยนแปลงของแสง มุมมอง พื้นหลัง กรณีพิเศษ หากเป็นไปได้ ให้รวมไว้ด้วย
-
คุณภาพของป้ายกำกับ: กล่องที่ไม่สม่ำเสมอหรือรูปหลายเหลี่ยมที่ไม่เรียบร้อยจะทำให้แผนที่แสดงผลไม่ถูกต้อง การตรวจสอบคุณภาพเพียงเล็กน้อยก็ช่วยได้มาก
-
การปรับแต่งภาพอย่างชาญฉลาด: ตัดภาพ หมุนภาพ ปรับความสว่าง เพิ่มสัญญาณรบกวนสังเคราะห์ ให้ภาพที่สมจริง ไม่ใช่ภาพสุ่มที่ไร้ระเบียบ
-
ความเหมาะสมของการเลือกโมเดล: ใช้การตรวจจับในจุดที่จำเป็นต้องมีการตรวจจับ อย่าบังคับให้ตัวจำแนกประเภทคาดเดาตำแหน่ง
-
ตัวชี้วัดที่สอดคล้องกับผลกระทบ: หากผลลบเท็จส่งผลเสียมากกว่า ให้เน้นการปรับปรุงอัตราการเรียกคืนข้อมูล หากผลบวกเท็จส่งผลเสียมากกว่า ให้เน้นความแม่นยำเป็นอันดับแรก
-
วงจรป้อนกลับที่กระชับ: บันทึกข้อผิดพลาด เปลี่ยนป้ายกำกับ ฝึกอบรมใหม่ ทำซ้ำไปเรื่อยๆ อาจจะน่าเบื่อเล็กน้อย แต่ได้ผลอย่างเหลือเชื่อ
สำหรับการตรวจจับ/การแบ่งส่วน มาตรฐานชุมชนคือ ค่าความแม่นยำเฉลี่ย ที่คำนวณจากเกณฑ์ IoU หรือที่เรียกว่า mAP สไตล์ COCOการรู้ว่า IoU และ AP@{0.5:0.95} คำนวณอย่างไรจะช่วยป้องกันไม่ให้การอ้างอิงอันดับบนกระดานผู้นำทำให้คุณประหลาดใจด้วยตัวเลขทศนิยม [3]
ตัวอย่างการใช้งานจริงที่ไม่ใช่เรื่องสมมติ 🌍
-
ธุรกิจค้าปลีก: การวิเคราะห์ข้อมูลชั้นวางสินค้า, การป้องกันการสูญเสียสินค้า, การตรวจสอบคิว, การปฏิบัติตามแผนผังการจัดวางสินค้า
-
การผลิต: การตรวจจับข้อบกพร่องบนพื้นผิว การตรวจสอบการประกอบ การควบคุมหุ่นยนต์
-
งานด้านการดูแลสุขภาพ: การคัดกรองผู้ป่วยทางรังสีวิทยา, การตรวจจับเครื่องมือ, การแบ่งส่วนเซลล์
-
การสัญจร: ระบบช่วยเหลือการขับขี่ขั้นสูง (ADAS), กล้องจราจร, การตรวจสอบการใช้พื้นที่จอดรถ, การติดตามยานพาหนะขนาดเล็ก
-
การเกษตร: การนับจำนวนพืชผล การตรวจหาโรค การประเมินความพร้อมในการเก็บเกี่ยว
-
ประกันภัยและการเงิน: การประเมินความเสียหาย, การตรวจสอบข้อมูลลูกค้า (KYC), การตรวจจับการฉ้อโกง
-
งานก่อสร้างและพลังงาน: การปฏิบัติตามข้อกำหนดด้านความปลอดภัย การตรวจจับการรั่วไหล การตรวจสอบการกัดกร่อน
-
เนื้อหาและการเข้าถึง: คำบรรยายอัตโนมัติ, การตรวจสอบเนื้อหา, การค้นหาด้วยภาพ
รูปแบบที่คุณจะสังเกตเห็น: เปลี่ยนจากการสแกนด้วยมือเป็นการคัดกรองอัตโนมัติ จากนั้นส่งต่อให้มนุษย์ตรวจสอบเมื่อความมั่นใจลดลง อาจไม่ดูหรูหรา แต่สามารถขยายขนาดได้.
ข้อมูล ป้ายกำกับ และตัวชี้วัดที่สำคัญ 📊
-
การจำแนกประเภท: ความแม่นยำ, F1 สำหรับความไม่สมดุล
-
การตรวจจับ: mAP ข้ามเกณฑ์ IoU; ตรวจสอบ AP ต่อคลาสและถังขนาด [3]
-
การแบ่งส่วน: mIoU, Dice; ตรวจสอบข้อผิดพลาดระดับอินสแตนซ์ด้วย
-
ระบบติดตาม: MOTA, IDF1; คุณภาพในการระบุตัวตนซ้ำคือฮีโร่ผู้ปิดทองหลังพระ
-
OCR: อัตราข้อผิดพลาดของตัวอักษร (CER) และอัตราข้อผิดพลาดของคำ (WER) โดยส่วนใหญ่มักเกิดจากความผิดพลาดในการจัดวาง
-
งานวิเคราะห์การถดถอย: การวัดความลึกหรือท่าทางโดยใช้ค่าความคลาดเคลื่อนสัมบูรณ์/สัมพัทธ์ (มักใช้มาตราส่วนลอการิทึม)
จัดทำเอกสารขั้นตอนการประเมินของคุณเพื่อให้ผู้อื่นสามารถทำซ้ำได้ มันอาจดูไม่น่าสนใจ แต่ช่วยให้คุณทำงานได้อย่างซื่อสัตย์.
สร้างเองหรือซื้อสำเร็จรูป และควรดำเนินการที่ไหนดี 🏗️
-
ระบบคลาวด์: เริ่มต้นใช้งานได้ง่ายที่สุด เหมาะสำหรับงานประมวลผลแบบกลุ่ม ควรระวังค่าใช้จ่ายในการส่งข้อมูลออก
-
อุปกรณ์ Edge: ความหน่วงต่ำกว่าและความเป็นส่วนตัวที่ดีกว่า คุณจะต้องสนใจเรื่องการลดจำนวนข้อมูล การตัดแต่งข้อมูล และตัวเร่งความเร็ว
-
บนอุปกรณ์มือถือ: ยอดเยี่ยมเมื่อใช้งานได้พอดี ปรับแต่งโมเดลและตรวจสอบแบตเตอรี่
-
ระบบไฮบริด: กรองข้อมูลเบื้องต้นที่อุปกรณ์ปลายทาง ประมวลผลข้อมูลหนักในระบบคลาวด์ เป็นการประนีประนอมที่ดี
ชุดขั้นตอนที่เชื่อถือได้แบบน่าเบื่อ: สร้างต้นแบบด้วย PyTorch ฝึกตัวตรวจจับมาตรฐาน ส่งออกเป็น ONNX เร่งความเร็วด้วย OpenVINO/ONNX Runtime และใช้ OpenCV สำหรับการประมวลผลล่วงหน้าและเรขาคณิต (การปรับเทียบ โฮโมกราฟี สัณฐานวิทยา) [4]
ความเสี่ยง จริยธรรม และประเด็นยากๆ ที่ควรพูดคุย ⚖️
ระบบการมองเห็นอาจได้รับอคติจากชุดข้อมูลหรือจุดบอดในการทำงาน การประเมินอิสระ (เช่น NIST FRVT) ได้วัดความแตกต่างทางประชากรในอัตราความผิดพลาดในการจดจำใบหน้าในอัลกอริทึมและเงื่อนไขต่างๆ นั่นไม่ใช่เหตุผลที่จะต้องตื่นตระหนก แต่ เป็น เหตุผลที่จะต้องทดสอบอย่างระมัดระวัง บันทึกข้อจำกัด และตรวจสอบอย่างต่อเนื่องในการใช้งานจริง หากคุณใช้งานกรณีที่เกี่ยวข้องกับตัวตนหรือความปลอดภัย ให้รวมกลไกการตรวจสอบโดยมนุษย์และการอุทธรณ์ ความเป็นส่วนตัว ความยินยอม และความโปร่งใสไม่ใช่สิ่งที่ไม่จำเป็น [5]
แผนงานเริ่มต้นอย่างรวดเร็วที่คุณสามารถทำตามได้จริง 🗺️
-
กำหนดการตัดสินใจ
ระบบควรดำเนินการอย่างไรหลังจากเห็นภาพ? วิธีนี้จะช่วยป้องกันไม่ให้คุณมุ่งเน้นไปที่ตัวชี้วัดที่ไม่สำคัญ -
รวบรวมชุดข้อมูลแบบง่ายๆ
เริ่มต้นด้วยภาพถ่ายสักสองสามร้อยภาพที่สะท้อนสภาพแวดล้อมจริงของคุณ ติดป้ายกำกับอย่างระมัดระวัง แม้ว่าจะมีแค่คุณและกระดาษโน้ตสามแผ่นก็ตาม -
เลือกโมเดลพื้นฐาน
เลือกโครงสร้างหลักที่เรียบง่ายพร้อมน้ำหนักที่ฝึกฝนไว้ล่วงหน้า อย่าเพิ่งไปสนใจสถาปัตยกรรมที่แปลกใหม่ [1] -
ฝึกฝน บันทึก และประเมิน
ผล ติดตามตัวชี้วัด จุดที่ทำให้เกิดความสับสน และรูปแบบความล้มเหลว จดบันทึก "กรณีแปลกๆ" เช่น หิมะ แสงจ้า การสะท้อนแสง ตัวอักษรที่ผิดปกติ -
กระชับลูป
เพิ่มค่าลบที่ชัดเจน แก้ไขการเลื่อนของป้ายกำกับ ปรับการเพิ่มประสิทธิภาพ และปรับค่าเกณฑ์ใหม่ การปรับแต่งเล็กๆ น้อยๆ เหล่านี้รวมกันแล้วได้ผล [3] -
ปรับใช้เวอร์ชันที่เรียบง่ายกว่า
ทำการควอนไทซ์และส่งออก วัดค่าความหน่วง/ปริมาณงานในสภาพแวดล้อมจริง ไม่ใช่การทดสอบประสิทธิภาพแบบจำลอง -
ตรวจสอบและปรับปรุงอย่างต่อเนื่อง
รวบรวมข้อผิดพลาด ปรับเปลี่ยนป้ายกำกับ และฝึกฝนใหม่ กำหนดตารางการประเมินผลเป็นระยะ เพื่อป้องกันไม่ให้โมเดลของคุณหยุดนิ่ง
เคล็ดลับมือโปร: ลองทำเครื่องหมายกำกับชุดข้อมูลเล็กๆ ที่เพื่อนร่วมทีมที่มองโลกในแง่ร้ายที่สุดของคุณใช้ดู ถ้าพวกเขาหาจุดอ่อนในนั้นไม่ได้ แสดงว่าคุณอาจพร้อมแล้ว
ข้อผิดพลาดทั่วไปที่คุณควรหลีกเลี่ยง 🧨
-
ฝึกฝนการถ่ายภาพในสตูดิโอที่สะอาดตา แล้วนำไปใช้ในสถานการณ์จริงที่มีฝนตกบนเลนส์กล้อง.
-
การเพิ่มประสิทธิภาพ mAP โดยรวมเมื่อคุณสนใจคลาสที่สำคัญเพียงคลาสเดียว [3]
-
เพิกเฉยต่อความไม่สมดุลของชนชั้น แล้วสงสัยว่าทำไมเหตุการณ์หายากจึงหายไป.
-
เพิ่มจำนวนข้อมูลมากเกินไปจนกว่าโมเดลจะเรียนรู้สิ่งประดิษฐ์เทียม.
-
ข้ามการปรับเทียบกล้องแล้วต่อสู้กับข้อผิดพลาดมุมมองตลอดไป [4]
-
เชื่อตัวเลขในตารางอันดับโดยไม่ต้องจำลองการตั้งค่าการประเมินที่แน่นอน [2][3]
แหล่งข้อมูลที่ควรบันทึกไว้ 🔗
หากคุณชอบเอกสารต้นฉบับและบันทึกการเรียน สิ่งเหล่านี้คือแหล่งข้อมูลชั้นเยี่ยมสำหรับพื้นฐาน การฝึกฝน และเกณฑ์มาตรฐาน ดู อ้างอิง สำหรับลิงก์: บันทึก CS231n, เอกสาร ImageNet challenge, เอกสารชุดข้อมูล/การประเมิน COCO, เอกสาร OpenCV และรายงาน NIST FRVT [1][2][3][4][5]
ข้อสรุปสุดท้าย - หรือส่วนที่ยาวเกินไปจนอ่านไม่จบ 🍃
คอมพิวเตอร์วิชั่นใน AI เปลี่ยนพิกเซลให้เป็นการตัดสินใจ มันจะโดดเด่นเมื่อคุณจับคู่ภารกิจที่เหมาะสมกับข้อมูลที่เหมาะสม วัดสิ่งที่ถูกต้อง และปรับปรุงอย่างต่อเนื่องด้วยวินัยที่เหนือกว่า เครื่องมือต่างๆ มีให้ใช้งานอย่างครบครัน เกณฑ์มาตรฐานเปิดเผยต่อสาธารณะ และเส้นทางจากต้นแบบไปสู่การผลิตนั้นสั้นอย่างน่าประหลาดใจหากคุณมุ่งเน้นไปที่การตัดสินใจขั้นสุดท้าย กำหนดป้ายกำกับให้ถูกต้อง เลือกตัวชี้วัดที่สอดคล้องกับผลกระทบ และปล่อยให้โมเดลทำงานหนัก และหากจะใช้คำอุปมาอุปไมยช่วยให้เข้าใจได้ง่ายขึ้น ลองนึกถึงการสอนเด็กฝึกงานที่ทำงานเร็วแต่ซื่อตรงให้มองเห็นสิ่งที่สำคัญ คุณแสดงตัวอย่าง แก้ไขข้อผิดพลาด และค่อยๆ มอบความไว้วางใจให้มันทำงานจริง มันอาจไม่สมบูรณ์แบบ แต่ก็ใกล้เคียงพอที่จะเปลี่ยนแปลงได้ 🌟
เอกสารอ้างอิง
-
CS231n: การเรียนรู้เชิงลึกสำหรับวิทยาการคอมพิวเตอร์ (เอกสารประกอบการเรียน) - มหาวิทยาลัยสแตนฟอร์ด
อ่านเพิ่มเติม -
ImageNet Large Scale Visual Recognition Challenge (บทความ) - Russakovsky และคณะ
อ่านเพิ่มเติม -
ชุดข้อมูลและการประเมินผล COCO - เว็บไซต์อย่างเป็นทางการ (คำจำกัดความของงานและข้อกำหนด mAP/IoU)
อ่านเพิ่มเติม -
เอกสารประกอบการใช้งาน OpenCV (เวอร์ชัน 4.x) - โมดูลสำหรับการประมวลผลล่วงหน้า การปรับเทียบ สัณฐานวิทยา ฯลฯ
อ่านเพิ่มเติม -
NIST FRVT ส่วนที่ 3: ผลกระทบทางด้านประชากรศาสตร์ (NISTIR 8280) - การประเมินอิสระของความแม่นยำในการจดจำใบหน้าในกลุ่มประชากรต่างๆ
อ่านเพิ่มเติม