AI Dataset คืออะไร?

หากคุณกำลังสร้าง ซื้อ หรือแม้แต่ประเมินระบบ AI คุณจะพบคำถามที่ดูเรียบง่ายว่า ชุดข้อมูล AI คืออะไร และทำไมจึงสำคัญนัก? สั้นๆ ก็คือ เชื้อเพลิง ตำราอาหาร และบางครั้งก็เป็นเข็มทิศสำหรับโมเดลของคุณ

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 AI คาดการณ์แนวโน้มได้อย่างไร
สำรวจว่า AI วิเคราะห์รูปแบบเพื่อคาดการณ์เหตุการณ์และพฤติกรรมในอนาคตอย่างไร

🔗 วิธีการวัดประสิทธิภาพ AI
มาตรวัดและวิธีการในการประเมินความแม่นยำ ประสิทธิภาพ และความน่าเชื่อถือของแบบจำลอง

🔗 วิธีการพูดคุยกับ AI
คำแนะนำในการสร้างปฏิสัมพันธ์ที่ดีขึ้นเพื่อปรับปรุงการตอบสนองที่สร้างโดย AI

🔗 AI Prompting คืออะไร
ภาพรวมของวิธีที่คำกระตุ้นกำหนดผลลัพธ์ของ AI และคุณภาพการสื่อสารโดยรวม

AI Dataset คืออะไร? คำจำกัดความสั้นๆ 🧩

ชุดข้อมูล AI คืออะไร? มันคือ ชุดตัวอย่างที่ โมเดลของคุณใช้เรียนรู้หรือประเมินผล โดยแต่ละตัวอย่างจะมี:

อินพุต - คุณสมบัติที่โมเดลเห็น เช่น ข้อความสั้นๆ รูปภาพ เสียง แถวตาราง การอ่านค่าเซนเซอร์ กราฟ
เป้าหมาย - ป้ายกำกับหรือผลลัพธ์ที่โมเดลควรทำนาย เช่น หมวดหมู่ ตัวเลข ช่วงของข้อความ การกระทำ หรือบางครั้งไม่มีอะไรเลย
เมตาเดตา - บริบท เช่น แหล่งที่มา วิธีการรวบรวม ไทม์สแตมป์ ใบอนุญาต ข้อมูลความยินยอม และหมายเหตุเกี่ยวกับคุณภาพ

ลองนึกถึงมันเหมือนกล่องข้าวที่แพ็คมาอย่างดีสำหรับโมเดลของคุณ: ส่วนผสม ฉลาก ข้อมูลโภชนาการ และใช่แล้ว มีโน้ตติดไว้ที่เขียนว่า "อย่ากินส่วนนี้" 🍱

สำหรับงานที่มีการควบคุมดูแล คุณจะเห็นอินพุตที่จับคู่กับป้ายกำกับที่ชัดเจน สำหรับงานที่ไม่มีการควบคุมดูแล คุณจะเห็นอินพุตที่ไม่มีป้ายกำกับ สำหรับการเรียนรู้แบบเสริมแรง ข้อมูลมักจะดูเหมือนตอนหรือวิถีที่มีสถานะ การกระทำ และรางวัล สำหรับงานแบบมัลติโมดัล ตัวอย่างสามารถรวมข้อความ + รูปภาพ + เสียงไว้ในเรคคอร์ดเดียวได้ ฟังดูเก๋ไก๋ ส่วนใหญ่เป็นงานประปา

คู่มือและแนวปฏิบัติที่เป็นประโยชน์: Datasheets for Datasets ช่วยให้ทีมอธิบายสิ่งที่อยู่ภายในและวิธีการใช้งาน [1] และ Model Cards ช่วยเสริมเอกสารข้อมูลในฝั่งโมเดล [2]

อะไรทำให้ชุดข้อมูล AI ดี ✅

พูดตรงๆ เลยนะ โมเดลหลายๆ ตัวประสบความสำเร็จเพราะชุดข้อมูลไม่ได้แย่อะไร ชุดข้อมูล "ที่ดี" คือ:

ตัวแทน ของกรณีการใช้งานจริง ไม่ใช่แค่เงื่อนไขในห้องแล็ป
ติดฉลากอย่างถูกต้องพร้อมแนวทางที่ชัดเจนและการตัดสินเป็นระยะ มาตรวัดที่สอดคล้อง (เช่น มาตรวัดแบบแคปปา) ช่วยตรวจสอบความสอดคล้องของข้อมูล
สมบูรณ์และสมดุล เพียงพอที่จะหลีกเลี่ยงความล้มเหลวเงียบๆ ในระยะยาว ความไม่สมดุลเป็นเรื่องปกติ แต่ความประมาทเลินเล่อไม่ใช่เรื่องปกติ
แหล่งที่มาชัดเจนพร้อมเอกสารยินยอม ใบอนุญาต และคำอนุญาต เอกสารที่น่าเบื่อหน่ายช่วยป้องกันไม่ให้เกิดคดีความที่น่าตื่นเต้น
มีการบันทึกข้อมูลอย่างดี โดยใช้การ์ดข้อมูลหรือแผ่นข้อมูลที่ระบุการใช้งานที่ตั้งใจ ข้อจำกัด และโหมดความล้มเหลวที่ทราบ [1]
ควบคุม ด้วยการกำหนดเวอร์ชัน บันทึกการเปลี่ยนแปลง และการอนุมัติ หากคุณไม่สามารถสร้างชุดข้อมูลซ้ำได้ คุณก็ไม่สามารถสร้างแบบจำลองซ้ำได้ คำแนะนำจาก กรอบการจัดการความเสี่ยง AI ของ NIST ถือว่าคุณภาพข้อมูลและเอกสารเป็นข้อกังวลหลัก [3]

ประเภทของชุดข้อมูล AI โดยสิ่งที่คุณกำลังทำ 🧰

ตามงาน

การแบ่งประเภท เช่น สแปม กับ ไม่ใช่สแปม หมวดหมู่รูปภาพ
การถดถอย - คาดการณ์ค่าต่อเนื่อง เช่น ราคาหรืออุณหภูมิ
การติดฉลากลำดับ - เอนทิตีที่มีชื่อ ส่วนต่างๆ ของคำพูด
การสร้าง - การสรุป การแปล การใส่คำบรรยายภาพ
คำแนะนำ - ผู้ใช้, รายการ, การโต้ตอบ, บริบท
การตรวจจับความผิดปกติ - เหตุการณ์ที่เกิดขึ้นน้อยครั้งในลำดับเวลาหรือบันทึก
การเรียนรู้เชิงเสริมแรง - สถานะ การกระทำ รางวัล ลำดับสถานะถัดไป
การดึงข้อมูล - เอกสาร การสอบถาม การตัดสินความเกี่ยวข้อง

โดยวิธีการ

ตาราง - คอลัมน์เช่น อายุ รายได้ การเปลี่ยนแปลง ไม่ค่อยถูกพูดถึง แต่กลับมีประสิทธิภาพอย่างโหดร้าย
ข้อความ - เอกสาร แชท โค้ด โพสต์ในฟอรัม คำอธิบายผลิตภัณฑ์
ภาพ - รูปถ่าย สแกนทางการแพทย์ กระเบื้องดาวเทียม มีหรือไม่มีหน้ากาก กล่อง จุดสำคัญ
เสียง - รูปแบบคลื่น, บทบรรยาย, แท็กผู้พูด
วิดีโอ - เฟรม, คำอธิบายชั่วคราว, ป้ายการกระทำ
กราฟ - โหนด ขอบ คุณลักษณะ
ไทม์ซีรีส์ - เซ็นเซอร์, การเงิน, การวัดระยะไกล

โดยการกำกับดูแล

มีฉลาก (สีทอง, เงิน, ติดฉลากอัตโนมัติ), ติดฉลากไม่ชัดเจน, ไม่มีฉลาก, สังเคราะห์ส่วนผสมเค้กสำเร็จรูปที่ซื้อตามร้านก็ใช้ได้นะ ลองอ่านที่กล่องดู

ภายในกล่อง: โครงสร้าง การแยก และเมตาข้อมูล 📦

ชุดข้อมูลที่แข็งแกร่งโดยปกติจะประกอบด้วย:

รูปแบบ - ฟิลด์ที่พิมพ์, หน่วย, ค่าที่อนุญาต, การจัดการค่าว่าง
การแยกส่วน - ฝึกอบรม การตรวจสอบ ทดสอบ เก็บรักษาข้อมูลการทดสอบให้เป็นความลับ - ปฏิบัติต่อมันเหมือนช็อกโกแลตชิ้นสุดท้าย
แผนการสุ่มตัวอย่าง - วิธีที่คุณดึงตัวอย่างจากประชากร หลีกเลี่ยงการสุ่มตัวอย่างที่สะดวกจากภูมิภาคหรืออุปกรณ์หนึ่งๆ
การเสริม - การพลิกกลับ การครอบตัด เสียงรบกวน การถอดความ การใส่หน้ากาก เป็นสิ่งที่ดีเมื่อทำอย่างตรงไปตรงมา แต่เป็นอันตรายเมื่อสร้างรูปแบบที่ไม่เคยเกิดขึ้นจริงในธรรมชาติ
การกำหนดเวอร์ชัน - ชุดข้อมูล v0.1, v0.2… พร้อมบันทึกการเปลี่ยนแปลงที่อธิบายถึงความแตกต่าง
ใบอนุญาตและความยินยอม - สิทธิ์การใช้งาน การแจกจ่ายซ้ำ และการลบข้อมูล หน่วยงานกำกับดูแลการคุ้มครองข้อมูลแห่งชาติ (เช่น UK ICO) จัดทำรายการตรวจสอบการประมวลผลที่ถูกต้องตามกฎหมายและใช้งานได้จริง [4]

วงจรชีวิตชุดข้อมูล ทีละขั้นตอน 🔁

กำหนดการตัดสินใจ - โมเดลจะตัดสินใจอย่างไร และจะเกิดอะไรขึ้นหากการตัดสินใจนั้นผิดพลาด
คุณลักษณะและป้ายกำกับขอบเขต - วัดได้ สังเกตได้ มีจริยธรรมในการรวบรวม
แหล่งที่มาของข้อมูล - เครื่องมือ บันทึก การสำรวจ องค์กรสาธารณะ พันธมิตร
ความยินยอมและข้อกฎหมาย - ประกาศความเป็นส่วนตัว การยกเลิกการรับข้อมูล การลดปริมาณข้อมูล ดูคำแนะนำของหน่วยงานกำกับดูแลสำหรับ "เหตุผล" และ "วิธีการ" [4]
รวบรวมและจัดเก็บ - การจัดเก็บที่ปลอดภัย การเข้าถึงตามบทบาท การจัดการ PII
ป้ายกำกับ - ผู้ให้คำอธิบายภายใน การระดมทุนจากมวลชน ผู้เชี่ยวชาญ จัดการคุณภาพด้วยงานทองคำ การตรวจสอบ และเมตริกข้อตกลง
ทำความสะอาดและทำให้เป็นมาตรฐาน - ลบข้อมูลซ้ำซ้อน จัดการข้อมูลที่หายไป กำหนดหน่วยให้เป็นมาตรฐาน แก้ไขการเข้ารหัส งานที่น่าเบื่อแต่ก็ยอดเยี่ยม
แยกและตรวจสอบ - ป้องกันการรั่วไหล แบ่งชั้นเมื่อเกี่ยวข้อง เลือกการแยกตามเวลาสำหรับข้อมูลชั่วคราว และใช้การตรวจสอบแบบไขว้อย่างรอบคอบสำหรับการประมาณค่าที่มั่นคง [5]
เอกสาร - แผ่นข้อมูลหรือบัตรข้อมูล การใช้งานตามวัตถุประสงค์ ข้อควรระวัง ข้อจำกัด [1]
ตรวจสอบและอัปเดต - การตรวจจับการเบี่ยงเบน จังหวะการรีเฟรช แผนการยุติการใช้งาน กรอบ AI RMF ของ NIST กำหนดวงจรการกำกับดูแลอย่างต่อเนื่องนี้ [3]

เคล็ดลับง่ายๆ ที่ใช้งานได้จริง: ทีมต่างๆ มักจะ "ชนะการสาธิต" แต่กลับสะดุดในการใช้งานจริง เพราะชุดข้อมูลของพวกเขาเปลี่ยนแปลงไปอย่างเงียบๆ เช่น สายผลิตภัณฑ์ใหม่ ฟิลด์ที่เปลี่ยนชื่อ หรือนโยบายที่เปลี่ยนแปลงไป การบันทึกการเปลี่ยนแปลง (changelog) ง่ายๆ + การใส่คำอธิบายประกอบซ้ำเป็นระยะๆ จะช่วยหลีกเลี่ยงปัญหาเหล่านี้ได้เกือบทั้งหมด

คุณภาพและการประเมินข้อมูล - ไม่น่าเบื่ออย่างที่คิด 🧪

คุณภาพมีหลายมิติ:

ความแม่นยำ - ฉลากถูกต้องหรือไม่? ใช้มาตรวัดที่ตกลงกันไว้และการพิจารณาเป็นระยะ
ความครบถ้วน - ครอบคลุมสาขาและคลาสที่คุณต้องการอย่างแท้จริง
ความสอดคล้อง - หลีกเลี่ยงการใช้ป้ายกำกับที่ขัดแย้งกันสำหรับข้อมูลอินพุตที่คล้ายคลึงกัน
ความทันเวลา - ข้อมูลที่ล้าสมัยทำให้สมมติฐานกลายเป็นฟอสซิล
ความเป็นธรรมและอคติ - การครอบคลุมด้านประชากรศาสตร์ ภาษา อุปกรณ์ และสภาพแวดล้อม เริ่มต้นด้วยการตรวจสอบเชิงพรรณนา จากนั้นจึงทำการทดสอบความเครียด แนวปฏิบัติที่เน้นเอกสารเป็นหลัก (แผ่นข้อมูล บัตรแบบจำลอง) ทำให้การตรวจสอบเหล่านี้มองเห็นได้ [1] และกรอบการกำกับดูแลเน้นย้ำสิ่งเหล่านี้ในฐานะการควบคุมความเสี่ยง [3]

สำหรับการประเมินแบบจำลอง ให้ใช้ การแบ่งส่วนที่เหมาะสม และติดตามทั้งค่าเมตริกเฉลี่ยและค่าเมตริกกลุ่มแย่ที่สุด ค่าเฉลี่ยที่สดใสอาจซ่อนหลุมอุกกาบาตได้ พื้นฐานการตรวจสอบแบบไขว้มีอยู่ในเอกสารเครื่องมือ ML มาตรฐาน [5]

จริยธรรม ความเป็นส่วนตัว และการออกใบอนุญาต - รั้วกั้น 🛡️

ข้อมูลทางจริยธรรมไม่ใช่ความรู้สึก แต่มันเป็นกระบวนการ:

การยินยอมและข้อจำกัดวัตถุประสงค์ - ระบุการใช้งานและพื้นฐานทางกฎหมายให้ชัดเจน [4]
การจัดการ PII - ลดให้เหลือน้อยที่สุด ใช้ชื่อปลอม หรือทำให้ไม่ระบุตัวตนตามความเหมาะสม พิจารณาใช้เทคโนโลยีที่เพิ่มความเป็นส่วนตัวเมื่อมีความเสี่ยงสูง
การอ้างอิงแหล่งที่มาและใบอนุญาต - โปรดเคารพข้อจำกัดเกี่ยวกับการแบ่งปันและการใช้งานเชิงพาณิชย์
อคติและอันตราย - ตรวจสอบความสัมพันธ์ที่ผิดพลาด ("กลางวัน = ปลอดภัย" จะใช้ไม่ได้ผลในเวลากลางคืน)
การแก้ไข - ทราบวิธีการลบข้อมูลเมื่อมีการร้องขอและวิธีย้อนกลับโมเดลที่ได้รับการฝึกอบรมจากข้อมูลนั้น (บันทึกสิ่งนี้ไว้ในแผ่นข้อมูลของคุณ) [1]

ใหญ่แค่ไหนถึงจะใหญ่พอ? การกำหนดขนาดและสัญญาณต่อสัญญาณรบกวน 📏

หลักการทั่วไปคือ ยิ่งมีตัวอย่างมากเท่าไหร่ ก็ยิ่งดี ถ้า ตัวอย่างเหล่านั้นมีความเกี่ยวข้องและไม่ซ้ำซ้อนกัน แต่บางครั้ง การมี น้อยลง แต่จัดระเบียบดีกว่า และติดป้ายกำกับชัดเจน กว่าการมีตัวอย่างมากมายที่ยุ่งเหยิง

ระวัง:

เส้นโค้งการเรียนรู้ - พล็อตประสิทธิภาพเทียบกับขนาดของกลุ่มตัวอย่างเพื่อดูว่าคุณติดขัดที่ข้อมูลหรือที่โมเดล
ความคุ้มครองแบบหางยาว - คลาสที่หายากแต่สำคัญมักต้องมีการรวบรวมแบบมีเป้าหมาย ไม่ใช่แค่จำนวนมากขึ้นเท่านั้น
ระบุสัญญาณรบกวน - วัดแล้วจึงลดลง เล็กน้อยก็พอรับได้ แต่คลื่นยักษ์ทนไม่ได้
การเปลี่ยนแปลงการกระจาย - ข้อมูลการฝึกอบรมจากภูมิภาคหรือช่องทางหนึ่งอาจไม่สามารถสรุปเป็นข้อมูลทั่วไปไปยังอีกภูมิภาคหรือช่องทางหนึ่งได้ ตรวจสอบข้อมูลทดสอบแบบเป้าหมาย [5]

เมื่อไม่แน่ใจ ให้ค่อยๆ เติมทีละน้อยแล้วขยายออก เหมือนกับการปรุงรส คือเติม ชิม ปรับแต่ง แล้วทำซ้ำ

ค้นหาและจัดการชุดข้อมูลได้ที่ไหน 🗂️

ทรัพยากรและเครื่องมือยอดนิยม (ไม่จำเป็นต้องจำ URL ทันที):

ชุดข้อมูล Hugging Face - การโหลด การประมวลผล การแบ่งปันด้วยโปรแกรม
การค้นหาชุดข้อมูลของ Google - การค้นหาแบบเมตาทั่วทั้งเว็บ
UCI ML Repository - รวบรวมคลาสสิกสำหรับพื้นฐานและการสอน
OpenML - งาน + ชุดข้อมูล + การทำงานพร้อมที่มา
AWS Open Data / Google Cloud Public Datasets - โฮสต์คอร์ปัสขนาดใหญ่

เคล็ดลับมืออาชีพ: อย่าแค่ดาวน์โหลด อ่านใบอนุญาตและเอกสารข้อมูลจากนั้นบันทึกสำเนาของคุณเองพร้อมหมายเลขเวอร์ชันและที่มา [1]

การติดฉลากและคำอธิบายประกอบ - ที่ซึ่งความจริงได้รับการเจรจาต่อรอง ✍️

คำอธิบายประกอบคือจุดที่แนวทางฉลากเชิงทฤษฎีของคุณต้องต่อสู้กับความเป็นจริง:

การออกแบบงาน - เขียนคำแนะนำที่ชัดเจนพร้อมตัวอย่างและตัวอย่างโต้แย้ง
การฝึกอบรม Annotator - คำตอบเริ่มต้นพร้อมทองคำ ดำเนินการรอบการปรับเทียบ
การควบคุมคุณภาพ - การใช้มาตรวัดข้อตกลง กลไกการบรรลุฉันทามติ และการตรวจสอบตามระยะเวลา
เครื่องมือ - เลือกเครื่องมือที่บังคับใช้การตรวจสอบโครงร่างและตรวจสอบคิว แม้แต่สเปรดชีตก็สามารถทำงานกับกฎและการตรวจสอบได้
วงจรข้อเสนอแนะ - บันทึกหมายเหตุของผู้ให้คำอธิบายและสร้างแบบจำลองข้อผิดพลาดเพื่อปรับปรุงคำแนะนำ

ถ้ารู้สึกเหมือนต้องแก้ไขพจนานุกรมกับเพื่อนสามคนที่ไม่เห็นด้วยกับเรื่องเครื่องหมายจุลภาค... นั่นก็เป็นเรื่องปกติ 🙃

การจัดทำเอกสารข้อมูล - การทำให้ความรู้โดยนัยกลายเป็นชัดเจน 📒

แผ่นข้อมูลจำเพาะ หรือ การ์ดข้อมูล น้ำหนักเบา ควรครอบคลุมถึง:

ใครเก็บรวบรวมไว้ อย่างไร และทำไม
การใช้งานที่ตั้งใจไว้และการใช้งานนอกขอบเขต
ช่องว่าง อคติ และโหมดความล้มเหลวที่ทราบ
โปรโตคอลการติดฉลาก ขั้นตอนการควบคุมคุณภาพ และสถิติข้อตกลง
ใบอนุญาต ความยินยอม การติดต่อเรื่องปัญหา กระบวนการลบ

เทมเพลตและตัวอย่าง: แผ่นข้อมูลสำหรับชุดข้อมูล และ การ์ดโมเดล เป็นจุดเริ่มต้นที่ใช้กันอย่างแพร่หลาย [1]

เขียนมันไปพร้อมกับการสร้าง ไม่ใช่เขียนทีหลัง หน่วยความจำเป็นสื่อจัดเก็บข้อมูลที่ไม่เสถียร

ตารางเปรียบเทียบ - สถานที่ในการค้นหาหรือโฮสต์ชุดข้อมูล AI 📊

ใช่ค่ะ นี่มันออกแนวทะนงตนไปหน่อยนะคะ แล้วการใช้คำก็ดูไม่สม่ำเสมอนิดหน่อยโดยตั้งใจ ไม่เป็นไรค่ะ

เครื่องมือ / ที่เก็บ	ผู้ชม	ราคา	เหตุผลที่มันได้ผลในทางปฏิบัติ
ชุดข้อมูลใบหน้ากอด	นักวิจัย วิศวกร	ฟรีเทียร์	โหลดเร็ว สตรีมมิ่ง สคริปต์ชุมชน เอกสารดีเยี่ยม ชุดข้อมูลเวอร์ชันต่างๆ
การค้นหาชุดข้อมูลของ Google	ทุกคน	ฟรี	พื้นที่ผิวกว้าง เหมาะสำหรับการค้นพบ แต่บางครั้งข้อมูลเมตาอาจไม่สอดคล้องกัน
คลังข้อมูล ML ของ UCI	นักเรียน นักศึกษา นักการศึกษา	ฟรี	คัดสรรคลาสสิก ขนาดเล็กแต่เป็นระเบียบ ดีสำหรับพื้นฐานและการสอน
โอเพ่นเอ็มแอล	นักวิจัยด้านการทำซ้ำ	ฟรี	งาน + ชุดข้อมูล + การรันร่วมกัน; เส้นทางที่มาที่ดี
รีจิสทรีข้อมูลเปิด AWS	วิศวกรข้อมูล	ส่วนใหญ่ฟรี	การโฮสต์ขนาดเพตาไบต์ การเข้าถึงแบบเนทีฟบนคลาวด์ ต้นทุนการออกของนาฬิกา
ชุดข้อมูล Kaggle	ผู้ปฏิบัติธรรม	ฟรี	การแบ่งปันที่ง่ายดาย สคริปต์ การแข่งขัน สัญญาณชุมชนช่วยกรองสัญญาณรบกวน
ชุดข้อมูลสาธารณะของ Google Cloud	นักวิเคราะห์ ทีมงาน	ฟรี + คลาวด์	โฮสต์ใกล้กับการคำนวณ การรวม BigQuery ระมัดระวังในการเรียกเก็บเงิน
พอร์ทัลวิชาการ ห้องปฏิบัติการ	ผู้เชี่ยวชาญเฉพาะด้าน	แตกต่างกันไป	มีความเชี่ยวชาญเฉพาะทางสูง บางครั้งมีเอกสารไม่เพียงพอ แต่ก็ยังคุ้มค่าที่จะค้นหา

(ถ้าเซลล์ดูพูดคุย นั่นเป็นความตั้งใจ)

การสร้างอันแรกของคุณ - ชุดเริ่มต้นที่ใช้งานได้จริง 🛠️

คุณต้องการเปลี่ยนจาก "ชุดข้อมูล AI คืออะไร" ไปเป็น "ฉันสร้างมันขึ้นมาแล้ว มันใช้งานได้" ลองใช้วิธีง่ายๆ นี้:

เขียนการตัดสินใจและตัวชี้วัด เช่น ลดเส้นทางการสนับสนุนที่ผิดพลาดโดยการคาดการณ์ทีมที่เหมาะสม ตัวชี้วัด: มาโคร-F1
ยกตัวอย่างเชิงบวก 5 ข้อ และเชิงลบ 5 ข้อ - ใช้ตัวอย่างตั๋วจริง ห้ามสร้างเรื่องเท็จ
ร่างคู่มือฉลาก - หนึ่งหน้า; กฎการรวม/ไม่รวมที่ชัดเจน
รวบรวมตัวอย่างจริงขนาดเล็ก เช่น ตั๋วสักสองสามร้อยใบจากหลากหลายหมวดหมู่ แล้วลบข้อมูลส่วนบุคคลที่ไม่จำเป็นออก
แยกด้วยการตรวจสอบการรั่วไหล - เก็บข้อความทั้งหมดจากลูกค้ารายเดียวกันไว้ในส่วนแยกเดียว ใช้การตรวจสอบแบบไขว้เพื่อประมาณความแปรปรวน [5]
ใส่คำอธิบายประกอบกับ QA - ผู้ใส่คำอธิบายประกอบสองคนบนเซ็ตย่อย แก้ไขข้อขัดแย้ง อัปเดตคู่มือ
ฝึกพื้นฐานง่ายๆ โดยเริ่มจากโลจิสติกส์ก่อน (เช่น แบบจำลองเชิงเส้นหรือหม้อแปลงไฟฟ้าแบบกะทัดรัด) จุดประสงค์คือการทดสอบข้อมูล ไม่ใช่การคว้าเหรียญรางวัล
ตรวจสอบข้อผิดพลาด - ล้มเหลวตรงไหนและเพราะเหตุใด อัปเดตชุดข้อมูล ไม่ใช่แค่โมเดลเท่านั้น
เอกสาร - แผ่นข้อมูลขนาดเล็ก: แหล่งที่มา, ลิงก์คำแนะนำฉลาก, การแยก, ขีดจำกัดที่ทราบ, ใบอนุญาต [1]
แผนการรีเฟรช - หมวดหมู่ใหม่ คำแสลงใหม่ โดเมนใหม่มาถึง กำหนดตารางการอัปเดตเล็กๆ น้อยๆ บ่อยครั้ง [3]

คุณจะได้เรียนรู้จากลูปนี้มากกว่าการถ่ายสดๆ พันครั้ง และอย่าลืมสำรองข้อมูลไว้ด้วย

หลุมพรางทั่วไปที่มักเกิดขึ้นกับทีม 🪤

การรั่วไหลของข้อมูล - คำตอบหลุดเข้าไปในฟีเจอร์ (เช่น การใช้ฟิลด์หลังการแก้ไขเพื่อคาดการณ์ผลลัพธ์) รู้สึกเหมือนโกงเพราะเป็นอย่างนั้นจริงๆ
ความหลากหลายที่ตื้นเขิน - ภูมิศาสตร์หรือกลไกหนึ่งที่ปลอมตัวเป็นระดับโลก การทดสอบจะเผยให้เห็นจุดหักมุมของเนื้อเรื่อง
การเปลี่ยนแปลงของป้ายกำกับ - เกณฑ์ต่างๆ เปลี่ยนแปลงไปตามเวลา แต่คู่มือป้ายกำกับยังคงเหมือนเดิม จึงควรจัดทำเอกสารและกำหนดเวอร์ชันของออนโทโลยีของคุณ
วัตถุประสงค์ที่ไม่ชัดเจน - ถ้าคุณไม่สามารถระบุการคาดการณ์ที่ผิดพลาดได้ ข้อมูลของคุณก็จะไม่สามารถระบุได้เช่นกัน
ใบอนุญาตที่ยุ่งเหยิง - การขูดรีดตอนนี้และการขอโทษในภายหลังไม่ใช่กลยุทธ์
การเสริมมากเกินไป - ข้อมูลสังเคราะห์ที่สอนสิ่งประดิษฐ์ที่ไม่สมจริง เช่น การฝึกเชฟเกี่ยวกับผลไม้พลาสติก

คำถามที่พบบ่อยเกี่ยวกับวลีนี้ ❓

คำถามที่ว่า “ชุดข้อมูล AI คืออะไร?” เป็นเพียงเรื่องของคำจำกัดความใช่หรือไม่? ส่วนใหญ่ก็ใช่ แต่ก็เป็นสัญญาณบ่งบอกว่าคุณใส่ใจในรายละเอียดที่ดูน่าเบื่อแต่มีความสำคัญต่อความน่าเชื่อถือของโมเดลด้วย
ฉันจำเป็นต้องมีป้ายกำกับเสมอหรือไม่? ไม่ การตั้งค่าแบบไม่มีผู้ดูแล ผู้ดูแลตนเอง และแบบ RL มักจะข้ามป้ายกำกับที่ชัดเจน แต่การดูแลจัดการก็ยังคงมีความสำคัญ
ฉันสามารถใช้ข้อมูลสาธารณะเพื่อวัตถุประสงค์ใดๆ ได้หรือไม่? ไม่ได้ โปรดเคารพใบอนุญาต ข้อกำหนดของแพลตฟอร์ม และข้อผูกพันด้านความเป็นส่วนตัว [4]
ใหญ่กว่าหรือดีกว่า? ทั้งสองอย่างเลย ถ้าต้องเลือก ก็ต้องเลือกที่ดีกว่าก่อน

หมายเหตุสุดท้าย - สิ่งที่คุณสามารถแคปหน้าจอได้ 📌

ถ้ามีคนถามคุณว่า ชุดข้อมูล AI คืออะไรให้ตอบว่า: มันคือชุดตัวอย่างที่คัดสรรและจัดทำเอกสารอย่างดี ซึ่งใช้ในการสอนและทดสอบโมเดล โดยมีระบบการกำกับดูแลเพื่อให้ผู้คนสามารถเชื่อถือผลลัพธ์ได้ ชุดข้อมูลที่ดีที่สุดคือชุดข้อมูลที่เป็นตัวแทนที่ดี มีการติดป้ายกำกับอย่างถูกต้องตามกฎหมาย และได้รับการดูแลรักษาอย่างต่อเนื่อง ส่วนที่เหลือเป็นรายละเอียด – รายละเอียดที่สำคัญ – เกี่ยวกับโครงสร้าง การแบ่งกลุ่ม และข้อจำกัดเล็กๆ น้อยๆ เหล่านั้นที่ช่วยป้องกันไม่ให้โมเดลทำงานผิดพลาด บางครั้งกระบวนการนี้ก็เหมือนกับการทำสวนด้วยสเปรดชีต บางครั้งก็เหมือนกับการต้อนพิกเซล ไม่ว่าจะอย่างไรก็ตาม ลงทุนในข้อมูล แล้วโมเดลของคุณจะทำงานได้ดีขึ้น 🌱🤖

เอกสารอ้างอิง

[1] เอกสารข้อมูลสำหรับชุดข้อมูล - Gebru et al., arXiv. ลิงก์
[2] การ์ดโมเดลสำหรับการรายงานโมเดล - Mitchell et al., arXiv. ลิงก์
[3] กรอบการจัดการความเสี่ยงปัญญาประดิษฐ์ของ NIST (AI RMF 1.0)ลิงก์ [
4] คำแนะนำและแหล่งข้อมูล GDPR ของสหราชอาณาจักร - สำนักงานคณะกรรมการข้อมูลข่าวสาร (ICO) ลิงก์
[5] การตรวจสอบแบบไขว้: การประเมินประสิทธิภาพของตัวประมาณค่า - คู่มือผู้ใช้ scikit-learn ลิงก์

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก