คำตอบสั้นๆ: การเพิ่มความละเอียดภาพด้วย AI ทำงานโดยการฝึกโมเดลด้วยภาพความละเอียดต่ำและสูงที่จับคู่กัน จากนั้นใช้โมเดลนั้นในการทำนายพิกเซลเพิ่มเติมที่ดูสมจริงระหว่างการเพิ่มความละเอียด หากโมเดลเคยเห็นพื้นผิวหรือใบหน้าที่คล้ายกันในระหว่างการฝึก มันก็จะสามารถเพิ่มรายละเอียดได้อย่างน่าเชื่อถือ แต่ถ้าไม่ มันอาจจะ "สร้างภาพลวงตา" เช่น แสงสะท้อน ผิวดูมันวาว หรือการกระพริบในวิดีโอ
ประเด็นสำคัญ:
คำทำนาย: แบบจำลองนี้สร้างรายละเอียดที่สมจริง ไม่ใช่การสร้างความเป็นจริงขึ้นมาใหม่ได้อย่างสมบูรณ์แบบ
การเลือกโมเดล: CNN มักมีความเสถียรกว่า ในขณะที่ GAN อาจดูคมชัดกว่า แต่มีความเสี่ยงที่จะสร้างคุณลักษณะปลอมขึ้นมา
การตรวจสอบสิ่งผิดปกติ: สังเกตแสงสะท้อน, พื้นผิวที่ซ้ำกัน, "ตัวอักษรที่ดูคล้ายตัวอักษร" และพื้นผิวที่ดูเหมือนพลาสติก
ความเสถียรของวิดีโอ: ใช้เทคนิคการวัดเวลา มิเช่นนั้นคุณจะเห็นภาพสั่นไหวและเลื่อนไปมาระหว่างเฟรมต่างๆ
การใช้งานที่มีความเสี่ยงสูง: หากความถูกต้องแม่นยำมีความสำคัญ โปรดเปิดเผยวิธีการประมวลผลและถือว่าผลลัพธ์เป็นเพียงตัวอย่างประกอบเท่านั้น

คุณคงเคยเห็นมาแล้ว: ภาพเล็กๆ ที่ดูไม่คมชัด กลับกลายเป็นภาพที่คมชัดพอที่จะพิมพ์ สตรีม หรือใส่ลงในงานนำเสนอได้โดยไม่รู้สึกผิดเพี้ยน มันให้ความรู้สึกเหมือนโกง และในแง่ดีที่สุด มันก็เป็นอย่างนั้นจริงๆ 😅
ดังนั้น วิธีการทำงานของ AI Upscaling จึงไม่ใช่แค่ "คอมพิวเตอร์เพิ่มรายละเอียด" (ซึ่งเป็นคำอธิบายแบบคร่าวๆ) แต่ใกล้เคียงกับ "แบบจำลองคาดการณ์โครงสร้างความละเอียดสูงที่สมเหตุสมผลโดยอิงจากรูปแบบที่เรียนรู้จากตัวอย่างจำนวนมาก" (Deep Learning for Image Super-resolution: A Survey) ขั้นตอนการคาดการณ์นี้คือหัวใจสำคัญ และเป็นเหตุผลว่าทำไม AI Upscaling ถึงดูสวยงาม... หรือดูเหมือนพลาสติก... หรือเหมือนแมวของคุณมีหนวดเพิ่มขึ้นมาอีกเส้นหนึ่ง
บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:
🔗 ปัญญาประดิษฐ์ทำงานอย่างไร
เรียนรู้พื้นฐานของแบบจำลอง ข้อมูล และการอนุมานในปัญญาประดิษฐ์.
🔗 ปัญญาประดิษฐ์เรียนรู้ได้อย่างไร
ดูว่าข้อมูลการฝึกฝนและผลตอบรับช่วยปรับปรุงประสิทธิภาพของโมเดลได้อย่างไรเมื่อเวลาผ่านไป.
🔗 ปัญญาประดิษฐ์ตรวจจับความผิดปกติได้อย่างไร
ทำความเข้าใจรูปแบบพื้นฐานและวิธีที่ AI ตรวจจับพฤติกรรมผิดปกติได้อย่างรวดเร็ว.
🔗 ปัญญาประดิษฐ์ (AI) ทำนายแนวโน้มได้อย่างไร
ศึกษาค้นคว้าวิธีการพยากรณ์ที่สามารถตรวจจับสัญญาณและคาดการณ์ความต้องการในอนาคตได้.
AI Upscaling ทำงานอย่างไร: แนวคิดหลัก อธิบายง่ายๆ 🧩
การเพิ่มความละเอียดภาพ (Upscaling) หมายถึงการเพิ่มความละเอียด: จำนวนพิกเซลมากขึ้น ภาพก็ใหญ่ขึ้น การเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) โดยพื้นฐานแล้วจะยืดพิกเซลและทำให้การเปลี่ยนผ่านราบเรียบขึ้น (การประมาณค่าแบบไบคิวบิก) ซึ่งก็ใช้ได้ดี แต่ไม่สามารถสร้าง ใหม่ ได้ มันเป็นเพียงการประมาณค่าเท่านั้น
การเพิ่มความละเอียดภาพด้วย AI พยายามทำสิ่งที่ท้าทายยิ่งขึ้น (หรือที่เรียกว่า "ความละเอียดสูงพิเศษ" ในแวดวงการวิจัย) (การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดภาพ: บทสำรวจ):
-
มันตรวจสอบอินพุตที่มีความละเอียดต่ำ
-
สามารถจดจำรูปแบบต่างๆ (ขอบ, พื้นผิว, ลักษณะใบหน้า, เส้นตัวอักษร, ลวดลายผ้า…)
-
ทำนายว่าเวอร์ชันความละเอียดสูง ควร มีลักษณะ
-
สร้างข้อมูลพิกเซลเพิ่มเติมที่ตรงกับรูปแบบเหล่านั้น
ไม่ใช่การ "ฟื้นฟูความเป็นจริงให้สมบูรณ์แบบ" แต่เป็นเหมือนการ "คาดเดาได้อย่างน่าเชื่อถือมาก" (การเพิ่มความละเอียดของภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN)) ถ้าฟังดูน่าสงสัยเล็กน้อย คุณก็คิดไม่ผิดหรอก แต่ก็เป็นเหตุผลที่มันได้ผลดีมากเช่นกัน 😄
ใช่แล้ว นั่นหมายความว่าการเพิ่มความละเอียดภาพด้วย AI นั้นโดยพื้นฐานแล้วคือภาพลวงตาที่ถูกควบคุม...แต่เป็นภาพลวงตาที่มีประสิทธิภาพและเคารพในรายละเอียดของพิกเซล.
อะไรคือสิ่งที่ทำให้การเพิ่มความละเอียดภาพด้วย AI เป็นเวอร์ชันที่ดี? ✅🛠️
หากคุณกำลังประเมินคุณภาพของโปรแกรมอัปสเกลภาพด้วย AI (หรือการตั้งค่าล่วงหน้า) สิ่งต่อไปนี้มักมีความสำคัญที่สุด:
-
การกู้คืนรายละเอียดโดยไม่ทำให้ภาพสุกเกินไป
การเพิ่มความละเอียดภาพที่ดีจะช่วยเพิ่มความคมชัดและโครงสร้าง ไม่ใช่เสียงรบกวนหรือรูขุมขนปลอมๆ -
การควบคุมขอบภาพ
เส้นที่คมชัดจะคงความคมชัดอยู่เสมอ แบบจำลองที่ไม่ดีจะทำให้ขอบภาพสั่นไหวหรือเกิดรอยหยัก -
ความสมจริงของพื้นผิว
เส้นผมไม่ควรดูเหมือนรอยแปรงทาสี อิฐไม่ควรดูเหมือนลวดลายซ้ำๆ กัน -
การจัดการสัญญาณรบกวนและการบีบอัด
ภาพถ่ายทั่วไปจำนวนมากถูกบีบอัดเป็นไฟล์ JPEG จนคุณภาพลดลงอย่างมาก โปรแกรมเพิ่มความละเอียดภาพที่ดีจะไม่ทำให้คุณภาพภาพแย่ลงไปอีก (เช่น Real-ESRGAN) -
การจดจำใบหน้าและข้อความ ใบหน้า
และข้อความเป็นจุดที่ตรวจจับข้อผิดพลาดได้ง่ายที่สุด โมเดลที่ดีจะจัดการกับสิ่งเหล่านี้อย่างอ่อนโยน (หรือมีโหมดเฉพาะ) -
ความสม่ำเสมอระหว่างเฟรม (สำหรับวิดีโอ)
หากรายละเอียดกระพริบจากเฟรมหนึ่งไปยังอีกเฟรมหนึ่ง ดวงตาของคุณจะรู้สึกไม่สบาย การเพิ่มความละเอียดของวิดีโอจะประสบความสำเร็จหรือล้มเหลวขึ้นอยู่กับความเสถียรเชิงเวลา (BasicVSR (CVPR 2021)) -
ปุ่มควบคุมที่ใช้งานง่าย
คุณต้องการแถบเลื่อนที่แสดงผลได้จริง เช่น ลดสัญญาณรบกวน ลดความเบลอ ลบสิ่งแปลกปลอม รักษาเกรนภาพ เพิ่มความคมชัด... สิ่งต่างๆ ที่ใช้งานได้จริง
กฎเงียบๆ ที่ใช้ได้ผลเสมอ: การเพิ่มความละเอียดภาพที่ดีที่สุด มักจะเป็นสิ่งที่คุณแทบไม่สังเกตเห็นเลย มันดูเหมือนว่าคุณมีกล้องที่ดีกว่าตั้งแต่แรกอยู่แล้ว 📷✨
ตารางเปรียบเทียบ: ตัวเลือกการเพิ่มความละเอียดภาพด้วย AI ยอดนิยม (และประโยชน์ของแต่ละวิธี) 📊🙂
ด้านล่างนี้คือการเปรียบเทียบเชิงปฏิบัติ ราคาที่แสดงอาจไม่ชัดเจนนัก เนื่องจากเครื่องมือแต่ละชนิดมีราคาแตกต่างกันไปตามใบอนุญาต แพ็กเกจ ค่าใช้จ่ายในการประมวลผล และอื่นๆ อีกมากมาย.
| เครื่องมือ/วิธีการ | เหมาะที่สุดสำหรับ | ราคาค่อนข้างสูง | เหตุผลที่มันได้ผล (โดยประมาณ) |
|---|---|---|---|
| โปรแกรมเพิ่มความละเอียดภาพบนเดสก์ท็อปสไตล์ Topaz (Topaz Photo, Topaz Video) | รูปภาพ วิดีโอ ขั้นตอนการทำงานที่ง่าย | จ่ายเงินแล้ว | โมเดลพื้นฐานที่แข็งแกร่ง + การปรับแต่งจำนวนมาก มักจะ "ใช้งานได้เลย" ... ส่วนใหญ่ |
| คุณสมบัติประเภท "Super Resolution" ของ Adobe (Adobe Enhance > Super Resolution) | ช่างภาพที่อยู่ในระบบนิเวศนั้นอยู่แล้ว | การสมัครสมาชิก | การสร้างภาพจำลองที่มีรายละเอียดครบถ้วน มักจะเน้นความสมจริง (ไม่เน้นความดราม่า) |
| Real-ESRGAN / ESRGAN variants (Real-ESRGAN, ESRGAN) | DIY, นักพัฒนา, งานแบบกลุ่ม | ฟรี (แต่เสียเวลา) | เก่งเรื่องรายละเอียดพื้นผิว แต่ถ้าไม่ระวังอาจทำให้สีหน้าดูจัดจ้านเกินไป |
| โหมดการขยายภาพแบบอาศัยการแพร่กระจาย (SR3) | งานสร้างสรรค์ ผลลัพธ์ที่มีสไตล์ | ผสม | สามารถสร้างรายละเอียดที่งดงามได้ และก็สามารถสร้างเรื่องไร้สาระได้เช่นกัน ดังนั้น...ใช่แล้ว |
| ตัวเพิ่มความละเอียดภาพในเกม (แบบ DLSS/FSR) (NVIDIA DLSS, AMD FSR 2) | การเล่นเกมและการเรนเดอร์แบบเรียลไทม์ | มัดรวม | ใช้ข้อมูลการเคลื่อนไหวและความรู้พื้นฐานที่เรียนรู้มา - ประสิทธิภาพการทำงานราบรื่นขึ้นอย่างเห็นได้ชัด 🕹️ |
| บริการอัพสเกลระบบคลาวด์ | สะดวกสบาย รวดเร็ว ได้ผลลัพธ์ทันที | จ่ายตามการใช้งาน | รวดเร็วและปรับขนาดได้ แต่คุณต้องแลกกับการควบคุม และบางครั้งอาจสูญเสียความละเอียดอ่อนไปบ้าง |
| ตัวแปลงสัญญาณ AI สำหรับเพิ่มความละเอียดวิดีโอ (BasicVSR, Topaz Video) | ฟุตเทจเก่า, อนิเมะ, คลังข้อมูล | จ่ายเงินแล้ว | เทคนิคชั่วคราวเพื่อลดการกระพริบ + โมเดลวิดีโอเฉพาะทาง |
| การเพิ่มความละเอียดภาพจากสมาร์ทโฟน/แกลเลอรี | ใช้งานทั่วไป | รวมอยู่ด้วย | รุ่นน้ำหนักเบาที่ออกแบบมาเพื่อเสียงที่น่าพอใจ ไม่ใช่ความสมบูรณ์แบบ (แต่ก็ยังใช้งานได้สะดวก) |
สารภาพเรื่องความแปลกในการจัดรูปแบบ: คำว่า “จ่ายแล้วประมาณหนึ่งเดือน” ทำหน้าที่เยอะมากในตารางนั้น แต่คุณคงเข้าใจแล้วล่ะ 😅
ความลับสำคัญ: โมเดลเรียนรู้การแมปจากความละเอียดต่ำไปสู่ความละเอียดสูง 🧠➡️🖼️
หัวใจสำคัญของการเพิ่มความละเอียดภาพด้วย AI ส่วนใหญ่คือการตั้งค่าการเรียนรู้แบบมีผู้กำกับดูแล (การเพิ่มความละเอียดภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN)):
-
เริ่มต้นด้วยภาพที่มีความละเอียดสูง (ซึ่งเป็น "ความจริง")
-
ลดขนาดภาพเหล่านั้นให้เป็นเวอร์ชันความละเอียดต่ำ ("อินพุต")
-
ฝึกโมเดลเพื่อสร้างภาพความละเอียดสูงต้นฉบับขึ้นใหม่จากภาพความละเอียดต่ำ
เมื่อเวลาผ่านไป โมเดลจะเรียนรู้ความสัมพันธ์ต่างๆ เช่น:
-
“รอยเบลอๆ รอบดวงตาแบบนี้ มักเกิดจากขนตา”
-
“กลุ่มพิกเซลนี้มักบ่งชี้ถึงตัวอักษรแบบมีเชิง”
-
“การไล่ระดับสีขอบนี้ดูเหมือนเส้นหลังคา ไม่ใช่สัญญาณรบกวนแบบสุ่ม”
มันไม่ใช่การท่องจำภาพเฉพาะเจาะจง (ในความหมายง่ายๆ) แต่เป็นการเรียนรู้โครงสร้างทางสถิติ (การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: การสำรวจ) ลองนึกถึงมันเหมือนกับการเรียนรู้ไวยากรณ์ของพื้นผิวและขอบ ไม่ใช่ไวยากรณ์ของบทกวี แต่เหมือน...ไวยากรณ์ของคู่มือ IKEA มากกว่า 🪑📦 (คำเปรียบเทียบที่ดูไม่ค่อยลงตัว แต่ก็ใกล้เคียง)
รายละเอียดสำคัญ: เกิดอะไรขึ้นระหว่างการอนุมาน (เมื่อคุณขยายขนาด) ⚙️✨
เมื่อคุณป้อนภาพเข้าไปในโปรแกรมเพิ่มความละเอียดภาพด้วย AI โดยทั่วไปจะมีขั้นตอนการทำงานดังนี้:
-
การประมวลผลล่วงหน้า
-
แปลงพื้นที่สี (บางครั้ง)
-
ปรับค่าพิกเซลให้เป็นมาตรฐาน
-
แบ่งภาพออกเป็นส่วนๆ หากภาพมีขนาดใหญ่ (ตรวจสอบข้อจำกัดของ VRAM ด้วยนะ 😭) (ดูตัวเลือกการแบ่งภาพใน repository Real-ESRGAN)
-
-
การสกัดคุณลักษณะ
-
ชั้นแรกๆ จะตรวจจับขอบ มุม และการไล่ระดับสี
-
ชั้นลึกกว่าจะตรวจจับรูปแบบต่างๆ ได้แก่ พื้นผิว รูปร่าง และส่วนประกอบของใบหน้า
-
-
การบูรณะ
-
โมเดลนี้สร้างแผนที่ลักษณะเฉพาะที่มีความละเอียดสูงขึ้น
-
จากนั้นจึงแปลงค่าดังกล่าวให้เป็นเอาต์พุตพิกเซลจริง
-
-
การประมวลผลภายหลัง
-
การลับคมเพิ่มเติม (ไม่จำเป็น)
-
ตัวเลือกการลดสัญญาณรบกวน
-
ตัวเลือกเสริมในการลดสิ่งรบกวน (แสงสะท้อน แสงรัศมี ความเป็นเหลี่ยม)
-
รายละเอียดเล็กๆ น้อยๆ อย่างหนึ่งคือ เครื่องมือหลายอย่างจะขยายภาพเป็นแบบไทล์ แล้วค่อยผสานรอยต่อ เครื่องมือที่ดีจะซ่อนขอบเขตของไทล์ได้ เครื่องมือที่ธรรมดาจะทิ้งรอยตารางจางๆ ไว้หากคุณเพ่งมอง และใช่ คุณจะต้องเพ่งมอง เพราะมนุษย์ชอบตรวจสอบความไม่สมบูรณ์เล็กๆ น้อยๆ ที่การซูม 300% เหมือนตัวเกรมลินตัวน้อยๆ 🧌
ตระกูลโมเดลหลักที่ใช้สำหรับการเพิ่มความละเอียดภาพด้วย AI (และเหตุผลที่แต่ละแบบให้ความรู้สึกแตกต่างกัน) 🤖📚
1) การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN (เครื่องมือพื้นฐานที่ใช้กันมานาน)
โครงข่ายประสาทเทียมแบบคอนโวลูชันนั้นยอดเยี่ยมสำหรับการวิเคราะห์รูปแบบเฉพาะที่ เช่น ขอบ พื้นผิว และโครงสร้างขนาดเล็ก (การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเชิงลึก (SRCNN))
-
ข้อดี: เร็วพอสมควร เสถียร ปัญหาเกิดขึ้นน้อยกว่า
-
ข้อเสีย: อาจดูเหมือนผ่านการปรับแต่งมากเกินไปหากปรับอย่างหนัก
2) การเพิ่มความละเอียดภาพด้วย GAN (แบบ ESRGAN) 🎭
GANs (Generative Adversarial Networks) ฝึกตัวสร้างภาพให้สร้างภาพความละเอียดสูงที่ตัวแยกแยะภาพไม่สามารถแยกแยะออกจากภาพจริงได้ (Generative Adversarial Networks)
-
ข้อดี: รายละเอียดคมชัด พื้นผิวดูน่าประทับใจ
-
ข้อเสีย: อาจสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมา - บางครั้งผิดพลาด บางครั้งเหมือนจริงอย่างน่าประหลาดใจ (SRGAN, ESRGAN)
GAN สามารถให้ภาพที่คมชัดจนน่าทึ่งได้ นอกจากนี้ยังสามารถทำให้ตัวแบบของคุณมีคิ้วเพิ่มขึ้นอีกด้วย ดังนั้น... เลือกสิ่งที่คุณสนใจให้ดี 😬
3) การขยายภาพโดยใช้การแพร่กระจาย (ตัวเลือกสร้างสรรค์ที่เหนือชั้น) 🌫️➡️🖼️
แบบจำลองการแพร่กระจายจะลดสัญญาณรบกวนทีละขั้นตอนและสามารถควบคุมเพื่อสร้างรายละเอียดความละเอียดสูงได้ (SR3)
-
ข้อดี: สามารถเก็บรายละเอียดได้อย่างสมจริงอย่างเหลือเชื่อ โดยเฉพาะสำหรับงานสร้างสรรค์
-
ข้อเสีย: อาจเบี่ยงเบนไปจากเอกลักษณ์/โครงสร้างดั้งเดิมหากตั้งค่าอย่างเข้มงวด (SR3)
นี่คือจุดที่ “การยกระดับ” เริ่มผสมผสานเข้ากับ “การสร้างสรรค์ใหม่” บางครั้งนั่นคือสิ่งที่คุณต้องการอย่างแท้จริง แต่บางครั้งก็ไม่ใช่.
4) การเพิ่มความละเอียดวิดีโอด้วยความสม่ำเสมอทางเวลา 🎞️
การเพิ่มความละเอียดของวิดีโอ มักจะเพิ่มตรรกะที่รับรู้การเคลื่อนไหวเข้าไปด้วย:
-
ใช้เฟรมข้างเคียงเพื่อรักษาเสถียรภาพของรายละเอียด (BasicVSR (CVPR 2021))
-
พยายามหลีกเลี่ยงการกระพริบและภาพกระตุก
-
โดยทั่วไปจะผสานการเพิ่มความละเอียดสูงเข้ากับการลดสัญญาณรบกวนและการลดการแทรกสลับเฟรม (Topaz Video)
ถ้าการเพิ่มความละเอียดของภาพนิ่งเปรียบเสมือนการบูรณะภาพวาดหนึ่งภาพ การเพิ่มความละเอียดของวิดีโอเปรียบเสมือนการบูรณะสมุดภาพพลิกหน้าโดยไม่ทำให้จมูกของตัวละครเปลี่ยนรูปทรงไปในแต่ละหน้า ซึ่ง…ยากกว่าที่คิด.
เหตุใดการเพิ่มความละเอียดภาพด้วย AI บางครั้งจึงดูไม่สมจริง (และวิธีสังเกต) 👀🚩
การเพิ่มความละเอียดภาพด้วย AI มักล้มเหลวในรูปแบบที่เห็นได้ชัด เมื่อคุณเรียนรู้รูปแบบเหล่านั้นแล้ว คุณจะเห็นมันได้ทุกที่ เหมือนกับการซื้อรถใหม่แล้วจู่ๆ ก็เห็นรถรุ่นนั้นวิ่งอยู่ทุกถนน 😵💫
สามัญชนกล่าวว่า:
-
การแว็กซ์ผิว หน้า (ลดสัญญาณรบกวนและปรับผิวให้เรียบมากเกินไป)
-
ขอบภาพคมชัดเกินไป (ลักษณะ "โอเวอร์ชูต" แบบคลาสสิก) (การประมาณค่าแบบบิคิวบิก)
-
พื้นผิวที่ซ้ำกัน (ผนังอิฐกลายเป็นลวดลายที่คัดลอกและวางซ้ำๆ)
-
ความแตกต่างเล็กน้อยที่กรุบกรอบและชัดเจน ซึ่งบ่งบอกอย่างชัดเจนว่าเป็น "ผลลัพธ์จากอัลกอริทึม"
-
การบิดเบือนข้อความ ที่ตัวอักษรกลายเป็นเกือบตัวอักษร (แบบที่แย่ที่สุด)
-
การเคลื่อนตัวของรายละเอียด ที่ลักษณะเล็กๆ เปลี่ยนแปลงไปอย่างละเอียดอ่อน โดยเฉพาะในเวิร์กโฟลว์การแพร่กระจาย (SR3)
ส่วนที่ยากคือ บางครั้งภาพเหล่านี้ดู "ดีกว่า" ในแวบแรก สมองของคุณชอบความคมชัด แต่หลังจากนั้นสักครู่ มันก็จะรู้สึก...ไม่ค่อยดี.
กลยุทธ์ที่ดีอย่างหนึ่งคือการซูมออกแล้วตรวจสอบดูว่าภาพดูเป็นธรรมชาติในระยะการมองปกติหรือไม่ ถ้ามันดูดีเฉพาะตอนซูม 400% เท่านั้น นั่นไม่ใช่ความสำเร็จหรอก มันเป็นแค่กิจกรรมยามว่างต่างหาก 😅
วิธีการทำงานของ AI Upscaling: ด้านการฝึกฝน โดยไม่ต้องปวดหัวกับคณิตศาสตร์ 📉🙂
การฝึกอบรมโมเดลความละเอียดสูงพิเศษมักเกี่ยวข้องกับขั้นตอนดังต่อไปนี้:
-
ชุดข้อมูลคู่ (ภาพความละเอียดต่ำ ภาพความละเอียดสูง) (การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN))
-
ฟังก์ชันความสูญเสีย ที่ลงโทษการสร้างใหม่ที่ไม่ถูกต้อง (SRGAN)
ประเภทความเสียหายทั่วไป:
-
การสูญเสียพิกเซล (L1/L2)
ส่งเสริมความแม่นยำ อาจทำให้ผลลัพธ์ดูนุ่มนวลเล็กน้อย -
การสูญเสียการรับรู้
เปรียบเทียบคุณลักษณะที่ลึกกว่า (เช่น "สิ่งนี้ ดู คล้ายกันหรือไม่") มากกว่าพิกเซลที่แน่นอน (การสูญเสียการรับรู้ (Johnson et al., 2016)) -
การสูญเสียแบบต่อต้าน (GAN)
ส่งเสริมความสมจริง บางครั้งอาจแลกมาด้วยความถูกต้องตามตัวอักษร (SRGAN, เครือข่ายปฏิปักษ์เชิงสร้างสรรค์)
มีการดึงเชือกกันอยู่ตลอดเวลา:
-
ทำให้ ซื่อตรง ต่อต้นฉบับ
vs -
ทำให้มัน ดูสวยงามน่ามอง
เครื่องมือแต่ละชนิดจะอยู่ในตำแหน่งที่แตกต่างกันบนสเปกตรัมนั้น และคุณอาจเลือกใช้เครื่องมือชนิดใดชนิดหนึ่งขึ้นอยู่กับว่าคุณกำลังบูรณะภาพถ่ายครอบครัวหรือเตรียมโปสเตอร์ที่ "ความสวยงาม" มีความสำคัญมากกว่าความถูกต้องแม่นยำทางนิติวิทยาศาสตร์.
ขั้นตอนการทำงานที่เป็นรูปธรรม: ภาพถ่าย ไฟล์สแกนเก่า อนิเมะ และวิดีโอ 📸🧾🎥
ภาพถ่าย (ภาพบุคคล ภาพทิวทัศน์ ภาพสินค้า)
แนวทางปฏิบัติที่ดีที่สุดโดยทั่วไปคือ:
-
ลดเสียงรบกวนเบาๆ ก่อน (ถ้าจำเป็น)
-
หรูหราแต่ตกแต่งแบบอนุรักษ์นิยม
-
ถ้าเนื้อสัมผัสเนียนเกินไป ให้เติมเนื้อสัมผัสที่หยาบลงไป (ใช่แล้ว จริงๆ นะ)
ธัญพืชก็เหมือนเกลือ ถ้ามากเกินไปจะทำให้เสียรสชาติอาหาร แต่ถ้าไม่ใส่เลยก็จะทำให้รสชาติจืดชืด 🍟
ภาพสแกนเก่าและภาพที่ถูกบีอัดอย่างมาก
ส่วนนี้จะยากกว่า เพราะโมเดลอาจมองบล็อกการบีบอัดเป็น "พื้นผิว"
ลองทำดังนี้:
-
การกำจัดสิ่งแปลกปลอมหรือการขจัดสิ่งกีดขวาง
-
จากนั้นจึงยกระดับขึ้นไปอีกขั้น
-
จากนั้นปรับความคมชัดเล็กน้อย (อย่าปรับมากเกินไป... ผมรู้ว่าทุกคนพูดแบบนั้น แต่ก็ควรปรับอยู่ดี)
อนิเมะและภาพวาดเส้น
งานศิลปะลายเส้นได้รับประโยชน์จาก:
-
รุ่นที่รักษาขอบให้คมชัด
-
ลดปัญหาภาพซ้อนจากการ
ขยายภาพอนิเมะ ภาพที่ได้มักจะสวยงามเพราะรูปทรงเรียบง่ายและสม่ำเสมอ (โชคดีจัง)
วิดีโอ
วิดีโอมีขั้นตอนเพิ่มเติม:
-
ลดสัญญาณรบกวน
-
ลดการแทรกสลับเฟรม (สำหรับบางแหล่งที่มา)
-
หรูหรา
-
การปรับให้เรียบหรือรักษาเสถียรภาพตามเวลา (BasicVSR (CVPR 2021))
-
การเติมเมล็ดธัญพืชกลับเข้าไปใหม่เพื่อเพิ่มความเหนียวแน่น (เป็นทางเลือกเสริม)
ถ้าคุณละเลยความสอดคล้องทางเวลา คุณจะเห็นรายละเอียดที่กระพริบระยิบระยับ เมื่อคุณสังเกตเห็นแล้ว คุณจะมองข้ามมันไปไม่ได้ เหมือนเสียงเก้าอี้เอี๊ยดอ๊าดในห้องที่เงียบสงบ 😖
เคล็ดลับการเลือกการตั้งค่าโดยไม่ต้องเดาไปเรื่อย (คู่มือฉบับย่อ) 🎛️😵💫
นี่คือแนวคิดเริ่มต้นที่ดี:
-
ถ้าใบหน้าดูเหมือนพลาสติก
ให้ลดสัญญาณรบกวน ลดความคมชัด ลองใช้โมเดลหรือโหมดที่รักษารูปหน้าไว้ -
หากพื้นผิวดูเข้มเกินไป
ให้ลดค่าแถบเลื่อน "การเพิ่มรายละเอียด" หรือ "การกู้คืนรายละเอียด" จากนั้นค่อยเพิ่มเกรนแบบละเอียดในภายหลัง -
หากขอบภาพเรืองแสง
ให้ลดความคมชัดลง และตรวจสอบตัวเลือกการลดแสงสะท้อน -
ถ้าภาพดูเหมือนใช้ AI มากเกินไป
ให้ลองใช้แบบเรียบง่ายกว่า บางครั้งวิธีที่ดีที่สุดก็คือ...ลดทอนรายละเอียดลง
นอกจากนี้: อย่าขยายภาพเป็น 8x เพียงเพราะคุณทำได้ การขยายภาพแบบ 2x หรือ 4x ที่คมชัดมักจะเป็นจุดที่เหมาะสมที่สุด การขยายภาพมากกว่านั้น คุณกำลังขอให้โมเดลเขียนแฟนฟิคเกี่ยวกับพิกเซลของคุณ 📖😂
จริยธรรม ความแท้จริง และคำถามที่น่าอึดอัดใจเกี่ยวกับ "ความจริง" 🧭😬
การเพิ่มความละเอียดภาพด้วย AI ทำให้เส้นแบ่งระหว่างสองสิ่งนี้ไม่ชัดเจน:
-
การบูรณะหมายถึงการทำให้สิ่งที่เคยมีอยู่กลับคืนมา
-
การปรับปรุงหมายถึงการเพิ่มเติมสิ่งที่ไม่มีอยู่เดิม
สำหรับภาพถ่ายส่วนตัวนั้น โดยทั่วไปแล้วไม่มีปัญหา (และดูดีด้วย) แต่สำหรับงานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืออะไรก็ตามที่ความถูกต้องแม่นยำมีความสำคัญ... คุณต้องระมัดระวัง (OSAC/NIST: คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์, แนวทาง SWGDE สำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์)
กฎง่ายๆ ข้อหนึ่ง:
-
หากมีความเสี่ยงสูง ควรพิจารณาการยกระดับ AI เป็น เพียงตัวอย่างไม่ใช่ข้อสรุปที่แน่นอน
นอกจากนี้ การเปิดเผยข้อมูลมีความสำคัญในบริบททางวิชาชีพ ไม่ใช่เพราะ AI เป็นสิ่งชั่วร้าย แต่เพราะผู้ชมสมควรที่จะรู้ว่ารายละเอียดต่างๆ นั้นถูกสร้างขึ้นใหม่หรือบันทึกไว้ นั่นเป็นเรื่องของการให้เกียรติ.
ข้อสรุปและบทสรุปสั้นๆ 🧡✅
ดังนั้น วิธีการทำงานของ AI Upscaling คือ โมเดลจะเรียนรู้ว่ารายละเอียดที่มีความละเอียดสูง มัก มีความสัมพันธ์กับรูปแบบที่มีความละเอียดต่ำอย่างไร จากนั้นจึงทำนายจำนวนพิกเซลเพิ่มเติมที่ดูสมจริงในระหว่างการขยายภาพ (Deep Learning for Image Super-resolution: A Survey) ขึ้นอยู่กับตระกูลของโมเดล (CNN, GAN, diffusion, video-temporal) การทำนายนั้นอาจจะค่อนข้างระมัดระวังและแม่นยำ... หรืออาจจะกล้าหาญและบางครั้งก็ดูไม่สมเหตุสมผลเลยก็ได้ 😅
สรุปโดยย่อ
-
การขยายภาพแบบดั้งเดิมจะยืดพิกเซล (การแทรกสอดแบบบิคิวบิก)
-
การเพิ่มความละเอียดภาพด้วย AI ทำนายรายละเอียดที่ขาดหายไปโดยใช้รูปแบบที่เรียนรู้มา (การเพิ่มความละเอียดภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN))
-
ผลลัพธ์ที่ยอดเยี่ยมมาจากการใช้แบบจำลองที่เหมาะสมควบคู่กับการควบคุมที่เหมาะสม
-
สังเกตแสงสะท้อนรอบดวงตา ใบหน้าที่มีลักษณะคล้ายขี้ผึ้ง พื้นผิวที่ซ้ำซ้อน และการกระพริบในวิดีโอ (BasicVSR (CVPR 2021))
-
การขยายขนาดมักเป็นการ "สร้างใหม่ที่ดูสมเหตุสมผล" ไม่ใช่ความจริงที่สมบูรณ์แบบ (SRGAN, ESRGAN)
ถ้าคุณต้องการ บอกผมหน่อยว่าคุณกำลังปรับภาพอะไร (ใบหน้า ภาพถ่ายเก่า วิดีโอ อนิเมะ การสแกนข้อความ) แล้วผมจะแนะนำกลยุทธ์การตั้งค่าที่ช่วยหลีกเลี่ยงข้อผิดพลาดทั่วไปของ "ภาพที่ดูเหมือน AI" ให้ครับ 🎯🙂
ตัวอย่างในโลกแห่งความเป็นจริง: การเพิ่มความละเอียดของภาพถ่ายสินค้าเก่าจากตลาดออนไลน์ 📸
สถานการณ์
ร้านขายกล้องมือสองขนาดเล็กแห่งหนึ่งมีรูปภาพสินค้า 40 ภาพที่ส่งออกจากเว็บไซต์เก่า โดยมีขนาดความกว้าง 800 พิกเซล เจ้าของร้านต้องการนำรูปภาพเหล่านั้นไปใช้ซ้ำในหน้าเว็บอีคอมเมิร์ซใหม่ ซึ่งขนาดภาพที่แนะนำคือความกว้าง 1,600 พิกเซล.
ปัญหาคือ การปรับขนาดภาพแบบปกติทำให้ภาพดูไม่คมชัด ในขณะที่การเพิ่มความละเอียดภาพด้วย AI อย่างรุนแรงอาจทำให้รายละเอียดเล็กๆ น้อยๆ เช่น ที่จับยาง หมายเลขประจำเครื่อง และเครื่องหมายบนเลนส์ ดูเหมือนของปลอม ซึ่งเป็นเรื่องสำคัญเพราะผู้ซื้อจะพิจารณารายละเอียดเหล่านี้ก่อนตัดสินใจซื้อ.
เป้าหมายไม่ใช่การ "กู้คืน" ข้อมูลที่หายไปอย่างสมบูรณ์แบบ แต่เป็นการสร้างภาพรายการสินค้าที่ดูสะอาดตาขึ้น ในขณะที่ยังคงเก็บไฟล์ต้นฉบับไว้ เนื่องจาก AI upscaling คาดการณ์รายละเอียดที่สมเหตุสมผลมากกว่าที่จะรับประกันความถูกต้อง.
สิ่งที่เวิร์กโฟลว์ต้องการ
รูปภาพสินค้าต้นฉบับ โดยควรเป็นเวอร์ชันที่มีการบีอัดน้อยที่สุดเท่าที่จะเป็นไปได้
ขนาดเอาต์พุตเป้าหมาย เช่น การขยายขนาด 2 เท่า จากความกว้าง 800 พิกเซล เป็น 1,600 พิกเซล
เครื่องมือหรือโมเดลที่มีการควบคุมแยกต่างหากสำหรับการลดสัญญาณรบกวน การเพิ่มความคมชัด และการกำจัดสิ่งแปลกปลอม
รายการตรวจสอบอย่างง่ายสำหรับการตรวจสอบรายละเอียดต่างๆ เช่น ข้อความ ขอบ โลโก้ สกรู กระดุม ลายหนัง และแสงสะท้อน
สร้างโฟลเดอร์แยกสำหรับไฟล์ต้นฉบับ และโฟลเดอร์แยกต่างหากสำหรับไฟล์ที่แก้ไขแล้ว เพื่อป้องกันไม่ให้ไฟล์ใดถูกเขียนทับ
ตัวอย่างคำแนะนำ
ใช้คำแนะนำลักษณะนี้เมื่อทดสอบระบบเพิ่มความละเอียดภาพด้วย AI:
ขยายภาพสินค้าชิ้นนี้ขึ้น 2 เท่า สำหรับลงขายสินค้าออนไลน์ คงรูปทรงของสินค้า ตำแหน่งโลโก้ เครื่องหมายบนเลนส์ ขอบปุ่ม และพื้นผิวให้ใกล้เคียงกับต้นฉบับมากที่สุด ใช้การบีบอัดภาพแบบอ่อนๆ ความคมชัดต่ำ และหลีกเลี่ยงการเพิ่มข้อความ รอยขีดข่วน ฉลาก หมายเลขซีเรียล หรือรายละเอียดตกแต่งเพิ่มเติม ภาพสุดท้ายควรดูเป็นธรรมชาติในขนาดปกติของหน้าเว็บสินค้า ไม่ควรคมชัดเกินจริงเมื่อซูม 400%.
วิธีการทดสอบ
เริ่มต้นด้วยภาพผสมห้าภาพก่อน จากนั้นจึงค่อยประมวลผลภาพทั้งหมด:
ภาพถ่ายสินค้าที่ชัดเจนหนึ่งภาพ ถ่ายด้วยแสงที่ดี
ภาพที่บีบอัดด้วย JPEG ภาพหนึ่งมีลักษณะเป็นเหลี่ยมๆ
รูปถ่ายหนึ่งรูปที่มีข้อความพิมพ์ขนาดเล็กหรือเครื่องหมายบนเลนส์
ภาพมืดภาพหนึ่งที่มีสัญญาณรบกวนในส่วนเงา
ภาพหนึ่งภาพที่มีโลหะหรือกระจกสะท้อนแสง
หลังจากปรับขนาดภาพแล้ว ให้เปรียบเทียบผลลัพธ์แต่ละครั้งกับภาพต้นฉบับที่ขนาด 100% และ 200% ตรวจสอบว่าชื่อแบรนด์ ปุ่มหมุน สกรู พอร์ต และลวดลายพื้นผิวยังตรงกันหรือไม่ หากแบบจำลองสร้าง "ตัวอักษรที่ไม่สมบูรณ์" หรือรอยพื้นผิวปลอม ให้ลดการตั้งค่าความคมชัดหรือการกู้คืนรายละเอียดลง.
ผลลัพธ์
ผลลัพธ์ตัวอย่าง: อ้างอิงจากการจับเวลาการทดสอบภาพห้าภาพก่อนและหลังการใช้เวิร์กโฟลว์นี้.
การปรับแต่งและปรับขนาดภาพด้วยตนเองใช้เวลาประมาณ 9 นาทีต่อภาพ หรือ 45 นาทีสำหรับห้าภาพ.
กระบวนการทำงานที่ใช้ AI ช่วยเหลือนั้นใช้เวลาประมาณ 3 นาทีต่อภาพ หรือ 15 นาทีสำหรับห้าภาพ.
นั่นหมายถึงการประหยัดเวลาได้ประมาณ 30 นาทีสำหรับภาพ 5 ภาพ หรือประมาณ 4 ชั่วโมงสำหรับภาพ 40 ภาพ.
ผลการตรวจสอบคุณภาพ: ภาพ 4 จาก 5 ภาพผ่านการตรวจสอบรอบแรก ภาพหนึ่งไม่ผ่านเนื่องจากโปรแกรมเพิ่มความละเอียดภาพทำให้ตัวอักษรเล็กๆ บนเลนส์บิดเบี้ยว จึงทำการประมวลผลใหม่โดยลดความคมชัดและไม่ปรับปรุงตัวอักษร.
ตัวชี้วัดที่สำคัญในที่นี้ไม่ได้อยู่ที่แค่ "ภาพคมชัดกว่า" เท่านั้น แต่เป็นจำนวนภาพที่ผ่านการตรวจสอบแบบเปรียบเทียบกันโดยไม่มีรายละเอียดที่ปรุงแต่งขึ้นมา
อะไรบ้างที่อาจผิดพลาดได้
โมเดลนี้อาจเปลี่ยนฝุ่นละออง บล็อก JPEG หรือรอยขีดข่วนให้กลายเป็นพื้นผิวที่ "สมจริง" ได้.
ตัวอักษรขนาดเล็กมากอาจกลายเป็นข้อความปลอมที่ดูสมจริงจนกว่าคุณจะซูมเข้าไปใกล้ๆ.
การลดเสียงรบกวนมากเกินไปอาจทำให้ยาง หนัง หรือโลหะขัดเงาดูเหมือนเคลือบเงาได้.
การลับคมที่รุนแรงอาจทำให้เกิดรอยคล้ำรอบขอบผลิตภัณฑ์ได้.
การประมวลผลแบบกลุ่มอาจซ่อนข้อผิดพลาดได้ ดังนั้นควรตรวจสอบตัวอย่างก่อนส่งออกทั้งหมด.
สำหรับธุรกิจอีคอมเมิร์ซ กฎที่ปลอดภัยที่สุดนั้นง่ายมาก: ห้ามใช้เทคโนโลยี AI ในการเพิ่มความละเอียดภาพเพื่อปกปิดความเสียหาย เปลี่ยนสภาพสินค้า หรือทำให้สินค้าดูใหม่กว่าที่เป็นจริงเด็ดขาด.
ข้อคิดที่นำไปใช้ได้จริง
การเพิ่มความละเอียดภาพด้วย AI จะได้ผลดีที่สุดเมื่อคุณใช้เป็นขั้นตอนการตกแต่งขั้นสุดท้ายที่ควบคุมได้ ไม่ใช่ปุ่มแก้ไขภาพแบบมหัศจรรย์ ควรใช้การตั้งค่า 2 เท่าแบบระมัดระวัง ตรวจสอบรายละเอียดที่ผู้ซื้อให้ความสำคัญ และเก็บภาพต้นฉบับไว้เพื่อให้ภาพที่แก้ไขแล้วดูน่าเชื่อถือ.
ตัวอย่างในโลกแห่งความเป็นจริง: การเพิ่มความละเอียดของวิดีโอฝึกอบรมเก่าโดยไม่ทำให้ภาพกระพริบ
สถานการณ์
บริษัทฝึกอบรมขนาดเล็กแห่งหนึ่งมีวิดีโอสาธิตความปลอดภัยความยาว 7 นาทีที่บันทึกไว้ในปี 2014 ด้วยความละเอียด 720p เนื้อหายังคงมีคุณค่า แต่ภาพดูไม่คมชัดบนเว็บไซต์ใหม่ของบริษัท โดยเฉพาะบนหน้าจอแล็ปท็อปขนาดใหญ่.
ทีมงานต้องการส่งออกวิดีโอความละเอียด 1080p ที่คมชัดกว่าโดยไม่ต้องถ่ายซ้ำ ความเสี่ยงคือการใช้ AI ปรับขนาดภาพอย่างรุนแรงอาจทำให้ใบหน้าดูไม่เป็นธรรมชาติ ตัวอักษรบนป้ายกลายเป็น "แทบจะเป็นคำ" หรือทำให้ภาพกระพริบไม่สม่ำเสมอในแต่ละเฟรม.
เป้าหมายไม่ใช่การทำให้วิดีโอดูใหม่เอี่ยม แต่เป็นการทำให้ภาพคมชัดขึ้น นิ่งขึ้น และบีบอัดน้อยลง ในขณะที่ยังคงรักษาใบหน้าของผู้สอน ป้ายเตือน การเคลื่อนไหวของมือ และรายละเอียดของอุปกรณ์ให้เหมือนกับต้นฉบับ.
สิ่งที่เวิร์กโฟลว์ต้องการ
ไฟล์วิดีโอต้นฉบับ ไม่ใช่ไฟล์ที่ถูกบีบอัดจากการดาวน์โหลดผ่านโซเชียลมีเดีย ถ้าเป็นไปได้
กำหนดขนาดไฟล์ส่งออกเป้าหมาย เช่น 720p เป็น 1080p แทนที่จะข้ามไปเป็น 4K โดยตรง
โปรแกรมเพิ่มความละเอียดวิดีโอ พร้อมตัวเลือกลดสัญญาณรบกวน เพิ่มความคมชัด ซ่อมแซมการบีบอัด และปรับความสอดคล้องของเวลา
คลิปทดสอบสั้นๆ ที่แสดงใบหน้า การเคลื่อนไหว ข้อความ และพื้นผิวที่มีรายละเอียด
รายการตรวจสอบสำหรับการวิจารณ์เรื่องการกระพริบ แสงสะท้อน ตัวอักษรบิดเบี้ยว พื้นผิวใบหน้า และขอบที่เคลื่อนไหว
บันทึกสำเนาวิดีโอต้นฉบับไว้เพื่อใช้เปรียบเทียบและเปิดเผยข้อมูลหากจำเป็น
ตัวอย่างคำแนะนำ
โปรดปฏิบัติตามคำแนะนำเหล่านี้ก่อนประมวลผลวิดีโอฉบับเต็ม:
ปรับความละเอียดวิดีโอฝึกอบรม 720p นี้ให้เป็น 1080p โดยให้ความสำคัญกับการเคลื่อนไหวที่เป็นธรรมชาติ ขอบภาพที่คมชัด ข้อความที่มีอยู่สามารถอ่านได้ และพื้นผิวของผิวหนังที่สมจริง ใช้การแก้ไขการบีบอัดแบบอ่อนๆ และการเพิ่มความคมชัดในระดับต่ำ อย่าสร้างข้อความ โลโก้ ฉลาก รอยขีดข่วน รายละเอียดบนใบหน้า หรือเครื่องหมายอุปกรณ์ที่หายไป หลีกเลี่ยงการกระพริบของภาพระหว่างเฟรม ผลลัพธ์สุดท้ายควรดูชัดเจนขึ้นในขนาดการดูปกติ ไม่ใช่คมชัดเกินไปเมื่อหยุดภาพและซูมเข้า.
วิธีการทดสอบ
ก่อนประมวลผลไฟล์ฉบับเต็มความยาว 7 นาที ให้ส่งออกตัวอย่าง 20 วินาที ซึ่งประกอบด้วย:
สีหน้าของผู้สอนขณะพูด
มือข้างหนึ่งกำลังเคลื่อนผ่านเฟรมภาพ
ป้ายเตือนหรือข้อความพิมพ์ขนาดเล็ก
พื้นผิวที่มีลวดลาย เช่น ผ้า คอนกรีต โลหะขัดเงา หรือพลาสติก
การแพนกล้องหรือการเคลื่อนไหวที่สั่นไหวใดๆ
ดูตัวอย่างสองครั้ง: ครั้งแรกที่ความเร็วปกติ และครั้งที่สองที่หยุดภาพทีละเฟรม ที่ความเร็วปกติ ให้สังเกตการกระพริบ การเคลื่อนไหวของพื้นผิว หรือการเคลื่อนไหวที่ไม่เป็นธรรมชาติบริเวณขอบ เมื่อหยุดภาพ ให้เปรียบเทียบเวอร์ชันต้นฉบับและเวอร์ชันที่ขยายขนาดแล้ว เพื่อตรวจสอบว่าข้อความ ปุ่ม เครื่องมือ และรายละเอียดใบหน้ายังตรงกันหรือไม่.
ผลลัพธ์
ผลลัพธ์ตัวอย่าง: อ้างอิงจากการจับเวลาคลิปทดสอบ 20 วินาที แล้วนำการตั้งค่าเดียวกันไปใช้กับวิดีโอความยาว 7 นาที.
การปรับแต่งขนาดและเพิ่มความคมชัดด้วยตนเองใช้เวลาประมาณ 35 นาที รวมทั้งการส่งออกและการตรวจสอบ แต่ผลลัพธ์ที่ได้แสดงให้เห็นประกายระยิบระยับบนเส้นผมของผู้สอนและแสงเป็นวงรอบป้ายความปลอดภัยอย่างชัดเจน.
กระบวนการทำงานที่ใช้ AI ช่วยเหลือนั้นใช้เวลาประมาณ 55 นาที รวมทั้งการส่งออกไฟล์ทดสอบ แต่ช่วยลดปัญหาในการตรวจสอบจาก 8 ปัญหาที่เห็นได้ชัดในการส่งออกครั้งแรก เหลือเพียง 2 ปัญหาเล็กน้อยในการส่งออกครั้งสุดท้าย.
เวอร์ชันสุดท้ายผ่านการตรวจสอบ 10 จาก 12 ข้อในรายการตรวจสอบ ปัญหาที่เหลืออีกสองข้อคือ ตัวอักษรพื้นหลังดูไม่คมชัดเล็กน้อย และมีจุดรบกวนเล็กน้อยในมุมมืดมุมหนึ่ง ซึ่งทั้งสองข้อได้รับการยอมรับแล้ว เนื่องจากภาพของครูผู้สอน อุปกรณ์ และขั้นตอนด้านความปลอดภัยยังคงสอดคล้องกัน.
ตัวชี้วัดที่สำคัญในที่นี้ไม่ใช่ "ความละเอียด 1080p ที่ได้" แต่เป็น: วิดีโอแสดงสิ่งผิดปกติที่รบกวนสายตาในระหว่างการเล่นตามปกติเป็นเวลากี่วินาที?
อะไรบ้างที่อาจผิดพลาดได้
โมเดลอาจเพิ่มความคมชัดของบล็อกการบีบอัดและทำให้ดูเหมือนพื้นผิวจริง.
ตัวอักษรขนาดเล็กอาจดูน่าเชื่อถือมากขึ้น แต่ความถูกต้องอาจลดลง.
หากตั้งค่าการลดสัญญาณรบกวนสูงเกินไป ใบหน้าอาจดูเรียบเนียนเกินไป.
ขอบที่เคลื่อนไหวอาจกระพริบได้หากเครื่องมือประมวลผลแต่ละเฟรมแยกจากกันมากเกินไป.
การส่งออกไฟล์ 4K อาจดูแย่กว่าการส่งออกไฟล์ 1080p ที่ลดทอนรายละเอียดลง เนื่องจากโมเดลต้องสร้างรายละเอียดขึ้นมามากเกินไป.
ข้อผิดพลาดที่ใหญ่ที่สุดคือการตัดสินจากภาพนิ่งเพียงอย่างเดียว การเพิ่มความละเอียดของวิดีโอต้องดูเป็นธรรมชาติขณะเคลื่อนไหว ไม่ใช่แค่ดูน่าประทับใจเหมือนภาพนิ่งเท่านั้น.
ข้อคิดที่นำไปใช้ได้จริง
สำหรับวิดีโอ การเพิ่มความละเอียดด้วย AI จะได้ผลดีที่สุดเมื่อคุณทดสอบกับส่วนสั้นๆ ก่อน ลดขนาดความละเอียดลง และพิจารณาการเคลื่อนไหวก่อนความคมชัด ผลลัพธ์ที่นุ่มนวลเล็กน้อยแต่คงที่มักจะดีกว่าเวอร์ชันที่คมชัดแต่กระพริบทุกครั้งที่มีคนเคลื่อนไหว.
คำถามที่พบบ่อย
การยกระดับ AI และวิธีการทำงาน
การเพิ่มความละเอียดภาพด้วย AI (มักเรียกว่า “ซูเปอร์รีลีสซิ่ง”) จะเพิ่มความละเอียดของภาพโดยการคาดการณ์รายละเอียดความละเอียดสูงที่ขาดหายไปจากรูปแบบที่เรียนรู้ระหว่างการฝึกฝน แทนที่จะยืดพิกเซลแบบง่ายๆ เหมือนกับการประมาณค่าแบบไบคิวบิก โมเดลจะศึกษาขอบ พื้นผิว ใบหน้า และเส้นขีดคล้ายตัวอักษร จากนั้นสร้างข้อมูลพิกเซลใหม่ที่สอดคล้องกับรูปแบบที่เรียนรู้เหล่านั้น มันไม่ใช่การ “ฟื้นฟูความเป็นจริง” แต่เป็นการ “คาดเดาที่น่าเชื่อถือ” ซึ่งดูเป็นธรรมชาติ.
การขยายภาพด้วย AI เทียบกับการปรับขนาดแบบไบคิวบิกหรือแบบดั้งเดิม
วิธีการเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) ส่วนใหญ่จะทำการประมาณค่าระหว่างพิกเซลที่มีอยู่แล้ว ทำให้การเปลี่ยนผ่านราบรื่นโดยไม่สร้างรายละเอียดใหม่ที่แท้จริง การเพิ่มความละเอียดภาพด้วย AI มีเป้าหมายเพื่อสร้างโครงสร้างที่สมจริงโดยการจดจำสัญญาณภาพและคาดการณ์ว่าภาพความละเอียดสูงของสัญญาณเหล่านั้นจะมีลักษณะอย่างไร นั่นเป็นเหตุผลว่าทำไมผลลัพธ์จาก AI จึงดูคมชัดกว่าอย่างเห็นได้ชัด และในขณะเดียวกันก็อาจทำให้เกิดสิ่งผิดปกติหรือ "สร้าง" รายละเอียดที่ไม่มีอยู่ในภาพต้นฉบับขึ้นมาได้.
เหตุใดใบหน้าจึงดูมันวาวหรือเรียบเนียนเกินไป
ใบหน้าที่ดูแข็งกระด้างมักเกิดจากการลดสัญญาณรบกวนและปรับผิวให้เรียบเนียนอย่างรุนแรง ควบคู่กับการเพิ่มความคมชัดที่ทำให้พื้นผิวที่เป็นธรรมชาติของผิวหายไป เครื่องมือหลายอย่างจัดการกับสัญญาณรบกวนและรายละเอียดเล็กๆ น้อยๆ ในลักษณะเดียวกัน ดังนั้นการ "ทำความสะอาด" ภาพจึงอาจลบรูขุมขนและรายละเอียดเล็กๆ น้อยๆ ออกไปได้ วิธีทั่วไปคือการลดสัญญาณรบกวนและความคมชัด ใช้โหมดรักษารูปหน้าหากมี จากนั้นเพิ่มเกรนเล็กน้อยเพื่อให้ภาพที่ได้ดูเป็นธรรมชาติและไม่เหมือนพลาสติกมากขึ้น.
ข้อผิดพลาดทั่วไปที่ควรระวังในการเพิ่มความละเอียดภาพด้วย AI
สัญญาณบ่งบอกปัญหาโดยทั่วไป ได้แก่ รอยแสงรอบขอบ ลวดลายพื้นผิวที่ซ้ำกัน (เหมือนอิฐที่คัดลอกวางซ้ำๆ) ความคมชัดระดับไมโครที่ดูไม่เป็นธรรมชาติ และตัวอักษรที่กลายเป็น "ตัวอักษรที่ไม่สมบูรณ์" ในขั้นตอนการทำงานที่ใช้การกระจายแสง คุณยังสามารถเห็นรายละเอียดที่เปลี่ยนแปลงไปเล็กน้อยได้อีกด้วย สำหรับวิดีโอ การกระพริบและรายละเอียดที่ค่อยๆ เลื่อนไปมาในแต่ละเฟรมเป็นสัญญาณเตือนที่สำคัญ หากภาพดูดีเฉพาะเมื่อซูมเข้ามากๆ แสดงว่าการตั้งค่าอาจจะรุนแรงเกินไป.
ความแตกต่างของผลลัพธ์ระหว่าง GAN, CNN และตัวขยายภาพแบบกระจาย (diffusion upscaler)
การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN มักมีความเสถียรและคาดเดาได้ง่ายกว่า แต่ภาพอาจดู "ไม่เป็นธรรมชาติ" หากปรับค่าสูงเกินไป ตัวเลือกแบบ GAN (เช่น ESRGAN) มักให้รายละเอียดที่คมชัดและมีมิติมากกว่า แต่ก็อาจทำให้รายละเอียดผิดเพี้ยนไปได้ โดยเฉพาะบนใบหน้า การเพิ่มความละเอียดภาพด้วยวิธีการแพร่กระจาย (Diffusion-based upscaling) สามารถสร้างรายละเอียดที่สวยงามและสมจริงได้ แต่ภาพอาจเบี่ยงเบนจากโครงสร้างเดิมหากตั้งค่าการควบคุมหรือความแรงสูงเกินไป.
กลยุทธ์การตั้งค่าที่ใช้งานได้จริงเพื่อหลีกเลี่ยงรูปลักษณ์ที่ "ดูเหมือนใช้ AI มากเกินไป"
เริ่มต้นอย่างระมัดระวัง: ขยายภาพ 2 เท่าหรือ 4 เท่าก่อนที่จะใช้ปัจจัยที่รุนแรง หากใบหน้าดูเหมือนพลาสติก ให้ลดการลดสัญญาณรบกวนและความคมชัด และลองใช้โหมดจดจำใบหน้า หากพื้นผิวมีรายละเอียดมากเกินไป ให้ลดการเพิ่มรายละเอียดและพิจารณาเพิ่มเกรนเล็กน้อยในภายหลัง หากขอบเรืองแสง ให้ลดความคมชัดและตรวจสอบการลดแสงสะท้อนหรือสิ่งแปลกปลอม ในหลายๆ ขั้นตอนการทำงาน “น้อย” ย่อมดีกว่า เพราะช่วยรักษาความสมจริงเอาไว้ได้.
การจัดการกับไฟล์สแกนเก่าหรือภาพ JPEG ที่ถูกบีบอัดอย่างมากก่อนทำการขยายขนาด
ภาพที่ถูกบีอัดนั้นจัดการได้ยาก เพราะโมเดลอาจมองว่าสิ่งผิดปกติที่เป็นบล็อกๆ เหล่านั้นเป็นพื้นผิวจริงและขยายให้ใหญ่ขึ้น ขั้นตอนการทำงานทั่วไปคือ การลบสิ่งผิดปกติหรือการลดบล็อกก่อน จากนั้นจึงขยายภาพ และปรับความคมชัดเล็กน้อยเฉพาะเมื่อจำเป็น สำหรับภาพสแกน การทำความสะอาดอย่างอ่อนโยนจะช่วยให้โมเดลเน้นที่โครงสร้างจริงมากกว่าความเสียหาย เป้าหมายคือการลด "ร่องรอยพื้นผิวปลอม" เพื่อไม่ให้โปรแกรมขยายภาพต้องคาดเดาอย่างมั่นใจจากภาพที่มีสัญญาณรบกวน.
เหตุใดการเพิ่มความละเอียดของวิดีโอจึงยากกว่าการเพิ่มความละเอียดของภาพถ่าย
การเพิ่มความละเอียดของวิดีโอต้องมีความสม่ำเสมอในทุกเฟรม ไม่ใช่แค่ดีเฉพาะภาพนิ่งภาพเดียว หากรายละเอียดกระพริบในแต่ละเฟรม ผลลัพธ์ที่ได้จะทำให้เสียสมาธิอย่างรวดเร็ว วิธีการที่เน้นวิดีโอจะใช้ข้อมูลเชิงเวลาจากเฟรมข้างเคียงเพื่อทำให้การสร้างภาพใหม่มีความเสถียรและหลีกเลี่ยงสิ่งผิดปกติที่เกิดจากการกระพริบ ขั้นตอนการทำงานหลายอย่างยังรวมถึงการลดสัญญาณรบกวน การลดการแทรกสลับเฟรมสำหรับแหล่งที่มาบางประเภท และการเพิ่มเกรนกลับเข้าไปใหม่ (ถ้าต้องการ) เพื่อให้ลำดับภาพทั้งหมดดูต่อเนื่องกัน แทนที่จะดูคมชัดอย่างไม่เป็นธรรมชาติ.
เมื่อการเพิ่มประสิทธิภาพด้วย AI ไม่เหมาะสมหรือมีความเสี่ยงที่จะนำมาใช้
การเพิ่มความละเอียดภาพด้วย AI ควรถูกมองว่าเป็นการปรับปรุงคุณภาพ ไม่ใช่การพิสูจน์ ในบริบทที่มีความสำคัญสูง เช่น งานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืองานนิติวิทยาศาสตร์ การสร้างพิกเซลที่ "ดูสมจริง" อาจทำให้เกิดความเข้าใจผิดได้ เพราะอาจเพิ่มรายละเอียดที่ไม่ได้ถูกบันทึกไว้ วิธีที่ปลอดภัยกว่าคือการใช้เพื่อเป็นตัวอย่างและเปิดเผยว่ากระบวนการ AI ได้สร้างรายละเอียดขึ้นใหม่ หากความถูกต้องแม่นยำเป็นสิ่งสำคัญ ควรเก็บรักษาภาพต้นฉบับและบันทึกทุกขั้นตอนการประมวลผลและการตั้งค่า.
เอกสารอ้างอิง
-
arXiv - การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: บทสำรวจ - arxiv.org
-
arXiv - การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA Developer - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
มูลนิธิวิทยาการคอมพิวเตอร์ด้านการมองเห็น (CVF) เปิดให้เข้าถึงได้ฟรี - BasicVSR: การค้นหาส่วนประกอบสำคัญในการเพิ่มความละเอียดของวิดีโอ (CVPR 2021) - openaccess.thecvf.com
-
arXiv - เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - การสูญเสียการรับรู้ (Johnson et al., 2016) - arxiv.org
-
GitHub - ที่เก็บโค้ด Real-ESRGAN (ตัวเลือกไทล์) - github.com
-
วิกิพีเดีย - การแทรกสอดแบบบิคิวบิก - wikipedia.org
-
Topaz Labs - Topaz Photo - topazlabs.com
-
Topaz Labs - Topaz Video - topazlabs.com
-
ศูนย์ช่วยเหลือของ Adobe - Adobe Enhance > Super Resolution - helpx.adobe.com
-
NIST / OSAC - คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์ (เวอร์ชัน 1.0) - nist.gov
-
SWGDE - แนวทางปฏิบัติสำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์ - swgde.org