คำตอบสั้นๆ: การเพิ่มความละเอียดภาพด้วย AI ทำงานโดยการฝึกโมเดลด้วยภาพความละเอียดต่ำและสูงที่จับคู่กัน จากนั้นใช้โมเดลนั้นในการทำนายพิกเซลเพิ่มเติมที่ดูสมจริงระหว่างการเพิ่มความละเอียด หากโมเดลเคยเห็นพื้นผิวหรือใบหน้าที่คล้ายกันในระหว่างการฝึก มันก็จะสามารถเพิ่มรายละเอียดได้อย่างน่าเชื่อถือ แต่ถ้าไม่ มันอาจจะ "สร้างภาพลวงตา" เช่น แสงสะท้อน ผิวดูมันวาว หรือการกระพริบในวิดีโอ
ประเด็นสำคัญ:
คำทำนาย : แบบจำลองนี้สร้างรายละเอียดที่สมจริง ไม่ใช่การสร้างความเป็นจริงขึ้นมาใหม่ได้อย่างสมบูรณ์แบบ
การเลือกโมเดล : CNN มักมีความเสถียรกว่า ในขณะที่ GAN อาจดูคมชัดกว่า แต่มีความเสี่ยงที่จะสร้างคุณลักษณะปลอมขึ้นมา
การตรวจสอบสิ่งผิดปกติ : สังเกตแสงสะท้อน, พื้นผิวที่ซ้ำกัน, "ตัวอักษรที่ดูคล้ายตัวอักษร" และพื้นผิวที่ดูเหมือนพลาสติก
ความเสถียรของวิดีโอ : ใช้เทคนิคการวัดเวลา มิเช่นนั้นคุณจะเห็นภาพสั่นไหวและเลื่อนไปมาระหว่างเฟรมต่างๆ
การใช้งานที่มีความเสี่ยงสูง : หากความถูกต้องแม่นยำมีความสำคัญ โปรดเปิดเผยวิธีการประมวลผลและถือว่าผลลัพธ์เป็นเพียงตัวอย่างประกอบเท่านั้น

คุณคงเคยเห็นมาแล้ว: ภาพเล็กๆ ที่ดูไม่คมชัด กลับกลายเป็นภาพที่คมชัดพอที่จะพิมพ์ สตรีม หรือใส่ลงในงานนำเสนอได้โดยไม่รู้สึกผิดเพี้ยน มันให้ความรู้สึกเหมือนโกง และในแง่ดีที่สุด มันก็เป็นอย่างนั้นจริงๆ 😅
ดังนั้น วิธีการทำงานของ AI Upscaling จึงไม่ใช่แค่ "คอมพิวเตอร์เพิ่มรายละเอียด" (ซึ่งเป็นคำอธิบายแบบคร่าวๆ) แต่ใกล้เคียงกับ "แบบจำลองคาดการณ์โครงสร้างความละเอียดสูงที่สมเหตุสมผลโดยอิงจากรูปแบบที่เรียนรู้จากตัวอย่างจำนวนมาก" ( Deep Learning for Image Super-resolution: A Survey ) ขั้นตอนการคาดการณ์นี้คือหัวใจสำคัญ และเป็นเหตุผลว่าทำไม AI Upscaling ถึงดูสวยงาม... หรือดูเหมือนพลาสติก... หรือเหมือนแมวของคุณมีหนวดเพิ่มขึ้นมาอีกเส้นหนึ่ง
บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:
🔗 ปัญญาประดิษฐ์ทำงานอย่างไร
เรียนรู้พื้นฐานของแบบจำลอง ข้อมูล และการอนุมานในปัญญาประดิษฐ์.
🔗 ปัญญาประดิษฐ์เรียนรู้ได้อย่างไร
ดูว่าข้อมูลการฝึกฝนและผลตอบรับช่วยปรับปรุงประสิทธิภาพของโมเดลได้อย่างไรเมื่อเวลาผ่านไป.
🔗 ปัญญาประดิษฐ์ตรวจจับความผิดปกติได้อย่างไร
ทำความเข้าใจรูปแบบพื้นฐานและวิธีที่ AI ตรวจจับพฤติกรรมผิดปกติได้อย่างรวดเร็ว.
🔗 ปัญญาประดิษฐ์ (AI) ทำนายแนวโน้มได้อย่างไร
ศึกษาค้นคว้าวิธีการพยากรณ์ที่สามารถตรวจจับสัญญาณและคาดการณ์ความต้องการในอนาคตได้.
AI Upscaling ทำงานอย่างไร: แนวคิดหลัก อธิบายง่ายๆ 🧩
การเพิ่มความละเอียดภาพ (Upscaling) หมายถึงการเพิ่มความละเอียด: จำนวนพิกเซลมากขึ้น ภาพก็ใหญ่ขึ้น การเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) โดยพื้นฐานแล้วจะยืดพิกเซลและทำให้การเปลี่ยนผ่านราบเรียบขึ้น ( การประมาณค่าแบบไบคิวบิก ) ซึ่งก็ใช้ได้ดี แต่ไม่สามารถสร้าง ใหม่ ได้ มันเป็นเพียงการประมาณค่าเท่านั้น
การเพิ่มความละเอียดภาพด้วย AI พยายามทำสิ่งที่ท้าทายยิ่งขึ้น (หรือที่เรียกว่า "ความละเอียดสูงพิเศษ" ในแวดวงการวิจัย) ( การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดภาพ: บทสำรวจ ):
-
มันตรวจสอบอินพุตที่มีความละเอียดต่ำ
-
สามารถจดจำรูปแบบต่างๆ (ขอบ, พื้นผิว, ลักษณะใบหน้า, เส้นตัวอักษร, ลวดลายผ้า…)
-
ทำนายว่าเวอร์ชันความละเอียดสูง ควร มีลักษณะ
-
สร้างข้อมูลพิกเซลเพิ่มเติมที่ตรงกับรูปแบบเหล่านั้น
ไม่ใช่การ "ฟื้นฟูความเป็นจริงให้สมบูรณ์แบบ" แต่เป็นเหมือนการ "คาดเดาได้อย่างน่าเชื่อถือมาก" ( การเพิ่มความละเอียดของภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) ) ถ้าฟังดูน่าสงสัยเล็กน้อย คุณก็คิดไม่ผิดหรอก แต่ก็เป็นเหตุผลที่มันได้ผลดีมากเช่นกัน 😄
ใช่แล้ว นั่นหมายความว่าการเพิ่มความละเอียดภาพด้วย AI นั้นโดยพื้นฐานแล้วคือภาพลวงตาที่ถูกควบคุม...แต่เป็นภาพลวงตาที่มีประสิทธิภาพและเคารพในรายละเอียดของพิกเซล.
อะไรคือสิ่งที่ทำให้การเพิ่มความละเอียดภาพด้วย AI เป็นเวอร์ชันที่ดี? ✅🛠️
หากคุณกำลังประเมินคุณภาพของโปรแกรมอัปสเกลภาพด้วย AI (หรือการตั้งค่าล่วงหน้า) สิ่งต่อไปนี้มักมีความสำคัญที่สุด:
-
การกู้คืนรายละเอียดโดยไม่ทำให้ภาพสุกเกินไป
การเพิ่มความละเอียดภาพที่ดีจะช่วยเพิ่มความคมชัดและโครงสร้าง ไม่ใช่เสียงรบกวนหรือรูขุมขนปลอมๆ -
การควบคุมขอบภาพ
เส้นที่คมชัดจะคงความคมชัดอยู่เสมอ แบบจำลองที่ไม่ดีจะทำให้ขอบภาพสั่นไหวหรือเกิดรอยหยัก -
ความสมจริงของพื้นผิว
เส้นผมไม่ควรดูเหมือนรอยแปรงทาสี อิฐไม่ควรดูเหมือนลวดลายซ้ำๆ กัน -
การจัดการสัญญาณรบกวนและการบีบอัด
ภาพถ่ายทั่วไปจำนวนมากถูกบีบอัดเป็นไฟล์ JPEG จนคุณภาพลดลงอย่างมาก โปรแกรมเพิ่มความละเอียดภาพที่ดีจะไม่ทำให้คุณภาพภาพแย่ลงไปอีก ( เช่น Real-ESRGAN ) -
การจดจำใบหน้าและข้อความ ใบหน้า
และข้อความเป็นจุดที่ตรวจจับข้อผิดพลาดได้ง่ายที่สุด โมเดลที่ดีจะจัดการกับสิ่งเหล่านี้อย่างอ่อนโยน (หรือมีโหมดเฉพาะ) -
ความสม่ำเสมอระหว่างเฟรม (สำหรับวิดีโอ)
หากรายละเอียดกระพริบจากเฟรมหนึ่งไปยังอีกเฟรมหนึ่ง ดวงตาของคุณจะรู้สึกไม่สบาย การเพิ่มความละเอียดของวิดีโอจะประสบความสำเร็จหรือล้มเหลวขึ้นอยู่กับความเสถียรเชิงเวลา ( BasicVSR (CVPR 2021) ) -
ปุ่มควบคุมที่ใช้งานง่าย
คุณต้องการแถบเลื่อนที่แสดงผลได้จริง เช่น ลดสัญญาณรบกวน ลดความเบลอ ลบสิ่งแปลกปลอม รักษาเกรนภาพ เพิ่มความคมชัด... สิ่งต่างๆ ที่ใช้งานได้จริง
กฎเงียบๆ ที่ใช้ได้ผลเสมอ: การเพิ่มความละเอียดภาพที่ดีที่สุด มักจะเป็นสิ่งที่คุณแทบไม่สังเกตเห็นเลย มันดูเหมือนว่าคุณมีกล้องที่ดีกว่าตั้งแต่แรกอยู่แล้ว 📷✨
ตารางเปรียบเทียบ: ตัวเลือกการเพิ่มความละเอียดภาพด้วย AI ยอดนิยม (และประโยชน์ของแต่ละวิธี) 📊🙂
ด้านล่างนี้คือการเปรียบเทียบเชิงปฏิบัติ ราคาที่แสดงอาจไม่ชัดเจนนัก เนื่องจากเครื่องมือแต่ละชนิดมีราคาแตกต่างกันไปตามใบอนุญาต แพ็กเกจ ค่าใช้จ่ายในการประมวลผล และอื่นๆ อีกมากมาย.
| เครื่องมือ/วิธีการ | เหมาะที่สุดสำหรับ | ราคาค่อนข้างสูง | เหตุผลที่มันได้ผล (โดยประมาณ) |
|---|---|---|---|
| โปรแกรมเพิ่มความละเอียดภาพบนเดสก์ท็อปสไตล์ Topaz ( Topaz Photo , Topaz Video ) | รูปภาพ วิดีโอ ขั้นตอนการทำงานที่ง่าย | จ่ายเงินแล้ว | โมเดลพื้นฐานที่แข็งแกร่ง + การปรับแต่งจำนวนมาก มักจะ "ใช้งานได้เลย" ... ส่วนใหญ่ |
| คุณสมบัติประเภท "Super Resolution" ของ Adobe ( Adobe Enhance > Super Resolution ) | ช่างภาพที่อยู่ในระบบนิเวศนั้นอยู่แล้ว | การสมัครสมาชิก | การสร้างภาพจำลองที่มีรายละเอียดครบถ้วน มักจะเน้นความสมจริง (ไม่เน้นความดราม่า) |
| Real-ESRGAN / ESRGAN variants ( Real-ESRGAN , ESRGAN ) | DIY, นักพัฒนา, งานแบบกลุ่ม | ฟรี (แต่เสียเวลา) | เก่งเรื่องรายละเอียดพื้นผิว แต่ถ้าไม่ระวังอาจทำให้สีหน้าดูจัดจ้านเกินไป |
| โหมดการขยายภาพแบบอาศัยการแพร่กระจาย ( SR3 ) | งานสร้างสรรค์ ผลลัพธ์ที่มีสไตล์ | ผสม | สามารถสร้างรายละเอียดที่งดงามได้ และก็สามารถสร้างเรื่องไร้สาระได้เช่นกัน ดังนั้น...ใช่แล้ว |
| ตัวเพิ่มความละเอียดภาพในเกม (แบบ DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) | การเล่นเกมและการเรนเดอร์แบบเรียลไทม์ | มัดรวม | ใช้ข้อมูลการเคลื่อนไหวและความรู้พื้นฐานที่เรียนรู้มา - ประสิทธิภาพการทำงานราบรื่นขึ้นอย่างเห็นได้ชัด 🕹️ |
| บริการอัพสเกลระบบคลาวด์ | สะดวกสบาย รวดเร็ว ได้ผลลัพธ์ทันที | จ่ายตามการใช้งาน | รวดเร็วและปรับขนาดได้ แต่คุณต้องแลกกับการควบคุม และบางครั้งอาจสูญเสียความละเอียดอ่อนไปบ้าง |
| ตัวแปลงสัญญาณ AI สำหรับเพิ่มความละเอียดวิดีโอ ( BasicVSR , Topaz Video ) | ฟุตเทจเก่า, อนิเมะ, คลังข้อมูล | จ่ายเงินแล้ว | เทคนิคชั่วคราวเพื่อลดการกระพริบ + โมเดลวิดีโอเฉพาะทาง |
| การเพิ่มความละเอียดภาพจากสมาร์ทโฟน/แกลเลอรี | ใช้งานทั่วไป | รวมอยู่ด้วย | รุ่นน้ำหนักเบาที่ออกแบบมาเพื่อเสียงที่น่าพอใจ ไม่ใช่ความสมบูรณ์แบบ (แต่ก็ยังใช้งานได้สะดวก) |
สารภาพเรื่องความแปลกในการจัดรูปแบบ: คำว่า “จ่ายแล้วประมาณหนึ่งเดือน” ทำหน้าที่เยอะมากในตารางนั้น แต่คุณคงเข้าใจแล้วล่ะ 😅
ความลับสำคัญ: โมเดลเรียนรู้การแมปจากความละเอียดต่ำไปสู่ความละเอียดสูง 🧠➡️🖼️
หัวใจสำคัญของการเพิ่มความละเอียดภาพด้วย AI ส่วนใหญ่คือการตั้งค่าการเรียนรู้แบบมีผู้กำกับดูแล ( การเพิ่มความละเอียดภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) ):
-
เริ่มต้นด้วยภาพที่มีความละเอียดสูง (ซึ่งเป็น "ความจริง")
-
ลดขนาดภาพเหล่านั้นให้เป็นเวอร์ชันความละเอียดต่ำ ("อินพุต")
-
ฝึกโมเดลเพื่อสร้างภาพความละเอียดสูงต้นฉบับขึ้นใหม่จากภาพความละเอียดต่ำ
เมื่อเวลาผ่านไป โมเดลจะเรียนรู้ความสัมพันธ์ต่างๆ เช่น:
-
“รอยเบลอๆ รอบดวงตาแบบนี้ มักเกิดจากขนตา”
-
“กลุ่มพิกเซลนี้มักบ่งชี้ถึงตัวอักษรแบบมีเชิง”
-
“การไล่ระดับสีขอบนี้ดูเหมือนเส้นหลังคา ไม่ใช่สัญญาณรบกวนแบบสุ่ม”
มันไม่ใช่การท่องจำภาพเฉพาะเจาะจง (ในความหมายง่ายๆ) แต่เป็นการเรียนรู้โครงสร้างทางสถิติ ( การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: การสำรวจ ) ลองนึกถึงมันเหมือนกับการเรียนรู้ไวยากรณ์ของพื้นผิวและขอบ ไม่ใช่ไวยากรณ์ของบทกวี แต่เหมือน...ไวยากรณ์ของคู่มือ IKEA มากกว่า 🪑📦 (คำเปรียบเทียบที่ดูไม่ค่อยลงตัว แต่ก็ใกล้เคียง)
รายละเอียดสำคัญ: เกิดอะไรขึ้นระหว่างการอนุมาน (เมื่อคุณขยายขนาด) ⚙️✨
เมื่อคุณป้อนภาพเข้าไปในโปรแกรมเพิ่มความละเอียดภาพด้วย AI โดยทั่วไปจะมีขั้นตอนการทำงานดังนี้:
-
การประมวลผลล่วงหน้า
-
แปลงพื้นที่สี (บางครั้ง)
-
ปรับค่าพิกเซลให้เป็นมาตรฐาน
-
แบ่งภาพออกเป็นส่วนๆ หากภาพมีขนาดใหญ่ (ตรวจสอบข้อจำกัดของ VRAM ด้วยนะ 😭) (ดู ตัวเลือกการแบ่งภาพใน repository Real-ESRGAN )
-
-
การสกัดคุณลักษณะ
-
ชั้นแรกๆ จะตรวจจับขอบ มุม และการไล่ระดับสี
-
ชั้นลึกกว่าจะตรวจจับรูปแบบต่างๆ ได้แก่ พื้นผิว รูปร่าง และส่วนประกอบของใบหน้า
-
-
การบูรณะ
-
โมเดลนี้สร้างแผนที่ลักษณะเฉพาะที่มีความละเอียดสูงขึ้น
-
จากนั้นจึงแปลงค่าดังกล่าวให้เป็นเอาต์พุตพิกเซลจริง
-
-
การประมวลผลภายหลัง
-
การลับคมเพิ่มเติม (ไม่จำเป็น)
-
ตัวเลือกการลดสัญญาณรบกวน
-
ตัวเลือกเสริมในการลดสิ่งรบกวน (แสงสะท้อน แสงรัศมี ความเป็นเหลี่ยม)
-
รายละเอียดเล็กๆ น้อยๆ อย่างหนึ่งคือ เครื่องมือหลายอย่างจะขยายภาพเป็นแบบไทล์ แล้วค่อยผสานรอยต่อ เครื่องมือที่ดีจะซ่อนขอบเขตของไทล์ได้ เครื่องมือที่ธรรมดาจะทิ้งรอยตารางจางๆ ไว้หากคุณเพ่งมอง และใช่ คุณจะต้องเพ่งมอง เพราะมนุษย์ชอบตรวจสอบความไม่สมบูรณ์เล็กๆ น้อยๆ ที่การซูม 300% เหมือนตัวเกรมลินตัวน้อยๆ 🧌
ตระกูลโมเดลหลักที่ใช้สำหรับการเพิ่มความละเอียดภาพด้วย AI (และเหตุผลที่แต่ละแบบให้ความรู้สึกแตกต่างกัน) 🤖📚
1) การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN (เครื่องมือพื้นฐานที่ใช้กันมานาน)
โครงข่ายประสาทเทียมแบบคอนโวลูชันนั้นยอดเยี่ยมสำหรับการวิเคราะห์รูปแบบเฉพาะที่ เช่น ขอบ พื้นผิว และโครงสร้างขนาดเล็ก ( การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเชิงลึก (SRCNN) )
-
ข้อดี: เร็วพอสมควร เสถียร ปัญหาเกิดขึ้นน้อยกว่า
-
ข้อเสีย: อาจดูเหมือนผ่านการปรับแต่งมากเกินไปหากปรับอย่างหนัก
2) การเพิ่มความละเอียดภาพด้วย GAN (แบบ ESRGAN) 🎭
GANs (Generative Adversarial Networks) ฝึกตัวสร้างภาพให้สร้างภาพความละเอียดสูงที่ตัวแยกแยะภาพไม่สามารถแยกแยะออกจากภาพจริงได้ ( Generative Adversarial Networks )
-
ข้อดี: รายละเอียดคมชัด พื้นผิวดูน่าประทับใจ
-
ข้อเสีย: อาจสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมา - บางครั้งผิดพลาด บางครั้งเหมือนจริงอย่างน่าประหลาดใจ ( SRGAN , ESRGAN )
GAN สามารถให้ภาพที่คมชัดจนน่าทึ่งได้ นอกจากนี้ยังสามารถทำให้ตัวแบบของคุณมีคิ้วเพิ่มขึ้นอีกด้วย ดังนั้น... เลือกสิ่งที่คุณสนใจให้ดี 😬
3) การขยายภาพโดยใช้การแพร่กระจาย (ตัวเลือกสร้างสรรค์ที่เหนือชั้น) 🌫️➡️🖼️
แบบจำลองการแพร่กระจายจะลดสัญญาณรบกวนทีละขั้นตอนและสามารถควบคุมเพื่อสร้างรายละเอียดความละเอียดสูงได้ ( SR3 )
-
ข้อดี: สามารถเก็บรายละเอียดได้อย่างสมจริงอย่างเหลือเชื่อ โดยเฉพาะสำหรับงานสร้างสรรค์
-
ข้อเสีย: อาจเบี่ยงเบนไปจากเอกลักษณ์/โครงสร้างดั้งเดิมหากตั้งค่าอย่างเข้มงวด ( SR3 )
นี่คือจุดที่ “การยกระดับ” เริ่มผสมผสานเข้ากับ “การสร้างสรรค์ใหม่” บางครั้งนั่นคือสิ่งที่คุณต้องการอย่างแท้จริง แต่บางครั้งก็ไม่ใช่.
4) การเพิ่มความละเอียดวิดีโอด้วยความสม่ำเสมอทางเวลา 🎞️
การเพิ่มความละเอียดของวิดีโอ มักจะเพิ่มตรรกะที่รับรู้การเคลื่อนไหวเข้าไปด้วย:
-
ใช้เฟรมข้างเคียงเพื่อรักษาเสถียรภาพของรายละเอียด ( BasicVSR (CVPR 2021) )
-
พยายามหลีกเลี่ยงการกระพริบและภาพกระตุก
-
โดยทั่วไปจะผสานการเพิ่มความละเอียดสูงเข้ากับการลดสัญญาณรบกวนและการลดการแทรกสลับเฟรม ( Topaz Video )
ถ้าการเพิ่มความละเอียดของภาพนิ่งเปรียบเสมือนการบูรณะภาพวาดหนึ่งภาพ การเพิ่มความละเอียดของวิดีโอเปรียบเสมือนการบูรณะสมุดภาพพลิกหน้าโดยไม่ทำให้จมูกของตัวละครเปลี่ยนรูปทรงไปในแต่ละหน้า ซึ่ง…ยากกว่าที่คิด.
เหตุใดการเพิ่มความละเอียดภาพด้วย AI บางครั้งจึงดูไม่สมจริง (และวิธีสังเกต) 👀🚩
การเพิ่มความละเอียดภาพด้วย AI มักล้มเหลวในรูปแบบที่เห็นได้ชัด เมื่อคุณเรียนรู้รูปแบบเหล่านั้นแล้ว คุณจะเห็นมันได้ทุกที่ เหมือนกับการซื้อรถใหม่แล้วจู่ๆ ก็เห็นรถรุ่นนั้นวิ่งอยู่ทุกถนน 😵💫
สามัญชนกล่าวว่า:
-
การแว็กซ์ผิว หน้า (ลดสัญญาณรบกวนและปรับผิวให้เรียบมากเกินไป)
-
ขอบภาพคมชัดเกินไป (ลักษณะ "โอเวอร์ชูต" แบบคลาสสิก) ( การประมาณค่าแบบบิคิวบิก )
-
พื้นผิวที่ซ้ำกัน (ผนังอิฐกลายเป็นลวดลายที่คัดลอกและวางซ้ำๆ)
-
ความแตกต่างเล็กน้อยที่กรุบกรอบและชัดเจน ซึ่งบ่งบอกอย่างชัดเจนว่าเป็น "ผลลัพธ์จากอัลกอริทึม"
-
การบิดเบือนข้อความ ที่ตัวอักษรกลายเป็นเกือบตัวอักษร (แบบที่แย่ที่สุด)
-
การเคลื่อนตัวของรายละเอียด ที่ลักษณะเล็กๆ เปลี่ยนแปลงไปอย่างละเอียดอ่อน โดยเฉพาะในเวิร์กโฟลว์การแพร่กระจาย ( SR3 )
ส่วนที่ยากคือ บางครั้งภาพเหล่านี้ดู "ดีกว่า" ในแวบแรก สมองของคุณชอบความคมชัด แต่หลังจากนั้นสักครู่ มันก็จะรู้สึก...ไม่ค่อยดี.
กลยุทธ์ที่ดีอย่างหนึ่งคือการซูมออกแล้วตรวจสอบดูว่าภาพดูเป็นธรรมชาติในระยะการมองปกติหรือไม่ ถ้ามันดูดีเฉพาะตอนซูม 400% เท่านั้น นั่นไม่ใช่ความสำเร็จหรอก มันเป็นแค่กิจกรรมยามว่างต่างหาก 😅
วิธีการทำงานของ AI Upscaling: ด้านการฝึกฝน โดยไม่ต้องปวดหัวกับคณิตศาสตร์ 📉🙂
การฝึกอบรมโมเดลความละเอียดสูงพิเศษมักเกี่ยวข้องกับขั้นตอนดังต่อไปนี้:
-
ชุดข้อมูลคู่ (ภาพความละเอียดต่ำ ภาพความละเอียดสูง) ( การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) )
-
ฟังก์ชันความสูญเสีย ที่ลงโทษการสร้างใหม่ที่ไม่ถูกต้อง ( SRGAN )
ประเภทความเสียหายทั่วไป:
-
การสูญเสียพิกเซล (L1/L2)
ส่งเสริมความแม่นยำ อาจทำให้ผลลัพธ์ดูนุ่มนวลเล็กน้อย -
การสูญเสียการรับรู้
เปรียบเทียบคุณลักษณะที่ลึกกว่า (เช่น "สิ่งนี้ ดู คล้ายกันหรือไม่") มากกว่าพิกเซลที่แน่นอน ( การสูญเสียการรับรู้ (Johnson et al., 2016) ) -
การสูญเสียแบบต่อต้าน (GAN)
ส่งเสริมความสมจริง บางครั้งอาจแลกมาด้วยความถูกต้องตามตัวอักษร ( SRGAN , เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ )
มีการดึงเชือกกันอยู่ตลอดเวลา:
-
ทำให้ ซื่อตรง ต่อต้นฉบับ
vs -
ทำให้มัน ดูสวยงามน่ามอง
เครื่องมือแต่ละชนิดจะอยู่ในตำแหน่งที่แตกต่างกันบนสเปกตรัมนั้น และคุณอาจเลือกใช้เครื่องมือชนิดใดชนิดหนึ่งขึ้นอยู่กับว่าคุณกำลังบูรณะภาพถ่ายครอบครัวหรือเตรียมโปสเตอร์ที่ "ความสวยงาม" มีความสำคัญมากกว่าความถูกต้องแม่นยำทางนิติวิทยาศาสตร์.
ขั้นตอนการทำงานที่เป็นรูปธรรม: ภาพถ่าย ไฟล์สแกนเก่า อนิเมะ และวิดีโอ 📸🧾🎥
ภาพถ่าย (ภาพบุคคล ภาพทิวทัศน์ ภาพสินค้า)
แนวทางปฏิบัติที่ดีที่สุดโดยทั่วไปคือ:
-
ลดเสียงรบกวนเบาๆ ก่อน (ถ้าจำเป็น)
-
หรูหราแต่ตกแต่งแบบอนุรักษ์นิยม
-
ถ้าเนื้อสัมผัสเนียนเกินไป ให้เติมเนื้อสัมผัสที่หยาบลงไป (ใช่แล้ว จริงๆ นะ)
ธัญพืชก็เหมือนเกลือ ถ้ามากเกินไปจะทำให้เสียรสชาติอาหาร แต่ถ้าไม่ใส่เลยก็จะทำให้รสชาติจืดชืด 🍟
ภาพสแกนเก่าและภาพที่ถูกบีอัดอย่างมาก
ส่วนนี้จะยากกว่า เพราะโมเดลอาจมองบล็อกการบีบอัดเป็น "พื้นผิว"
ลองทำดังนี้:
-
การกำจัดสิ่งแปลกปลอมหรือการขจัดสิ่งกีดขวาง
-
จากนั้นจึงยกระดับขึ้นไปอีกขั้น
-
จากนั้นปรับความคมชัดเล็กน้อย (อย่าปรับมากเกินไป... ผมรู้ว่าทุกคนพูดแบบนั้น แต่ก็ควรปรับอยู่ดี)
อนิเมะและภาพวาดเส้น
งานศิลปะลายเส้นได้รับประโยชน์จาก:
-
รุ่นที่รักษาขอบให้คมชัด
-
ลดปัญหาภาพซ้อนจากการ
ขยายภาพอนิเมะ ภาพที่ได้มักจะสวยงามเพราะรูปทรงเรียบง่ายและสม่ำเสมอ (โชคดีจัง)
วิดีโอ
วิดีโอมีขั้นตอนเพิ่มเติม:
-
ลดสัญญาณรบกวน
-
ลดการแทรกสลับเฟรม (สำหรับบางแหล่งที่มา)
-
หรูหรา
-
การปรับให้เรียบหรือรักษาเสถียรภาพตามเวลา ( BasicVSR (CVPR 2021) )
-
การเติมเมล็ดธัญพืชกลับเข้าไปใหม่เพื่อเพิ่มความเหนียวแน่น (เป็นทางเลือกเสริม)
ถ้าคุณละเลยความสอดคล้องทางเวลา คุณจะเห็นรายละเอียดที่กระพริบระยิบระยับ เมื่อคุณสังเกตเห็นแล้ว คุณจะมองข้ามมันไปไม่ได้ เหมือนเสียงเก้าอี้เอี๊ยดอ๊าดในห้องที่เงียบสงบ 😖
เคล็ดลับการเลือกการตั้งค่าโดยไม่ต้องเดาไปเรื่อย (คู่มือฉบับย่อ) 🎛️😵💫
นี่คือแนวคิดเริ่มต้นที่ดี:
-
ถ้าใบหน้าดูเหมือนพลาสติก
ให้ลดสัญญาณรบกวน ลดความคมชัด ลองใช้โมเดลหรือโหมดที่รักษารูปหน้าไว้ -
หากพื้นผิวดูเข้มเกินไป
ให้ลดค่าแถบเลื่อน "การเพิ่มรายละเอียด" หรือ "การกู้คืนรายละเอียด" จากนั้นค่อยเพิ่มเกรนแบบละเอียดในภายหลัง -
หากขอบภาพเรืองแสง
ให้ลดความคมชัดลง และตรวจสอบตัวเลือกการลดแสงสะท้อน -
ถ้าภาพดูเหมือนใช้ AI มากเกินไป
ให้ลองใช้แบบเรียบง่ายกว่า บางครั้งวิธีที่ดีที่สุดก็คือ...ลดทอนรายละเอียดลง
นอกจากนี้: อย่าขยายภาพเป็น 8x เพียงเพราะคุณทำได้ การขยายภาพแบบ 2x หรือ 4x ที่คมชัดมักจะเป็นจุดที่เหมาะสมที่สุด การขยายภาพมากกว่านั้น คุณกำลังขอให้โมเดลเขียนแฟนฟิคเกี่ยวกับพิกเซลของคุณ 📖😂
จริยธรรม ความแท้จริง และคำถามที่น่าอึดอัดใจเกี่ยวกับ "ความจริง" 🧭😬
การเพิ่มความละเอียดภาพด้วย AI ทำให้เส้นแบ่งระหว่างสองสิ่งนี้ไม่ชัดเจน:
-
การบูรณะหมายถึงการทำให้สิ่งที่เคยมีอยู่กลับคืนมา
-
การปรับปรุงหมายถึงการเพิ่มเติมสิ่งที่ไม่มีอยู่เดิม
สำหรับภาพถ่ายส่วนตัวนั้น โดยทั่วไปแล้วไม่มีปัญหา (และดูดีด้วย) แต่สำหรับงานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืออะไรก็ตามที่ความถูกต้องแม่นยำมีความสำคัญ... คุณต้องระมัดระวัง ( OSAC/NIST: คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์ , แนวทาง SWGDE สำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์ )
กฎง่ายๆ ข้อหนึ่ง:
-
หากมีความเสี่ยงสูง ควรพิจารณาการยกระดับ AI เป็น เพียงตัวอย่าง ไม่ใช่ข้อสรุปที่แน่นอน
นอกจากนี้ การเปิดเผยข้อมูลมีความสำคัญในบริบททางวิชาชีพ ไม่ใช่เพราะ AI เป็นสิ่งชั่วร้าย แต่เพราะผู้ชมสมควรที่จะรู้ว่ารายละเอียดต่างๆ นั้นถูกสร้างขึ้นใหม่หรือบันทึกไว้ นั่นเป็นเรื่องของการให้เกียรติ.
ข้อสรุปและบทสรุปสั้นๆ 🧡✅
ดังนั้น วิธีการทำงานของ AI Upscaling คือ โมเดลจะเรียนรู้ว่ารายละเอียดที่มีความละเอียดสูง มัก มีความสัมพันธ์กับรูปแบบที่มีความละเอียดต่ำอย่างไร จากนั้นจึงทำนายจำนวนพิกเซลเพิ่มเติมที่ดูสมจริงในระหว่างการขยายภาพ ( Deep Learning for Image Super-resolution: A Survey ) ขึ้นอยู่กับตระกูลของโมเดล (CNN, GAN, diffusion, video-temporal) การทำนายนั้นอาจจะค่อนข้างระมัดระวังและแม่นยำ... หรืออาจจะกล้าหาญและบางครั้งก็ดูไม่สมเหตุสมผลเลยก็ได้ 😅
สรุปโดยย่อ
-
การขยายภาพแบบดั้งเดิมจะยืดพิกเซล ( การแทรกสอดแบบบิคิวบิก )
-
การเพิ่มความละเอียดภาพด้วย AI ทำนายรายละเอียดที่ขาดหายไปโดยใช้รูปแบบที่เรียนรู้มา ( การเพิ่มความละเอียดภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) )
-
ผลลัพธ์ที่ยอดเยี่ยมมาจากการใช้แบบจำลองที่เหมาะสมควบคู่กับการควบคุมที่เหมาะสม
-
สังเกตแสงสะท้อนรอบดวงตา ใบหน้าที่มีลักษณะคล้ายขี้ผึ้ง พื้นผิวที่ซ้ำซ้อน และการกระพริบในวิดีโอ ( BasicVSR (CVPR 2021) )
-
การขยายขนาดมักเป็นการ "สร้างใหม่ที่ดูสมเหตุสมผล" ไม่ใช่ความจริงที่สมบูรณ์แบบ ( SRGAN , ESRGAN )
ถ้าคุณต้องการ บอกผมหน่อยว่าคุณกำลังปรับภาพอะไร (ใบหน้า ภาพถ่ายเก่า วิดีโอ อนิเมะ การสแกนข้อความ) แล้วผมจะแนะนำกลยุทธ์การตั้งค่าที่ช่วยหลีกเลี่ยงข้อผิดพลาดทั่วไปของ "ภาพที่ดูเหมือน AI" ให้ครับ 🎯🙂
คำถามที่พบบ่อย
การยกระดับ AI และวิธีการทำงาน
การเพิ่มความละเอียดภาพด้วย AI (มักเรียกว่า “ซูเปอร์รีลีสซิ่ง”) จะเพิ่มความละเอียดของภาพโดยการคาดการณ์รายละเอียดความละเอียดสูงที่ขาดหายไปจากรูปแบบที่เรียนรู้ระหว่างการฝึกฝน แทนที่จะยืดพิกเซลแบบง่ายๆ เหมือนกับการประมาณค่าแบบไบคิวบิก โมเดลจะศึกษาขอบ พื้นผิว ใบหน้า และเส้นขีดคล้ายตัวอักษร จากนั้นสร้างข้อมูลพิกเซลใหม่ที่สอดคล้องกับรูปแบบที่เรียนรู้เหล่านั้น มันไม่ใช่การ “ฟื้นฟูความเป็นจริง” แต่เป็นการ “คาดเดาที่น่าเชื่อถือ” ซึ่งดูเป็นธรรมชาติ.
การขยายภาพด้วย AI เทียบกับการปรับขนาดแบบไบคิวบิกหรือแบบดั้งเดิม
วิธีการเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) ส่วนใหญ่จะทำการประมาณค่าระหว่างพิกเซลที่มีอยู่แล้ว ทำให้การเปลี่ยนผ่านราบรื่นโดยไม่สร้างรายละเอียดใหม่ที่แท้จริง การเพิ่มความละเอียดภาพด้วย AI มีเป้าหมายเพื่อสร้างโครงสร้างที่สมจริงโดยการจดจำสัญญาณภาพและคาดการณ์ว่าภาพความละเอียดสูงของสัญญาณเหล่านั้นจะมีลักษณะอย่างไร นั่นเป็นเหตุผลว่าทำไมผลลัพธ์จาก AI จึงดูคมชัดกว่าอย่างเห็นได้ชัด และในขณะเดียวกันก็อาจทำให้เกิดสิ่งผิดปกติหรือ "สร้าง" รายละเอียดที่ไม่มีอยู่ในภาพต้นฉบับขึ้นมาได้.
เหตุใดใบหน้าจึงดูมันวาวหรือเรียบเนียนเกินไป
ใบหน้าที่ดูแข็งกระด้างมักเกิดจากการลดสัญญาณรบกวนและปรับผิวให้เรียบเนียนอย่างรุนแรง ควบคู่กับการเพิ่มความคมชัดที่ทำให้พื้นผิวที่เป็นธรรมชาติของผิวหายไป เครื่องมือหลายอย่างจัดการกับสัญญาณรบกวนและรายละเอียดเล็กๆ น้อยๆ ในลักษณะเดียวกัน ดังนั้นการ "ทำความสะอาด" ภาพจึงอาจลบรูขุมขนและรายละเอียดเล็กๆ น้อยๆ ออกไปได้ วิธีทั่วไปคือการลดสัญญาณรบกวนและความคมชัด ใช้โหมดรักษารูปหน้าหากมี จากนั้นเพิ่มเกรนเล็กน้อยเพื่อให้ภาพที่ได้ดูเป็นธรรมชาติและไม่เหมือนพลาสติกมากขึ้น.
ข้อผิดพลาดทั่วไปที่ควรระวังในการเพิ่มความละเอียดภาพด้วย AI
สัญญาณบ่งบอกปัญหาโดยทั่วไป ได้แก่ รอยแสงรอบขอบ ลวดลายพื้นผิวที่ซ้ำกัน (เหมือนอิฐที่คัดลอกวางซ้ำๆ) ความคมชัดระดับไมโครที่ดูไม่เป็นธรรมชาติ และตัวอักษรที่กลายเป็น "ตัวอักษรที่ไม่สมบูรณ์" ในขั้นตอนการทำงานที่ใช้การกระจายแสง คุณยังสามารถเห็นรายละเอียดที่เปลี่ยนแปลงไปเล็กน้อยได้อีกด้วย สำหรับวิดีโอ การกระพริบและรายละเอียดที่ค่อยๆ เลื่อนไปมาในแต่ละเฟรมเป็นสัญญาณเตือนที่สำคัญ หากภาพดูดีเฉพาะเมื่อซูมเข้ามากๆ แสดงว่าการตั้งค่าอาจจะรุนแรงเกินไป.
ความแตกต่างของผลลัพธ์ระหว่าง GAN, CNN และตัวขยายภาพแบบกระจาย (diffusion upscaler)
การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN มักมีความเสถียรและคาดเดาได้ง่ายกว่า แต่ภาพอาจดู "ไม่เป็นธรรมชาติ" หากปรับค่าสูงเกินไป ตัวเลือกแบบ GAN (เช่น ESRGAN) มักให้รายละเอียดที่คมชัดและมีมิติมากกว่า แต่ก็อาจทำให้รายละเอียดผิดเพี้ยนไปได้ โดยเฉพาะบนใบหน้า การเพิ่มความละเอียดภาพด้วยวิธีการแพร่กระจาย (Diffusion-based upscaling) สามารถสร้างรายละเอียดที่สวยงามและสมจริงได้ แต่ภาพอาจเบี่ยงเบนจากโครงสร้างเดิมหากตั้งค่าการควบคุมหรือความแรงสูงเกินไป.
กลยุทธ์การตั้งค่าที่ใช้งานได้จริงเพื่อหลีกเลี่ยงรูปลักษณ์ที่ "ดูเหมือนใช้ AI มากเกินไป"
เริ่มต้นอย่างระมัดระวัง: ขยายภาพ 2 เท่าหรือ 4 เท่าก่อนที่จะใช้ปัจจัยที่รุนแรง หากใบหน้าดูเหมือนพลาสติก ให้ลดการลดสัญญาณรบกวนและความคมชัด และลองใช้โหมดจดจำใบหน้า หากพื้นผิวมีรายละเอียดมากเกินไป ให้ลดการเพิ่มรายละเอียดและพิจารณาเพิ่มเกรนเล็กน้อยในภายหลัง หากขอบเรืองแสง ให้ลดความคมชัดและตรวจสอบการลดแสงสะท้อนหรือสิ่งแปลกปลอม ในหลายๆ ขั้นตอนการทำงาน “น้อย” ย่อมดีกว่า เพราะช่วยรักษาความสมจริงเอาไว้ได้.
การจัดการกับไฟล์สแกนเก่าหรือภาพ JPEG ที่ถูกบีบอัดอย่างมากก่อนทำการขยายขนาด
ภาพที่ถูกบีอัดนั้นจัดการได้ยาก เพราะโมเดลอาจมองว่าสิ่งผิดปกติที่เป็นบล็อกๆ เหล่านั้นเป็นพื้นผิวจริงและขยายให้ใหญ่ขึ้น ขั้นตอนการทำงานทั่วไปคือ การลบสิ่งผิดปกติหรือการลดบล็อกก่อน จากนั้นจึงขยายภาพ และปรับความคมชัดเล็กน้อยเฉพาะเมื่อจำเป็น สำหรับภาพสแกน การทำความสะอาดอย่างอ่อนโยนจะช่วยให้โมเดลเน้นที่โครงสร้างจริงมากกว่าความเสียหาย เป้าหมายคือการลด "ร่องรอยพื้นผิวปลอม" เพื่อไม่ให้โปรแกรมขยายภาพต้องคาดเดาอย่างมั่นใจจากภาพที่มีสัญญาณรบกวน.
เหตุใดการเพิ่มความละเอียดของวิดีโอจึงยากกว่าการเพิ่มความละเอียดของภาพถ่าย
การเพิ่มความละเอียดของวิดีโอต้องมีความสม่ำเสมอในทุกเฟรม ไม่ใช่แค่ดีเฉพาะภาพนิ่งภาพเดียว หากรายละเอียดกระพริบในแต่ละเฟรม ผลลัพธ์ที่ได้จะทำให้เสียสมาธิอย่างรวดเร็ว วิธีการที่เน้นวิดีโอจะใช้ข้อมูลเชิงเวลาจากเฟรมข้างเคียงเพื่อทำให้การสร้างภาพใหม่มีความเสถียรและหลีกเลี่ยงสิ่งผิดปกติที่เกิดจากการกระพริบ ขั้นตอนการทำงานหลายอย่างยังรวมถึงการลดสัญญาณรบกวน การลดการแทรกสลับเฟรมสำหรับแหล่งที่มาบางประเภท และการเพิ่มเกรนกลับเข้าไปใหม่ (ถ้าต้องการ) เพื่อให้ลำดับภาพทั้งหมดดูต่อเนื่องกัน แทนที่จะดูคมชัดอย่างไม่เป็นธรรมชาติ.
เมื่อการเพิ่มประสิทธิภาพด้วย AI ไม่เหมาะสมหรือมีความเสี่ยงที่จะนำมาใช้
การเพิ่มความละเอียดภาพด้วย AI ควรถูกมองว่าเป็นการปรับปรุงคุณภาพ ไม่ใช่การพิสูจน์ ในบริบทที่มีความสำคัญสูง เช่น งานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืองานนิติวิทยาศาสตร์ การสร้างพิกเซลที่ "ดูสมจริง" อาจทำให้เกิดความเข้าใจผิดได้ เพราะอาจเพิ่มรายละเอียดที่ไม่ได้ถูกบันทึกไว้ วิธีที่ปลอดภัยกว่าคือการใช้เพื่อเป็นตัวอย่างและเปิดเผยว่ากระบวนการ AI ได้สร้างรายละเอียดขึ้นใหม่ หากความถูกต้องแม่นยำเป็นสิ่งสำคัญ ควรเก็บรักษาภาพต้นฉบับและบันทึกทุกขั้นตอนการประมวลผลและการตั้งค่า.
เอกสารอ้างอิง
-
arXiv - การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: บทสำรวจ - arxiv.org
-
arXiv - การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA Developer - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
มูลนิธิวิทยาการคอมพิวเตอร์ด้านการมองเห็น (CVF) เปิดให้เข้าถึงได้ฟรี - BasicVSR: การค้นหาส่วนประกอบสำคัญในการเพิ่มความละเอียดของวิดีโอ (CVPR 2021) - openaccess.thecvf.com
-
arXiv - เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - การสูญเสียการรับรู้ (Johnson et al., 2016) - arxiv.org
-
GitHub - ที่เก็บโค้ด Real-ESRGAN (ตัวเลือกไทล์) - github.com
-
วิกิพีเดีย - การแทรกสอดแบบบิคิวบิก - wikipedia.org
-
Topaz Labs - Topaz Photo - topazlabs.com
-
Topaz Labs - Topaz Video - topazlabs.com
-
ศูนย์ช่วยเหลือของ Adobe - Adobe Enhance > Super Resolution - helpx.adobe.com
-
NIST / OSAC - คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์ (เวอร์ชัน 1.0) - nist.gov
-
SWGDE - แนวทางปฏิบัติสำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์ - swgde.org