การยกระดับ AI ทำงานอย่างไร

AI Upscaling ทำงานอย่างไร?

คำตอบสั้นๆ: การเพิ่มความละเอียดภาพด้วย AI ทำงานโดยการฝึกโมเดลด้วยภาพความละเอียดต่ำและสูงที่จับคู่กัน จากนั้นใช้โมเดลนั้นในการทำนายพิกเซลเพิ่มเติมที่ดูสมจริงระหว่างการเพิ่มความละเอียด หากโมเดลเคยเห็นพื้นผิวหรือใบหน้าที่คล้ายกันในระหว่างการฝึก มันก็จะสามารถเพิ่มรายละเอียดได้อย่างน่าเชื่อถือ แต่ถ้าไม่ มันอาจจะ "สร้างภาพลวงตา" เช่น แสงสะท้อน ผิวดูมันวาว หรือการกระพริบในวิดีโอ 

ประเด็นสำคัญ:

คำทำนาย: แบบจำลองนี้สร้างรายละเอียดที่สมจริง ไม่ใช่การสร้างความเป็นจริงขึ้นมาใหม่ได้อย่างสมบูรณ์แบบ

การเลือกโมเดล: CNN มักมีความเสถียรกว่า ในขณะที่ GAN อาจดูคมชัดกว่า แต่มีความเสี่ยงที่จะสร้างคุณลักษณะปลอมขึ้นมา

การตรวจสอบสิ่งผิดปกติ: สังเกตแสงสะท้อน, พื้นผิวที่ซ้ำกัน, "ตัวอักษรที่ดูคล้ายตัวอักษร" และพื้นผิวที่ดูเหมือนพลาสติก

ความเสถียรของวิดีโอ: ใช้เทคนิคการวัดเวลา มิเช่นนั้นคุณจะเห็นภาพสั่นไหวและเลื่อนไปมาระหว่างเฟรมต่างๆ

การใช้งานที่มีความเสี่ยงสูง: หากความถูกต้องแม่นยำมีความสำคัญ โปรดเปิดเผยวิธีการประมวลผลและถือว่าผลลัพธ์เป็นเพียงตัวอย่างประกอบเท่านั้น

การเพิ่มประสิทธิภาพด้วย AI ทำงานอย่างไร? ดูได้จากอินโฟกราฟิก.

คุณคงเคยเห็นมาแล้ว: ภาพเล็กๆ ที่ดูไม่คมชัด กลับกลายเป็นภาพที่คมชัดพอที่จะพิมพ์ สตรีม หรือใส่ลงในงานนำเสนอได้โดยไม่รู้สึกผิดเพี้ยน มันให้ความรู้สึกเหมือนโกง และในแง่ดีที่สุด มันก็เป็นอย่างนั้นจริงๆ 😅

ดังนั้น วิธีการทำงานของ AI Upscaling จึงไม่ใช่แค่ "คอมพิวเตอร์เพิ่มรายละเอียด" (ซึ่งเป็นคำอธิบายแบบคร่าวๆ) แต่ใกล้เคียงกับ "แบบจำลองคาดการณ์โครงสร้างความละเอียดสูงที่สมเหตุสมผลโดยอิงจากรูปแบบที่เรียนรู้จากตัวอย่างจำนวนมาก" (Deep Learning for Image Super-resolution: A Survey) ขั้นตอนการคาดการณ์นี้คือหัวใจสำคัญ และเป็นเหตุผลว่าทำไม AI Upscaling ถึงดูสวยงาม... หรือดูเหมือนพลาสติก... หรือเหมือนแมวของคุณมีหนวดเพิ่มขึ้นมาอีกเส้นหนึ่ง

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 ปัญญาประดิษฐ์ทำงานอย่างไร
เรียนรู้พื้นฐานของแบบจำลอง ข้อมูล และการอนุมานในปัญญาประดิษฐ์.

🔗 ปัญญาประดิษฐ์เรียนรู้ได้อย่างไร
ดูว่าข้อมูลการฝึกฝนและผลตอบรับช่วยปรับปรุงประสิทธิภาพของโมเดลได้อย่างไรเมื่อเวลาผ่านไป.

🔗 ปัญญาประดิษฐ์ตรวจจับความผิดปกติได้อย่างไร
ทำความเข้าใจรูปแบบพื้นฐานและวิธีที่ AI ตรวจจับพฤติกรรมผิดปกติได้อย่างรวดเร็ว.

🔗 ปัญญาประดิษฐ์ (AI) ทำนายแนวโน้มได้อย่างไร
ศึกษาค้นคว้าวิธีการพยากรณ์ที่สามารถตรวจจับสัญญาณและคาดการณ์ความต้องการในอนาคตได้.


AI Upscaling ทำงานอย่างไร: แนวคิดหลัก อธิบายง่ายๆ 🧩

การเพิ่มความละเอียดภาพ (Upscaling) หมายถึงการเพิ่มความละเอียด: จำนวนพิกเซลมากขึ้น ภาพก็ใหญ่ขึ้น การเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) โดยพื้นฐานแล้วจะยืดพิกเซลและทำให้การเปลี่ยนผ่านราบเรียบขึ้น (การประมาณค่าแบบไบคิวบิก) ซึ่งก็ใช้ได้ดี แต่ไม่สามารถสร้าง ใหม่ ได้ มันเป็นเพียงการประมาณค่าเท่านั้น

การเพิ่มความละเอียดภาพด้วย AI พยายามทำสิ่งที่ท้าทายยิ่งขึ้น (หรือที่เรียกว่า "ความละเอียดสูงพิเศษ" ในแวดวงการวิจัย) (การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดภาพ: บทสำรวจ):

  • มันตรวจสอบอินพุตที่มีความละเอียดต่ำ

  • สามารถจดจำรูปแบบต่างๆ (ขอบ, พื้นผิว, ลักษณะใบหน้า, เส้นตัวอักษร, ลวดลายผ้า…)

  • ทำนายว่าเวอร์ชันความละเอียดสูง ควร มีลักษณะ

  • สร้างข้อมูลพิกเซลเพิ่มเติมที่ตรงกับรูปแบบเหล่านั้น

ไม่ใช่การ "ฟื้นฟูความเป็นจริงให้สมบูรณ์แบบ" แต่เป็นเหมือนการ "คาดเดาได้อย่างน่าเชื่อถือมาก" (การเพิ่มความละเอียดของภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN)) ถ้าฟังดูน่าสงสัยเล็กน้อย คุณก็คิดไม่ผิดหรอก แต่ก็เป็นเหตุผลที่มันได้ผลดีมากเช่นกัน 😄

ใช่แล้ว นั่นหมายความว่าการเพิ่มความละเอียดภาพด้วย AI นั้นโดยพื้นฐานแล้วคือภาพลวงตาที่ถูกควบคุม...แต่เป็นภาพลวงตาที่มีประสิทธิภาพและเคารพในรายละเอียดของพิกเซล.


อะไรคือสิ่งที่ทำให้การเพิ่มความละเอียดภาพด้วย AI เป็นเวอร์ชันที่ดี? ✅🛠️

หากคุณกำลังประเมินคุณภาพของโปรแกรมอัปสเกลภาพด้วย AI (หรือการตั้งค่าล่วงหน้า) สิ่งต่อไปนี้มักมีความสำคัญที่สุด:

  • การกู้คืนรายละเอียดโดยไม่ทำให้ภาพสุกเกินไป
    การเพิ่มความละเอียดภาพที่ดีจะช่วยเพิ่มความคมชัดและโครงสร้าง ไม่ใช่เสียงรบกวนหรือรูขุมขนปลอมๆ

  • การควบคุมขอบภาพ
    เส้นที่คมชัดจะคงความคมชัดอยู่เสมอ แบบจำลองที่ไม่ดีจะทำให้ขอบภาพสั่นไหวหรือเกิดรอยหยัก

  • ความสมจริงของพื้นผิว
    เส้นผมไม่ควรดูเหมือนรอยแปรงทาสี อิฐไม่ควรดูเหมือนลวดลายซ้ำๆ กัน

  • การจัดการสัญญาณรบกวนและการบีบอัด
    ภาพถ่ายทั่วไปจำนวนมากถูกบีบอัดเป็นไฟล์ JPEG จนคุณภาพลดลงอย่างมาก โปรแกรมเพิ่มความละเอียดภาพที่ดีจะไม่ทำให้คุณภาพภาพแย่ลงไปอีก (เช่น Real-ESRGAN)

  • การจดจำใบหน้าและข้อความ ใบหน้า
    และข้อความเป็นจุดที่ตรวจจับข้อผิดพลาดได้ง่ายที่สุด โมเดลที่ดีจะจัดการกับสิ่งเหล่านี้อย่างอ่อนโยน (หรือมีโหมดเฉพาะ)

  • ความสม่ำเสมอระหว่างเฟรม (สำหรับวิดีโอ)
    หากรายละเอียดกระพริบจากเฟรมหนึ่งไปยังอีกเฟรมหนึ่ง ดวงตาของคุณจะรู้สึกไม่สบาย การเพิ่มความละเอียดของวิดีโอจะประสบความสำเร็จหรือล้มเหลวขึ้นอยู่กับความเสถียรเชิงเวลา (BasicVSR (CVPR 2021))

  • ปุ่มควบคุมที่ใช้งานง่าย
    คุณต้องการแถบเลื่อนที่แสดงผลได้จริง เช่น ลดสัญญาณรบกวน ลดความเบลอ ลบสิ่งแปลกปลอม รักษาเกรนภาพ เพิ่มความคมชัด... สิ่งต่างๆ ที่ใช้งานได้จริง

กฎเงียบๆ ที่ใช้ได้ผลเสมอ: การเพิ่มความละเอียดภาพที่ดีที่สุด มักจะเป็นสิ่งที่คุณแทบไม่สังเกตเห็นเลย มันดูเหมือนว่าคุณมีกล้องที่ดีกว่าตั้งแต่แรกอยู่แล้ว 📷✨


ตารางเปรียบเทียบ: ตัวเลือกการเพิ่มความละเอียดภาพด้วย AI ยอดนิยม (และประโยชน์ของแต่ละวิธี) 📊🙂

ด้านล่างนี้คือการเปรียบเทียบเชิงปฏิบัติ ราคาที่แสดงอาจไม่ชัดเจนนัก เนื่องจากเครื่องมือแต่ละชนิดมีราคาแตกต่างกันไปตามใบอนุญาต แพ็กเกจ ค่าใช้จ่ายในการประมวลผล และอื่นๆ อีกมากมาย.

เครื่องมือ/วิธีการ เหมาะที่สุดสำหรับ ราคาค่อนข้างสูง เหตุผลที่มันได้ผล (โดยประมาณ)
โปรแกรมเพิ่มความละเอียดภาพบนเดสก์ท็อปสไตล์ Topaz (Topaz Photo, Topaz Video) รูปภาพ วิดีโอ ขั้นตอนการทำงานที่ง่าย จ่ายเงินแล้ว โมเดลพื้นฐานที่แข็งแกร่ง + การปรับแต่งจำนวนมาก มักจะ "ใช้งานได้เลย" ... ส่วนใหญ่
คุณสมบัติประเภท "Super Resolution" ของ Adobe (Adobe Enhance > Super Resolution) ช่างภาพที่อยู่ในระบบนิเวศนั้นอยู่แล้ว การสมัครสมาชิก การสร้างภาพจำลองที่มีรายละเอียดครบถ้วน มักจะเน้นความสมจริง (ไม่เน้นความดราม่า)
Real-ESRGAN / ESRGAN variants (Real-ESRGAN, ESRGAN) DIY, นักพัฒนา, งานแบบกลุ่ม ฟรี (แต่เสียเวลา) เก่งเรื่องรายละเอียดพื้นผิว แต่ถ้าไม่ระวังอาจทำให้สีหน้าดูจัดจ้านเกินไป
โหมดการขยายภาพแบบอาศัยการแพร่กระจาย (SR3) งานสร้างสรรค์ ผลลัพธ์ที่มีสไตล์ ผสม สามารถสร้างรายละเอียดที่งดงามได้ และก็สามารถสร้างเรื่องไร้สาระได้เช่นกัน ดังนั้น...ใช่แล้ว
ตัวเพิ่มความละเอียดภาพในเกม (แบบ DLSS/FSR) (NVIDIA DLSS, AMD FSR 2) การเล่นเกมและการเรนเดอร์แบบเรียลไทม์ มัดรวม ใช้ข้อมูลการเคลื่อนไหวและความรู้พื้นฐานที่เรียนรู้มา - ประสิทธิภาพการทำงานราบรื่นขึ้นอย่างเห็นได้ชัด 🕹️
บริการอัพสเกลระบบคลาวด์ สะดวกสบาย รวดเร็ว ได้ผลลัพธ์ทันที จ่ายตามการใช้งาน รวดเร็วและปรับขนาดได้ แต่คุณต้องแลกกับการควบคุม และบางครั้งอาจสูญเสียความละเอียดอ่อนไปบ้าง
ตัวแปลงสัญญาณ AI สำหรับเพิ่มความละเอียดวิดีโอ (BasicVSR, Topaz Video) ฟุตเทจเก่า, อนิเมะ, คลังข้อมูล จ่ายเงินแล้ว เทคนิคชั่วคราวเพื่อลดการกระพริบ + โมเดลวิดีโอเฉพาะทาง
การเพิ่มความละเอียดภาพจากสมาร์ทโฟน/แกลเลอรี ใช้งานทั่วไป รวมอยู่ด้วย รุ่นน้ำหนักเบาที่ออกแบบมาเพื่อเสียงที่น่าพอใจ ไม่ใช่ความสมบูรณ์แบบ (แต่ก็ยังใช้งานได้สะดวก)

สารภาพเรื่องความแปลกในการจัดรูปแบบ: คำว่า “จ่ายแล้วประมาณหนึ่งเดือน” ทำหน้าที่เยอะมากในตารางนั้น แต่คุณคงเข้าใจแล้วล่ะ 😅


ความลับสำคัญ: โมเดลเรียนรู้การแมปจากความละเอียดต่ำไปสู่ความละเอียดสูง 🧠➡️🖼️

หัวใจสำคัญของการเพิ่มความละเอียดภาพด้วย AI ส่วนใหญ่คือการตั้งค่าการเรียนรู้แบบมีผู้กำกับดูแล (การเพิ่มความละเอียดภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN)):

  1. เริ่มต้นด้วยภาพที่มีความละเอียดสูง (ซึ่งเป็น "ความจริง")

  2. ลดขนาดภาพเหล่านั้นให้เป็นเวอร์ชันความละเอียดต่ำ ("อินพุต")

  3. ฝึกโมเดลเพื่อสร้างภาพความละเอียดสูงต้นฉบับขึ้นใหม่จากภาพความละเอียดต่ำ

เมื่อเวลาผ่านไป โมเดลจะเรียนรู้ความสัมพันธ์ต่างๆ เช่น:

  • “รอยเบลอๆ รอบดวงตาแบบนี้ มักเกิดจากขนตา”

  • “กลุ่มพิกเซลนี้มักบ่งชี้ถึงตัวอักษรแบบมีเชิง”

  • “การไล่ระดับสีขอบนี้ดูเหมือนเส้นหลังคา ไม่ใช่สัญญาณรบกวนแบบสุ่ม”

มันไม่ใช่การท่องจำภาพเฉพาะเจาะจง (ในความหมายง่ายๆ) แต่เป็นการเรียนรู้โครงสร้างทางสถิติ (การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: การสำรวจ) ลองนึกถึงมันเหมือนกับการเรียนรู้ไวยากรณ์ของพื้นผิวและขอบ ไม่ใช่ไวยากรณ์ของบทกวี แต่เหมือน...ไวยากรณ์ของคู่มือ IKEA มากกว่า 🪑📦 (คำเปรียบเทียบที่ดูไม่ค่อยลงตัว แต่ก็ใกล้เคียง)


รายละเอียดสำคัญ: เกิดอะไรขึ้นระหว่างการอนุมาน (เมื่อคุณขยายขนาด) ⚙️✨

เมื่อคุณป้อนภาพเข้าไปในโปรแกรมเพิ่มความละเอียดภาพด้วย AI โดยทั่วไปจะมีขั้นตอนการทำงานดังนี้:

  • การประมวลผลล่วงหน้า

    • แปลงพื้นที่สี (บางครั้ง)

    • ปรับค่าพิกเซลให้เป็นมาตรฐาน

    • แบ่งภาพออกเป็นส่วนๆ หากภาพมีขนาดใหญ่ (ตรวจสอบข้อจำกัดของ VRAM ด้วยนะ 😭) (ดูตัวเลือกการแบ่งภาพใน repository Real-ESRGAN)

  • การสกัดคุณลักษณะ

    • ชั้นแรกๆ จะตรวจจับขอบ มุม และการไล่ระดับสี

    • ชั้นลึกกว่าจะตรวจจับรูปแบบต่างๆ ได้แก่ พื้นผิว รูปร่าง และส่วนประกอบของใบหน้า

  • การบูรณะ

    • โมเดลนี้สร้างแผนที่ลักษณะเฉพาะที่มีความละเอียดสูงขึ้น

    • จากนั้นจึงแปลงค่าดังกล่าวให้เป็นเอาต์พุตพิกเซลจริง

  • การประมวลผลภายหลัง

    • การลับคมเพิ่มเติม (ไม่จำเป็น)

    • ตัวเลือกการลดสัญญาณรบกวน

    • ตัวเลือกเสริมในการลดสิ่งรบกวน (แสงสะท้อน แสงรัศมี ความเป็นเหลี่ยม)

รายละเอียดเล็กๆ น้อยๆ อย่างหนึ่งคือ เครื่องมือหลายอย่างจะขยายภาพเป็นแบบไทล์ แล้วค่อยผสานรอยต่อ เครื่องมือที่ดีจะซ่อนขอบเขตของไทล์ได้ เครื่องมือที่ธรรมดาจะทิ้งรอยตารางจางๆ ไว้หากคุณเพ่งมอง และใช่ คุณจะต้องเพ่งมอง เพราะมนุษย์ชอบตรวจสอบความไม่สมบูรณ์เล็กๆ น้อยๆ ที่การซูม 300% เหมือนตัวเกรมลินตัวน้อยๆ 🧌


ตระกูลโมเดลหลักที่ใช้สำหรับการเพิ่มความละเอียดภาพด้วย AI (และเหตุผลที่แต่ละแบบให้ความรู้สึกแตกต่างกัน) 🤖📚

1) การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN (เครื่องมือพื้นฐานที่ใช้กันมานาน)

โครงข่ายประสาทเทียมแบบคอนโวลูชันนั้นยอดเยี่ยมสำหรับการวิเคราะห์รูปแบบเฉพาะที่ เช่น ขอบ พื้นผิว และโครงสร้างขนาดเล็ก (การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเชิงลึก (SRCNN))

  • ข้อดี: เร็วพอสมควร เสถียร ปัญหาเกิดขึ้นน้อยกว่า

  • ข้อเสีย: อาจดูเหมือนผ่านการปรับแต่งมากเกินไปหากปรับอย่างหนัก

2) การเพิ่มความละเอียดภาพด้วย GAN (แบบ ESRGAN) 🎭

GANs (Generative Adversarial Networks) ฝึกตัวสร้างภาพให้สร้างภาพความละเอียดสูงที่ตัวแยกแยะภาพไม่สามารถแยกแยะออกจากภาพจริงได้ (Generative Adversarial Networks)

  • ข้อดี: รายละเอียดคมชัด พื้นผิวดูน่าประทับใจ

  • ข้อเสีย: อาจสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมา - บางครั้งผิดพลาด บางครั้งเหมือนจริงอย่างน่าประหลาดใจ (SRGAN, ESRGAN)

GAN สามารถให้ภาพที่คมชัดจนน่าทึ่งได้ นอกจากนี้ยังสามารถทำให้ตัวแบบของคุณมีคิ้วเพิ่มขึ้นอีกด้วย ดังนั้น... เลือกสิ่งที่คุณสนใจให้ดี 😬

3) การขยายภาพโดยใช้การแพร่กระจาย (ตัวเลือกสร้างสรรค์ที่เหนือชั้น) 🌫️➡️🖼️

แบบจำลองการแพร่กระจายจะลดสัญญาณรบกวนทีละขั้นตอนและสามารถควบคุมเพื่อสร้างรายละเอียดความละเอียดสูงได้ (SR3)

  • ข้อดี: สามารถเก็บรายละเอียดได้อย่างสมจริงอย่างเหลือเชื่อ โดยเฉพาะสำหรับงานสร้างสรรค์

  • ข้อเสีย: อาจเบี่ยงเบนไปจากเอกลักษณ์/โครงสร้างดั้งเดิมหากตั้งค่าอย่างเข้มงวด (SR3)

นี่คือจุดที่ “การยกระดับ” เริ่มผสมผสานเข้ากับ “การสร้างสรรค์ใหม่” บางครั้งนั่นคือสิ่งที่คุณต้องการอย่างแท้จริง แต่บางครั้งก็ไม่ใช่.

4) การเพิ่มความละเอียดวิดีโอด้วยความสม่ำเสมอทางเวลา 🎞️

การเพิ่มความละเอียดของวิดีโอ มักจะเพิ่มตรรกะที่รับรู้การเคลื่อนไหวเข้าไปด้วย:

  • ใช้เฟรมข้างเคียงเพื่อรักษาเสถียรภาพของรายละเอียด (BasicVSR (CVPR 2021))

  • พยายามหลีกเลี่ยงการกระพริบและภาพกระตุก

  • โดยทั่วไปจะผสานการเพิ่มความละเอียดสูงเข้ากับการลดสัญญาณรบกวนและการลดการแทรกสลับเฟรม (Topaz Video)

ถ้าการเพิ่มความละเอียดของภาพนิ่งเปรียบเสมือนการบูรณะภาพวาดหนึ่งภาพ การเพิ่มความละเอียดของวิดีโอเปรียบเสมือนการบูรณะสมุดภาพพลิกหน้าโดยไม่ทำให้จมูกของตัวละครเปลี่ยนรูปทรงไปในแต่ละหน้า ซึ่ง…ยากกว่าที่คิด.


เหตุใดการเพิ่มความละเอียดภาพด้วย AI บางครั้งจึงดูไม่สมจริง (และวิธีสังเกต) 👀🚩

การเพิ่มความละเอียดภาพด้วย AI มักล้มเหลวในรูปแบบที่เห็นได้ชัด เมื่อคุณเรียนรู้รูปแบบเหล่านั้นแล้ว คุณจะเห็นมันได้ทุกที่ เหมือนกับการซื้อรถใหม่แล้วจู่ๆ ก็เห็นรถรุ่นนั้นวิ่งอยู่ทุกถนน 😵💫

สามัญชนกล่าวว่า:

  • การแว็กซ์ผิว หน้า (ลดสัญญาณรบกวนและปรับผิวให้เรียบมากเกินไป)

  • ขอบภาพคมชัดเกินไป (ลักษณะ "โอเวอร์ชูต" แบบคลาสสิก) (การประมาณค่าแบบบิคิวบิก)

  • พื้นผิวที่ซ้ำกัน (ผนังอิฐกลายเป็นลวดลายที่คัดลอกและวางซ้ำๆ)

  • ความแตกต่างเล็กน้อยที่กรุบกรอบและชัดเจน ซึ่งบ่งบอกอย่างชัดเจนว่าเป็น "ผลลัพธ์จากอัลกอริทึม"

  • การบิดเบือนข้อความ ที่ตัวอักษรกลายเป็นเกือบตัวอักษร (แบบที่แย่ที่สุด)

  • การเคลื่อนตัวของรายละเอียด ที่ลักษณะเล็กๆ เปลี่ยนแปลงไปอย่างละเอียดอ่อน โดยเฉพาะในเวิร์กโฟลว์การแพร่กระจาย (SR3)

ส่วนที่ยากคือ บางครั้งภาพเหล่านี้ดู "ดีกว่า" ในแวบแรก สมองของคุณชอบความคมชัด แต่หลังจากนั้นสักครู่ มันก็จะรู้สึก...ไม่ค่อยดี.

กลยุทธ์ที่ดีอย่างหนึ่งคือการซูมออกแล้วตรวจสอบดูว่าภาพดูเป็นธรรมชาติในระยะการมองปกติหรือไม่ ถ้ามันดูดีเฉพาะตอนซูม 400% เท่านั้น นั่นไม่ใช่ความสำเร็จหรอก มันเป็นแค่กิจกรรมยามว่างต่างหาก 😅


วิธีการทำงานของ AI Upscaling: ด้านการฝึกฝน โดยไม่ต้องปวดหัวกับคณิตศาสตร์ 📉🙂

การฝึกอบรมโมเดลความละเอียดสูงพิเศษมักเกี่ยวข้องกับขั้นตอนดังต่อไปนี้:

ประเภทความเสียหายทั่วไป:

  • การสูญเสียพิกเซล (L1/L2)
    ส่งเสริมความแม่นยำ อาจทำให้ผลลัพธ์ดูนุ่มนวลเล็กน้อย

  • การสูญเสียการรับรู้
    เปรียบเทียบคุณลักษณะที่ลึกกว่า (เช่น "สิ่งนี้ ดู คล้ายกันหรือไม่") มากกว่าพิกเซลที่แน่นอน (การสูญเสียการรับรู้ (Johnson et al., 2016))

  • การสูญเสียแบบต่อต้าน (GAN)
    ส่งเสริมความสมจริง บางครั้งอาจแลกมาด้วยความถูกต้องตามตัวอักษร (SRGAN, เครือข่ายปฏิปักษ์เชิงสร้างสรรค์)

มีการดึงเชือกกันอยู่ตลอดเวลา:

  • ทำให้ ซื่อตรง ต่อต้นฉบับ
    vs

  • ทำให้มัน ดูสวยงามน่ามอง

เครื่องมือแต่ละชนิดจะอยู่ในตำแหน่งที่แตกต่างกันบนสเปกตรัมนั้น และคุณอาจเลือกใช้เครื่องมือชนิดใดชนิดหนึ่งขึ้นอยู่กับว่าคุณกำลังบูรณะภาพถ่ายครอบครัวหรือเตรียมโปสเตอร์ที่ "ความสวยงาม" มีความสำคัญมากกว่าความถูกต้องแม่นยำทางนิติวิทยาศาสตร์.


ขั้นตอนการทำงานที่เป็นรูปธรรม: ภาพถ่าย ไฟล์สแกนเก่า อนิเมะ และวิดีโอ 📸🧾🎥

ภาพถ่าย (ภาพบุคคล ภาพทิวทัศน์ ภาพสินค้า)

แนวทางปฏิบัติที่ดีที่สุดโดยทั่วไปคือ:

  • ลดเสียงรบกวนเบาๆ ก่อน (ถ้าจำเป็น)

  • หรูหราแต่ตกแต่งแบบอนุรักษ์นิยม

  • ถ้าเนื้อสัมผัสเนียนเกินไป ให้เติมเนื้อสัมผัสที่หยาบลงไป (ใช่แล้ว จริงๆ นะ)

ธัญพืชก็เหมือนเกลือ ถ้ามากเกินไปจะทำให้เสียรสชาติอาหาร แต่ถ้าไม่ใส่เลยก็จะทำให้รสชาติจืดชืด 🍟

ภาพสแกนเก่าและภาพที่ถูกบีอัดอย่างมาก

ส่วนนี้จะยากกว่า เพราะโมเดลอาจมองบล็อกการบีบอัดเป็น "พื้นผิว"
ลองทำดังนี้:

  • การกำจัดสิ่งแปลกปลอมหรือการขจัดสิ่งกีดขวาง

  • จากนั้นจึงยกระดับขึ้นไปอีกขั้น

  • จากนั้นปรับความคมชัดเล็กน้อย (อย่าปรับมากเกินไป... ผมรู้ว่าทุกคนพูดแบบนั้น แต่ก็ควรปรับอยู่ดี)

อนิเมะและภาพวาดเส้น

งานศิลปะลายเส้นได้รับประโยชน์จาก:

  • รุ่นที่รักษาขอบให้คมชัด

  • ลดปัญหาภาพซ้อนจากการ
    ขยายภาพอนิเมะ ภาพที่ได้มักจะสวยงามเพราะรูปทรงเรียบง่ายและสม่ำเสมอ (โชคดีจัง)

วิดีโอ

วิดีโอมีขั้นตอนเพิ่มเติม:

  • ลดสัญญาณรบกวน

  • ลดการแทรกสลับเฟรม (สำหรับบางแหล่งที่มา)

  • หรูหรา

  • การปรับให้เรียบหรือรักษาเสถียรภาพตามเวลา (BasicVSR (CVPR 2021))

  • การเติมเมล็ดธัญพืชกลับเข้าไปใหม่เพื่อเพิ่มความเหนียวแน่น (เป็นทางเลือกเสริม)

ถ้าคุณละเลยความสอดคล้องทางเวลา คุณจะเห็นรายละเอียดที่กระพริบระยิบระยับ เมื่อคุณสังเกตเห็นแล้ว คุณจะมองข้ามมันไปไม่ได้ เหมือนเสียงเก้าอี้เอี๊ยดอ๊าดในห้องที่เงียบสงบ 😖


เคล็ดลับการเลือกการตั้งค่าโดยไม่ต้องเดาไปเรื่อย (คู่มือฉบับย่อ) 🎛️😵💫

นี่คือแนวคิดเริ่มต้นที่ดี:

  • ถ้าใบหน้าดูเหมือนพลาสติก
    ให้ลดสัญญาณรบกวน ลดความคมชัด ลองใช้โมเดลหรือโหมดที่รักษารูปหน้าไว้

  • หากพื้นผิวดูเข้มเกินไป
    ให้ลดค่าแถบเลื่อน "การเพิ่มรายละเอียด" หรือ "การกู้คืนรายละเอียด" จากนั้นค่อยเพิ่มเกรนแบบละเอียดในภายหลัง

  • หากขอบภาพเรืองแสง
    ให้ลดความคมชัดลง และตรวจสอบตัวเลือกการลดแสงสะท้อน

  • ถ้าภาพดูเหมือนใช้ AI มากเกินไป
    ให้ลองใช้แบบเรียบง่ายกว่า บางครั้งวิธีที่ดีที่สุดก็คือ...ลดทอนรายละเอียดลง

นอกจากนี้: อย่าขยายภาพเป็น 8x เพียงเพราะคุณทำได้ การขยายภาพแบบ 2x หรือ 4x ที่คมชัดมักจะเป็นจุดที่เหมาะสมที่สุด การขยายภาพมากกว่านั้น คุณกำลังขอให้โมเดลเขียนแฟนฟิคเกี่ยวกับพิกเซลของคุณ 📖😂


จริยธรรม ความแท้จริง และคำถามที่น่าอึดอัดใจเกี่ยวกับ "ความจริง" 🧭😬

การเพิ่มความละเอียดภาพด้วย AI ทำให้เส้นแบ่งระหว่างสองสิ่งนี้ไม่ชัดเจน:

  • การบูรณะหมายถึงการทำให้สิ่งที่เคยมีอยู่กลับคืนมา

  • การปรับปรุงหมายถึงการเพิ่มเติมสิ่งที่ไม่มีอยู่เดิม

สำหรับภาพถ่ายส่วนตัวนั้น โดยทั่วไปแล้วไม่มีปัญหา (และดูดีด้วย) แต่สำหรับงานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืออะไรก็ตามที่ความถูกต้องแม่นยำมีความสำคัญ... คุณต้องระมัดระวัง (OSAC/NIST: คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์, แนวทาง SWGDE สำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์)

กฎง่ายๆ ข้อหนึ่ง:

  • หากมีความเสี่ยงสูง ควรพิจารณาการยกระดับ AI เป็น เพียงตัวอย่างไม่ใช่ข้อสรุปที่แน่นอน

นอกจากนี้ การเปิดเผยข้อมูลมีความสำคัญในบริบททางวิชาชีพ ไม่ใช่เพราะ AI เป็นสิ่งชั่วร้าย แต่เพราะผู้ชมสมควรที่จะรู้ว่ารายละเอียดต่างๆ นั้นถูกสร้างขึ้นใหม่หรือบันทึกไว้ นั่นเป็นเรื่องของการให้เกียรติ.


ข้อสรุปและบทสรุปสั้นๆ 🧡✅

ดังนั้น วิธีการทำงานของ AI Upscaling คือ โมเดลจะเรียนรู้ว่ารายละเอียดที่มีความละเอียดสูง มัก มีความสัมพันธ์กับรูปแบบที่มีความละเอียดต่ำอย่างไร จากนั้นจึงทำนายจำนวนพิกเซลเพิ่มเติมที่ดูสมจริงในระหว่างการขยายภาพ (Deep Learning for Image Super-resolution: A Survey) ขึ้นอยู่กับตระกูลของโมเดล (CNN, GAN, diffusion, video-temporal) การทำนายนั้นอาจจะค่อนข้างระมัดระวังและแม่นยำ... หรืออาจจะกล้าหาญและบางครั้งก็ดูไม่สมเหตุสมผลเลยก็ได้ 😅

สรุปโดยย่อ

ถ้าคุณต้องการ บอกผมหน่อยว่าคุณกำลังปรับภาพอะไร (ใบหน้า ภาพถ่ายเก่า วิดีโอ อนิเมะ การสแกนข้อความ) แล้วผมจะแนะนำกลยุทธ์การตั้งค่าที่ช่วยหลีกเลี่ยงข้อผิดพลาดทั่วไปของ "ภาพที่ดูเหมือน AI" ให้ครับ 🎯🙂

ตัวอย่างในโลกแห่งความเป็นจริง: การเพิ่มความละเอียดของภาพถ่ายสินค้าเก่าจากตลาดออนไลน์ 📸

สถานการณ์

ร้านขายกล้องมือสองขนาดเล็กแห่งหนึ่งมีรูปภาพสินค้า 40 ภาพที่ส่งออกจากเว็บไซต์เก่า โดยมีขนาดความกว้าง 800 พิกเซล เจ้าของร้านต้องการนำรูปภาพเหล่านั้นไปใช้ซ้ำในหน้าเว็บอีคอมเมิร์ซใหม่ ซึ่งขนาดภาพที่แนะนำคือความกว้าง 1,600 พิกเซล.

ปัญหาคือ การปรับขนาดภาพแบบปกติทำให้ภาพดูไม่คมชัด ในขณะที่การเพิ่มความละเอียดภาพด้วย AI อย่างรุนแรงอาจทำให้รายละเอียดเล็กๆ น้อยๆ เช่น ที่จับยาง หมายเลขประจำเครื่อง และเครื่องหมายบนเลนส์ ดูเหมือนของปลอม ซึ่งเป็นเรื่องสำคัญเพราะผู้ซื้อจะพิจารณารายละเอียดเหล่านี้ก่อนตัดสินใจซื้อ.

เป้าหมายไม่ใช่การ "กู้คืน" ข้อมูลที่หายไปอย่างสมบูรณ์แบบ แต่เป็นการสร้างภาพรายการสินค้าที่ดูสะอาดตาขึ้น ในขณะที่ยังคงเก็บไฟล์ต้นฉบับไว้ เนื่องจาก AI upscaling คาดการณ์รายละเอียดที่สมเหตุสมผลมากกว่าที่จะรับประกันความถูกต้อง.

สิ่งที่เวิร์กโฟลว์ต้องการ

รูปภาพสินค้าต้นฉบับ โดยควรเป็นเวอร์ชันที่มีการบีอัดน้อยที่สุดเท่าที่จะเป็นไปได้

ขนาดเอาต์พุตเป้าหมาย เช่น การขยายขนาด 2 เท่า จากความกว้าง 800 พิกเซล เป็น 1,600 พิกเซล

เครื่องมือหรือโมเดลที่มีการควบคุมแยกต่างหากสำหรับการลดสัญญาณรบกวน การเพิ่มความคมชัด และการกำจัดสิ่งแปลกปลอม

รายการตรวจสอบอย่างง่ายสำหรับการตรวจสอบรายละเอียดต่างๆ เช่น ข้อความ ขอบ โลโก้ สกรู กระดุม ลายหนัง และแสงสะท้อน

สร้างโฟลเดอร์แยกสำหรับไฟล์ต้นฉบับ และโฟลเดอร์แยกต่างหากสำหรับไฟล์ที่แก้ไขแล้ว เพื่อป้องกันไม่ให้ไฟล์ใดถูกเขียนทับ

ตัวอย่างคำแนะนำ

ใช้คำแนะนำลักษณะนี้เมื่อทดสอบระบบเพิ่มความละเอียดภาพด้วย AI:

ขยายภาพสินค้าชิ้นนี้ขึ้น 2 เท่า สำหรับลงขายสินค้าออนไลน์ คงรูปทรงของสินค้า ตำแหน่งโลโก้ เครื่องหมายบนเลนส์ ขอบปุ่ม และพื้นผิวให้ใกล้เคียงกับต้นฉบับมากที่สุด ใช้การบีบอัดภาพแบบอ่อนๆ ความคมชัดต่ำ และหลีกเลี่ยงการเพิ่มข้อความ รอยขีดข่วน ฉลาก หมายเลขซีเรียล หรือรายละเอียดตกแต่งเพิ่มเติม ภาพสุดท้ายควรดูเป็นธรรมชาติในขนาดปกติของหน้าเว็บสินค้า ไม่ควรคมชัดเกินจริงเมื่อซูม 400%.

วิธีการทดสอบ

เริ่มต้นด้วยภาพผสมห้าภาพก่อน จากนั้นจึงค่อยประมวลผลภาพทั้งหมด:

ภาพถ่ายสินค้าที่ชัดเจนหนึ่งภาพ ถ่ายด้วยแสงที่ดี

ภาพที่บีบอัดด้วย JPEG ภาพหนึ่งมีลักษณะเป็นเหลี่ยมๆ

รูปถ่ายหนึ่งรูปที่มีข้อความพิมพ์ขนาดเล็กหรือเครื่องหมายบนเลนส์

ภาพมืดภาพหนึ่งที่มีสัญญาณรบกวนในส่วนเงา

ภาพหนึ่งภาพที่มีโลหะหรือกระจกสะท้อนแสง

หลังจากปรับขนาดภาพแล้ว ให้เปรียบเทียบผลลัพธ์แต่ละครั้งกับภาพต้นฉบับที่ขนาด 100% และ 200% ตรวจสอบว่าชื่อแบรนด์ ปุ่มหมุน สกรู พอร์ต และลวดลายพื้นผิวยังตรงกันหรือไม่ หากแบบจำลองสร้าง "ตัวอักษรที่ไม่สมบูรณ์" หรือรอยพื้นผิวปลอม ให้ลดการตั้งค่าความคมชัดหรือการกู้คืนรายละเอียดลง.

ผลลัพธ์

ผลลัพธ์ตัวอย่าง: อ้างอิงจากการจับเวลาการทดสอบภาพห้าภาพก่อนและหลังการใช้เวิร์กโฟลว์นี้.

การปรับแต่งและปรับขนาดภาพด้วยตนเองใช้เวลาประมาณ 9 นาทีต่อภาพ หรือ 45 นาทีสำหรับห้าภาพ.

กระบวนการทำงานที่ใช้ AI ช่วยเหลือนั้นใช้เวลาประมาณ 3 นาทีต่อภาพ หรือ 15 นาทีสำหรับห้าภาพ.

นั่นหมายถึงการประหยัดเวลาได้ประมาณ 30 นาทีสำหรับภาพ 5 ภาพ หรือประมาณ 4 ชั่วโมงสำหรับภาพ 40 ภาพ.

ผลการตรวจสอบคุณภาพ: ภาพ 4 จาก 5 ภาพผ่านการตรวจสอบรอบแรก ภาพหนึ่งไม่ผ่านเนื่องจากโปรแกรมเพิ่มความละเอียดภาพทำให้ตัวอักษรเล็กๆ บนเลนส์บิดเบี้ยว จึงทำการประมวลผลใหม่โดยลดความคมชัดและไม่ปรับปรุงตัวอักษร.

ตัวชี้วัดที่สำคัญในที่นี้ไม่ได้อยู่ที่แค่ "ภาพคมชัดกว่า" เท่านั้น แต่เป็นจำนวนภาพที่ผ่านการตรวจสอบแบบเปรียบเทียบกันโดยไม่มีรายละเอียดที่ปรุงแต่งขึ้นมา

อะไรบ้างที่อาจผิดพลาดได้

โมเดลนี้อาจเปลี่ยนฝุ่นละออง บล็อก JPEG หรือรอยขีดข่วนให้กลายเป็นพื้นผิวที่ "สมจริง" ได้.

ตัวอักษรขนาดเล็กมากอาจกลายเป็นข้อความปลอมที่ดูสมจริงจนกว่าคุณจะซูมเข้าไปใกล้ๆ.

การลดเสียงรบกวนมากเกินไปอาจทำให้ยาง หนัง หรือโลหะขัดเงาดูเหมือนเคลือบเงาได้.

การลับคมที่รุนแรงอาจทำให้เกิดรอยคล้ำรอบขอบผลิตภัณฑ์ได้.

การประมวลผลแบบกลุ่มอาจซ่อนข้อผิดพลาดได้ ดังนั้นควรตรวจสอบตัวอย่างก่อนส่งออกทั้งหมด.

สำหรับธุรกิจอีคอมเมิร์ซ กฎที่ปลอดภัยที่สุดนั้นง่ายมาก: ห้ามใช้เทคโนโลยี AI ในการเพิ่มความละเอียดภาพเพื่อปกปิดความเสียหาย เปลี่ยนสภาพสินค้า หรือทำให้สินค้าดูใหม่กว่าที่เป็นจริงเด็ดขาด.

ข้อคิดที่นำไปใช้ได้จริง

การเพิ่มความละเอียดภาพด้วย AI จะได้ผลดีที่สุดเมื่อคุณใช้เป็นขั้นตอนการตกแต่งขั้นสุดท้ายที่ควบคุมได้ ไม่ใช่ปุ่มแก้ไขภาพแบบมหัศจรรย์ ควรใช้การตั้งค่า 2 เท่าแบบระมัดระวัง ตรวจสอบรายละเอียดที่ผู้ซื้อให้ความสำคัญ และเก็บภาพต้นฉบับไว้เพื่อให้ภาพที่แก้ไขแล้วดูน่าเชื่อถือ.

ตัวอย่างในโลกแห่งความเป็นจริง: การเพิ่มความละเอียดของวิดีโอฝึกอบรมเก่าโดยไม่ทำให้ภาพกระพริบ

สถานการณ์

บริษัทฝึกอบรมขนาดเล็กแห่งหนึ่งมีวิดีโอสาธิตความปลอดภัยความยาว 7 นาทีที่บันทึกไว้ในปี 2014 ด้วยความละเอียด 720p เนื้อหายังคงมีคุณค่า แต่ภาพดูไม่คมชัดบนเว็บไซต์ใหม่ของบริษัท โดยเฉพาะบนหน้าจอแล็ปท็อปขนาดใหญ่.

ทีมงานต้องการส่งออกวิดีโอความละเอียด 1080p ที่คมชัดกว่าโดยไม่ต้องถ่ายซ้ำ ความเสี่ยงคือการใช้ AI ปรับขนาดภาพอย่างรุนแรงอาจทำให้ใบหน้าดูไม่เป็นธรรมชาติ ตัวอักษรบนป้ายกลายเป็น "แทบจะเป็นคำ" หรือทำให้ภาพกระพริบไม่สม่ำเสมอในแต่ละเฟรม.

เป้าหมายไม่ใช่การทำให้วิดีโอดูใหม่เอี่ยม แต่เป็นการทำให้ภาพคมชัดขึ้น นิ่งขึ้น และบีบอัดน้อยลง ในขณะที่ยังคงรักษาใบหน้าของผู้สอน ป้ายเตือน การเคลื่อนไหวของมือ และรายละเอียดของอุปกรณ์ให้เหมือนกับต้นฉบับ.

สิ่งที่เวิร์กโฟลว์ต้องการ

ไฟล์วิดีโอต้นฉบับ ไม่ใช่ไฟล์ที่ถูกบีบอัดจากการดาวน์โหลดผ่านโซเชียลมีเดีย ถ้าเป็นไปได้

กำหนดขนาดไฟล์ส่งออกเป้าหมาย เช่น 720p เป็น 1080p แทนที่จะข้ามไปเป็น 4K โดยตรง

โปรแกรมเพิ่มความละเอียดวิดีโอ พร้อมตัวเลือกลดสัญญาณรบกวน เพิ่มความคมชัด ซ่อมแซมการบีบอัด และปรับความสอดคล้องของเวลา

คลิปทดสอบสั้นๆ ที่แสดงใบหน้า การเคลื่อนไหว ข้อความ และพื้นผิวที่มีรายละเอียด

รายการตรวจสอบสำหรับการวิจารณ์เรื่องการกระพริบ แสงสะท้อน ตัวอักษรบิดเบี้ยว พื้นผิวใบหน้า และขอบที่เคลื่อนไหว

บันทึกสำเนาวิดีโอต้นฉบับไว้เพื่อใช้เปรียบเทียบและเปิดเผยข้อมูลหากจำเป็น

ตัวอย่างคำแนะนำ

โปรดปฏิบัติตามคำแนะนำเหล่านี้ก่อนประมวลผลวิดีโอฉบับเต็ม:

ปรับความละเอียดวิดีโอฝึกอบรม 720p นี้ให้เป็น 1080p โดยให้ความสำคัญกับการเคลื่อนไหวที่เป็นธรรมชาติ ขอบภาพที่คมชัด ข้อความที่มีอยู่สามารถอ่านได้ และพื้นผิวของผิวหนังที่สมจริง ใช้การแก้ไขการบีบอัดแบบอ่อนๆ และการเพิ่มความคมชัดในระดับต่ำ อย่าสร้างข้อความ โลโก้ ฉลาก รอยขีดข่วน รายละเอียดบนใบหน้า หรือเครื่องหมายอุปกรณ์ที่หายไป หลีกเลี่ยงการกระพริบของภาพระหว่างเฟรม ผลลัพธ์สุดท้ายควรดูชัดเจนขึ้นในขนาดการดูปกติ ไม่ใช่คมชัดเกินไปเมื่อหยุดภาพและซูมเข้า.

วิธีการทดสอบ

ก่อนประมวลผลไฟล์ฉบับเต็มความยาว 7 นาที ให้ส่งออกตัวอย่าง 20 วินาที ซึ่งประกอบด้วย:

สีหน้าของผู้สอนขณะพูด

มือข้างหนึ่งกำลังเคลื่อนผ่านเฟรมภาพ

ป้ายเตือนหรือข้อความพิมพ์ขนาดเล็ก

พื้นผิวที่มีลวดลาย เช่น ผ้า คอนกรีต โลหะขัดเงา หรือพลาสติก

การแพนกล้องหรือการเคลื่อนไหวที่สั่นไหวใดๆ

ดูตัวอย่างสองครั้ง: ครั้งแรกที่ความเร็วปกติ และครั้งที่สองที่หยุดภาพทีละเฟรม ที่ความเร็วปกติ ให้สังเกตการกระพริบ การเคลื่อนไหวของพื้นผิว หรือการเคลื่อนไหวที่ไม่เป็นธรรมชาติบริเวณขอบ เมื่อหยุดภาพ ให้เปรียบเทียบเวอร์ชันต้นฉบับและเวอร์ชันที่ขยายขนาดแล้ว เพื่อตรวจสอบว่าข้อความ ปุ่ม เครื่องมือ และรายละเอียดใบหน้ายังตรงกันหรือไม่.

ผลลัพธ์

ผลลัพธ์ตัวอย่าง: อ้างอิงจากการจับเวลาคลิปทดสอบ 20 วินาที แล้วนำการตั้งค่าเดียวกันไปใช้กับวิดีโอความยาว 7 นาที.

การปรับแต่งขนาดและเพิ่มความคมชัดด้วยตนเองใช้เวลาประมาณ 35 นาที รวมทั้งการส่งออกและการตรวจสอบ แต่ผลลัพธ์ที่ได้แสดงให้เห็นประกายระยิบระยับบนเส้นผมของผู้สอนและแสงเป็นวงรอบป้ายความปลอดภัยอย่างชัดเจน.

กระบวนการทำงานที่ใช้ AI ช่วยเหลือนั้นใช้เวลาประมาณ 55 นาที รวมทั้งการส่งออกไฟล์ทดสอบ แต่ช่วยลดปัญหาในการตรวจสอบจาก 8 ปัญหาที่เห็นได้ชัดในการส่งออกครั้งแรก เหลือเพียง 2 ปัญหาเล็กน้อยในการส่งออกครั้งสุดท้าย.

เวอร์ชันสุดท้ายผ่านการตรวจสอบ 10 จาก 12 ข้อในรายการตรวจสอบ ปัญหาที่เหลืออีกสองข้อคือ ตัวอักษรพื้นหลังดูไม่คมชัดเล็กน้อย และมีจุดรบกวนเล็กน้อยในมุมมืดมุมหนึ่ง ซึ่งทั้งสองข้อได้รับการยอมรับแล้ว เนื่องจากภาพของครูผู้สอน อุปกรณ์ และขั้นตอนด้านความปลอดภัยยังคงสอดคล้องกัน.

ตัวชี้วัดที่สำคัญในที่นี้ไม่ใช่ "ความละเอียด 1080p ที่ได้" แต่เป็น: วิดีโอแสดงสิ่งผิดปกติที่รบกวนสายตาในระหว่างการเล่นตามปกติเป็นเวลากี่วินาที?

อะไรบ้างที่อาจผิดพลาดได้

โมเดลอาจเพิ่มความคมชัดของบล็อกการบีบอัดและทำให้ดูเหมือนพื้นผิวจริง.

ตัวอักษรขนาดเล็กอาจดูน่าเชื่อถือมากขึ้น แต่ความถูกต้องอาจลดลง.

หากตั้งค่าการลดสัญญาณรบกวนสูงเกินไป ใบหน้าอาจดูเรียบเนียนเกินไป.

ขอบที่เคลื่อนไหวอาจกระพริบได้หากเครื่องมือประมวลผลแต่ละเฟรมแยกจากกันมากเกินไป.

การส่งออกไฟล์ 4K อาจดูแย่กว่าการส่งออกไฟล์ 1080p ที่ลดทอนรายละเอียดลง เนื่องจากโมเดลต้องสร้างรายละเอียดขึ้นมามากเกินไป.

ข้อผิดพลาดที่ใหญ่ที่สุดคือการตัดสินจากภาพนิ่งเพียงอย่างเดียว การเพิ่มความละเอียดของวิดีโอต้องดูเป็นธรรมชาติขณะเคลื่อนไหว ไม่ใช่แค่ดูน่าประทับใจเหมือนภาพนิ่งเท่านั้น.

ข้อคิดที่นำไปใช้ได้จริง

สำหรับวิดีโอ การเพิ่มความละเอียดด้วย AI จะได้ผลดีที่สุดเมื่อคุณทดสอบกับส่วนสั้นๆ ก่อน ลดขนาดความละเอียดลง และพิจารณาการเคลื่อนไหวก่อนความคมชัด ผลลัพธ์ที่นุ่มนวลเล็กน้อยแต่คงที่มักจะดีกว่าเวอร์ชันที่คมชัดแต่กระพริบทุกครั้งที่มีคนเคลื่อนไหว.


คำถามที่พบบ่อย

การยกระดับ AI และวิธีการทำงาน

การเพิ่มความละเอียดภาพด้วย AI (มักเรียกว่า “ซูเปอร์รีลีสซิ่ง”) จะเพิ่มความละเอียดของภาพโดยการคาดการณ์รายละเอียดความละเอียดสูงที่ขาดหายไปจากรูปแบบที่เรียนรู้ระหว่างการฝึกฝน แทนที่จะยืดพิกเซลแบบง่ายๆ เหมือนกับการประมาณค่าแบบไบคิวบิก โมเดลจะศึกษาขอบ พื้นผิว ใบหน้า และเส้นขีดคล้ายตัวอักษร จากนั้นสร้างข้อมูลพิกเซลใหม่ที่สอดคล้องกับรูปแบบที่เรียนรู้เหล่านั้น มันไม่ใช่การ “ฟื้นฟูความเป็นจริง” แต่เป็นการ “คาดเดาที่น่าเชื่อถือ” ซึ่งดูเป็นธรรมชาติ.

การขยายภาพด้วย AI เทียบกับการปรับขนาดแบบไบคิวบิกหรือแบบดั้งเดิม

วิธีการเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) ส่วนใหญ่จะทำการประมาณค่าระหว่างพิกเซลที่มีอยู่แล้ว ทำให้การเปลี่ยนผ่านราบรื่นโดยไม่สร้างรายละเอียดใหม่ที่แท้จริง การเพิ่มความละเอียดภาพด้วย AI มีเป้าหมายเพื่อสร้างโครงสร้างที่สมจริงโดยการจดจำสัญญาณภาพและคาดการณ์ว่าภาพความละเอียดสูงของสัญญาณเหล่านั้นจะมีลักษณะอย่างไร นั่นเป็นเหตุผลว่าทำไมผลลัพธ์จาก AI จึงดูคมชัดกว่าอย่างเห็นได้ชัด และในขณะเดียวกันก็อาจทำให้เกิดสิ่งผิดปกติหรือ "สร้าง" รายละเอียดที่ไม่มีอยู่ในภาพต้นฉบับขึ้นมาได้.

เหตุใดใบหน้าจึงดูมันวาวหรือเรียบเนียนเกินไป

ใบหน้าที่ดูแข็งกระด้างมักเกิดจากการลดสัญญาณรบกวนและปรับผิวให้เรียบเนียนอย่างรุนแรง ควบคู่กับการเพิ่มความคมชัดที่ทำให้พื้นผิวที่เป็นธรรมชาติของผิวหายไป เครื่องมือหลายอย่างจัดการกับสัญญาณรบกวนและรายละเอียดเล็กๆ น้อยๆ ในลักษณะเดียวกัน ดังนั้นการ "ทำความสะอาด" ภาพจึงอาจลบรูขุมขนและรายละเอียดเล็กๆ น้อยๆ ออกไปได้ วิธีทั่วไปคือการลดสัญญาณรบกวนและความคมชัด ใช้โหมดรักษารูปหน้าหากมี จากนั้นเพิ่มเกรนเล็กน้อยเพื่อให้ภาพที่ได้ดูเป็นธรรมชาติและไม่เหมือนพลาสติกมากขึ้น.

ข้อผิดพลาดทั่วไปที่ควรระวังในการเพิ่มความละเอียดภาพด้วย AI

สัญญาณบ่งบอกปัญหาโดยทั่วไป ได้แก่ รอยแสงรอบขอบ ลวดลายพื้นผิวที่ซ้ำกัน (เหมือนอิฐที่คัดลอกวางซ้ำๆ) ความคมชัดระดับไมโครที่ดูไม่เป็นธรรมชาติ และตัวอักษรที่กลายเป็น "ตัวอักษรที่ไม่สมบูรณ์" ในขั้นตอนการทำงานที่ใช้การกระจายแสง คุณยังสามารถเห็นรายละเอียดที่เปลี่ยนแปลงไปเล็กน้อยได้อีกด้วย สำหรับวิดีโอ การกระพริบและรายละเอียดที่ค่อยๆ เลื่อนไปมาในแต่ละเฟรมเป็นสัญญาณเตือนที่สำคัญ หากภาพดูดีเฉพาะเมื่อซูมเข้ามากๆ แสดงว่าการตั้งค่าอาจจะรุนแรงเกินไป.

ความแตกต่างของผลลัพธ์ระหว่าง GAN, CNN และตัวขยายภาพแบบกระจาย (diffusion upscaler)

การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN มักมีความเสถียรและคาดเดาได้ง่ายกว่า แต่ภาพอาจดู "ไม่เป็นธรรมชาติ" หากปรับค่าสูงเกินไป ตัวเลือกแบบ GAN (เช่น ESRGAN) มักให้รายละเอียดที่คมชัดและมีมิติมากกว่า แต่ก็อาจทำให้รายละเอียดผิดเพี้ยนไปได้ โดยเฉพาะบนใบหน้า การเพิ่มความละเอียดภาพด้วยวิธีการแพร่กระจาย (Diffusion-based upscaling) สามารถสร้างรายละเอียดที่สวยงามและสมจริงได้ แต่ภาพอาจเบี่ยงเบนจากโครงสร้างเดิมหากตั้งค่าการควบคุมหรือความแรงสูงเกินไป.

กลยุทธ์การตั้งค่าที่ใช้งานได้จริงเพื่อหลีกเลี่ยงรูปลักษณ์ที่ "ดูเหมือนใช้ AI มากเกินไป"

เริ่มต้นอย่างระมัดระวัง: ขยายภาพ 2 เท่าหรือ 4 เท่าก่อนที่จะใช้ปัจจัยที่รุนแรง หากใบหน้าดูเหมือนพลาสติก ให้ลดการลดสัญญาณรบกวนและความคมชัด และลองใช้โหมดจดจำใบหน้า หากพื้นผิวมีรายละเอียดมากเกินไป ให้ลดการเพิ่มรายละเอียดและพิจารณาเพิ่มเกรนเล็กน้อยในภายหลัง หากขอบเรืองแสง ให้ลดความคมชัดและตรวจสอบการลดแสงสะท้อนหรือสิ่งแปลกปลอม ในหลายๆ ขั้นตอนการทำงาน “น้อย” ย่อมดีกว่า เพราะช่วยรักษาความสมจริงเอาไว้ได้.

การจัดการกับไฟล์สแกนเก่าหรือภาพ JPEG ที่ถูกบีบอัดอย่างมากก่อนทำการขยายขนาด

ภาพที่ถูกบีอัดนั้นจัดการได้ยาก เพราะโมเดลอาจมองว่าสิ่งผิดปกติที่เป็นบล็อกๆ เหล่านั้นเป็นพื้นผิวจริงและขยายให้ใหญ่ขึ้น ขั้นตอนการทำงานทั่วไปคือ การลบสิ่งผิดปกติหรือการลดบล็อกก่อน จากนั้นจึงขยายภาพ และปรับความคมชัดเล็กน้อยเฉพาะเมื่อจำเป็น สำหรับภาพสแกน การทำความสะอาดอย่างอ่อนโยนจะช่วยให้โมเดลเน้นที่โครงสร้างจริงมากกว่าความเสียหาย เป้าหมายคือการลด "ร่องรอยพื้นผิวปลอม" เพื่อไม่ให้โปรแกรมขยายภาพต้องคาดเดาอย่างมั่นใจจากภาพที่มีสัญญาณรบกวน.

เหตุใดการเพิ่มความละเอียดของวิดีโอจึงยากกว่าการเพิ่มความละเอียดของภาพถ่าย

การเพิ่มความละเอียดของวิดีโอต้องมีความสม่ำเสมอในทุกเฟรม ไม่ใช่แค่ดีเฉพาะภาพนิ่งภาพเดียว หากรายละเอียดกระพริบในแต่ละเฟรม ผลลัพธ์ที่ได้จะทำให้เสียสมาธิอย่างรวดเร็ว วิธีการที่เน้นวิดีโอจะใช้ข้อมูลเชิงเวลาจากเฟรมข้างเคียงเพื่อทำให้การสร้างภาพใหม่มีความเสถียรและหลีกเลี่ยงสิ่งผิดปกติที่เกิดจากการกระพริบ ขั้นตอนการทำงานหลายอย่างยังรวมถึงการลดสัญญาณรบกวน การลดการแทรกสลับเฟรมสำหรับแหล่งที่มาบางประเภท และการเพิ่มเกรนกลับเข้าไปใหม่ (ถ้าต้องการ) เพื่อให้ลำดับภาพทั้งหมดดูต่อเนื่องกัน แทนที่จะดูคมชัดอย่างไม่เป็นธรรมชาติ.

เมื่อการเพิ่มประสิทธิภาพด้วย AI ไม่เหมาะสมหรือมีความเสี่ยงที่จะนำมาใช้

การเพิ่มความละเอียดภาพด้วย AI ควรถูกมองว่าเป็นการปรับปรุงคุณภาพ ไม่ใช่การพิสูจน์ ในบริบทที่มีความสำคัญสูง เช่น งานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืองานนิติวิทยาศาสตร์ การสร้างพิกเซลที่ "ดูสมจริง" อาจทำให้เกิดความเข้าใจผิดได้ เพราะอาจเพิ่มรายละเอียดที่ไม่ได้ถูกบันทึกไว้ วิธีที่ปลอดภัยกว่าคือการใช้เพื่อเป็นตัวอย่างและเปิดเผยว่ากระบวนการ AI ได้สร้างรายละเอียดขึ้นใหม่ หากความถูกต้องแม่นยำเป็นสิ่งสำคัญ ควรเก็บรักษาภาพต้นฉบับและบันทึกทุกขั้นตอนการประมวลผลและการตั้งค่า.

เอกสารอ้างอิง

  1. arXiv - การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: บทสำรวจ - arxiv.org

  2. arXiv - การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA Developer - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. มูลนิธิวิทยาการคอมพิวเตอร์ด้านการมองเห็น (CVF) เปิดให้เข้าถึงได้ฟรี - BasicVSR: การค้นหาส่วนประกอบสำคัญในการเพิ่มความละเอียดของวิดีโอ (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - การสูญเสียการรับรู้ (Johnson et al., 2016) - arxiv.org

  12. GitHub - ที่เก็บโค้ด Real-ESRGAN (ตัวเลือกไทล์) - github.com

  13. วิกิพีเดีย - การแทรกสอดแบบบิคิวบิก - wikipedia.org

  14. Topaz Labs - Topaz Photo - topazlabs.com

  15. Topaz Labs - Topaz Video - topazlabs.com

  16. ศูนย์ช่วยเหลือของ Adobe - Adobe Enhance > Super Resolution - helpx.adobe.com

  17. NIST / OSAC - คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์ (เวอร์ชัน 1.0) - nist.gov

  18. SWGDE - แนวทางปฏิบัติสำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์ - swgde.org

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก

คำถามที่พบบ่อยเพิ่มเติม

  • การเพิ่มความละเอียดภาพด้วย AI แตกต่างจากการปรับขนาดภาพแบบดั้งเดิมอย่างไร?

    การเพิ่มความละเอียดภาพด้วย AI จะคาดการณ์รายละเอียดความละเอียดสูงที่ขาดหายไปจากรูปแบบที่มีอยู่แล้วในภาพ แทนที่จะยืดพิกเซลเหมือนวิธีการแบบดั้งเดิม เช่น การประมาณค่าแบบไบคิวบิก ส่งผลให้ภาพคมชัดและมีรายละเอียดมากขึ้น.

  • ข้อผิดพลาดทั่วไปที่ควรระวังเมื่อใช้การเพิ่มความละเอียดภาพด้วย AI มีอะไรบ้าง?

    สิ่งผิดปกติที่พบได้ทั่วไป ได้แก่ รอยแสงรอบขอบ ลวดลายพื้นผิวซ้ำๆ พื้นผิวเรียบหรือมันวาวเกินไป และตัวอักษรที่กลายเป็น 'ตัวอักษรที่ไม่สมบูรณ์' จึงเป็นสิ่งสำคัญที่จะต้องตรวจสอบปัญหาเหล่านี้เพื่อให้ได้ผลลัพธ์ที่ดูเป็นธรรมชาติ.

  • เหตุใดใบหน้าบางครั้งจึงดูเรียบเนียนเกินไปหรือดูไม่สมจริงหลังจากขยายขนาดภาพ?

    ใบหน้าอาจดูเรียบเนียนเกินไปเนื่องจากการลดสัญญาณรบกวนและการเพิ่มความคมชัดที่มากเกินไป ซึ่งอาจทำให้รายละเอียดต่างๆ เช่น รูขุมขน หายไป เพื่อให้ได้ลุคที่เป็นธรรมชาติมากขึ้น ควรลดการตั้งค่าการลดสัญญาณรบกวนและการเพิ่มความคมชัดลง.

  • ฉันควรทำอย่างไรหากภาพที่ได้ดูหยาบหรือมีสัญญาณรบกวนมากเกินไปหลังจากใช้ AI ในการเพิ่มความละเอียดของภาพ?

    หากภาพของคุณดูหยาบกระด้าง ลองปรับแถบเลื่อนลดสัญญาณรบกวนและเพิ่มรายละเอียดดู การเพิ่มเกรนเล็กน้อยอาจช่วยให้ภาพดูเป็นธรรมชาติมากขึ้นได้เช่นกัน.

  • โมเดล GAN และ CNN ให้ผลลัพธ์ในการเพิ่มความละเอียดภาพด้วย AI แตกต่างกันอย่างไร?

    โดยทั่วไปแล้วโมเดล CNN มีความเสถียรและคาดเดาได้ ในขณะที่โมเดล GAN มักให้รายละเอียดที่คมชัดกว่า แต่ก็มีความเสี่ยงที่จะทำให้เกิดองค์ประกอบที่ไม่สมจริง การเลือกใช้ระหว่างสองแบบนี้ขึ้นอยู่กับความต้องการของคุณว่าจะเน้นความสมจริงหรือความละเอียดของภาพ.

  • การเพิ่มความละเอียดภาพด้วย AI เหมาะสำหรับเนื้อหาวิดีโอหรือไม่ และมีข้อท้าทายอะไรบ้าง?

    ใช่ การเพิ่มความละเอียดภาพด้วย AI เหมาะสำหรับวิดีโอ แต่ก็อาจเป็นเรื่องท้าทาย เพราะความสม่ำเสมอในแต่ละเฟรมมีความสำคัญอย่างยิ่ง รายละเอียดที่กระพริบหรือสั่นไหวอาจรบกวนผู้ชม ดังนั้นจึงแนะนำให้ใช้วิธีการเฉพาะทางที่เน้นวิดีโอโดยเฉพาะ.

  • เมื่อใดจึงไม่เหมาะสมที่จะพึ่งพาการเพิ่มกำลังขยายด้วย AI?

    การยกระดับประสิทธิภาพของ AI ควรใช้ด้วยความระมัดระวังในสถานการณ์ที่มีความเสี่ยงสูง เช่น งานด้านวารสารศาสตร์หรือการวิเคราะห์ทางนิติวิทยาศาสตร์ ซึ่งความถูกต้องแม่นยำเป็นสิ่งสำคัญ ควรใช้ AI เป็นเครื่องมือเสริมประสิทธิภาพมากกว่าเป็นหลักฐานที่แน่ชัด และความโปร่งใสเกี่ยวกับกระบวนการทำงานของ AI เป็นสิ่งจำเป็น.

  • ฉันควรคำนึงถึงอะไรบ้างเมื่อทำการขยายภาพที่ถูกบีอัดอย่างมาก?

    สำหรับภาพที่ถูกบีอัดอย่างมาก ให้เริ่มต้นด้วยการลบสิ่งผิดปกติเพื่อลดความหยาบกร้านที่ไม่ต้องการ หลังจากนั้น คุณสามารถเพิ่มขนาดภาพและปรับความคมชัดเล็กน้อยหากจำเป็น เพื่อรักษารายละเอียดโดยไม่ทำให้สิ่งผิดปกติจากการบีอัดเพิ่มมากขึ้น.