การยกระดับ AI ทำงานอย่างไร

AI Upscaling ทำงานอย่างไร?

คำตอบสั้นๆ: การเพิ่มความละเอียดภาพด้วย AI ทำงานโดยการฝึกโมเดลด้วยภาพความละเอียดต่ำและสูงที่จับคู่กัน จากนั้นใช้โมเดลนั้นในการทำนายพิกเซลเพิ่มเติมที่ดูสมจริงระหว่างการเพิ่มความละเอียด หากโมเดลเคยเห็นพื้นผิวหรือใบหน้าที่คล้ายกันในระหว่างการฝึก มันก็จะสามารถเพิ่มรายละเอียดได้อย่างน่าเชื่อถือ แต่ถ้าไม่ มันอาจจะ "สร้างภาพลวงตา" เช่น แสงสะท้อน ผิวดูมันวาว หรือการกระพริบในวิดีโอ

ประเด็นสำคัญ:

คำทำนาย : แบบจำลองนี้สร้างรายละเอียดที่สมจริง ไม่ใช่การสร้างความเป็นจริงขึ้นมาใหม่ได้อย่างสมบูรณ์แบบ

การเลือกโมเดล : CNN มักมีความเสถียรกว่า ในขณะที่ GAN อาจดูคมชัดกว่า แต่มีความเสี่ยงที่จะสร้างคุณลักษณะปลอมขึ้นมา

การตรวจสอบสิ่งผิดปกติ : สังเกตแสงสะท้อน, พื้นผิวที่ซ้ำกัน, "ตัวอักษรที่ดูคล้ายตัวอักษร" และพื้นผิวที่ดูเหมือนพลาสติก

ความเสถียรของวิดีโอ : ใช้เทคนิคการวัดเวลา มิเช่นนั้นคุณจะเห็นภาพสั่นไหวและเลื่อนไปมาระหว่างเฟรมต่างๆ

การใช้งานที่มีความเสี่ยงสูง : หากความถูกต้องแม่นยำมีความสำคัญ โปรดเปิดเผยวิธีการประมวลผลและถือว่าผลลัพธ์เป็นเพียงตัวอย่างประกอบเท่านั้น

การเพิ่มประสิทธิภาพด้วย AI ทำงานอย่างไร? ดูได้จากอินโฟกราฟิก.

คุณคงเคยเห็นมาแล้ว: ภาพเล็กๆ ที่ดูไม่คมชัด กลับกลายเป็นภาพที่คมชัดพอที่จะพิมพ์ สตรีม หรือใส่ลงในงานนำเสนอได้โดยไม่รู้สึกผิดเพี้ยน มันให้ความรู้สึกเหมือนโกง และในแง่ดีที่สุด มันก็เป็นอย่างนั้นจริงๆ 😅

ดังนั้น วิธีการทำงานของ AI Upscaling จึงไม่ใช่แค่ "คอมพิวเตอร์เพิ่มรายละเอียด" (ซึ่งเป็นคำอธิบายแบบคร่าวๆ) แต่ใกล้เคียงกับ "แบบจำลองคาดการณ์โครงสร้างความละเอียดสูงที่สมเหตุสมผลโดยอิงจากรูปแบบที่เรียนรู้จากตัวอย่างจำนวนมาก" ( Deep Learning for Image Super-resolution: A Survey ) ขั้นตอนการคาดการณ์นี้คือหัวใจสำคัญ และเป็นเหตุผลว่าทำไม AI Upscaling ถึงดูสวยงาม... หรือดูเหมือนพลาสติก... หรือเหมือนแมวของคุณมีหนวดเพิ่มขึ้นมาอีกเส้นหนึ่ง

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 ปัญญาประดิษฐ์ทำงานอย่างไร
เรียนรู้พื้นฐานของแบบจำลอง ข้อมูล และการอนุมานในปัญญาประดิษฐ์.

🔗 ปัญญาประดิษฐ์เรียนรู้ได้อย่างไร
ดูว่าข้อมูลการฝึกฝนและผลตอบรับช่วยปรับปรุงประสิทธิภาพของโมเดลได้อย่างไรเมื่อเวลาผ่านไป.

🔗 ปัญญาประดิษฐ์ตรวจจับความผิดปกติได้อย่างไร
ทำความเข้าใจรูปแบบพื้นฐานและวิธีที่ AI ตรวจจับพฤติกรรมผิดปกติได้อย่างรวดเร็ว.

🔗 ปัญญาประดิษฐ์ (AI) ทำนายแนวโน้มได้อย่างไร
ศึกษาค้นคว้าวิธีการพยากรณ์ที่สามารถตรวจจับสัญญาณและคาดการณ์ความต้องการในอนาคตได้.


AI Upscaling ทำงานอย่างไร: แนวคิดหลัก อธิบายง่ายๆ 🧩

การเพิ่มความละเอียดภาพ (Upscaling) หมายถึงการเพิ่มความละเอียด: จำนวนพิกเซลมากขึ้น ภาพก็ใหญ่ขึ้น การเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) โดยพื้นฐานแล้วจะยืดพิกเซลและทำให้การเปลี่ยนผ่านราบเรียบขึ้น ( การประมาณค่าแบบไบคิวบิก ) ซึ่งก็ใช้ได้ดี แต่ไม่สามารถสร้าง ใหม่ ได้ มันเป็นเพียงการประมาณค่าเท่านั้น

การเพิ่มความละเอียดภาพด้วย AI พยายามทำสิ่งที่ท้าทายยิ่งขึ้น (หรือที่เรียกว่า "ความละเอียดสูงพิเศษ" ในแวดวงการวิจัย) ( การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดภาพ: บทสำรวจ ):

  • มันตรวจสอบอินพุตที่มีความละเอียดต่ำ

  • สามารถจดจำรูปแบบต่างๆ (ขอบ, พื้นผิว, ลักษณะใบหน้า, เส้นตัวอักษร, ลวดลายผ้า…)

  • ทำนายว่าเวอร์ชันความละเอียดสูง ควร มีลักษณะ

  • สร้างข้อมูลพิกเซลเพิ่มเติมที่ตรงกับรูปแบบเหล่านั้น

ไม่ใช่การ "ฟื้นฟูความเป็นจริงให้สมบูรณ์แบบ" แต่เป็นเหมือนการ "คาดเดาได้อย่างน่าเชื่อถือมาก" ( การเพิ่มความละเอียดของภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) ) ถ้าฟังดูน่าสงสัยเล็กน้อย คุณก็คิดไม่ผิดหรอก แต่ก็เป็นเหตุผลที่มันได้ผลดีมากเช่นกัน 😄

ใช่แล้ว นั่นหมายความว่าการเพิ่มความละเอียดภาพด้วย AI นั้นโดยพื้นฐานแล้วคือภาพลวงตาที่ถูกควบคุม...แต่เป็นภาพลวงตาที่มีประสิทธิภาพและเคารพในรายละเอียดของพิกเซล.


อะไรคือสิ่งที่ทำให้การเพิ่มความละเอียดภาพด้วย AI เป็นเวอร์ชันที่ดี? ✅🛠️

หากคุณกำลังประเมินคุณภาพของโปรแกรมอัปสเกลภาพด้วย AI (หรือการตั้งค่าล่วงหน้า) สิ่งต่อไปนี้มักมีความสำคัญที่สุด:

  • การกู้คืนรายละเอียดโดยไม่ทำให้ภาพสุกเกินไป
    การเพิ่มความละเอียดภาพที่ดีจะช่วยเพิ่มความคมชัดและโครงสร้าง ไม่ใช่เสียงรบกวนหรือรูขุมขนปลอมๆ

  • การควบคุมขอบภาพ
    เส้นที่คมชัดจะคงความคมชัดอยู่เสมอ แบบจำลองที่ไม่ดีจะทำให้ขอบภาพสั่นไหวหรือเกิดรอยหยัก

  • ความสมจริงของพื้นผิว
    เส้นผมไม่ควรดูเหมือนรอยแปรงทาสี อิฐไม่ควรดูเหมือนลวดลายซ้ำๆ กัน

  • การจัดการสัญญาณรบกวนและการบีบอัด
    ภาพถ่ายทั่วไปจำนวนมากถูกบีบอัดเป็นไฟล์ JPEG จนคุณภาพลดลงอย่างมาก โปรแกรมเพิ่มความละเอียดภาพที่ดีจะไม่ทำให้คุณภาพภาพแย่ลงไปอีก ( เช่น Real-ESRGAN )

  • การจดจำใบหน้าและข้อความ ใบหน้า
    และข้อความเป็นจุดที่ตรวจจับข้อผิดพลาดได้ง่ายที่สุด โมเดลที่ดีจะจัดการกับสิ่งเหล่านี้อย่างอ่อนโยน (หรือมีโหมดเฉพาะ)

  • ความสม่ำเสมอระหว่างเฟรม (สำหรับวิดีโอ)
    หากรายละเอียดกระพริบจากเฟรมหนึ่งไปยังอีกเฟรมหนึ่ง ดวงตาของคุณจะรู้สึกไม่สบาย การเพิ่มความละเอียดของวิดีโอจะประสบความสำเร็จหรือล้มเหลวขึ้นอยู่กับความเสถียรเชิงเวลา ( BasicVSR (CVPR 2021) )

  • ปุ่มควบคุมที่ใช้งานง่าย
    คุณต้องการแถบเลื่อนที่แสดงผลได้จริง เช่น ลดสัญญาณรบกวน ลดความเบลอ ลบสิ่งแปลกปลอม รักษาเกรนภาพ เพิ่มความคมชัด... สิ่งต่างๆ ที่ใช้งานได้จริง

กฎเงียบๆ ที่ใช้ได้ผลเสมอ: การเพิ่มความละเอียดภาพที่ดีที่สุด มักจะเป็นสิ่งที่คุณแทบไม่สังเกตเห็นเลย มันดูเหมือนว่าคุณมีกล้องที่ดีกว่าตั้งแต่แรกอยู่แล้ว 📷✨


ตารางเปรียบเทียบ: ตัวเลือกการเพิ่มความละเอียดภาพด้วย AI ยอดนิยม (และประโยชน์ของแต่ละวิธี) 📊🙂

ด้านล่างนี้คือการเปรียบเทียบเชิงปฏิบัติ ราคาที่แสดงอาจไม่ชัดเจนนัก เนื่องจากเครื่องมือแต่ละชนิดมีราคาแตกต่างกันไปตามใบอนุญาต แพ็กเกจ ค่าใช้จ่ายในการประมวลผล และอื่นๆ อีกมากมาย.

เครื่องมือ/วิธีการ เหมาะที่สุดสำหรับ ราคาค่อนข้างสูง เหตุผลที่มันได้ผล (โดยประมาณ)
โปรแกรมเพิ่มความละเอียดภาพบนเดสก์ท็อปสไตล์ Topaz ( Topaz Photo , Topaz Video ) รูปภาพ วิดีโอ ขั้นตอนการทำงานที่ง่าย จ่ายเงินแล้ว โมเดลพื้นฐานที่แข็งแกร่ง + การปรับแต่งจำนวนมาก มักจะ "ใช้งานได้เลย" ... ส่วนใหญ่
คุณสมบัติประเภท "Super Resolution" ของ Adobe ( Adobe Enhance > Super Resolution ) ช่างภาพที่อยู่ในระบบนิเวศนั้นอยู่แล้ว การสมัครสมาชิก การสร้างภาพจำลองที่มีรายละเอียดครบถ้วน มักจะเน้นความสมจริง (ไม่เน้นความดราม่า)
Real-ESRGAN / ESRGAN variants ( Real-ESRGAN , ESRGAN ) DIY, นักพัฒนา, งานแบบกลุ่ม ฟรี (แต่เสียเวลา) เก่งเรื่องรายละเอียดพื้นผิว แต่ถ้าไม่ระวังอาจทำให้สีหน้าดูจัดจ้านเกินไป
โหมดการขยายภาพแบบอาศัยการแพร่กระจาย ( SR3 ) งานสร้างสรรค์ ผลลัพธ์ที่มีสไตล์ ผสม สามารถสร้างรายละเอียดที่งดงามได้ และก็สามารถสร้างเรื่องไร้สาระได้เช่นกัน ดังนั้น...ใช่แล้ว
ตัวเพิ่มความละเอียดภาพในเกม (แบบ DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) การเล่นเกมและการเรนเดอร์แบบเรียลไทม์ มัดรวม ใช้ข้อมูลการเคลื่อนไหวและความรู้พื้นฐานที่เรียนรู้มา - ประสิทธิภาพการทำงานราบรื่นขึ้นอย่างเห็นได้ชัด 🕹️
บริการอัพสเกลระบบคลาวด์ สะดวกสบาย รวดเร็ว ได้ผลลัพธ์ทันที จ่ายตามการใช้งาน รวดเร็วและปรับขนาดได้ แต่คุณต้องแลกกับการควบคุม และบางครั้งอาจสูญเสียความละเอียดอ่อนไปบ้าง
ตัวแปลงสัญญาณ AI สำหรับเพิ่มความละเอียดวิดีโอ ( BasicVSR , Topaz Video ) ฟุตเทจเก่า, อนิเมะ, คลังข้อมูล จ่ายเงินแล้ว เทคนิคชั่วคราวเพื่อลดการกระพริบ + โมเดลวิดีโอเฉพาะทาง
การเพิ่มความละเอียดภาพจากสมาร์ทโฟน/แกลเลอรี ใช้งานทั่วไป รวมอยู่ด้วย รุ่นน้ำหนักเบาที่ออกแบบมาเพื่อเสียงที่น่าพอใจ ไม่ใช่ความสมบูรณ์แบบ (แต่ก็ยังใช้งานได้สะดวก)

สารภาพเรื่องความแปลกในการจัดรูปแบบ: คำว่า “จ่ายแล้วประมาณหนึ่งเดือน” ทำหน้าที่เยอะมากในตารางนั้น แต่คุณคงเข้าใจแล้วล่ะ 😅


ความลับสำคัญ: โมเดลเรียนรู้การแมปจากความละเอียดต่ำไปสู่ความละเอียดสูง 🧠➡️🖼️

หัวใจสำคัญของการเพิ่มความละเอียดภาพด้วย AI ส่วนใหญ่คือการตั้งค่าการเรียนรู้แบบมีผู้กำกับดูแล ( การเพิ่มความละเอียดภาพโดยใช้เครือข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) ):

  1. เริ่มต้นด้วยภาพที่มีความละเอียดสูง (ซึ่งเป็น "ความจริง")

  2. ลดขนาดภาพเหล่านั้นให้เป็นเวอร์ชันความละเอียดต่ำ ("อินพุต")

  3. ฝึกโมเดลเพื่อสร้างภาพความละเอียดสูงต้นฉบับขึ้นใหม่จากภาพความละเอียดต่ำ

เมื่อเวลาผ่านไป โมเดลจะเรียนรู้ความสัมพันธ์ต่างๆ เช่น:

  • “รอยเบลอๆ รอบดวงตาแบบนี้ มักเกิดจากขนตา”

  • “กลุ่มพิกเซลนี้มักบ่งชี้ถึงตัวอักษรแบบมีเชิง”

  • “การไล่ระดับสีขอบนี้ดูเหมือนเส้นหลังคา ไม่ใช่สัญญาณรบกวนแบบสุ่ม”

มันไม่ใช่การท่องจำภาพเฉพาะเจาะจง (ในความหมายง่ายๆ) แต่เป็นการเรียนรู้โครงสร้างทางสถิติ ( การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: การสำรวจ ) ลองนึกถึงมันเหมือนกับการเรียนรู้ไวยากรณ์ของพื้นผิวและขอบ ไม่ใช่ไวยากรณ์ของบทกวี แต่เหมือน...ไวยากรณ์ของคู่มือ IKEA มากกว่า 🪑📦 (คำเปรียบเทียบที่ดูไม่ค่อยลงตัว แต่ก็ใกล้เคียง)


รายละเอียดสำคัญ: เกิดอะไรขึ้นระหว่างการอนุมาน (เมื่อคุณขยายขนาด) ⚙️✨

เมื่อคุณป้อนภาพเข้าไปในโปรแกรมเพิ่มความละเอียดภาพด้วย AI โดยทั่วไปจะมีขั้นตอนการทำงานดังนี้:

  • การประมวลผลล่วงหน้า

    • แปลงพื้นที่สี (บางครั้ง)

    • ปรับค่าพิกเซลให้เป็นมาตรฐาน

    • แบ่งภาพออกเป็นส่วนๆ หากภาพมีขนาดใหญ่ (ตรวจสอบข้อจำกัดของ VRAM ด้วยนะ 😭) (ดู ตัวเลือกการแบ่งภาพใน repository Real-ESRGAN )

  • การสกัดคุณลักษณะ

    • ชั้นแรกๆ จะตรวจจับขอบ มุม และการไล่ระดับสี

    • ชั้นลึกกว่าจะตรวจจับรูปแบบต่างๆ ได้แก่ พื้นผิว รูปร่าง และส่วนประกอบของใบหน้า

  • การบูรณะ

    • โมเดลนี้สร้างแผนที่ลักษณะเฉพาะที่มีความละเอียดสูงขึ้น

    • จากนั้นจึงแปลงค่าดังกล่าวให้เป็นเอาต์พุตพิกเซลจริง

  • การประมวลผลภายหลัง

    • การลับคมเพิ่มเติม (ไม่จำเป็น)

    • ตัวเลือกการลดสัญญาณรบกวน

    • ตัวเลือกเสริมในการลดสิ่งรบกวน (แสงสะท้อน แสงรัศมี ความเป็นเหลี่ยม)

รายละเอียดเล็กๆ น้อยๆ อย่างหนึ่งคือ เครื่องมือหลายอย่างจะขยายภาพเป็นแบบไทล์ แล้วค่อยผสานรอยต่อ เครื่องมือที่ดีจะซ่อนขอบเขตของไทล์ได้ เครื่องมือที่ธรรมดาจะทิ้งรอยตารางจางๆ ไว้หากคุณเพ่งมอง และใช่ คุณจะต้องเพ่งมอง เพราะมนุษย์ชอบตรวจสอบความไม่สมบูรณ์เล็กๆ น้อยๆ ที่การซูม 300% เหมือนตัวเกรมลินตัวน้อยๆ 🧌


ตระกูลโมเดลหลักที่ใช้สำหรับการเพิ่มความละเอียดภาพด้วย AI (และเหตุผลที่แต่ละแบบให้ความรู้สึกแตกต่างกัน) 🤖📚

1) การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN (เครื่องมือพื้นฐานที่ใช้กันมานาน)

โครงข่ายประสาทเทียมแบบคอนโวลูชันนั้นยอดเยี่ยมสำหรับการวิเคราะห์รูปแบบเฉพาะที่ เช่น ขอบ พื้นผิว และโครงสร้างขนาดเล็ก ( การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบคอนโวลูชันเชิงลึก (SRCNN) )

  • ข้อดี: เร็วพอสมควร เสถียร ปัญหาเกิดขึ้นน้อยกว่า

  • ข้อเสีย: อาจดูเหมือนผ่านการปรับแต่งมากเกินไปหากปรับอย่างหนัก

2) การเพิ่มความละเอียดภาพด้วย GAN (แบบ ESRGAN) 🎭

GANs (Generative Adversarial Networks) ฝึกตัวสร้างภาพให้สร้างภาพความละเอียดสูงที่ตัวแยกแยะภาพไม่สามารถแยกแยะออกจากภาพจริงได้ ( Generative Adversarial Networks )

  • ข้อดี: รายละเอียดคมชัด พื้นผิวดูน่าประทับใจ

  • ข้อเสีย: อาจสร้างรายละเอียดที่ไม่มีอยู่จริงขึ้นมา - บางครั้งผิดพลาด บางครั้งเหมือนจริงอย่างน่าประหลาดใจ ( SRGAN , ESRGAN )

GAN สามารถให้ภาพที่คมชัดจนน่าทึ่งได้ นอกจากนี้ยังสามารถทำให้ตัวแบบของคุณมีคิ้วเพิ่มขึ้นอีกด้วย ดังนั้น... เลือกสิ่งที่คุณสนใจให้ดี 😬

3) การขยายภาพโดยใช้การแพร่กระจาย (ตัวเลือกสร้างสรรค์ที่เหนือชั้น) 🌫️➡️🖼️

แบบจำลองการแพร่กระจายจะลดสัญญาณรบกวนทีละขั้นตอนและสามารถควบคุมเพื่อสร้างรายละเอียดความละเอียดสูงได้ ( SR3 )

  • ข้อดี: สามารถเก็บรายละเอียดได้อย่างสมจริงอย่างเหลือเชื่อ โดยเฉพาะสำหรับงานสร้างสรรค์

  • ข้อเสีย: อาจเบี่ยงเบนไปจากเอกลักษณ์/โครงสร้างดั้งเดิมหากตั้งค่าอย่างเข้มงวด ( SR3 )

นี่คือจุดที่ “การยกระดับ” เริ่มผสมผสานเข้ากับ “การสร้างสรรค์ใหม่” บางครั้งนั่นคือสิ่งที่คุณต้องการอย่างแท้จริง แต่บางครั้งก็ไม่ใช่.

4) การเพิ่มความละเอียดวิดีโอด้วยความสม่ำเสมอทางเวลา 🎞️

การเพิ่มความละเอียดของวิดีโอ มักจะเพิ่มตรรกะที่รับรู้การเคลื่อนไหวเข้าไปด้วย:

  • ใช้เฟรมข้างเคียงเพื่อรักษาเสถียรภาพของรายละเอียด ( BasicVSR (CVPR 2021) )

  • พยายามหลีกเลี่ยงการกระพริบและภาพกระตุก

  • โดยทั่วไปจะผสานการเพิ่มความละเอียดสูงเข้ากับการลดสัญญาณรบกวนและการลดการแทรกสลับเฟรม ( Topaz Video )

ถ้าการเพิ่มความละเอียดของภาพนิ่งเปรียบเสมือนการบูรณะภาพวาดหนึ่งภาพ การเพิ่มความละเอียดของวิดีโอเปรียบเสมือนการบูรณะสมุดภาพพลิกหน้าโดยไม่ทำให้จมูกของตัวละครเปลี่ยนรูปทรงไปในแต่ละหน้า ซึ่ง…ยากกว่าที่คิด.


เหตุใดการเพิ่มความละเอียดภาพด้วย AI บางครั้งจึงดูไม่สมจริง (และวิธีสังเกต) 👀🚩

การเพิ่มความละเอียดภาพด้วย AI มักล้มเหลวในรูปแบบที่เห็นได้ชัด เมื่อคุณเรียนรู้รูปแบบเหล่านั้นแล้ว คุณจะเห็นมันได้ทุกที่ เหมือนกับการซื้อรถใหม่แล้วจู่ๆ ก็เห็นรถรุ่นนั้นวิ่งอยู่ทุกถนน 😵💫

สามัญชนกล่าวว่า:

  • การแว็กซ์ผิว หน้า (ลดสัญญาณรบกวนและปรับผิวให้เรียบมากเกินไป)

  • ขอบภาพคมชัดเกินไป (ลักษณะ "โอเวอร์ชูต" แบบคลาสสิก) ( การประมาณค่าแบบบิคิวบิก )

  • พื้นผิวที่ซ้ำกัน (ผนังอิฐกลายเป็นลวดลายที่คัดลอกและวางซ้ำๆ)

  • ความแตกต่างเล็กน้อยที่กรุบกรอบและชัดเจน ซึ่งบ่งบอกอย่างชัดเจนว่าเป็น "ผลลัพธ์จากอัลกอริทึม"

  • การบิดเบือนข้อความ ที่ตัวอักษรกลายเป็นเกือบตัวอักษร (แบบที่แย่ที่สุด)

  • การเคลื่อนตัวของรายละเอียด ที่ลักษณะเล็กๆ เปลี่ยนแปลงไปอย่างละเอียดอ่อน โดยเฉพาะในเวิร์กโฟลว์การแพร่กระจาย ( SR3 )

ส่วนที่ยากคือ บางครั้งภาพเหล่านี้ดู "ดีกว่า" ในแวบแรก สมองของคุณชอบความคมชัด แต่หลังจากนั้นสักครู่ มันก็จะรู้สึก...ไม่ค่อยดี.

กลยุทธ์ที่ดีอย่างหนึ่งคือการซูมออกแล้วตรวจสอบดูว่าภาพดูเป็นธรรมชาติในระยะการมองปกติหรือไม่ ถ้ามันดูดีเฉพาะตอนซูม 400% เท่านั้น นั่นไม่ใช่ความสำเร็จหรอก มันเป็นแค่กิจกรรมยามว่างต่างหาก 😅


วิธีการทำงานของ AI Upscaling: ด้านการฝึกฝน โดยไม่ต้องปวดหัวกับคณิตศาสตร์ 📉🙂

การฝึกอบรมโมเดลความละเอียดสูงพิเศษมักเกี่ยวข้องกับขั้นตอนดังต่อไปนี้:

ประเภทความเสียหายทั่วไป:

  • การสูญเสียพิกเซล (L1/L2)
    ส่งเสริมความแม่นยำ อาจทำให้ผลลัพธ์ดูนุ่มนวลเล็กน้อย

  • การสูญเสียการรับรู้
    เปรียบเทียบคุณลักษณะที่ลึกกว่า (เช่น "สิ่งนี้ ดู คล้ายกันหรือไม่") มากกว่าพิกเซลที่แน่นอน ( การสูญเสียการรับรู้ (Johnson et al., 2016) )

  • การสูญเสียแบบต่อต้าน (GAN)
    ส่งเสริมความสมจริง บางครั้งอาจแลกมาด้วยความถูกต้องตามตัวอักษร ( SRGAN , เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ )

มีการดึงเชือกกันอยู่ตลอดเวลา:

  • ทำให้ ซื่อตรง ต่อต้นฉบับ
    vs

  • ทำให้มัน ดูสวยงามน่ามอง

เครื่องมือแต่ละชนิดจะอยู่ในตำแหน่งที่แตกต่างกันบนสเปกตรัมนั้น และคุณอาจเลือกใช้เครื่องมือชนิดใดชนิดหนึ่งขึ้นอยู่กับว่าคุณกำลังบูรณะภาพถ่ายครอบครัวหรือเตรียมโปสเตอร์ที่ "ความสวยงาม" มีความสำคัญมากกว่าความถูกต้องแม่นยำทางนิติวิทยาศาสตร์.


ขั้นตอนการทำงานที่เป็นรูปธรรม: ภาพถ่าย ไฟล์สแกนเก่า อนิเมะ และวิดีโอ 📸🧾🎥

ภาพถ่าย (ภาพบุคคล ภาพทิวทัศน์ ภาพสินค้า)

แนวทางปฏิบัติที่ดีที่สุดโดยทั่วไปคือ:

  • ลดเสียงรบกวนเบาๆ ก่อน (ถ้าจำเป็น)

  • หรูหราแต่ตกแต่งแบบอนุรักษ์นิยม

  • ถ้าเนื้อสัมผัสเนียนเกินไป ให้เติมเนื้อสัมผัสที่หยาบลงไป (ใช่แล้ว จริงๆ นะ)

ธัญพืชก็เหมือนเกลือ ถ้ามากเกินไปจะทำให้เสียรสชาติอาหาร แต่ถ้าไม่ใส่เลยก็จะทำให้รสชาติจืดชืด 🍟

ภาพสแกนเก่าและภาพที่ถูกบีอัดอย่างมาก

ส่วนนี้จะยากกว่า เพราะโมเดลอาจมองบล็อกการบีบอัดเป็น "พื้นผิว"
ลองทำดังนี้:

  • การกำจัดสิ่งแปลกปลอมหรือการขจัดสิ่งกีดขวาง

  • จากนั้นจึงยกระดับขึ้นไปอีกขั้น

  • จากนั้นปรับความคมชัดเล็กน้อย (อย่าปรับมากเกินไป... ผมรู้ว่าทุกคนพูดแบบนั้น แต่ก็ควรปรับอยู่ดี)

อนิเมะและภาพวาดเส้น

งานศิลปะลายเส้นได้รับประโยชน์จาก:

  • รุ่นที่รักษาขอบให้คมชัด

  • ลดปัญหาภาพซ้อนจากการ
    ขยายภาพอนิเมะ ภาพที่ได้มักจะสวยงามเพราะรูปทรงเรียบง่ายและสม่ำเสมอ (โชคดีจัง)

วิดีโอ

วิดีโอมีขั้นตอนเพิ่มเติม:

  • ลดสัญญาณรบกวน

  • ลดการแทรกสลับเฟรม (สำหรับบางแหล่งที่มา)

  • หรูหรา

  • การปรับให้เรียบหรือรักษาเสถียรภาพตามเวลา ( BasicVSR (CVPR 2021) )

  • การเติมเมล็ดธัญพืชกลับเข้าไปใหม่เพื่อเพิ่มความเหนียวแน่น (เป็นทางเลือกเสริม)

ถ้าคุณละเลยความสอดคล้องทางเวลา คุณจะเห็นรายละเอียดที่กระพริบระยิบระยับ เมื่อคุณสังเกตเห็นแล้ว คุณจะมองข้ามมันไปไม่ได้ เหมือนเสียงเก้าอี้เอี๊ยดอ๊าดในห้องที่เงียบสงบ 😖


เคล็ดลับการเลือกการตั้งค่าโดยไม่ต้องเดาไปเรื่อย (คู่มือฉบับย่อ) 🎛️😵💫

นี่คือแนวคิดเริ่มต้นที่ดี:

  • ถ้าใบหน้าดูเหมือนพลาสติก
    ให้ลดสัญญาณรบกวน ลดความคมชัด ลองใช้โมเดลหรือโหมดที่รักษารูปหน้าไว้

  • หากพื้นผิวดูเข้มเกินไป
    ให้ลดค่าแถบเลื่อน "การเพิ่มรายละเอียด" หรือ "การกู้คืนรายละเอียด" จากนั้นค่อยเพิ่มเกรนแบบละเอียดในภายหลัง

  • หากขอบภาพเรืองแสง
    ให้ลดความคมชัดลง และตรวจสอบตัวเลือกการลดแสงสะท้อน

  • ถ้าภาพดูเหมือนใช้ AI มากเกินไป
    ให้ลองใช้แบบเรียบง่ายกว่า บางครั้งวิธีที่ดีที่สุดก็คือ...ลดทอนรายละเอียดลง

นอกจากนี้: อย่าขยายภาพเป็น 8x เพียงเพราะคุณทำได้ การขยายภาพแบบ 2x หรือ 4x ที่คมชัดมักจะเป็นจุดที่เหมาะสมที่สุด การขยายภาพมากกว่านั้น คุณกำลังขอให้โมเดลเขียนแฟนฟิคเกี่ยวกับพิกเซลของคุณ 📖😂


จริยธรรม ความแท้จริง และคำถามที่น่าอึดอัดใจเกี่ยวกับ "ความจริง" 🧭😬

การเพิ่มความละเอียดภาพด้วย AI ทำให้เส้นแบ่งระหว่างสองสิ่งนี้ไม่ชัดเจน:

  • การบูรณะหมายถึงการทำให้สิ่งที่เคยมีอยู่กลับคืนมา

  • การปรับปรุงหมายถึงการเพิ่มเติมสิ่งที่ไม่มีอยู่เดิม

สำหรับภาพถ่ายส่วนตัวนั้น โดยทั่วไปแล้วไม่มีปัญหา (และดูดีด้วย) แต่สำหรับงานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืออะไรก็ตามที่ความถูกต้องแม่นยำมีความสำคัญ... คุณต้องระมัดระวัง ( OSAC/NIST: คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์ , แนวทาง SWGDE สำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์ )

กฎง่ายๆ ข้อหนึ่ง:

  • หากมีความเสี่ยงสูง ควรพิจารณาการยกระดับ AI เป็น เพียงตัวอย่าง ไม่ใช่ข้อสรุปที่แน่นอน

นอกจากนี้ การเปิดเผยข้อมูลมีความสำคัญในบริบททางวิชาชีพ ไม่ใช่เพราะ AI เป็นสิ่งชั่วร้าย แต่เพราะผู้ชมสมควรที่จะรู้ว่ารายละเอียดต่างๆ นั้นถูกสร้างขึ้นใหม่หรือบันทึกไว้ นั่นเป็นเรื่องของการให้เกียรติ.


ข้อสรุปและบทสรุปสั้นๆ 🧡✅

ดังนั้น วิธีการทำงานของ AI Upscaling คือ โมเดลจะเรียนรู้ว่ารายละเอียดที่มีความละเอียดสูง มัก มีความสัมพันธ์กับรูปแบบที่มีความละเอียดต่ำอย่างไร จากนั้นจึงทำนายจำนวนพิกเซลเพิ่มเติมที่ดูสมจริงในระหว่างการขยายภาพ ( Deep Learning for Image Super-resolution: A Survey ) ขึ้นอยู่กับตระกูลของโมเดล (CNN, GAN, diffusion, video-temporal) การทำนายนั้นอาจจะค่อนข้างระมัดระวังและแม่นยำ... หรืออาจจะกล้าหาญและบางครั้งก็ดูไม่สมเหตุสมผลเลยก็ได้ 😅

สรุปโดยย่อ

ถ้าคุณต้องการ บอกผมหน่อยว่าคุณกำลังปรับภาพอะไร (ใบหน้า ภาพถ่ายเก่า วิดีโอ อนิเมะ การสแกนข้อความ) แล้วผมจะแนะนำกลยุทธ์การตั้งค่าที่ช่วยหลีกเลี่ยงข้อผิดพลาดทั่วไปของ "ภาพที่ดูเหมือน AI" ให้ครับ 🎯🙂


คำถามที่พบบ่อย

การยกระดับ AI และวิธีการทำงาน

การเพิ่มความละเอียดภาพด้วย AI (มักเรียกว่า “ซูเปอร์รีลีสซิ่ง”) จะเพิ่มความละเอียดของภาพโดยการคาดการณ์รายละเอียดความละเอียดสูงที่ขาดหายไปจากรูปแบบที่เรียนรู้ระหว่างการฝึกฝน แทนที่จะยืดพิกเซลแบบง่ายๆ เหมือนกับการประมาณค่าแบบไบคิวบิก โมเดลจะศึกษาขอบ พื้นผิว ใบหน้า และเส้นขีดคล้ายตัวอักษร จากนั้นสร้างข้อมูลพิกเซลใหม่ที่สอดคล้องกับรูปแบบที่เรียนรู้เหล่านั้น มันไม่ใช่การ “ฟื้นฟูความเป็นจริง” แต่เป็นการ “คาดเดาที่น่าเชื่อถือ” ซึ่งดูเป็นธรรมชาติ.

การขยายภาพด้วย AI เทียบกับการปรับขนาดแบบไบคิวบิกหรือแบบดั้งเดิม

วิธีการเพิ่มความละเอียดภาพแบบดั้งเดิม (เช่น แบบไบคิวบิก) ส่วนใหญ่จะทำการประมาณค่าระหว่างพิกเซลที่มีอยู่แล้ว ทำให้การเปลี่ยนผ่านราบรื่นโดยไม่สร้างรายละเอียดใหม่ที่แท้จริง การเพิ่มความละเอียดภาพด้วย AI มีเป้าหมายเพื่อสร้างโครงสร้างที่สมจริงโดยการจดจำสัญญาณภาพและคาดการณ์ว่าภาพความละเอียดสูงของสัญญาณเหล่านั้นจะมีลักษณะอย่างไร นั่นเป็นเหตุผลว่าทำไมผลลัพธ์จาก AI จึงดูคมชัดกว่าอย่างเห็นได้ชัด และในขณะเดียวกันก็อาจทำให้เกิดสิ่งผิดปกติหรือ "สร้าง" รายละเอียดที่ไม่มีอยู่ในภาพต้นฉบับขึ้นมาได้.

เหตุใดใบหน้าจึงดูมันวาวหรือเรียบเนียนเกินไป

ใบหน้าที่ดูแข็งกระด้างมักเกิดจากการลดสัญญาณรบกวนและปรับผิวให้เรียบเนียนอย่างรุนแรง ควบคู่กับการเพิ่มความคมชัดที่ทำให้พื้นผิวที่เป็นธรรมชาติของผิวหายไป เครื่องมือหลายอย่างจัดการกับสัญญาณรบกวนและรายละเอียดเล็กๆ น้อยๆ ในลักษณะเดียวกัน ดังนั้นการ "ทำความสะอาด" ภาพจึงอาจลบรูขุมขนและรายละเอียดเล็กๆ น้อยๆ ออกไปได้ วิธีทั่วไปคือการลดสัญญาณรบกวนและความคมชัด ใช้โหมดรักษารูปหน้าหากมี จากนั้นเพิ่มเกรนเล็กน้อยเพื่อให้ภาพที่ได้ดูเป็นธรรมชาติและไม่เหมือนพลาสติกมากขึ้น.

ข้อผิดพลาดทั่วไปที่ควรระวังในการเพิ่มความละเอียดภาพด้วย AI

สัญญาณบ่งบอกปัญหาโดยทั่วไป ได้แก่ รอยแสงรอบขอบ ลวดลายพื้นผิวที่ซ้ำกัน (เหมือนอิฐที่คัดลอกวางซ้ำๆ) ความคมชัดระดับไมโครที่ดูไม่เป็นธรรมชาติ และตัวอักษรที่กลายเป็น "ตัวอักษรที่ไม่สมบูรณ์" ในขั้นตอนการทำงานที่ใช้การกระจายแสง คุณยังสามารถเห็นรายละเอียดที่เปลี่ยนแปลงไปเล็กน้อยได้อีกด้วย สำหรับวิดีโอ การกระพริบและรายละเอียดที่ค่อยๆ เลื่อนไปมาในแต่ละเฟรมเป็นสัญญาณเตือนที่สำคัญ หากภาพดูดีเฉพาะเมื่อซูมเข้ามากๆ แสดงว่าการตั้งค่าอาจจะรุนแรงเกินไป.

ความแตกต่างของผลลัพธ์ระหว่าง GAN, CNN และตัวขยายภาพแบบกระจาย (diffusion upscaler)

การเพิ่มความละเอียดภาพด้วยโครงข่ายประสาทเทียมแบบ CNN มักมีความเสถียรและคาดเดาได้ง่ายกว่า แต่ภาพอาจดู "ไม่เป็นธรรมชาติ" หากปรับค่าสูงเกินไป ตัวเลือกแบบ GAN (เช่น ESRGAN) มักให้รายละเอียดที่คมชัดและมีมิติมากกว่า แต่ก็อาจทำให้รายละเอียดผิดเพี้ยนไปได้ โดยเฉพาะบนใบหน้า การเพิ่มความละเอียดภาพด้วยวิธีการแพร่กระจาย (Diffusion-based upscaling) สามารถสร้างรายละเอียดที่สวยงามและสมจริงได้ แต่ภาพอาจเบี่ยงเบนจากโครงสร้างเดิมหากตั้งค่าการควบคุมหรือความแรงสูงเกินไป.

กลยุทธ์การตั้งค่าที่ใช้งานได้จริงเพื่อหลีกเลี่ยงรูปลักษณ์ที่ "ดูเหมือนใช้ AI มากเกินไป"

เริ่มต้นอย่างระมัดระวัง: ขยายภาพ 2 เท่าหรือ 4 เท่าก่อนที่จะใช้ปัจจัยที่รุนแรง หากใบหน้าดูเหมือนพลาสติก ให้ลดการลดสัญญาณรบกวนและความคมชัด และลองใช้โหมดจดจำใบหน้า หากพื้นผิวมีรายละเอียดมากเกินไป ให้ลดการเพิ่มรายละเอียดและพิจารณาเพิ่มเกรนเล็กน้อยในภายหลัง หากขอบเรืองแสง ให้ลดความคมชัดและตรวจสอบการลดแสงสะท้อนหรือสิ่งแปลกปลอม ในหลายๆ ขั้นตอนการทำงาน “น้อย” ย่อมดีกว่า เพราะช่วยรักษาความสมจริงเอาไว้ได้.

การจัดการกับไฟล์สแกนเก่าหรือภาพ JPEG ที่ถูกบีบอัดอย่างมากก่อนทำการขยายขนาด

ภาพที่ถูกบีอัดนั้นจัดการได้ยาก เพราะโมเดลอาจมองว่าสิ่งผิดปกติที่เป็นบล็อกๆ เหล่านั้นเป็นพื้นผิวจริงและขยายให้ใหญ่ขึ้น ขั้นตอนการทำงานทั่วไปคือ การลบสิ่งผิดปกติหรือการลดบล็อกก่อน จากนั้นจึงขยายภาพ และปรับความคมชัดเล็กน้อยเฉพาะเมื่อจำเป็น สำหรับภาพสแกน การทำความสะอาดอย่างอ่อนโยนจะช่วยให้โมเดลเน้นที่โครงสร้างจริงมากกว่าความเสียหาย เป้าหมายคือการลด "ร่องรอยพื้นผิวปลอม" เพื่อไม่ให้โปรแกรมขยายภาพต้องคาดเดาอย่างมั่นใจจากภาพที่มีสัญญาณรบกวน.

เหตุใดการเพิ่มความละเอียดของวิดีโอจึงยากกว่าการเพิ่มความละเอียดของภาพถ่าย

การเพิ่มความละเอียดของวิดีโอต้องมีความสม่ำเสมอในทุกเฟรม ไม่ใช่แค่ดีเฉพาะภาพนิ่งภาพเดียว หากรายละเอียดกระพริบในแต่ละเฟรม ผลลัพธ์ที่ได้จะทำให้เสียสมาธิอย่างรวดเร็ว วิธีการที่เน้นวิดีโอจะใช้ข้อมูลเชิงเวลาจากเฟรมข้างเคียงเพื่อทำให้การสร้างภาพใหม่มีความเสถียรและหลีกเลี่ยงสิ่งผิดปกติที่เกิดจากการกระพริบ ขั้นตอนการทำงานหลายอย่างยังรวมถึงการลดสัญญาณรบกวน การลดการแทรกสลับเฟรมสำหรับแหล่งที่มาบางประเภท และการเพิ่มเกรนกลับเข้าไปใหม่ (ถ้าต้องการ) เพื่อให้ลำดับภาพทั้งหมดดูต่อเนื่องกัน แทนที่จะดูคมชัดอย่างไม่เป็นธรรมชาติ.

เมื่อการเพิ่มประสิทธิภาพด้วย AI ไม่เหมาะสมหรือมีความเสี่ยงที่จะนำมาใช้

การเพิ่มความละเอียดภาพด้วย AI ควรถูกมองว่าเป็นการปรับปรุงคุณภาพ ไม่ใช่การพิสูจน์ ในบริบทที่มีความสำคัญสูง เช่น งานด้านวารสารศาสตร์ หลักฐานทางกฎหมาย ภาพทางการแพทย์ หรืองานนิติวิทยาศาสตร์ การสร้างพิกเซลที่ "ดูสมจริง" อาจทำให้เกิดความเข้าใจผิดได้ เพราะอาจเพิ่มรายละเอียดที่ไม่ได้ถูกบันทึกไว้ วิธีที่ปลอดภัยกว่าคือการใช้เพื่อเป็นตัวอย่างและเปิดเผยว่ากระบวนการ AI ได้สร้างรายละเอียดขึ้นใหม่ หากความถูกต้องแม่นยำเป็นสิ่งสำคัญ ควรเก็บรักษาภาพต้นฉบับและบันทึกทุกขั้นตอนการประมวลผลและการตั้งค่า.

เอกสารอ้างอิง

  1. arXiv - การเรียนรู้เชิงลึกสำหรับการเพิ่มความละเอียดของภาพ: บทสำรวจ - arxiv.org

  2. arXiv - การเพิ่มความละเอียดของภาพโดยใช้โครงข่ายประสาทเทียมแบบ Convolutional เชิงลึก (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA Developer - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. มูลนิธิวิทยาการคอมพิวเตอร์ด้านการมองเห็น (CVF) เปิดให้เข้าถึงได้ฟรี - BasicVSR: การค้นหาส่วนประกอบสำคัญในการเพิ่มความละเอียดของวิดีโอ (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - เครือข่ายปฏิปักษ์เชิงสร้างสรรค์ - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - การสูญเสียการรับรู้ (Johnson et al., 2016) - arxiv.org

  12. GitHub - ที่เก็บโค้ด Real-ESRGAN (ตัวเลือกไทล์) - github.com

  13. วิกิพีเดีย - การแทรกสอดแบบบิคิวบิก - wikipedia.org

  14. Topaz Labs - Topaz Photo - topazlabs.com

  15. Topaz Labs - Topaz Video - topazlabs.com

  16. ศูนย์ช่วยเหลือของ Adobe - Adobe Enhance > Super Resolution - helpx.adobe.com

  17. NIST / OSAC - คู่มือมาตรฐานสำหรับการจัดการภาพดิจิทัลทางนิติวิทยาศาสตร์ (เวอร์ชัน 1.0) - nist.gov

  18. SWGDE - แนวทางปฏิบัติสำหรับการวิเคราะห์ภาพทางนิติวิทยาศาสตร์ - swgde.org

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก