ปัญญาประดิษฐ์จะส่งผลกระทบต่อบทบาทของวิศวกรข้อมูลอย่างไร?

ปัญญาประดิษฐ์ (AI) กำลังจะเปลี่ยนแปลงบทบาทของวิศวกรรมข้อมูลโดยการทำงานอัตโนมัติในงานที่ซ้ำซากจำเจ เช่น การร่างและการจัดทำเอกสาร SQL อย่างไรก็ตาม ความรับผิดชอบระดับสูง เช่น การกำหนดสัญญาข้อมูลและการจัดการคุณภาพข้อมูลยังคงต้องอาศัยความเชี่ยวชาญของมนุษย์.

AI สามารถช่วยทำให้กระบวนการวิศวกรรมข้อมูลเป็นไปโดยอัตโนมัติในส่วนใดได้บ้าง?

AI มีความสามารถโดดเด่นในการทำงานอัตโนมัติ เช่น การสร้างโค้ด SQL การสร้างโครงร่างโมเดล dbt และการร่างโครงร่างเอกสาร ซึ่งช่วยให้วิศวกรเริ่มต้นโครงการได้อย่างมีประสิทธิภาพมากขึ้น แต่การตรวจสอบโดยมนุษย์ยังคงจำเป็นเพื่อให้มั่นใจในความถูกต้อง.

วิศวกรข้อมูลจะกลายเป็นสิ่งล้าสมัยหรือไม่ เมื่อปัญญาประดิษฐ์ (AI) เข้ามามีบทบาทมากขึ้น?

แม้ว่างานบางอย่างอาจถูกทำให้เป็นระบบอัตโนมัติ แต่บทบาทของวิศวกรข้อมูลกำลังเปลี่ยนแปลงไปมากกว่าที่จะหายไป วิศวกรจะมุ่งเน้นไปที่การออกแบบระบบ ความรับผิดชอบ และการกำกับดูแลมากขึ้น ทำให้พวกเขามีคุณค่ามากขึ้นเมื่อ AI ช่วยปรับปรุงกระบวนการทำงานพื้นฐานให้มีประสิทธิภาพยิ่งขึ้น.

เหตุใดการกำกับดูแลโดยมนุษย์จึงยังคงมีความสำคัญในการใช้ AI ในด้านวิศวกรรมข้อมูล?

การกำกับดูแลโดยมนุษย์มีความสำคัญอย่างยิ่ง เนื่องจากวิศวกรรมข้อมูลมักเกี่ยวข้องกับตรรกะทางธุรกิจที่ไม่ชัดเจนและความรับผิดชอบต่อผลลัพธ์ ปัญญาประดิษฐ์ (AI) สามารถช่วยในการร่างแนวทางแก้ไขได้ แต่ไม่สามารถจัดการความซับซ้อนของการกำกับดูแลข้อมูลและการปฏิบัติตามกฎระเบียบได้อย่างครบถ้วน.

ทักษะใดบ้างที่จะมีความสำคัญอย่างยิ่งสำหรับวิศวกรข้อมูล เมื่อเครื่องมือ AI พัฒนาขึ้น?

ทักษะสำคัญที่จะต้องใช้ ได้แก่ การออกแบบระบบ วิศวกรรมคุณภาพข้อมูล การกำหนดข้อตกลงด้านข้อมูล และการสื่อสารที่มีประสิทธิภาพ ด้านเหล่านี้มีความสำคัญอย่างยิ่งต่อการสร้างความน่าเชื่อถือและการปฏิบัติตามกฎระเบียบ เมื่อ AI เข้ามาจัดการงานประจำมากขึ้น.

AI สามารถช่วยเพิ่มประสิทธิภาพการทำงานร่วมกันระหว่างวิศวกรข้อมูลและทีมอื่นๆ ได้อย่างไร?

AI สามารถช่วยลดขั้นตอนการทำงานทางเทคนิค ทำให้วิศวกรข้อมูลสามารถทำงานร่วมกับทีมผลิตภัณฑ์ ทีมรักษาความปลอดภัย และทีมการเงินได้อย่างมีประสิทธิภาพมากขึ้น การเปลี่ยนแปลงนี้ช่วยให้วิศวกรข้อมูลสามารถมุ่งเน้นไปที่การพูดคุยเกี่ยวกับมาตรฐานคุณภาพและความคาดหวัง แทนที่จะมุ่งเน้นแต่การเขียนโค้ดเพียงอย่างเดียว.

ปัญญาประดิษฐ์ (AI) เผชิญกับความท้าทายอะไรบ้างในด้านวิศวกรรมข้อมูล?

ปัญญาประดิษฐ์ (AI) มีปัญหาในการจัดการกับคำจำกัดความที่ไม่ชัดเจนและความสัมพันธ์ที่ซับซ้อนในตรรกะทางธุรกิจ ความไม่สามารถในการคิดเชิงวิเคราะห์หรือเจรจาต่อรองคำจำกัดความหมายความว่าวิศวกรมนุษย์ยังคงมีความสำคัญอย่างยิ่ง.

วิศวกรข้อมูลควรมีแนวทางอย่างไรในการใช้เครื่องมือ AI เช่น GitHub Copilot?

วิศวกรข้อมูลควรใช้เครื่องมือ AI เป็นแบบร่างเพื่อปรับปรุงงานของตน ในขณะเดียวกันก็ต้องรักษาหลักเกณฑ์ที่เข้มงวดสำหรับการตรวจสอบและการกำกับดูแล ซึ่งรวมถึงการตรวจสอบให้แน่ใจว่าผลลัพธ์ตรงตามมาตรฐานคุณภาพและสอดคล้องกับนโยบายขององค์กร.

AI จะเข้ามาแทนที่วิศวกรข้อมูลหรือไม่? [วิดีโอและแบบทดสอบ]

คำตอบสั้นๆ คือ AI จะไม่เข้ามาแทนที่วิศวกรข้อมูลโดยตรง แต่จะช่วยทำให้งานที่ซ้ำซากจำเจเป็นไปโดยอัตโนมัติ เช่น การร่างคำสั่ง SQL การสร้างโครงสร้างพื้นฐานของไปป์ไลน์ การทดสอบ และการจัดทำเอกสาร หากบทบาทของคุณส่วนใหญ่เป็นงานที่ไม่ต้องรับผิดชอบมากนักและต้องจัดการตามตั๋วงาน AI ก็จะมีความเสี่ยงมากขึ้น แต่ถ้าคุณรับผิดชอบด้านความน่าเชื่อถือ คำจำกัดความ การกำกับดูแล และการตอบสนองต่อเหตุการณ์ AI จะช่วยให้คุณทำงานได้เร็วขึ้นเป็นหลัก

ประเด็นสำคัญ:

ความรับผิดชอบ: ให้ความสำคัญกับความรับผิดชอบต่อผลลัพธ์ ไม่ใช่แค่การเขียนโค้ดให้เสร็จเร็วเท่านั้น

คุณภาพ: สร้างการทดสอบ การตรวจสอบ และสัญญา เพื่อให้ไปป์ไลน์ยังคงน่าเชื่อถือ

การกำกับดูแล: ควรให้บุคคลเป็นผู้รับผิดชอบด้านความเป็นส่วนตัว การควบคุมการเข้าถึง การเก็บรักษา และการตรวจสอบบันทึกต่างๆ

การป้องกันการใช้งานผิดวิธี: ให้ถือว่าผลลัพธ์จาก AI เป็นเพียงร่าง ตรวจสอบความถูกต้องอีกครั้งเพื่อหลีกเลี่ยงความมั่นใจในผลลัพธ์ที่ผิดพลาด

การเปลี่ยนบทบาท: ใช้เวลาน้อยลงในการพิมพ์ข้อความสำเร็จรูป และใช้เวลามากขึ้นในการออกแบบระบบที่มีความทนทาน

AI จะเข้ามาแทนที่วิศวกรข้อมูลหรือไม่? อินโฟกราฟิก

หากคุณเคยใช้เวลาอยู่กับทีมข้อมูลมากกว่าห้านาที คุณคงได้ยินคำถามนี้บ่อยๆ – บางครั้งกระซิบกันเบาๆ บางครั้งก็พูดออกมาดังๆ ทั่วที่ประชุมราวกับเป็นจุดพลิกผันของเรื่อง: AI จะมาแทนที่วิศวกรข้อมูลหรือไม่?

และ… ผมเข้าใจแล้ว AI สามารถสร้าง SQL สร้างไปป์ไลน์ อธิบายสแต็กเทรซ ร่างโมเดล dbt และแม้กระทั่งแนะนำสคีมาคลังข้อมูลได้อย่างมั่นใจจนน่าตกใจ GitHub Copilot สำหรับ SQL เกี่ยวกับโมเดล dbt GitHub Copilot
มันให้ความรู้สึกเหมือนดูรถยกเรียนรู้การเล่นกล น่าประทับใจ น่าตกใจเล็กน้อย และคุณก็ไม่แน่ใจนักว่ามันหมายความว่าอย่างไรสำหรับงานของคุณ 😅

แต่ความจริงนั้นไม่เรียบร้อยเหมือนพาดหัวข่าว AI กำลังเปลี่ยนแปลงวิศวกรรมข้อมูลอย่างสิ้นเชิง มันกำลังทำให้ส่วนที่น่าเบื่อและซ้ำซากเป็นไปโดยอัตโนมัติ มันกำลังเร่งความเร็วในส่วนที่ว่า “ฉันรู้ว่าฉันต้องการอะไร แต่จำไวยากรณ์ไม่ได้” นอกจากนี้มันยังก่อให้เกิดความวุ่นวายรูปแบบใหม่ๆ อีกด้วย.

ดังนั้นเรามาอธิบายให้ชัดเจนกันดีกว่า โดยปราศจากความหวังลมๆ แล้งๆ หรือความตื่นตระหนกจากการเสพข่าวร้ายทางออนไลน์.

บทความที่คุณอาจสนใจอ่านต่อหลังจากบทความนี้:

🔗 ปัญญาประดิษฐ์จะเข้ามาแทนที่รังสีแพทย์หรือไม่?
AI ด้านการประมวลผลภาพเปลี่ยนแปลงขั้นตอนการทำงาน ความแม่นยำ และบทบาทในอนาคตอย่างไร.

🔗 ปัญญาประดิษฐ์จะเข้ามาแทนที่นักบัญชีหรือไม่?
ดูว่า AI ช่วยทำงานด้านบัญชีส่วนใดบ้าง และส่วนใดบ้างที่ยังคงต้องใช้คนทำ.

🔗 ปัญญาประดิษฐ์จะเข้ามาแทนที่นักลงทุนในธนาคารหรือไม่?
ทำความเข้าใจผลกระทบของ AI ต่อการทำข้อตกลง การวิจัย และความสัมพันธ์กับลูกค้า.

🔗 AI จะเข้ามาแทนที่ตัวแทนประกันภัยหรือไม่?
เรียนรู้วิธีที่ AI เปลี่ยนแปลงกระบวนการพิจารณาอนุมัติสินเชื่อ การขาย และการสนับสนุนลูกค้า.

ทำไมคำถามที่ว่า “AI จะมาแทนที่วิศวกรข้อมูล” ถึงได้วนเวียนกลับมาซ้ำแล้วซ้ำเล่า 😬

ความกังวลนี้มาจากสาเหตุเฉพาะเจาะจงอย่างหนึ่ง นั่นคือ งานด้านวิศวกรรมข้อมูลมีขั้น ตอน การทำงานที่ซ้ำซากอยู่เป็นจำนวนมาก

การเขียนและการปรับปรุงโครงสร้าง SQL
การสร้างสคริปต์การนำเข้า
การแมปฟิลด์จากสคีมาหนึ่งไปยังอีกสคีมาหนึ่ง
การสร้างชุดทดสอบและเอกสารพื้นฐาน
การแก้ไขข้อผิดพลาดในไปป์ไลน์ที่...ค่อนข้างคาดเดาได้

AI มีความสามารถพิเศษในการค้นหารูปแบบที่ซ้ำกัน และงานด้านวิศวกรรมข้อมูลส่วนใหญ่ก็คือการทำซ้ำรูปแบบเหล่านั้น ( คำแนะนำโค้ดจาก GitHub Copilot)

นอกจากนี้ ระบบนิเวศของเครื่องมือยัง "ซ่อน" ความซับซ้อนเอาไว้ด้วย:

ตัวเชื่อมต่อ ELT ที่จัดการได้ เอกสาร Fivetran
การประมวลผลแบบไร้เซิร์ฟเวอร์ AWS Lambda (serverless compute)
การจัดเตรียมคลังสินค้าด้วยการคลิกเพียงครั้งเดียว
เอกสารประกอบ Apache Airflow เกี่ยวกับการจัดการระบบแบบปรับขนาดอัตโนมัติ
เฟรมเวิร์กการแปลงข้อมูลแบบประกาศ (Declarative transformation frameworks) dbt คืออะไร?

ดังนั้นเมื่อ AI ปรากฏตัวขึ้น มันจึงรู้สึกเหมือนเป็นชิ้นส่วนสุดท้าย หากโครงสร้างพื้นฐานถูกแยกส่วนออกไปแล้ว และ AI สามารถเขียนโค้ดเชื่อมต่อได้... แล้วอะไรจะเหลืออยู่ล่ะ? 🤷

แต่สิ่งที่คนส่วนใหญ่มองข้ามไปก็ คือ วิศวกรรมข้อมูลไม่ได้มีแค่การพิมพ์ข้อมูลการพิมพ์ข้อมูลเป็นเรื่องง่าย ส่วนที่ยากคือการทำให้ความเป็นจริงทางธุรกิจที่คลุมเครือ เต็มไปด้วยเรื่องการเมือง และเปลี่ยนแปลงอยู่ตลอดเวลา ทำงานได้เหมือนระบบที่เชื่อถือได้

และ AI ก็ยังคงดิ้นรนกับความคลุมเครือเหล่านั้นอยู่ มนุษย์ก็ดิ้นรนเช่นกัน เพียงแต่พวกเขามีความสามารถในการแก้ไขสถานการณ์เฉพาะหน้าได้ดีกว่า.

สิ่งที่วิศวกรข้อมูลทำจริงๆ ตลอดทั้งวัน (ความจริงที่ไม่สวยหรู) 🧱

พูดกันตรงๆ ชื่อตำแหน่งงาน “วิศวกรข้อมูล” ฟังดูเหมือนคุณกำลังสร้างเครื่องยนต์จรวดจากคณิตศาสตร์ล้วนๆ แต่ในทางปฏิบัติแล้ว คุณกำลังสร้าง ความไว้วางใจต่างหาก

วันทำงานทั่วไปไม่ได้เน้นการ "คิดค้นอัลกอริทึมใหม่" มากนัก แต่จะเน้นไปที่:

การเจรจากับทีมต้นทางเกี่ยวกับคำจำกัดความของข้อมูล (ยากลำบากแต่จำเป็น)
ตรวจสอบว่าเหตุใดตัวชี้วัดจึงเปลี่ยนแปลง (และเปลี่ยนแปลงจริงหรือไม่)
การรับมือกับการเปลี่ยนแปลงโครงสร้างข้อมูลและเรื่องที่ไม่คาดคิด เช่น “มีคนเพิ่มคอลัมน์ตอนเที่ยงคืน”
การทำให้มั่นใจว่าไปป์ไลน์เป็นแบบ idempotent, สามารถกู้คืนได้ และสามารถตรวจสอบได้
สร้างแนวทางป้องกันเพื่อป้องกันไม่ให้นักวิเคราะห์ในขั้นตอนถัดไปสร้างแดชบอร์ดที่ไร้สาระโดยไม่ตั้งใจ
บริหารจัดการต้นทุนเพื่อไม่ให้คลังสินค้าของคุณกลายเป็นกองไฟเผาเงิน 🔥
การรักษาความปลอดภัยในการเข้าถึง การตรวจสอบ การปฏิบัติตามกฎระเบียบ นโยบายการเก็บรักษา หลักการ GDPR (คณะกรรมาธิการยุโรป) ข้อจำกัดในการจัดเก็บข้อมูล (ICO)
สร้างผลิตภัณฑ์ข้อมูลที่ผู้คนสามารถใช้งานได้จริงโดยไม่ต้องส่งข้อความส่วนตัวมาถามคุณ 20 ข้อ

งานส่วนใหญ่เกี่ยวข้องกับด้านสังคมและการปฏิบัติงาน:

“โต๊ะตัวนี้เป็นของใคร?”
“คำจำกัดความนี้ยังใช้ได้อยู่หรือไม่?”
“ทำไมระบบ CRM ถึงส่งออกข้อมูลซ้ำ?”
“เราสามารถส่งข้อมูลตัวชี้วัดนี้ให้ผู้บริหารได้โดยไม่ทำให้พวกเขารู้สึกอับอายได้ไหม?” 😭

AI สามารถช่วยในบางส่วนได้แน่นอน แต่การทดแทนทั้งหมดนั้น...เป็นเรื่องยาก.

อะไรคือสิ่งที่ทำให้บทบาทวิศวกรข้อมูลมีความแข็งแกร่ง? ✅

ส่วนนี้สำคัญเพราะการพูดถึงการทดแทนมักจะตั้งสมมติฐานว่าวิศวกรข้อมูลส่วนใหญ่เป็นเพียง "ผู้สร้างไปป์ไลน์" ซึ่งก็เหมือนกับการสมมติว่าเชฟส่วนใหญ่ "หั่นผัก" มันเป็นส่วนหนึ่งของงาน แต่ไม่ใช่ทั้งหมดของงาน.

โดยทั่วไปแล้ว วิศวกรข้อมูลที่มีความสามารถสูง มัก จะสามารถทำสิ่งเหล่านี้ได้เป็นส่วนใหญ่:

ออกแบบเพื่อรองรับการเปลี่ยนแปลง
ข้อมูลเปลี่ยนแปลง ทีมเปลี่ยนแปลง เครื่องมือเปลี่ยนแปลง วิศวกรที่ดีจะสร้างระบบที่ไม่ล่มสลายทุกครั้งที่ความเป็นจริงเปลี่ยนแปลงไป 🤧
กำหนดสัญญาและความคาดหวัง
“ลูกค้า” หมายถึงอะไร? “ใช้งานอยู่” หมายถึงอะไร? จะเกิดอะไรขึ้นเมื่อข้อมูลมาถึงล่าช้า? สัญญาช่วยป้องกันความวุ่นวายได้ดีกว่าโค้ดที่ซับซ้อนเสียอีก มาตรฐานสัญญาข้อมูลเปิด (ODCS) ODCS (GitHub)
สร้างระบบตรวจสอบได้ในทุกสิ่ง
ไม่ใช่แค่ "มันทำงานหรือไม่" แต่ต้อง "มันทำงานอย่างถูกต้องหรือไม่" ตรวจสอบความสดใหม่ของข้อมูล ความผิดปกติของปริมาณข้อมูล การระเบิดของค่าว่าง การเปลี่ยนแปลงการกระจายตัว การตรวจสอบข้อมูล (Dynatrace) การตรวจสอบข้อมูลคืออะไร?
จงตัดสินใจอย่างมีวุฒิภาวะ
ความเร็วกับความถูกต้อง ต้นทุนกับความล่าช้า ความยืดหยุ่นกับความเรียบง่าย ไม่มีไปป์ไลน์ที่สมบูรณ์แบบ มีแต่ไปป์ไลน์ที่คุณสามารถใช้งานได้อย่างสบายใจ
แปลงความต้องการทางธุรกิจให้เป็นระบบที่ยั่งยืน
ผู้คนเรียกร้องหาตัวชี้วัด แต่สิ่งที่พวกเขาต้องการคือผลิตภัณฑ์ข้อมูล AI สามารถร่างโค้ดได้ แต่ไม่สามารถรู้ถึงอุปสรรคทางธุรกิจได้อย่างมหัศจรรย์
เก็บข้อมูลไว้เป็นความลับ
คำชมที่ดีที่สุดสำหรับแพลตฟอร์มข้อมูลคือไม่มีใครพูดถึงมัน ข้อมูลที่ไม่มีเหตุการณ์อะไรเกิดขึ้นคือข้อมูลที่ดี เหมือนกับระบบประปา คุณจะสังเกตเห็นก็ต่อเมื่อมันเสียเท่านั้น 🚽

ถ้าคุณกำลังทำสิ่งเหล่านี้อยู่ คำถามที่ว่า “AI จะมาแทนที่วิศวกรข้อมูลหรือไม่?” อาจฟังดู...ไม่ค่อยเหมาะสมนัก AI สามารถทดแทน งาน ได้ แต่ไม่ใช่ การ เป็นเจ้าของ

AI ช่วยเหลือวิศวกรข้อมูลได้อย่างไรบ้าง (และมันยอดเยี่ยมจริงๆ) 🤖✨

AI ไม่ใช่แค่การตลาด หากใช้ให้ถูกวิธี มันคือตัวคูณกำลังที่แท้จริง.

1) การประมวลผล SQL และการแปลงข้อมูลที่รวดเร็วยิ่งขึ้น

การร่างแบบการเชื่อมต่อที่ซับซ้อน
การเขียนฟังก์ชันหน้าต่างที่คุณไม่อยากคิดถึง
แปลงตรรกะภาษาธรรมดาให้เป็นโครงร่างคำสั่งค้นหา
การปรับปรุงโครงสร้างคิวรีที่ซับซ้อนให้เป็น CTE ที่อ่านง่าย GitHub Copilot สำหรับ SQL

นี่เป็นเรื่องสำคัญมาก เพราะมันช่วยลดผลกระทบจาก "หน้าว่างเปล่า" คุณยังคงต้องตรวจสอบความถูกต้องอยู่ แต่คุณจะเริ่มต้นที่ 70% แทนที่จะเป็น 0%.

2) ร่องรอยการดีบักและสาเหตุหลัก

AI มีความสามารถที่ดีในด้าน:

การอธิบายข้อความแสดงข้อผิดพลาด
แนะนำว่าควรดูที่ไหน
การแนะนำขั้นตอน "ตรวจสอบความไม่ตรงกันของสคีมา" ใน GitHub Copilot
ก็เหมือนกับการมีวิศวกรฝึกหัดที่ไม่รู้จักเหน็ดเหนื่อย ไม่เคยนอนหลับ และบางครั้งก็โกหกอย่างมั่นใจ 😅

3) การเสริมสร้างเอกสารและแคตตาล็อกข้อมูล

สร้างโดยอัตโนมัติ:

คำอธิบายคอลัมน์
บทสรุปแบบจำลอง
คำอธิบายลำดับวงศ์ตระกูล
เอกสารร่าง dbt ระบุว่า “ตารางนี้ใช้สำหรับอะไร?”

มันอาจจะไม่สมบูรณ์แบบ แต่ก็ช่วยแก้ปัญหาเรื่องท่อส่งข้อมูลที่ไม่ได้รับการบันทึกอย่างเป็นทางการได้.

4) ทดสอบโครงสร้างและตรวจสอบ

AI สามารถเสนอแนะได้ดังนี้:

การทดสอบค่าว่างพื้นฐาน
การตรวจสอบความเป็นเอกลักษณ์
แนวคิดเกี่ยวกับความสมบูรณ์ของการอ้างอิง
ข้อความยืนยันสไตล์ “ค่าตัวเลขนี้ไม่ควรลดลง” จากการทดสอบข้อมูล dbt ความคาดหวังที่ยิ่งใหญ่: ความคาดหวัง

ย้ำอีกครั้ง คุณยังคงเป็นผู้ตัดสินใจว่าอะไรสำคัญ แต่กระบวนการนี้จะช่วยเร่งขั้นตอนที่ซ้ำซากจำเจให้เร็วขึ้น.

5) โค้ด "เชื่อมต่อ" ไปป์ไลน์

เทมเพลตการกำหนดค่า โครงสร้าง YAML ร่าง DAG สำหรับการจัดการกระบวนการทำงาน สิ่งเหล่านี้ซ้ำซาก และ AI ชอบอะไรที่ซ้ำซากมาก 🥣 DAG ของ Apache Airflow

จุดที่ AI ยังคงมีข้อจำกัด (และนี่คือประเด็นสำคัญ) 🧠🧩

นี่คือส่วนที่สำคัญที่สุด เพราะมันตอบคำถามเรื่องการทดแทนได้อย่างแท้จริง.

1) ความกำกวมและการเปลี่ยนแปลงนิยาม

ตรรกะทางธุรกิจมักไม่ชัดเจนเสมอไป คนเราเปลี่ยนใจกลางประโยคได้ “ผู้ใช้งานประจำ” กลายเป็น “ผู้ใช้งานประจำที่จ่ายเงิน” กลายเป็น “ผู้ใช้งานประจำที่จ่ายเงิน ไม่รวมการคืนเงิน ยกเว้นในบางกรณี”… คุณคงเข้าใจดี.

AI ไม่สามารถเป็นเจ้าของความคลุมเครือนั้นได้ มันทำได้เพียงคาดเดาเท่านั้น.

2) ความรับผิดชอบและความเสี่ยง

เมื่อระบบท่อส่งข้อมูลล้มเหลวและแดชบอร์ดของผู้บริหารแสดงข้อมูลที่ไม่ถูกต้อง ใครบางคนต้องรับผิดชอบเรื่องนี้:

การคัดกรอง
สื่อสารผลกระทบ
แก้ไข
ป้องกันการเกิดซ้ำ
เขียนรายงานการชันสูตรศพ
ตัดสินใจว่าธุรกิจยังสามารถเชื่อถือตัวเลขของสัปดาห์ที่แล้วได้หรือไม่

AI สามารถช่วยเหลือได้ แต่ไม่สามารถรับผิดชอบได้อย่างมีนัยสำคัญ องค์กรไม่ได้ดำเนินงานด้วยความรู้สึก แต่ดำเนินงานด้วยความรับผิดชอบ.

3) การคิดเชิงระบบ

แพลตฟอร์มข้อมูลเป็นระบบนิเวศ: การนำเข้า การจัดเก็บ การแปลง การจัดการ การกำกับดูแล การควบคุมต้นทุน และข้อตกลงระดับบริการ (SLA) การเปลี่ยนแปลงในชั้นใดชั้นหนึ่งจะส่งผลกระทบเป็นวงกว้าง แนวคิดของ Apache Airflow

AI อาจเสนอแนวทางการปรับปรุงเฉพาะจุดที่ก่อให้เกิดปัญหาในภาพรวม เหมือนกับการซ่อมประตูที่ส่งเสียงดังเอี๊ยดด้วยการถอดประตูออกไปเลย 😬

4) ความปลอดภัย ความเป็นส่วนตัว และการปฏิบัติตามกฎระเบียบ

ที่นี่คือที่ที่ความฝันเกี่ยวกับการหาคนมาทดแทนจบลง.

การควบคุมการเข้าถึง
การรักษาความปลอดภัยระดับแถว นโยบายการเข้าถึงแถวของ Snowflake การรักษาความปลอดภัยระดับแถวของ BigQuery
การจัดการข้อมูลส่วนบุคคล (PII) ตาม กรอบงานความเป็นส่วนตัวของ NIST
กฎการเก็บรักษา ข้อจำกัดในการจัดเก็บ (ICO) แนวทางของสหภาพยุโรปเกี่ยวกับการเก็บรักษา
บันทึกการตรวจสอบตามมาตรฐาน NIST SP 800-92 (การจัดการบันทึก) และ CIS Control 8 (การจัดการบันทึกการตรวจสอบ)
ข้อจำกัดด้านที่ตั้งของข้อมูล

AI สามารถร่างนโยบายได้ แต่การนำนโยบายเหล่านั้นไปใช้อย่างปลอดภัยนั้นเป็นเรื่องของวิศวกรรมที่แท้จริง.

5) “สิ่งที่ไม่รู้ว่าไม่รู้”

เหตุการณ์ข้อมูลรั่วไหลมักคาดเดาไม่ได้:

API ของผู้ขายเปลี่ยนแปลงความหมายโดยไม่แจ้งให้ทราบล่วงหน้า
สมมติฐานเรื่องเขตเวลาพลิกกลับ
การเติมกลับ (Backfill) จะสร้างสำเนาของพาร์ติชัน
กลไกการลองใหม่ทำให้เกิดการเขียนข้อมูลซ้ำสองครั้ง
ฟีเจอร์ผลิตภัณฑ์ใหม่นำเสนอรูปแบบเหตุการณ์ใหม่

AI จะมีประสิทธิภาพลดลงเมื่อสถานการณ์ไม่เป็นไปตามรูปแบบที่คุ้นเคย.

ตารางเปรียบเทียบ: อะไรลดอะไรบ้างในทางปฏิบัติ 🧾🤔

ด้านล่างนี้คือมุมมองเชิงปฏิบัติ ไม่ใช่ "เครื่องมือที่มาแทนที่คน" แต่เป็นเครื่องมือและแนวทางที่ช่วยลดขนาดงานบางอย่างลง.

เครื่องมือ/วิธีการ	ผู้ชม	ราคาค่อนข้างสูง	เหตุผลที่มันได้ผล
ตัวช่วยเขียนโค้ด AI (SQL + Python) GitHub Copilot	วิศวกรที่เขียนโค้ดจำนวนมาก	จากฟรีไปจนถึงเสียเงิน	เก่งเรื่องการสร้างโครงสร้างพื้นฐาน การปรับโครงสร้างใหม่ ไวยากรณ์...บางครั้งก็หยิ่งผยองในแบบเฉพาะเจาะจง
ตัวเชื่อมต่อ ELT ที่จัดการโดย Fivetran	ทีมงานเบื่อกับการสร้างระบบนำเข้าข้อมูลแล้ว	การสมัครสมาชิก	ขจัดความยุ่งยากในการปรับแต่งการรับประทานอาหาร แต่เพิ่มความสนุกสนานในรูปแบบใหม่ๆ
แพลตฟอร์มการตรวจสอบข้อมูล ) การตรวจสอบข้อมูล (Dynatrace)	ผู้ที่เป็นเจ้าของ SLA ทุกคน	ธุรกิจขนาดกลางถึงขนาดใหญ่	ตรวจจับความผิดปกติได้ตั้งแต่เนิ่นๆ - เหมือนเครื่องตรวจจับควันสำหรับท่อส่ง 🔔
กรอบการแปลงข้อมูล (การสร้างแบบจำลองเชิงประกาศ) dbt	การวิเคราะห์ + ระบบไฮบริด DE	โดยปกติแล้วคือเครื่องมือ + การคำนวณ	ทำให้ตรรกะเป็นแบบโมดูลาร์และทดสอบได้ง่าย ลดความยุ่งเหยิง
แคตตาล็อกข้อมูล + เลเยอร์เชิงความหมาย dbt เลเยอร์เชิงความหมาย	องค์กรที่มีความสับสนเรื่องหน่วยวัด	ขึ้นอยู่กับสถานการณ์ในทางปฏิบัติ	กำหนดนิยามของ “ความจริง” เพียงครั้งเดียว ช่วยลดการถกเถียงเรื่องมาตรวัดที่ไม่จบสิ้น
การจัดการกระบวนการด้วยเทมเพลต Apache Airflow	ทีมที่มุ่งเน้นแพลตฟอร์ม	ค่าใช้จ่ายในการเปิดและดำเนินงาน	ทำให้ขั้นตอนการทำงานเป็นมาตรฐานมากขึ้น ลดจำนวน DAG ที่ซับซ้อนและไม่เป็นระเบียบ
การสร้างเอกสารโดยใช้ AI ช่วย (dbt docs generation)	ทีมที่เกลียดการเขียนเอกสาร	ราคาถูกถึงปานกลาง	สร้างเอกสารที่มีคุณภาพ "เพียงพอ" เพื่อไม่ให้ความรู้สูญหายไป
นโยบายการกำกับดูแลอัตโนมัติ กรอบงานความเป็นส่วนตัวของ NIST	สภาพแวดล้อมที่มีการควบคุม	องค์กรธุรกิจ	ช่วยบังคับใช้กฎระเบียบ - แต่ก็ยังต้องการมนุษย์ในการออกแบบกฎระเบียบอยู่ดี

สังเกตสิ่งที่หายไป: แถวที่เขียนว่า “กดปุ่มเพื่อลบวิศวกรข้อมูล” ใช่แล้ว… แถวนั้นไม่มีอยู่จริง 🙃

แล้ว… AI จะเข้ามาแทนที่วิศวกรข้อมูล หรือแค่เปลี่ยนบทบาทไปเฉยๆ ล่ะ? 🛠️

คำตอบที่ไม่หวือหวาคือ AI จะเข้ามาแทนที่บางส่วนของกระบวนการทำงาน แต่ไม่ใช่เปลี่ยนอาชีพทั้งหมด

แต่มัน จะ ปรับเปลี่ยนบทบาท และถ้าคุณเพิกเฉยต่อเรื่องนั้น คุณจะรู้สึกถึงความกดดัน

สิ่งที่เปลี่ยนแปลง:

ใช้เวลาน้อยลงในการเขียนข้อความสำเร็จรูป
ใช้เวลาน้อยลงในการค้นหาเอกสาร
ใช้เวลามากขึ้นในการตรวจสอบ ยืนยัน และออกแบบ
ใช้เวลามากขึ้นในการกำหนดสัญญาและความคาดหวังด้านคุณภาพ ตามมาตรฐานสัญญาข้อมูลเปิด (ODCS)
ใช้เวลามากขึ้นในการทำงานร่วมกับฝ่ายผลิตภัณฑ์ ฝ่ายรักษาความปลอดภัย และฝ่ายการเงิน

นี่คือการเปลี่ยนแปลงที่แนบเนียน: วิศวกรรมข้อมูลจึงเปลี่ยนจากการ "สร้างไปป์ไลน์" ไปสู่การ "สร้างระบบผลิตภัณฑ์ข้อมูลที่เชื่อถือได้" มากขึ้น

และในแง่ที่คาดไม่ถึง นั่นกลับมีค่ามากกว่า ไม่ใช่น้อยกว่า.

นอกจากนี้ – และฉันจะพูดอย่างนี้แม้ว่ามันจะฟังดูเกินจริงไปบ้าง – AI เพิ่มจำนวนคนที่สามารถสร้างข้อมูลได้ซึ่งทำให้จำเป็นต้องมีคนคอยดูแลให้ทุกอย่างเป็นระเบียบมากขึ้น ผลผลิตที่มากขึ้นหมายถึงความสับสนที่อาจเกิดขึ้นได้มากขึ้น GitHub Copilot

มันเหมือนกับการแจกสว่านไฟฟ้าให้ทุกคนเลย เยี่ยม! ทีนี้ก็ต้องมีคนมาบังคับใช้กฎที่ว่า "ห้ามเจาะท่อน้ำ" แล้วล่ะ 🪠

ทักษะชุดใหม่ที่ยังคงมีคุณค่า (แม้จะมี AI อยู่ทุกหนทุกแห่ง) 🧠⚙️

หากคุณต้องการเช็คลิสต์ที่ใช้งานได้จริงและ "พร้อมรับมือกับอนาคต" มันจะมีลักษณะดังนี้:

แนวคิดการออกแบบระบบ

การสร้างแบบจำลองข้อมูลที่ทนทานต่อการเปลี่ยนแปลง
ข้อดีข้อเสียของการประมวลผลแบบแบทช์เทียบกับการประมวลผลแบบสตรีมมิ่ง
การพิจารณาเรื่องความหน่วงเวลา ต้นทุน และความน่าเชื่อถือ

วิศวกรรมคุณภาพข้อมูล

สัญญา การตรวจสอบความถูกต้อง การตรวจจับความผิดปกติ มาตรฐานสัญญาข้อมูลเปิด (ODCS) การตรวจสอบข้อมูล (Dynatrace)
SLA, SLO, พฤติกรรมการตอบสนองต่อเหตุการณ์
การวิเคราะห์หาสาเหตุที่แท้จริงอย่างมีระเบียบวินัย (ไม่ใช่ตามอารมณ์ความรู้สึก)

โครงสร้างการกำกับดูแลและความไว้วางใจ

รูปแบบการเข้าถึง
ความสามารถในการตรวจสอบตามมาตรฐาน NIST SP 800-92 (การจัดการบันทึกข้อมูล)
ความเป็นส่วนตัวโดยการออกแบบตาม กรอบงานความเป็นส่วนตัวของ NIST
แนวทางปฏิบัติของสหภาพยุโรปเกี่ยวกับการเก็บรักษา ข้อมูลเพื่อการจัดการวงจรชีวิตของข้อมูล

การคิดเชิงแพลตฟอร์ม

แม่แบบที่นำกลับมาใช้ใหม่ได้ เส้นทางทองคำ
รูปแบบมาตรฐานสำหรับการนำเข้า การแปลง และการทดสอบ ข้อมูล Fivetran dbt
เครื่องมือบริการตนเองที่ไม่ละลาย

การสื่อสาร (ใช่แล้ว จริงๆ นะ)

การเขียนเอกสารที่ชัดเจน
การปรับคำจำกัดความให้สอดคล้องกัน
การกล่าวว่า “ไม่” อย่างสุภาพแต่หนักแน่น
อธิบายข้อดีข้อเสียโดยไม่ให้ฟังดูเหมือนหุ่นยนต์ 🤖

หากคุณสามารถทำสิ่งเหล่านี้ได้ คำถามที่ว่า “AI จะเข้ามาแทนที่วิศวกรข้อมูลหรือไม่?” ก็จะดูไม่น่ากลัวอีกต่อไป AI จะกลายเป็นส่วนเสริมที่ช่วยเสริมการทำงานของคุณ ไม่ใช่สิ่งที่จะมาแทนที่ตัวคุณ.

สถานการณ์ที่เป็นไปได้จริงที่บทบาทด้านวิศวกรรมข้อมูลบางส่วนอาจลดลง 📉

โอเค มาตรวจสอบความเป็นจริงกันหน่อย เพราะมันไม่ได้มีแต่เรื่องดีๆ และความสุขสมหวังไปซะทั้งหมด 🎉

บางตำแหน่งงานมีความเสี่ยงมากกว่า:

บทบาทที่เน้นการนำเข้าข้อมูลอย่างเดียว โดยทุกอย่างใช้ตัวเชื่อมต่อมาตรฐาน ของ Fivetran
ทีมส่วนใหญ่ทำรายงานซ้ำซากโดยมีรายละเอียดเชิงลึกน้อยมาก
องค์กรที่มองงานด้านวิศวกรรมข้อมูลเป็นเพียง "คนเขียน SQL" (อาจจะฟังดูรุนแรง แต่เป็นความจริง)
ตำแหน่งงานที่มีอำนาจในการตัดสินใจน้อย ซึ่งงานส่วนใหญ่เป็นการจัดการตั๋วและคัดลอกวาง

AI บวกกับเครื่องมือที่ได้รับการจัดการอย่างดีสามารถลดความต้องการเหล่านั้นลงได้.

แต่ถึงอย่างนั้น การทดแทนก็มักจะมีลักษณะดังนี้:

จำนวนคนที่ทำงานซ้ำซากจำเจลดลง
เน้นย้ำเรื่องความเป็นเจ้าของแพลตฟอร์มและความน่าเชื่อถือมากขึ้น
การเปลี่ยนแปลงไปสู่แนวคิดที่ว่า “คนคนเดียวสามารถสนับสนุนท่อส่งได้หลายท่อ”

ใช่แล้ว รูปแบบจำนวนพนักงานสามารถเปลี่ยนแปลงได้ บทบาทหน้าที่อาจพัฒนาไป ชื่อตำแหน่งอาจเปลี่ยนไป นั่นเป็นเรื่องจริง.

อย่างไรก็ตาม บทบาทในรูปแบบที่มีอำนาจควบคุมสูงและความไว้วางใจสูงยังคงอยู่.

บทสรุปปิดท้าย 🧾✅

AI จะเข้ามาแทนที่วิศวกรข้อมูลหรือไม่? คงไม่ใช่ในแบบที่ทุกคนคิดกันอย่างแน่นอน

AI จะทำสิ่งต่อไปนี้:

ทำให้งานที่ทำซ้ำๆ เป็นไปโดยอัตโนมัติ
เร่งความเร็วในการเขียนโค้ด แก้ไขข้อผิดพลาด และจัดทำเอกสาร GitHub Copilot สำหรับ เอกสาร SQL dbt
ลดต้นทุนการผลิตท่อส่ง

แต่โดยพื้นฐานแล้ว วิศวกรรมข้อมูลเกี่ยวข้องกับ:

ความรับผิดชอบ
การออกแบบระบบ
ความไว้วางใจ คุณภาพ และการกำกับดูแล มาตรฐานสัญญาข้อมูลเปิด (ODCS) กรอบงานความเป็นส่วนตัวของ NIST
แปลงความจริงทางธุรกิจที่ไม่ชัดเจนให้เป็นผลิตภัณฑ์ข้อมูลที่เชื่อถือได้

AI สามารถช่วยในเรื่องนั้นได้… แต่ AI ไม่ได้ “เป็นเจ้าของ” เรื่องนี้.

หากคุณเป็นวิศวกรข้อมูล การเปลี่ยนแปลงนั้นง่าย (ไม่ใช่เรื่องง่าย แต่เป็นเรื่องง่าย):
เน้นความรับผิดชอบ คุณภาพ การคิดเชิงแพลตฟอร์ม และการสื่อสาร ปล่อยให้ AI จัดการงานที่ซ้ำซากจำเจ ในขณะที่คุณจัดการส่วนที่สำคัญจริงๆ

ใช่แล้ว บางครั้งนั่นหมายถึงการเป็นผู้ใหญ่ในห้อง มันอาจดูไม่สวยหรู แต่ทรงพลังอย่างเงียบๆ 😄

AI จะเข้ามาแทนที่วิศวกรข้อมูลหรือไม่?
มันจะเข้ามาแทนที่งานบางอย่าง ปรับเปลี่ยนโครงสร้างสายงาน และทำให้วิศวกรข้อมูลที่เก่งที่สุดมีคุณค่ามากยิ่งขึ้น นั่นคือเรื่องราวที่แท้จริง

ตัวอย่างในโลกแห่งความเป็นจริง: การสร้างเวิร์กโฟลว์การตรวจสอบไปป์ไลน์ข้อมูลโดยใช้ AI ช่วยเหลือ 🛠️

สถานการณ์

ลองนึกภาพบริษัทอีคอมเมิร์ซขนาดเล็กที่มีวิศวกรข้อมูลหนึ่งคน นักวิเคราะห์สองคน และปัญหาที่คุ้นเคยกันดี: แดชบอร์ดทางการเงินพังทุกครั้งที่ผู้ให้บริการชำระเงินเปลี่ยนชื่อฟิลด์.

ทีมงานไม่ต้องการให้ AI “ครอบครอง” กระบวนการทำงานทั้งหมด เพราะนั่นจะมีความเสี่ยงสูง ดังนั้น พวกเขาจึงใช้ AI เป็นผู้ช่วยในการร่างงานเบื้องต้นสำหรับงานประจำแต่สำคัญ เช่น การเขียนโครงร่างโมเดล dbt การแนะนำการทดสอบ การร่างเอกสาร และการสร้างรายการตรวจสอบสำหรับการตรวจทานโค้ด.

วิศวกรข้อมูลที่เป็นมนุษย์ยังคงเป็นเจ้าของแบบร่างขั้นสุดท้าย คำจำกัดความของข้อมูล กฎการเข้าถึง และการนำไปใช้งานจริง AI เพียงแค่ช่วยเร่งความเร็วในขั้นตอนที่ซับซ้อนตรงกลางเท่านั้น.

สิ่งที่เวิร์กโฟลว์ต้องการ

ก่อนที่จะนำ AI มาใช้ ทีมงานได้ให้ข้อมูลบริบทที่เพียงพอเพื่อให้ AI สามารถใช้งานได้อย่างมีประสิทธิภาพ:

โครงสร้างตารางการชำระเงินที่มีอยู่
คำจำกัดความของตัวชี้วัดทางการเงินเป้าหมาย เช่น “รายได้สุทธิ” “จำนวนเงินที่คืน” และ “การชำระเงินที่เสร็จสิ้นแล้ว”
หลักเกณฑ์การตั้งชื่อสำหรับโมเดล dbt
ตัวอย่างของการทดสอบที่ได้รับการอนุมัติ
สัญญาข้อมูลฉบับย่อสำหรับฟีดการชำระเงิน
หลักเกณฑ์สำหรับการจัดการข้อมูลส่วนบุคคล (PII) การชำระเงินที่ไม่สำเร็จ ข้อมูลซ้ำซ้อน และเอกสารที่มาถึงล่าช้า
ตัวอย่างเหตุการณ์ที่เกิดขึ้นในอดีต รวมถึงสิ่งที่ผิดพลาดและวิธีการแก้ไข

ประเด็นสำคัญไม่ใช่การ "ขอให้ AI สร้างไปป์ไลน์" เพราะมันกว้างเกินไป.

แนวทางที่ได้ผลดีกว่าคือ: “นี่คือกฎของเรา นี่คือโครงสร้าง นี่คือพฤติกรรมที่คาดหวัง ร่างเอกสารที่เราสามารถตรวจสอบได้”

ตัวอย่างคำแนะนำ

คุณกำลังช่วยร่างแบบจำลอง DBT สำหรับข้อมูลการชำระเงินของเรา ใช้โครงสร้างและกฎด้านล่างเพื่อสร้างแบบจำลองเบื้องต้น การทดสอบ DBT ที่แนะนำ และหมายเหตุประกอบเอกสาร.

แบบจำลองต้องคำนวณรายได้ที่ชำระแล้วรายวันโดยแยกตาม order_id และ payment_provider ไม่รวมการชำระเงินที่ล้มเหลว ไม่รวมธุรกรรมทดสอบ และหักเงินคืนเฉพาะเมื่อ refund_status = “confirmed” เท่านั้น.

อย่าสร้างคอลัมน์ขึ้นเอง หากคอลัมน์ที่จำเป็นหายไป ให้ระบุไว้ในหัวข้อ “คำถามสำหรับการตรวจสอบโดยมนุษย์” แทนที่จะเดาเอาเอง.

นอกจากนี้ ควรเสนอการทดสอบสำหรับค่าที่ไม่ซ้ำกัน ค่าว่าง ค่าที่ยอมรับได้ และความสมเหตุสมผลของรายได้ ระบุตรรกะใดๆ ที่อาจส่งผลกระทบต่อการรายงานทางการเงินด้วย.

วิธีการทดสอบ

การทดสอบที่เหมาะสมควรมีขนาดเล็กและจงใจให้ดูธรรมดา:

ให้ AI ใช้รูปแบบการชำระเงินที่ใช้งานได้ดีอยู่แล้วรูปแบบหนึ่ง แล้วตรวจสอบว่า AI หลีกเลี่ยงการสร้างฟิลด์ใหม่หรือไม่.
ลองใช้สคีมาหนึ่งอันที่ไม่มีคอลัมน์ refund_status แล้วดูว่ามันจะถามคำถามแทนที่จะเดาหรือไม่.
เรียกใช้คำสั่ง SQL ที่สร้างขึ้นกับชุดข้อมูลทดสอบ ไม่ใช่ชุดข้อมูลใช้งานจริง.
เปรียบเทียบผลลัพธ์กับบันทึกการชำระเงินที่ตรวจสอบด้วยตนเอง 20 รายการ.
ขอให้ผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูลและวิศวกรข้อมูลตรวจสอบคำจำกัดความก่อนทำการรวมข้อมูล.
เพิ่มการทดสอบที่ได้รับการยอมรับลงใน CI เพื่อให้ไปป์ไลน์ตรวจสอบตัวเองอย่างต่อเนื่องหลังจากการปรับใช้.

สิ่งสำคัญคือการทดสอบ AI กับรูปแบบความล้มเหลวที่คุณกลัวมากที่สุด ได้แก่ คอลัมน์ที่สร้างขึ้นมาเอง ตรรกะรายได้ที่ไม่ถูกต้อง การจัดการการคืนเงินที่ขาดหายไป และแถวที่ซ้ำกันโดยไม่แสดงข้อผิดพลาด.

ผลลัพธ์

ผลลัพธ์ตัวอย่าง: อ้างอิงจากการจับเวลาการทำงานของงานเปลี่ยนแปลงไปป์ไลน์ตัวอย่าง 3 งาน ก่อนและหลังการใช้เวิร์กโฟลว์นี้.

ก่อนที่จะนำ AI มาใช้ วิศวกรใช้เวลาประมาณ 5 ชั่วโมง 30 นาทีต่อการเปลี่ยนแปลงหนึ่งครั้ง: ประมาณ 2 ชั่วโมงในการเขียน SQL, 1 ชั่วโมงในการสร้างการทดสอบ, 45 นาทีในการเขียนเอกสาร และเวลาที่เหลือใช้ในการตรวจสอบกรณีพิเศษร่วมกับฝ่ายการเงิน.

เมื่อใช้ AI เฉพาะในขั้นตอนการร่างฉบับแรก การเปลี่ยนแปลงประเภทเดียวกันใช้เวลาประมาณ 2 ชั่วโมง 10 นาที การประหยัดเวลามากที่สุดมาจากการสร้างโครงสร้างทดสอบและการร่างเอกสาร ซึ่งลดลงจาก 1 ชั่วโมง 45 นาที เหลือประมาณ 25 นาที.

ขั้นตอนการตรวจสอบโดยมนุษย์ยังคงใช้เวลาประมาณ 45 นาที และไม่ควรลบออก.

ในการทดสอบสามขั้นตอน AI แนะนำการตรวจสอบ 18 รายการ วิศวกรยอมรับ 11 รายการ แก้ไข 5 รายการ และปฏิเสธ 2 รายการ เนื่องจากสมมติฐานเกี่ยวกับกฎทางธุรกิจที่ไม่เป็นความจริง จำนวนการปฏิเสธนั้นมีความสำคัญ เพราะมันพิสูจน์ให้เห็นว่าขั้นตอนการทำงานจำเป็นต้องได้รับการตรวจสอบ ไม่ใช่การเชื่อใจแบบไร้เหตุผล.

อะไรบ้างที่อาจผิดพลาดได้

AI สามารถทำให้กระบวนการทำงานดูสมบูรณ์กว่าที่เป็นจริงได้.

จุดที่มักเกิดความเสียหาย ได้แก่:

การประดิษฐ์คอลัมน์ที่ฟังดูน่าเชื่อถือ
การปฏิบัติต่อเงินคืน การเรียกเก็บเงินคืน และการชำระเงินที่ไม่สำเร็จว่าเป็นสิ่งเดียวกัน
ปัญหาการละเลยเขตเวลาในการรายงานรายได้รายวัน
เสนอการทดสอบทั่วไปที่ไม่สามารถตรวจจับข้อผิดพลาดทางการเงินได้
การเขียนเอกสารที่ฟังดูมั่นใจแต่ซ่อนความไม่แน่นอนเอาไว้
การละเลยกฎความเป็นส่วนตัวเมื่อข้อมูลตัวอย่างมีรายละเอียดของลูกค้า

หลักการที่ดีคือ: AI สามารถร่างแบบจำลองได้ แต่ต้องมีมนุษย์ตรวจสอบและอนุมัติในส่วนของคำจำกัดความ ตรรกะทางการเงิน การควบคุมการเข้าถึง และการเผยแพร่สู่การใช้งานจริง.

ข้อคิดที่นำไปใช้ได้จริง

คุณค่าที่แท้จริงของ AI ในด้านวิศวกรรมข้อมูลไม่ได้อยู่ที่การ "แทนที่วิศวกรข้อมูล" แต่เป็นการ "ลบหน้ากระดาษเปล่า แล้วทำการตรวจสอบอย่างละเอียด".

นั่นหมายถึงการเขียน SQL ที่เร็วขึ้น การทดสอบที่เร็วขึ้น และเอกสารฉบับร่างที่ดีขึ้นตั้งแต่เริ่มต้น ในขณะที่วิศวกรยังคงรับผิดชอบส่วนที่สำคัญที่สุด นั่นคือ ข้อมูลนั้นถูกต้อง น่าเชื่อถือ ปลอดภัย และสามารถอธิบายได้หรือไม่.

คำถามที่พบบ่อย

AI จะเข้ามาแทนที่วิศวกรข้อมูลอย่างสมบูรณ์หรือไม่?

ในองค์กรส่วนใหญ่ AI มีแนวโน้มที่จะเข้ามาทำงานเฉพาะด้านมากกว่าที่จะเข้ามาแทนที่บทบาทนั้นโดยสิ้นเชิง AI สามารถช่วยเร่งกระบวนการร่าง SQL การสร้างโครงสร้างพื้นฐานของไปป์ไลน์ การตรวจสอบเอกสารเบื้องต้น และการสร้างการทดสอบขั้นพื้นฐานได้ แต่การทำงานด้านวิศวกรรมข้อมูลก็ยังเกี่ยวข้องกับความเป็นเจ้าของและความรับผิดชอบ รวมถึงงานที่ไม่น่าดึงดูดใจอย่างการทำให้ความเป็นจริงทางธุรกิจที่ยุ่งเหยิงทำงานได้เหมือนระบบที่เชื่อถือได้ ส่วนต่างๆ เหล่านั้นยังคงต้องการมนุษย์ในการตัดสินใจว่า "สิ่งที่ถูกต้อง" คืออะไร และรับผิดชอบเมื่อเกิดปัญหาขึ้น.

ปัจจุบัน AI เข้ามาช่วยทำงานด้านวิศวกรรมข้อมูลในส่วนใดบ้างโดยอัตโนมัติ?

AI ทำงานได้ดีที่สุดกับงานที่ทำซ้ำได้ เช่น การร่างและปรับปรุง SQL การสร้างโครงร่างโมเดล dbt การอธิบายข้อผิดพลาดทั่วไป และการสร้างโครงร่างเอกสาร นอกจากนี้ยังสามารถสร้างโครงสร้างพื้นฐานสำหรับการทดสอบ เช่น การตรวจสอบค่าว่างหรือความไม่ซ้ำกัน และสร้างโค้ด "เชื่อมต่อ" แม่แบบสำหรับเครื่องมือจัดการระบบ ข้อดีคือความรวดเร็ว คุณจะเริ่มต้นได้ใกล้เคียงกับวิธีแก้ปัญหาที่ใช้งานได้จริงมากขึ้น แต่คุณยังคงต้องตรวจสอบความถูกต้องและตรวจสอบให้แน่ใจว่าเหมาะสมกับสภาพแวดล้อมของคุณ.

ถ้า AI สามารถเขียน SQL และสร้างไปป์ไลน์ได้ แล้ววิศวกรข้อมูลจะเหลืออะไรให้ทำอีก?

งานของวิศวกรข้อมูลนั้นมากมาย ตั้งแต่การกำหนดสัญญาข้อมูล การจัดการกับการเปลี่ยนแปลงโครงสร้างข้อมูล และการทำให้มั่นใจว่าไปป์ไลน์ข้อมูลนั้นสามารถทำซ้ำได้ ตรวจสอบได้ และกู้คืนได้ วิศวกรข้อมูลใช้เวลาในการตรวจสอบการเปลี่ยนแปลงของตัวชี้วัด สร้างมาตรการป้องกันสำหรับผู้ใช้ปลายทาง และจัดการความสมดุลระหว่างต้นทุนและความน่าเชื่อถือ งานส่วนใหญ่จึงเกี่ยวข้องกับการสร้างความไว้วางใจและทำให้แพลตฟอร์มข้อมูล "สงบ" กล่าวคือมีความเสถียรมากพอที่ไม่มีใครต้องคิดถึงมันในแต่ละวัน.

ปัญญาประดิษฐ์ (AI) เปลี่ยนแปลงการทำงานประจำวันของวิศวกรข้อมูลอย่างไร?

โดยทั่วไปแล้ว มันจะช่วยลดโค้ดซ้ำซ้อนและ "เวลาในการค้นหา" ทำให้คุณใช้เวลาน้อยลงในการพิมพ์และใช้เวลามากขึ้นในการตรวจสอบ ตรวจสอบความถูกต้อง และออกแบบ การเปลี่ยนแปลงนี้จะผลักดันบทบาทไปสู่การกำหนดความคาดหวัง มาตรฐานคุณภาพ และรูปแบบที่นำกลับมาใช้ใหม่ได้ แทนที่จะเขียนโค้ดทุกอย่างด้วยมือ ในทางปฏิบัติ คุณอาจต้องทำงานร่วมกับฝ่ายผลิตภัณฑ์ ฝ่ายรักษาความปลอดภัย และฝ่ายการเงินมากขึ้น เพราะผลลัพธ์ทางเทคนิคสร้างได้ง่ายขึ้น แต่ควบคุมได้ยากขึ้น.

เหตุใด AI จึงประสบปัญหาในการทำความเข้าใจคำจำกัดความทางธุรกิจที่ไม่ชัดเจน เช่น "ผู้ใช้งานที่ใช้งานอยู่"?

เนื่องจากตรรกะทางธุรกิจไม่ได้คงที่หรือแม่นยำเสมอไป มันเปลี่ยนแปลงไปในระหว่างโครงการและแตกต่างกันไปตามผู้มีส่วนได้ส่วนเสีย AI สามารถร่างการตีความได้ แต่ไม่สามารถตัดสินใจได้เมื่อคำจำกัดความเปลี่ยนแปลงไปหรือเกิดความขัดแย้งขึ้น วิศวกรรมข้อมูลมักต้องอาศัยการเจรจา การบันทึกสมมติฐาน และการเปลี่ยนข้อกำหนดที่ไม่ชัดเจนให้เป็นสัญญาที่มั่นคง งาน "การปรับให้เข้ากับมนุษย์" นี้เป็นเหตุผลสำคัญที่ทำให้บทบาทนี้ไม่หายไปแม้ว่าเครื่องมือจะดีขึ้นก็ตาม.

AI สามารถจัดการงานด้านการกำกับดูแลข้อมูล ความเป็นส่วนตัว และการปฏิบัติตามกฎระเบียบได้อย่างปลอดภัยหรือไม่?

AI สามารถช่วยร่างนโยบายหรือเสนอแนวทางได้ แต่การนำไปใช้อย่างปลอดภัยยังคงต้องการวิศวกรรมที่แท้จริงและการกำกับดูแลอย่างรอบคอบ การกำกับดูแลเกี่ยวข้องกับการควบคุมการเข้าถึง การจัดการข้อมูลส่วนบุคคล กฎการเก็บรักษา บันทึกการตรวจสอบ และบางครั้งข้อจำกัดด้านถิ่นที่อยู่ เหล่านี้เป็นพื้นที่ที่มีความเสี่ยงสูงซึ่ง “เกือบถูกต้อง” นั้นยอมรับไม่ได้ มนุษย์ต้องออกแบบกฎ ตรวจสอบการบังคับใช้ และรับผิดชอบต่อผลลัพธ์ของการปฏิบัติตามกฎระเบียบ.

ทักษะใดบ้างที่ยังคงมีค่าสำหรับวิศวกรข้อมูลในขณะที่ปัญญาประดิษฐ์ (AI) พัฒนาขึ้น?

ทักษะที่ทำให้ระบบมีความยืดหยุ่น ได้แก่ การคิดเชิงออกแบบระบบ วิศวกรรมคุณภาพข้อมูล และการกำหนดมาตรฐานที่คำนึงถึงแพลตฟอร์ม สัญญา การตรวจสอบ การตอบสนองต่อเหตุการณ์ และการวิเคราะห์สาเหตุที่แท้จริงอย่างมีระเบียบวินัยจะมีความสำคัญมากยิ่งขึ้นเมื่อมีผู้คนจำนวนมากขึ้นสามารถสร้างข้อมูลได้อย่างรวดเร็ว การสื่อสารก็กลายเป็นปัจจัยสำคัญเช่นกัน การกำหนดคำจำกัดความให้สอดคล้องกัน การเขียนเอกสารที่ชัดเจน และการอธิบายข้อดีข้อเสียโดยปราศจากความขัดแย้ง เป็นส่วนสำคัญในการรักษาความน่าเชื่อถือของข้อมูล.

บทบาทด้านวิศวกรรมข้อมูลใดบ้างที่มีความเสี่ยงมากที่สุดจาก AI และเครื่องมือจัดการข้อมูล?

บทบาทที่เน้นเฉพาะการนำเข้าข้อมูลซ้ำๆ หรือกระบวนการรายงานมาตรฐานนั้นมีความเสี่ยงมากขึ้น โดยเฉพาะอย่างยิ่งเมื่อตัวเชื่อมต่อ ELT ที่ได้รับการจัดการครอบคลุมแหล่งข้อมูลส่วนใหญ่ งานที่มีผู้รับผิดชอบน้อยและขับเคลื่อนด้วยระบบตั๋วอาจลดลงเนื่องจาก AI และนามธรรมช่วยลดความพยายามต่อกระบวนการทำงาน แต่โดยปกติแล้วสิ่งนี้จะหมายถึงจำนวนคนน้อยลงที่ทำงานซ้ำๆ ไม่ใช่ "ไม่มีวิศวกรข้อมูล" บทบาทที่มีความรับผิดชอบสูงซึ่งเน้นความน่าเชื่อถือ คุณภาพ และความไว้วางใจยังคงมีความยั่งยืน.

ฉันควรใช้เครื่องมืออย่าง GitHub Copilot หรือ dbt ร่วมกับ AI อย่างไรโดยไม่ทำให้เกิดความวุ่นวาย?

จงมองผลลัพธ์จาก AI เป็นเพียงร่าง ไม่ใช่ข้อสรุป ใช้มันเพื่อสร้างโครงร่างคำสั่งค้นหา ปรับปรุงความอ่านง่าย หรือสร้างโครงสร้างพื้นฐานสำหรับการทดสอบและเอกสาร dbt จากนั้นตรวจสอบความถูกต้องกับข้อมูลจริงและกรณีพิเศษต่างๆ ควบคู่ไปกับหลักเกณฑ์ที่เข้มงวด เช่น สัญญา มาตรฐานการตั้งชื่อ การตรวจสอบความสามารถในการสังเกตการณ์ และแนวทางการทบทวน เป้าหมายคือการส่งมอบงานที่รวดเร็วขึ้นโดยไม่ลดทอนความน่าเชื่อถือ การควบคุมต้นทุน หรือการกำกับดูแล.

เอกสารอ้างอิง

คณะกรรมาธิการยุโรป - คำอธิบายเกี่ยวกับการคุ้มครองข้อมูล: หลักการของ GDPR - commission.europa.eu
สำนักงานคณะกรรมการข้อมูลข่าวสาร (ICO) - ข้อจำกัดในการจัดเก็บข้อมูล - ico.org.uk
คณะกรรมาธิการยุโรป - ข้อมูลสามารถเก็บรักษาได้นานแค่ไหน และจำเป็นต้องอัปเดตข้อมูลหรือไม่? - commission.europa.eu
สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ (NIST) - กรอบนโยบายความเป็นส่วนตัว - nist.gov
ศูนย์ทรัพยากรความปลอดภัยคอมพิวเตอร์ของ NIST (CSRC) - SP 800-92: คู่มือการจัดการบันทึกความปลอดภัยคอมพิวเตอร์ - csrc.nist.gov
ศูนย์ความปลอดภัยทางอินเทอร์เน็ต (CIS) - การจัดการบันทึกการตรวจสอบ (CIS Controls) - cisecurity.org
เอกสารประกอบการใช้งาน Snowflake - นโยบายการเข้าถึงแถว - docs.snowflake.com
เอกสารประกอบของ Google Cloud - การรักษาความปลอดภัยระดับแถวของ BigQuery - docs.cloud.google.com
BITOL - มาตรฐานสัญญาข้อมูลเปิด (ODCS) เวอร์ชัน 3.1.0 - bitol-io.github.io
BITOL (GitHub) - มาตรฐานสัญญาข้อมูลเปิด - github.com
Apache Airflow - เอกสารประกอบ (เวอร์ชันเสถียร) - airflow.apache.org
Apache Airflow - DAGs (แนวคิดหลัก) - airflow.apache.org
เอกสารประกอบการใช้งาน dbt Labs - dbt คืออะไร? - docs.getdbt.com
เอกสารประกอบการใช้งาน dbt Labs - เกี่ยวกับโมเดล dbt - docs.getdbt.com
เอกสารประกอบการใช้งาน dbt Labs - Documentation - docs.getdbt.com
เอกสารประกอบการใช้งาน dbt Labs - การทดสอบข้อมูล - docs.getdbt.com
เอกสารประกอบการใช้งาน dbt Labs - dbt Semantic Layer - docs.getdbt.com
เอกสารประกอบการใช้งาน FiveTran - เริ่มต้นใช้งาน - fivetran.com
Fivetran - ตัวเชื่อมต่อ - fivetran.com
เอกสารประกอบของ AWS - คู่มือสำหรับนักพัฒนา AWS Lambda - docs.aws.amazon.com
GitHub - GitHub Copilot - github.com
เอกสาร GitHub - การรับคำแนะนำโค้ดใน IDE ของคุณด้วย GitHub Copilot - docs.github.com
Microsoft Learn - GitHub Copilot สำหรับ SQL (ส่วนขยาย VS Code) - learn.microsoft.com
เอกสารประกอบการใช้งาน Dynatrace - การตรวจสอบข้อมูล - docs.dynatrace.com
DataGalaxy - การตรวจสอบข้อมูลคืออะไร? - datagalaxy.com
เอกสารประกอบ Great Expectations - ภาพรวมของ Expectations - docs.greatexpectations.io

ค้นหา AI รุ่นล่าสุดได้ที่ร้านค้าผู้ช่วย AI อย่างเป็นทางการ

เกี่ยวกับเรา

กลับไปที่บล็อก

คำถามที่พบบ่อยเพิ่มเติม

ปัญญาประดิษฐ์จะส่งผลกระทบต่อบทบาทของวิศวกรข้อมูลอย่างไร?

ปัญญาประดิษฐ์ (AI) กำลังจะเปลี่ยนแปลงบทบาทของวิศวกรรมข้อมูลโดยการทำงานอัตโนมัติในงานที่ซ้ำซากจำเจ เช่น การร่างและการจัดทำเอกสาร SQL อย่างไรก็ตาม ความรับผิดชอบระดับสูง เช่น การกำหนดสัญญาข้อมูลและการจัดการคุณภาพข้อมูลยังคงต้องอาศัยความเชี่ยวชาญของมนุษย์.
AI สามารถช่วยทำให้กระบวนการวิศวกรรมข้อมูลเป็นไปโดยอัตโนมัติในส่วนใดได้บ้าง?

AI มีความสามารถโดดเด่นในการทำงานอัตโนมัติ เช่น การสร้างโค้ด SQL การสร้างโครงร่างโมเดล dbt และการร่างโครงร่างเอกสาร ซึ่งช่วยให้วิศวกรเริ่มต้นโครงการได้อย่างมีประสิทธิภาพมากขึ้น แต่การตรวจสอบโดยมนุษย์ยังคงจำเป็นเพื่อให้มั่นใจในความถูกต้อง.
วิศวกรข้อมูลจะกลายเป็นสิ่งล้าสมัยหรือไม่ เมื่อปัญญาประดิษฐ์ (AI) เข้ามามีบทบาทมากขึ้น?

แม้ว่างานบางอย่างอาจถูกทำให้เป็นระบบอัตโนมัติ แต่บทบาทของวิศวกรข้อมูลกำลังเปลี่ยนแปลงไปมากกว่าที่จะหายไป วิศวกรจะมุ่งเน้นไปที่การออกแบบระบบ ความรับผิดชอบ และการกำกับดูแลมากขึ้น ทำให้พวกเขามีคุณค่ามากขึ้นเมื่อ AI ช่วยปรับปรุงกระบวนการทำงานพื้นฐานให้มีประสิทธิภาพยิ่งขึ้น.
เหตุใดการกำกับดูแลโดยมนุษย์จึงยังคงมีความสำคัญในการใช้ AI ในด้านวิศวกรรมข้อมูล?

การกำกับดูแลโดยมนุษย์มีความสำคัญอย่างยิ่ง เนื่องจากวิศวกรรมข้อมูลมักเกี่ยวข้องกับตรรกะทางธุรกิจที่ไม่ชัดเจนและความรับผิดชอบต่อผลลัพธ์ ปัญญาประดิษฐ์ (AI) สามารถช่วยในการร่างแนวทางแก้ไขได้ แต่ไม่สามารถจัดการความซับซ้อนของการกำกับดูแลข้อมูลและการปฏิบัติตามกฎระเบียบได้อย่างครบถ้วน.
ทักษะใดบ้างที่จะมีความสำคัญอย่างยิ่งสำหรับวิศวกรข้อมูล เมื่อเครื่องมือ AI พัฒนาขึ้น?

ทักษะสำคัญที่จะต้องใช้ ได้แก่ การออกแบบระบบ วิศวกรรมคุณภาพข้อมูล การกำหนดข้อตกลงด้านข้อมูล และการสื่อสารที่มีประสิทธิภาพ ด้านเหล่านี้มีความสำคัญอย่างยิ่งต่อการสร้างความน่าเชื่อถือและการปฏิบัติตามกฎระเบียบ เมื่อ AI เข้ามาจัดการงานประจำมากขึ้น.
AI สามารถช่วยเพิ่มประสิทธิภาพการทำงานร่วมกันระหว่างวิศวกรข้อมูลและทีมอื่นๆ ได้อย่างไร?

AI สามารถช่วยลดขั้นตอนการทำงานทางเทคนิค ทำให้วิศวกรข้อมูลสามารถทำงานร่วมกับทีมผลิตภัณฑ์ ทีมรักษาความปลอดภัย และทีมการเงินได้อย่างมีประสิทธิภาพมากขึ้น การเปลี่ยนแปลงนี้ช่วยให้วิศวกรข้อมูลสามารถมุ่งเน้นไปที่การพูดคุยเกี่ยวกับมาตรฐานคุณภาพและความคาดหวัง แทนที่จะมุ่งเน้นแต่การเขียนโค้ดเพียงอย่างเดียว.
ปัญญาประดิษฐ์ (AI) เผชิญกับความท้าทายอะไรบ้างในด้านวิศวกรรมข้อมูล?

ปัญญาประดิษฐ์ (AI) มีปัญหาในการจัดการกับคำจำกัดความที่ไม่ชัดเจนและความสัมพันธ์ที่ซับซ้อนในตรรกะทางธุรกิจ ความไม่สามารถในการคิดเชิงวิเคราะห์หรือเจรจาต่อรองคำจำกัดความหมายความว่าวิศวกรมนุษย์ยังคงมีความสำคัญอย่างยิ่ง.
วิศวกรข้อมูลควรมีแนวทางอย่างไรในการใช้เครื่องมือ AI เช่น GitHub Copilot?

วิศวกรข้อมูลควรใช้เครื่องมือ AI เป็นแบบร่างเพื่อปรับปรุงงานของตน ในขณะเดียวกันก็ต้องรักษาหลักเกณฑ์ที่เข้มงวดสำหรับการตรวจสอบและการกำกับดูแล ซึ่งรวมถึงการตรวจสอบให้แน่ใจว่าผลลัพธ์ตรงตามมาตรฐานคุณภาพและสอดคล้องกับนโยบายขององค์กร.