คอมพิวเตอร์วิทัศน์คืออะไร
คอมพิวเตอร์วิชันเป็นเทคโนโลยีที่เครื่องใช้ในการรับรู้ภาพโดยอัตโนมัติและอธิบายภาพเหล่านั้นได้อย่างถูกต้องและมีประสิทธิภาพ ปัจจุบัน ระบบคอมพิวเตอร์สามารถเข้าถึงแหล่งที่มาของข้อมูลรูปภาพและวิดีโอที่มาจากหรือสร้างโดยสมาร์ทโฟน กล้องจราจร ระบบรักษาความปลอดภัย และอุปกรณ์อื่นๆ แอปพลิเคชันคอมพิวเตอร์วิชันมีการใช้ปัญญาประดิษฐ์และแมชชีนเลิร์นนิง (AI/ML) เพื่อประมวลผลข้อมูลนี้อย่างแม่นยำสำหรับการระบุวัตถุและการจดจำใบหน้า ตลอดจนการจำแนกประเภท การให้คำแนะนำ การตรวจสอบ และการตรวจจับ
ทำไมคอมพิวเตอร์วิชันจึงสำคัญ
ในขณะที่เทคโนโลยีการประมวลผลข้อมูลภาพที่มีอยู่ในบางอย่าง กระบวนการส่วนใหญ่นั้นจำเป็นต้องดำเนินการโดยมนุษย์ ซึ่งใช้เวลานานและเกิดข้อผิดพลาดได้ง่าย ตัวอย่างเช่น การใช้ระบบจดจำใบหน้าในอดีตจำเป็นต้องให้นักพัฒนาดำเนินการแท็กภาพหลายพันภาพด้วยตนเองโดยใช้จุดข้อมูลสำคัญ เช่น ความกว้างของสันจมูก ระยะห่างระหว่างดวงตา เป็นต้น การสั่งให้ระบบการทำงานเหล่านี้ดำเนินการโดยอัตโนมัติจำเป็นต้องใช้พลังการประมวลผลที่ครอบคลุม เนื่องจากข้อมูลภาพไม่มีโครงสร้างและซับซ้อนสำหรับคอมพิวเตอร์ในการจัดระเบียบ ดังนั้น แอปพลิเคชันวิชันจึงมีราคาแพง ทำให้องค์กรส่วนใหญ่ไม่สามารถเข้าถึงได้
ปัจจุบัน ความก้าวหน้าในด้านนี้ผสานรวมกับพลังการประมวลผลที่เพิ่มขึ้นอย่างมากได้ปรับปรุงทั้งขนาดและความแม่นยำของการประมวลผลข้อมูลภาพ ทุกคนจึงสามารถเข้าถึงระบบคอมพิวเตอร์วิชันที่ขับเคลื่อนด้วยทรัพยากรการประมวลผลบนคลาวด์ได้แล้ววันนี้ องค์กรใดก็ตามสามารถใช้เทคโนโลยีนี้ในการยืนยันตัวตน การกลั่นกรองเนื้อหา การวิเคราะห์การสตรีมวิดีโอ การตรวจจับข้อผิดพลาด และอีกมากมาย
กรณีใช้งาน
คอมพิวเตอร์วิชันทำงานอย่างไร
ระบบคอมพิวเตอร์วิชันจะใช้เทคโนโลยีปัญญาประดิษฐ์ (AI) เพื่อเลียนแบบความสามารถของสมองมนุษย์ที่มีหน้าที่ในการรับรู้วัตถุและการจำแนกวัตถุ นักวิทยาศาสตร์คอมพิวเตอร์ได้ฝึกคอมพิวเตอร์ให้รู้จักข้อมูลภาพโดยการป้อนข้อมูลจำนวนมากเข้าไป อัลกอริทึมแมชชีนเลิร์นนิง (ML) จะระบุรูปแบบทั่วไปในภาพหรือวิดีโอเหล่านี้ และนำความรู้ดังกล่าวไปใช้ในการระบุภาพที่ไม่รู้จักได้อย่างถูกต้อง ตัวอย่างเช่น ถ้าคอมพิวเตอร์ประมวลผลภาพรถยนต์เป็นล้านภาพ ก็จะเริ่มสร้างรูปแบบอัตลักษณ์ที่สามารถตรวจจับยานพาหนะในภาพได้อย่างถูกต้อง คอมพิวเตอร์วิชันมีการใช้เทคโนโลยีดังตัวอย่างด้านล่าง
ดีปเลิร์นนิ่ง
ดีปเลิร์นนิงเป็น ML ประเภทหนึ่งที่ใช้นิวรัลเน็ตเวิร์ก นิวรัลเน็ตเวิร์กแบบดีปเลิร์นนิงถูกสร้างขึ้นจากโมดูลซอฟต์แวร์หลายชั้นที่เรียกว่าเซลล์ประสาทเทียมที่ทำงานร่วมกันภายในคอมพิวเตอร์ ซึ่งใช้ในการคำนวณทางคณิตศาสตร์เพื่อประมวลผลด้านต่างๆ ของข้อมูลภาพโดยอัตโนมัติ และค่อยๆ พัฒนาความเข้าใจร่วมกันของภาพ
นิวรัลเน็ตเวิร์คแบบสังวัตนาการ
นิวรัลเน็ตเวิร์กแบบสังวัตนาการ (CNN) ใช้ระบบการติดป้ายกำกับเพื่อจัดหมวดหมู่ข้อมูลภาพและทำความเข้าใจภาพทั้งหมด ซึ่งจะวิเคราะห์ภาพเป็นพิกเซลและระบุค่าป้ายกำกับให้แต่ละพิกเซล โดยมีการป้อนค่าดังกล่าวเพื่อใช้ดำเนินการทางคณิตศาสตร์ที่เรียกว่าสังวัตนาการและใช้คาดการณ์เกี่ยวกับภาพ เช่นเดียวกับมนุษย์ที่พยายามจะรับรู้วัตถุในระยะไกล อันดับแรก CNN จะระบุเค้าร่างและรูปร่างที่เรียบง่ายก่อนที่จะป้อนรายละเอียดเพิ่มเติม เช่น สี รูปแบบภายใน และเนื้อสัมผัส จนท้ายที่สุดก็กลับมาดำเนินกระบวนการคาดการณ์ซ้ำอีกหลายครั้งเพื่อปรับปรุงความถูกต้องแม่นยำ
นิวรัลเน็ตเวิร์กแบบวนซ้ำ
นิวรัลเน็ตเวิร์กแบบวนซ้ำ (RN) คล้ายกับ CNN แต่สามารถประมวลภาพเป็นชุดเพื่อค้นหาความเชื่อมโยงระหว่างกันได้ ในขณะที่ CNN จะถูกใช้ในการวิเคราะห์ภาพเดียว แต่ RNN สามารถวิเคราะห์วิดีโอและทำความเข้าใจความสัมพันธ์ระหว่างภาพได้
คอมพิวเตอร์วิชันและการประมวลผลภาพแตกต่างกันอย่างไร
การประมวลผลภาพจะใช้อัลกอริทึมในการปรับเปลี่ยนภาพ รวมถึงการปรับความคมชัด การปรับให้เรียบ การใส่ฟิลเตอร์ หรือการปรับปรุงประสิทธิภาพ คอมพิวเตอร์วิชันจึงแตกต่างออกไปเพราะมันไม่ได้ปรับเปลี่ยนภาพ แต่ทำความเข้าใจสิ่งที่เห็นและดำเนินงานแทน เช่น การติดป้ายกำกับ ในบางกรณี คุณสามารถใช้การประมวลผลภาพเพื่อปรับเปลี่ยนภาพเพื่อให้ระบบคอมพิวเตอร์วิชันสามารถเข้าใจภาพนั้นได้ดียิ่งขึ้น สำหรับกรณีอื่นๆ คุณสามารถใช้คอมพิวเตอร์วิชันในการระบุภาพหรือส่วนต่างๆ ของภาพ จากนั้นจึงใช้การประมวลผลภาพเพื่อแก้ไขภาพต่อไปได้
งานทั่วไปที่คอมพิวเตอร์วิชันสามารถดำเนินการได้มีอะไรบ้าง
การจัดหมวดหมู่รูปภาพ
การจัดหมวดหมู่ภาพช่วยให้คอมพิวเตอร์มองเห็นภาพและสามารถจำแนกประเภทภาพนั้นๆ ได้อย่างถูกต้อง คอมพิวเตอร์วิชันเข้าใจประเภทและดำเนินติดป้ายกำกับ เช่น ต้นไม้ เครื่องบิน หรืออาคาร อีกตัวอย่างหนึ่งคือการที่กล้องสามารถจดจำใบหน้าในภาพถ่ายและโฟกัสไปที่ใบหน้าเหล่านั้นได้
การตรวจจับวัตถุ
การตรวจจับวัตถุเป็นงานของคอมพิวเตอร์วิชันในการตรวจจับและการแปลภาพ โดยใช้การจำแนกประเภทเพื่อระบุ เรียงลำดับ และจัดระเบียบภาพ การตรวจจับวัตถุถูกใช้ในกระบวนการอุตสาหกรรมและการผลิตเพื่อควบคุมการใช้งานที่เป็นอิสระและตรวจสอบสายการผลิต นอกจากนี้ ผู้ผลิตกล้องสำหรับใช้ในบ้านและผู้ให้บริการที่เชื่อมโยงกันยังต้องพึ่งพาการตรวจจับวัตถุในการประมวลผลการสตรีมวิดีโอสดจากกล้องเพื่อตรวจจับผู้คนและวัตถุแบบเรียลไทม์ และดำเนินการแจ้งเตือนที่ใช้ได้จริงแก่ผู้ใช้ปลายทางของพวกเขา
การติดตามวัตถุ
การติดตามวัตถุจะใช้โมเดลดีปเลิร์นนิงในการระบุและติดตามสิ่งที่อยู่ในหมวดหมู่ต่างๆ โดยมีการใช้งานจริงในหลายอุตสาหกรรม องค์ประกอบแรกของการติดตามวัตถุคือการตรวจจับวัตถุ โดยจะมีการสร้างกรอบแสดงขอบเขตรอบวัตถุ กำหนด ID ของวัตถุ จากนั้นจึงสามารถติดตามวัตถุดังกล่าวผ่านเฟรมได้ ตัวอย่างเช่น การติดตามวัตถุสามารถใช้ในการตรวจสอบการจราจรในสภาพแวดล้อมในเมือง การเฝ้าระวังมนุษย์ และการถ่ายภาพทางการแพทย์
การแบ่งส่วน
การแบ่งส่วนเป็นอัลกอริทึมของคอมพิวเตอร์วิชันที่จะระบุวัตถุโดยแบ่งภาพในระบบออกเป็นส่วนต่างๆ ตามพิกเซลที่เห็น นอกจากนี้ การแบ่งส่วนยังช่วยลดความซับซ้อนของภาพ เช่น การวางรูปร่างหรือเค้าร่างของวัตถุเพื่อกำหนดว่ามันคืออะไร ซึ่งเมื่อทำเช่นนั้นแล้ว การแบ่งส่วนจึงทำให้รับรู้ได้ว่ามีวัตถุมากกว่าหนึ่งรายการในภาพหรือเฟรมนั้นๆ
ตัวอย่างเช่น ถ้ามีแมวและสุนัขอยู่ในภาพ ก็สามารถใช้การแบ่งส่วนในการรับรู้สัตว์สองตัวได้ ซึ่งแตกต่างจากการตรวจจับวัตถุที่มีการสร้างกรอบรอบวัตถุ การแบ่งส่วนจะตรวจตามพิกเซลเพื่อหารูปร่างของวัตถุ ทำให้สามารถวิเคราะห์และติดป้ายกำกับได้ง่ายขึ้น
การเรียกดูภาพตามเนื้อหา
การเรียกดูภาพตามเนื้อหาเป็นการประยุกต์ใช้เทคนิคคอมพิวเตอร์วิชันที่สามารถค้นหาภาพดิจิทัลที่เฉพาะเจาะจงในฐานข้อมูลขนาดใหญ่ได้ โดยจะวิเคราะห์ข้อมูลเมตา เช่น แท็ก คำอธิบาย ป้ายกำกับ และคำหลัก การเรียกดูตามความหมายจะมีการใช้คำสั่ง เช่น 'ค้นหารูปภาพอาคาร' เพื่อเรียกดูเนื้อหาที่เหมาะสม
AWS ช่วยงานด้านคอมพิวเตอร์วิชันของคุณอย่างไรบ้าง
AWS มอบชุดบริการปัญญาประดิษฐ์และแมชชีนเลิร์นนิง (AI/ML) ที่ครบถ้วนและสมบูรณ์ที่สุดซึ่งเชื่อมต่อกับแหล่งที่มาของข้อมูลที่ครอบคลุมเพื่อลูกค้าในทุกระดับความเชี่ยวชาญ
สำหรับลูกค้าที่มีการสร้างบนเฟรมเวิร์กและจัดการโครงสร้างพื้นฐานของตนเอง เราได้เพิ่มประสิทธิภาพของเวอร์ชันเฟรมเวิร์กดีปเลิร์นนิงที่เป็นที่นิยมมากที่สุด รวมถึง PyTorch, MXNet และ TensorFlow AWS มอบพอร์ตโฟลิโอเชิงลึกและครอบคลุมสำหรับบริการด้าน ML โครงสร้างพื้นฐานของการประมวลผล ระบบเครือข่าย และการจัดเก็บ พร้อมด้วยตัวประมวลผลและตัวเร่งที่หลากหลายเพื่อตอบสนองความต้องการด้านงบประมาณและประสิทธิภาพอย่างโดดเด่น
สำหรับลูกค้าที่ต้องการสร้างโซลูชันคอมพิวเตอร์วิชันแบบมาตรฐานสำหรับธุรกิจ Amazon SageMaker จะช่วยอำนวยความสะดวกในการเตรียมข้อมูลเพื่อสร้าง ฝึก และปรับใช้โมเดล ML สำหรับกรณีการใช้งานใดก็ตามด้วยโครงสร้างพื้นฐาน เครื่องมือ และเวิร์กโฟลว์ที่มีการจัดการเต็มรูปแบบ รวมถึงข้อเสนอแบบที่ไม่ต้องใช้โค้ดสำหรับนักวิเคราะห์ธุรกิจ
สำหรับลูกค้าที่ยังขาดทักษะด้าน ML และต้องการออกสู่ตลาดเร็วขึ้น หรือต้องการเพิ่มความอัจฉริยะให้กับกระบวนการหรือแอปพลิเคชันที่มีอยู่ AWS ขอนำเสนอบริการคอมพิวเตอร์วิชันแบบ ML ที่หลากหลาย บริการเหล่านี้ช่วยให้คุณเพิ่มความฉลาดให้กับแอปพลิเคชัน AI ของคุณได้อย่างง่ายดายผ่าน API ที่ผ่านการฝึกล่วงหน้ามาแล้ว Amazon Rekognition ทำให้การวิเคราะห์ภาพและวิดีโอของคุณเป็นแบบอัตโนมัติด้วย ML โดยจะวิเคราะห์ภาพ การสตรีมสด และวิดีโอที่จัดเก็บนับล้านรายการในไม่กี่วินาที
เริ่มต้นใช้งานคอมพิวเตอร์วิชันด้วยการสร้างบัญชี AWS ฟรีวันนี้