computer vision

 

ประวัติและความเป็นมาของเทคโนโลยี computer vision

การทดลองรุ่นแรกเริ่มที่เกี่ยวข้องกับเทคโนโลยี computer vision นั้น เริ่มต้นขึ้นในทศวรรษ 1950 โดยใช้ประโยชน์จากนวัตกรรม neural networks รุ่นแรกสุด ด้วยความพยายามที่จะค้นหาขอบและมุมของวัตถุต่าง ๆ และจัดหมวดหมู่ให้แก่รูปทรงอย่างง่าย เช่น รูปทรงกลม หรือรูปสี่เหลี่ยม เป็นต้น ต่อมาในช่วงทศวรรษ 1970 นั้น ได้มีการนำเทคโนโลยีนี้มาใช้เพื่อการพาณิชย์เป็นครั้งแรกโดยการตีความตัวอักษรที่ถูกเขียนหรือพิมพ์ ด้วยเทคนิคการประมวลผลที่เรียกว่า optical character recognition ซึ่งนำไปสู่การตีความตัวหนังสือและข้อความที่เกิดจากการเขียนหรือสิ่งตีพิมพ์ให้แก่ผู้พิการทางสายตา 

การพัฒนาสู่จุดสูงสุดของอินเทอร์เน็ตในช่วงทศวรรษที่ 1990 นั้นส่งผลให้รูปภาพปริมาณมหาศาลถูกนำขึ้นยังระบบออนไลน์และสามารถถูกนำมาทำการวิเคราะห์ได้อย่างไม่หยุดยั้ง ซึ่งเป็นปัจจัยกระตุ้นชั้นดีสำหรับการเติบโตของโปรแกรมการจดจำใบหน้า ข้อมูลปริมาณนับไม่ถ้วนเหล่านี้เติบโตอยู่ตลอดเวลา และช่วยให้อุปกรณ์ต่าง ๆ สามารถทำการระบุตัวตนและจดจำผู้คนต่าง ๆ ได้จากภาพถ่ายและวิดีโอ
ผลของความก้าวหน้าทางเทคโนโลยีเหล่านี้ต่อการพัฒนาด้าน computer vision นั้น เห็นได้อย่างชัดเจน อัตราความแม่นยำของการระบุวัตถุต่าง ๆ และการจัดหมวดหมู่ข้อมูลได้ยกระดับขึ้นจากความแม่นยำร้อยละ 50 มาอยู่ที่ร้อยละ 99 ภายในเวลาไม่ถึงหนึ่งทศวรรษ และระบบในปัจจุบันนี้สามารถตรวจจับและตอบสนองต่อข้อมูลเชิงภาพต่าง ๆ ได้อย่างแม่นยำยิ่งกว่ามนุษย์แล้ว

การทำงานของเทคโนโลยี computer vision นั้นมีหลักการเดียวกันกับตัวต่อจิ๊กซอว์

คอมพิวเตอร์นั้นวิเคราะห์ภาพด้วยหลักการเดียวกันกับที่คุณต่อตัวต่อจิ๊กซอว์นั่นเอง

ลองนึกภาพการต่อตัวต่อภาพหรือจิ๊กซอว์ ซึ่งคุณมีชิ้นส่วนต่าง ๆ กระจัดกระจายอยู่ โดยคุณต้องการนำชิ้นส่วนเหล่านี้มาปะติดปะต่อให้เป็นรูปภาพที่สมบูรณ์ การต่อภาพแบบนี้มีความคล้ายคลึงกันกับการทำโครงข่ายประสาทสำหรับ computer vision (คอมพิวเตอร์วิทัศน์) ซึ่งคือการที่คอมพิวเตอร์จำแนกแยกแยะชิ้นส่วนต่าง ๆ ของภาพ จากนั้นจึงปะติดปะต่อชิ้นส่วนย่อยเข้าด้วยกัน เพื่อให้คอมพิวเตอร์สามารถเข้าใจภาพได้ การทำงานนี้ประกอบด้วยขั้นตอนต่าง ๆ มากมาย เช่น การคัดกรองข้อมูล โดยการทำงานผ่านเครือข่ายแบบ deep network หลายระดับชั้น เพื่อหาความเชื่อมโยงระหว่างชิ้นส่วนย่อยของภาพในรูปแบบเดียวกันกับที่คุณต่อตัวต่อจิ๊กซอว์

ทั้งนี้ คอมพิวเตอร์จะไม่ได้รับภาพผลลัพธ์ที่เป็นเสมือน "เฉลย" เหมือนกับที่เราได้เห็นบนกล่องตัวต่อจิ๊กซอว์  แต่การฝึกฝนให้ระบบสามารถแยกแยะสิ่งต่าง ๆ ได้นั้น จะใช้การป้อนภาพนับร้อย ๆ หรือพัน ๆ ภาพ จนกว่าระบบจะสามารถระบุวัตถุเป้าหมายได้

ตัวอย่างเช่น หากเราต้องการให้คอมพิวเตอร์สามารถระบุได้ว่าภาพใดคือแมว แทนที่เราจะสอนให้ระบบมองหาหนวดแมว หาง และหูของแมว โปรแกรมเมอร์จะป้อนภาพของแมวเป็นล้าน ๆ ภาพให้ระบบทำการศึกษา จนในที่สุดคอมพิวเตอร์จะเรียนรู้ที่จะมองหาคุณลักษณะรูปร่างของสิ่งที่เป็นแมวขึ้นได้ด้วยตนเอง

แหล่งที่มา : https://www.sas.com/th_th/insights/analytics/computer-vision.html

ภาพ: