為什麼電腦視覺很重要?
雖然視覺資訊處理技術已經存在了一段時間,但大部分流程還需要人工介入,並且既費時又容易出錯。例如,在過去實作臉部辨識系統時,開發人員必須使用關鍵資料點手動標記數千張影像,例如鼻樑的寬度以及雙眼間距。自動化這些任務需要大量的運算能力,因為影像資料非結構化且難以用電腦進行整理。因此,對於大多數組織而言,視覺應用程式成本高昂且無法存取。
如今,該領域的進展加上運算能力的顯著提高,兩相結合,即可提高影像資料處理的規模和準確性。電腦視覺系統採用雲端運算資源技術,現在每個人均可存取。任何組織都可以使用該技術進行身分驗證、內容審核、串流影片分析、故障偵測等。
電腦視覺有哪些使用案例?
許多電腦視覺應用程式可在娛樂、商業、醫療保健、交通運輸和日常生活中使用。我們來看看下面的一些使用案例:
安全和保安
政府和企業可使用電腦視覺來提高資產、站點和設施的安全性。例如,攝影機和感應器可監控公共空間、工業用地和高安全性的環境。若出現異常,例如未經授權的個人進入禁區,則其會傳送自動提醒。
同樣,電腦視覺可改進家中和工作場所的人身安全。例如,辨識技術可以監控各種安全相關問題。其中包括家中偵測寵物的即時串流,或偵測訪客或快遞的即時前門攝影機。在工作場所,此類監控包括工人穿戴適當的個人防護設備、通知警告系統或產生報告。
營運效率
電腦視覺可以分析影像並擷取商業智慧的中繼資料,創造新的營收機會和營運效率。例如,它可以:
- 在產品出廠前,自動識別品質瑕疵
- 偵測機器維護和安全問題
- 分析社交媒體影像,以探索客戶行為的趨勢和模式
- 使用自動臉部辨識來驗證員工的身分
醫療保健
醫療保健是套用電腦視覺技術的領先產業之一。顯然,醫學影像分析可以建立器官和組織的視覺化,以幫助醫療專業人員快速準確地做出診斷,從而實現更好的治療結果及延長預期壽命。例如:
- 透過分析痣和皮膚病變進行腫瘤偵測
- 自動 X 射線分析
- 從 MRI 掃描中探索病徵
自動駕駛汽車
自動駕駛汽車技術使用電腦視覺來辨識即時影像,並透過安裝在自動運輸工具上的多個攝影機建立 3D 地圖。其可以分析影像及識別其他道路使用者、道路標示、行人或障礙物。
在半自動駕駛汽車中,電腦視覺使用機器學習 (ML) 來監控駕駛員行為。例如,它會根據駕駛員的頭部位置、眼動追蹤和上半身運動來尋找分心、疲勞和嗜眠的跡象。如果技術出現某些警告訊號,它會向駕駛員發出提醒並減少駕駛事故幾率。
農業
電腦視覺可強化農業部門的整體運作,包括藉助智慧自動化提高生產力及降低成本。衛星成像和無人機影像資料,有助於分析大片土地及改善農業實務。電腦視覺應用程式可自動執行監控農地狀況、識別作物疾病、檢查土壤濕度,以及預測天氣和作物產量等任務。利用電腦視覺監控動物是智慧農業的另一個關鍵策略。
電腦視覺如何運作?
電腦視覺系統使用人工智慧 (AI) 技術來模擬人腦中負責物件識別和物件分類的能力。電腦科學家透過輸入大量資訊來訓練電腦辨識視覺資料。機器學習 (ML) 演算法可識別這些影像或影片中的常見模式,並運用這些知識來準確識別未知影像。例如,若電腦要處理數百萬張汽車影像,它們將開始建置可準確偵測影像中車輛的身分模式。下文列出了電腦視覺使用的技術。
深度學習
深度學習是一種使用神經網路的 ML 類型。深度學習神經網路包含了許多稱為人工神經元的軟體模組層,其可在電腦內部協同運作。他們使用數學計算來自動處理影像資料的不同方面,並逐漸發展出對影像的綜合理解。
卷積神經網路
卷積神經網路 (CNN) 利用標記系統對視覺資料進行分類並理解整張影像。它們以像素為單位分析影像,並為每個像素提供一個標籤值。輸入值以執行卷積這一數學運算,並對影像進行預測。就像試圖遠距辨識物件的人類一樣,CNN 會先識別輪廓和簡單形狀,然後再填入顏色、內部形狀和紋理等其他細節。最後,它會在幾次反覆運作中重複預測流程,以提高準確性。
遞歸神經網路
遞歸神經網路 (RNN) 與 CNN 類似,但可以處理一系列影像以查找它們之間的連結。雖然 CNN 可用於單一影像分析,但 RNN 可以分析影片以及了解影像之間的關係。
電腦視覺可以執行哪些常見任務?
讓我們來看看以下組織可實作的一些電腦視覺任務範例。
影像分類
影像分類可讓電腦檢視影像,並準確地將影像進行分類。電腦視覺可了解分類並將其進行標記,例如樹、飛機或建築物。一個範例是,攝影機可以辨識相片中的臉部並在其上聚焦。
物件偵測
物件偵測是一項用於偵測和本地化影像的電腦視覺任務。它可使用分類來識別、排序和組織影像。物件偵測可在工業和製造流程中使用,以控制自治應用程式及監控生產線。連網家庭攝影機製造商和服務供應商也仰賴物件偵測來處理攝影機的即時影片串流,以便即時偵測人員和物件並向最終使用者提供可行的提醒。
物件追蹤
物件追蹤使用深度學習模型來識別和追蹤屬於類別的項目。它在多個產業中具有多種實際應用。物件追蹤的第一個元素是物件偵測;物件周圍建立了一個週框方塊,會指定物件 ID,而且可以透過畫面追蹤。例如,物件追蹤可用於城市環境中的交通監控、人體監控和醫學成像。
區隔
區隔是一種電腦視覺演算法,可根據看到的像素,將物件的影像分割至不同的區域,進而識別物件。區隔還可以簡化影像,例如放置項目的形狀或輪廓,以判斷它是什麼。如此一來,區隔也可辨識影像或畫面中是否有多個物件。
例如,如果影像中有貓和狗,則可以使用區隔來識別這兩種動物。與在物件周圍建立方塊的物件偵測不同,區隔會追蹤像素,以判斷物件的形狀,進而能夠更輕鬆地進行分析和標記。
以內容為基礎的影像擷取
以內容為基礎的影像擷取是一種電腦視覺技術應用,可以在大型資料庫中搜尋特定的數位影像。它可分析標籤、描述、標記和關鍵字等中繼資料。語意擷取則使用諸如「查找建築物的圖片」之類的命令來擷取適當的內容。
電腦視覺和影像處理有何區別?
影像處理使用演算法來變更影像,包括銳化、平滑化、加濾鏡或強化。電腦視覺則與此不同,因為它不會變更影像,而是理解它看到的內容,然後執行任務,例如標記。在某些情況下,您可以使用影像處理來修改影像,以便電腦視覺系統能夠更好地理解影像。在其他情況下,您可以使用電腦視覺來識別影像或影像的部分,然後使用影像處理來進一步修改影像。
AWS 如何協助您處理電腦視覺任務?
AWS 針對各專業層級客戶提供最廣泛、最完整的人工智慧和機器學習 (AI/ML) 服務組合,這些服務可連線至全方位資料來源。
針對在架構上建置以及管理自己的基礎設施的客戶,我們對最熱門的深度學習架構版本進行了最佳化,包括 PyTorch、MXNet 和 TensorFlow。AWS 提供廣泛且有深度的運算、聯網和儲存基礎設施 ML 服務組合,您可自行選擇處理器和加速器,來滿足自己的獨特效能和預算需求。
針對想要在其業務中建立標準電腦視覺解決方案的客戶,Amazon SageMaker 可透過全受管基礎設施、工具和工作流程,輕鬆準備資料,以及建置、訓練和部署 ML 模型,包括適用於商業分析師的無程式碼服務。
針對缺乏 ML 技能、需要加速上市,或想要為現有程序或應用程式新增智慧的客戶,AWS 提供一系列以 ML 為基礎的電腦視覺服務。這些服務可讓您透過預先訓練的 API 輕鬆將智慧新增至 AI 應用程式。Amazon Rekognition 透過 ML 自動化影像和影片分析,並可在幾秒鐘內分析數百萬影像、即時串流和儲存的影片。Amazon Deep Lens 是全球首創具深度學習功能的開發人員專用攝影機,可透過電腦視覺專案、教學及使用實體裝置進行真實世界實作探索,了解深度學習的基本知識。
立即建立免費的 AWS 帳戶,開始使用電腦視覺。