Ứng dụng Kiểm tra chất lượng trong sản xuất bằng Deep Learning và Computer Vision – Industrial IoT & Smart Factory VN

0 2

Cải thiện năng suất sản xuất bằng cách loại bỏ vật liệu kém chất lượng bằng nhận dạng hình ảnh và trí tuệ nhân tạo.

Tác giả: Partha Deka và Rohit Găngal

 

Tự động hóa trong sản xuất công nghiệp

CÓ THỂ BẠN CHƯA BIẾT

Ngày nay mức độ tự động hóa trong sản xuất cũng đòi hỏi tự động hóa kiểm tra chất lượng vật liệu với rất ít sự can thiệp của con người. Xu hướng của sản xuất là đạt được độ chính xác ở cấp độ cao hơn ở con người hoặc nhiều hơn trong kiểm tra chất lượng với sự tự động hóa. Để duy trì tính cạnh tranh, các công ty công nghiệp hiện đại cố gắng đạt được cả số lượng và chất lượng với tự động hóa mà không ảnh hưởng đến nhau. 

Bài viết này SmartfactoryVN dịch lại 1 chủ đề đưa người dùng thông qua trường hợp sử dụng Học sâu – Deep Learning và thể hiện nhu cầu tối ưu hóa toàn bộ ngăn xếp (thuật toán, khung suy luận và bộ tăng tốc phần cứng) để có được hiệu suất tối ưu.

Để đáp ứng các kỳ thanh tra chất lượng tiêu chuẩn công nghiệp trong các công ty sản xuất thường kiểm tra chất lượng sản phẩm sau khi sản phẩm được sản xuất, đó là một nỗ lực tốn thời gian và sản phẩm bị từ chối dẫn đến lãng phí công suất nhà máy, hàng tiêu dùng, nhân công và chi phí. 

Với xu hướng hiện đại của Trí tuệ nhân tạo, các công ty công nghiệp đang tìm cách sử dụng công nghệ thị giác máy tính dựa trên Deep Learning trong chính chu kỳ sản xuất để tự động kiểm tra chất lượng vật liệu. 

 

Mục tiêu là để giảm thiểu sự can thiệp của con người đồng thời đạt độ chính xác ở cấp độ con người trở lên cũng như tối ưu hóa năng lực của nhà máy, chi phí lao động, v.v … Việc sử dụng Học sâu – Deep Learning rất đa dạng, từ phát hiện đối tượng trong xe tự lái đến phát hiện bệnh bằng hình ảnh y tế,  Học sâu – Deep Learning đã chứng minh để đạt được độ chính xác của con người & tốt hơn.

Ứng dụng Deep Learning nhận dạng thực phẩm

 

CÓ THỂ BẠN CHƯA BIẾT

Học sâu – Deep Learning là lĩnh vực học đại diện có cấu trúc sâu và không cấu trúc của dữ liệu. Học sâu – Deep Learning là xu hướng phát triển trong AI để trừu tượng hóa kết quả tốt hơn khi dữ liệu lớn và phức tạp. Kiến trúc Deep Learning bao gồm các lớp sâu của Mạng lưới nơ-ron thần kinh như lớp đầu vào, lớp ẩn và lớp đầu ra. Các lớp ẩn được sử dụng để hiểu các cấu trúc phức tạp của dữ liệu. Một Mạng lưới nơ-ron thần kinh không cần phải được lập trình để thực hiện một nhiệm vụ phức tạp. Từ Gigabyte đến terabyte dữ liệu được đưa vào kiến ​​trúc mạng nơ-ron thần kinh để tự học. Mẫu Mạng lưới nơ-ron thần kinh sâu bên dưới:

 

Mạng lưới nơ-ron thần kinh kết hợp 

Mạng nơ-ron thần kinh chuyển đổi là một lớp của mạng nơ ron sâu thường được áp dụng trong phân tích hình ảnh. Các lớp kết hợp áp dụng một hoạt động tích chập cho đầu vào chuyển kết quả sang lớp tiếp theo. 

Ví dụ: hình ảnh 1000 x 1000 pixel có 1 triệu tính năng. Nếu lớp ẩn đầu tiên có 1000 nơ-ron, thì cuối cùng nó có 1 tỷ tính năng sau lớp ẩn đầu tiên. Với nhiều tính năng đó, thật khó để ngăn chặn một Mạng lưới nơ-ron thần kinh bị quá tải với ít dữ liệu hơn. Các yêu cầu tính toán và bộ nhớ để đào tạo một Mạng lưới nơ-ron thần kinh với hàng tỷ tính năng là nghiêm cấm. Hoạt động tích chập mang lại một giải pháp cho vấn đề này vì nó làm giảm số lượng các tính năng miễn phí, cho phép mạng sâu hơn với ít tính năng hơn.

Mạng nơ-ron thần kinh chuyển đổi tìm kiếm các mẫu trong một hình ảnh. Hình ảnh được tích hợp với một ma trận nhỏ hơn và tích chập này tìm kiếm các mẫu trong hình ảnh. Một vài lớp đầu tiên có thể xác định các đường / góc / cạnh, v.v. và các mẫu này được truyền vào các lớp mạng nơ-ron thần kinh sâu hơn để nhận ra các tính năng phức tạp hơn. Thuộc tính này của CNNs thực sự tốt trong việc xác định các đối tượng trong hình ảnh.

Mạng nơ-ron thần kinh chuyển đổi (hay còn gọi là ConvNet) không là gì ngoài một chuỗi các lớp. Ba loại lớp chính được sử dụng để xây dựng các kiến ​​trúc ConvNet: Lớp Convolutional , Lớp tổng hợp và Lớp được kết nối đầy đủ . Các lớp này được xếp chồng các lớp để tạo thành một kiến trúcConvNet đầy đủ :

Nguồn hình ảnh: http://cs231n.github.io/convolutional-networks/

Hình ảnh dưới đây làm rõ khái niệm về một lớp chập :

CÓ THỂ BẠN CHƯA BIẾT

Hình ảnh dưới đây làm rõ khái niệm về một lớp gộp (gộp trung bình hoặc tối đa) :

Sau đây là một trong những kiến ​​trúc CNN ban đầu:

 

Visualization CNN :

Sau đây là hình ảnh của vết nứt trên bề mặt trơn:

Hai lớp mỗi Conv (một bộ lọc 3X3), ReLU và Max Pooling (2X2) tương tự kiến ​​trúc LENET-5 được áp dụng cho hình ảnh vết nứt ở trên. Có thể thấy bên dưới kiến ​​trúc CNN đang tập trung vào các khối của khu vực vết nứt và sự lan rộng của nó trên khắp bề mặt:

Nghiên cứu điển hình

Để duy trì tính bảo mật cho công việc của chúng tôi, chúng tôi đang trình bày một trường hợp sử dụng minh hoạ dưới đây:

 

Báo cáo vấn đề

Phát hiện vật liệu kém chất lượng trong sản xuất phần cứng là một quá trình thủ công dễ bị lỗi và tốn thời gian và dẫn đến kết quả dương tính giả (phát hiện một vật liệu xấu là tốt). Nếu một bộ phận / bộ phận bị lỗi được phát hiện ở cuối dây chuyền sản xuất, có sự mất mát về lao động thượng nguồn, hàng tiêu dùng, công suất nhà máy cũng như doanh thu. Mặt khác, nếu một phần xấu không được phát hiện vào sản phẩm cuối cùng sẽ có tác động của khách hàng cũng như phản ứng của thị trường. Điều này có khả năng dẫn đến thiệt hại không thể sửa chữa cho danh tiếng của tổ chức.

Tóm tắt 

Chúng tôi tự động phát hiện lỗi trên các sản phẩm phần cứng bằng cách Học sâu – Deep Learning. Trong quá trình sản xuất phần cứng của chúng tôi, có thể có những hư hỏng / vết nứt như vậy làm cho sản phẩm của chúng tôi không thể sử dụng được cho các quy trình tiếp theo trong dây chuyền sản xuất. 

Ứng dụng Học sâu – Deep Learning của chúng tôi đã phát hiện ra khuyết tật như vết nứt / vết xước tính bằng mili giây với độ chính xác ở cấp độ con người và tốt hơn cũng như diễn giải khu vực khiếm khuyết trong ảnh bằng Deep Learning.

 

Chi tiết về Kiến trúc Deep Learning của chúng tôi 

Để mô tả mọi thứ tốt hơn, chúng tôi đang sử dụng một hình ảnh ví dụ về bảng mạch với chip tích hợp bên dưới:

 

Cách tiếp cận đầu tiên

Chúng tôi đã áp dụng kết hợp phương pháp tiếp cận thị giác máy tính thuần túy (phương pháp học máy không) để trích xuất vùng quan tâm (ROI- Region of Interest) từ hình ảnh gốc và phương pháp Học sâu – Deep Learning thuần túy để phát hiện các khiếm khuyết trong ROI- Region of Interest.

Tại sao khai thác ROI- Region of Interest trước DL ?

Trong khi chụp ảnh, cụm camera, ánh sáng, vv đang tập trung vào toàn bộ khu vực của mạch (ví dụ hình ảnh bên dưới). Chúng tôi chỉ kiểm tra các khu vực chip cho các khiếm khuyết và không có khu vực khác trong mạch. Chúng tôi đã tìm thấy với một vài thí nghiệm rằng độ chính xác của DL tăng đáng kể khi các mạng nơ-ron thần kinh chỉ tập trung vào lĩnh vực quan tâm hơn là toàn bộ khu vực.

  • Trích xuất đầu tiên Vùng quan tâm (ROI- Region of Interest) với Computer Vision (Phương pháp học không bằng máy). Ở đây, chúng ta trải qua nhiều quá trình trên hình ảnh như chia tỷ lệ xám, biến đổi như xói mòn, giãn nở, đóng hình ảnh, v.v … và cuối cùng loại bỏ ROI- Region of Interest khỏi hình ảnh dựa trên loại trường hợp sử dụng / loại sản phẩm, v.v. cũng giống như xói mòn đất – nó làm xói mòn ranh giới của đối tượng tiền cảnh. Sự giãn nở chỉ ngược lại với sự xói mòn – nó làm tăng kích thước của đối tượng tiền cảnh. Thông thường, trong các trường hợp như loại bỏ nhiễu, xói mòn được theo sau bởi sự giãn nở. Mở đầu chỉ là một tên khác của xói mòn theo sau là sự giãn nở. Nó rất hữu ích trong việc loại bỏ nhiễu. Đóng cửa là đảo ngược của mở, giãn nở theo sau là xói mòn. Nó rất hữu ích trong việc đóng các lỗ nhỏ bên trong các đối tượng nền trước hoặc các điểm đen nhỏ trên đối tượng. Chuyển đổi độ dốc là sự khác biệt giữa sự giãn nở và xói mòn của một hình ảnh. Nhìn chung, các bước này giúp mở ra các vết nứt / vết trầy xước hầu như không nhìn thấy trong ảnh gốc. Tham khảo hình bên dưới:Nhìn chung, các bước này giúp mở ra các vết nứt / vết trầy xước hầu như không nhìn thấy trong ảnh gốc. Tham khảo hình bên dưới:

  • Thứ hai, phát hiện các khiếm khuyết bằng cách sử dụng các mạng nơ-ron thần kinh sâu (Mô hình dựa trên mạng nơ-ron thần kinh sâu (CNN)) bằng cách sử dụng các cấu trúc liên kết CNN đã được chứng minh như Inception Net (còn gọi là Google Net), Res Net, Dense Net:

 

Một số khu vực khác nơi thử nghiệm là cần thiết để tìm kiến ​​trúc tối ưu

  • Tăng cường dữ liệu : Chúng tôi có vài nghìn hình ảnh độc đáo được dán nhãn là khiếm khuyết và vài nghìn hình ảnh được dán nhãn là tốt. Tăng cường là rất quan trọng để tránh quá nhiều tập huấn luyện. Chúng tôi đã thực hiện X cắt ngẫu nhiên và xoay Y (1 kết quả hình ảnh gốc trong hình ảnh tăng cường X * Y). Sau khi nâng cấp, chúng ta có X * Y nghìn hình ảnh bị lỗi và X * Y nghìn hình ảnh tốt. Giới thiệu một trong những bài báo CNN ban đầu trong bối cảnh này https://epage.nips.cc/apers/4824-imagenet- classifying-with-deep-convolutional-neural-networks.pdf
  • Chiến lược khởi tạo cho các cấu trúc liên kết CNN :

Chúng tôi đã thay thế lớp được kết nối cuối cùng bằng lớp FC và lớp sigmoid của riêng chúng tôi (phân loại nhị phân) như trong hình dưới đây:

Thay vì khởi tạo ngẫu nhiên các trọng số trong mỗi lớp, chúng tôi đã xem xét khởi tạo ImageNet cho mỗi cấu trúc liên kết CNN, độ chính xác DL của chúng tôi đã tăng đáng kể khi chúng tôi sử dụng khởi tạo ImageNet so với ngẫu nhiên.

  • Mất chức năng và tối ưu hóa :

· Mất Entropy chéo : Mất entropy chéo, hoặc mất log, đo lường hiệu suất của mô hình phân loại có đầu ra là giá trị xác suất trong khoảng từ 0 đến 1. Mất entropy chéo tăng khi xác suất dự đoán tách khỏi nhãn thực tế. Vì vậy, dự đoán xác suất 0,01 khi nhãn quan sát thực tế là 1 sẽ là xấu và dẫn đến giá trị tổn thất cao. Một mô hình hoàn hảo sẽ có log mất 0

· Động lượng SGD và Nesterov: SGD hoặc giảm độ dốc ngẫu nhiên là một phương pháp lặp để tối ưu hóa một hàm mục tiêu khác biệt (hàm mất), nó ngẫu nhiên vì nó lấy các mẫu ngẫu nhiên từ dữ liệu để thực hiện cập nhật giảm dần độ dốc. Động lượng là một trung bình di chuyển của độ dốc, nó được sử dụng để cập nhật trọng lượng của mạng và nó giúp tăng tốc độ dốc theo đúng hướng. Nesterov là một phiên bản của động lực đang trở nên phổ biến gần đây.

 

Cách tiếp cận thứ hai 

 

Phê bình theo cách tiếp cận đầu tiên : Trong khi trích xuất các vùng quan tâm, nó yêu cầu viết lại mã bất cứ khi nào có thay đổi về loại sản phẩm, loại bảng mạch / loại chip (trong trường hợp ví dụ trừu tượng của chúng tôi), thiết lập / chỉ dẫn máy ảnh, v.v. Điều này không thể mở rộng được.

 

Giải pháp: Chúng tôi đã xây dựng một kiến ​​trúc DL hai bước cuối cùng. Trong bước đầu tiên, thay vì cách tiếp cận CV, chúng tôi đã sử dụng phương pháp DL để dự đoán ROI- Region of Interest. Chúng tôi đã tự tạo một tập dữ liệu được gắn nhãn bằng công cụ hộp giới hạn và chúng tôi cho phép đào tạo kiến ​​trúc DL để dự đoán ROI- Region of Interest. Một nhược điểm của kỹ thuật này là bộ dữ liệu được dán nhãn phải rõ ràng và đủ rộng để bao gồm tất cả các loại sản phẩm, v.v. (loại bảng mạch / loại chip trong trường hợp ví dụ trừu tượng của chúng tôi) để Mạng lưới nơ-ron thần kinh sâu rộng có thể khái quát tốt trên các hình ảnh không nhìn thấy. Tham khảo các số liệu dưới đây:

  • Chức năng mất bộ tạo RON của CNN:

Chúng tôi ban đầu sử dụng hàm mất khoảng cách bình phương như sau:

Sau khi đào tạo mô hình Resnet50 cho 20 epoch trên bộ xác thực, chúng tôi đã đạt được số liệu xác thực sau trên khu vực bỏ lỡ trung bình và IOU:

Ave. missed area = 8,52 * 10 trận3

Ave. IOU (intersection over union) (ngã tư trên công đoàn) = 0,7817

Chúng tôi muốn cải thiện ít nhất trên IOU

· Chúng tôi đã đưa ra một mất mát dựa trên Khu vực, vui lòng tham khảo hình bên dưới để có ý tưởng về cách chúng tôi sử dụng toán học cơ bản để tính diện tích giao điểm giữa sự thật mặt đất và nhãn dự đoán. Trong chức năng mất, chúng tôi muốn xử phạt cả khu vực bị mất và khu vực thừa. Lý tưởng nhất, chúng tôi muốn xử phạt khu vực bị bỏ lỡ nhiều hơn khu vực thừa:

Chức năng mất ở trên là khác biệt để chúng ta có thể thực hiện tối ưu hóa giảm dần độ dốc trên hàm mất

  • Tăng cường trình tạo RON của CNN : chúng tôi chỉ cần thêm tỷ suất lợi nhuận 5% (cả trái và phải) trong thời gian đào tạo và thời gian thử nghiệm trên ROI- Region of Interest dự đoán của chúng tôi
  • Kết quả trình tạo CNN ROI- Region of Interest: Chúng tôi đã sử dụng toplogy Resnet50 (ImageNet initilization) và tối ưu hóa động lượng SGD + Nesterov với = 2, = 1 trong tổn thất dựa trên khu vực như mô tả ở trên. Huấn luyện mô hình Resnet50 cho các kỷ nguyên mulipl chúng tôi muốn giảm thiểu avg của chúng tôi. bỏ lỡ khu vực và tối đa hóa avg của chúng tôi. IOU (IOU tốt nhất là ‘1’). Sau khi đào tạo được 20 kỷ nguyên, chúng tôi đã đạt được những điều sau trên bộ xác thực, với sự mất mát và gia tăng dựa trên khu vực, chúng tôi đã cải thiện (mô tả ở trên) số liệu xác thực của chúng tôi trên khu vực bị bỏ lỡ và IOU:

 

Ave. missed area = 3,65 * 10 ˆ3

Ave. IOU (intersection over union)  = 0,8577

 

Thí nghiệm & Điểm chuẩn :

Tổng số hình ảnh: Vài nghìn hình ảnh

Phân chia dữ liệu: Chia từ 80 đến 10 thành 10, chỉ sử dụng hình ảnh duy nhất

Khung được sử dụng: PyTorch & Tensorflow / Keras

Trọng lượng khởi tạo: Được đào tạo trước trên ImageNet

Trình tối ưu hóa: SGD với tỷ lệ học tập = 0,001, sử dụng Nesterov với động lượng = 0,9

Mất: entropy chéo

Kích thước hàng loạt: 12

Tổng số kỷ nguyên: 24

Hình dạng hình ảnh: 224x224x3 (ngoại trừ Inception V3, yêu cầu 299x299x3)

Tiêu chí: Mất xác nhận thấp nhất

Điểm chuẩn của chúng tôi với cả hai cách tiếp cận đều tương đối giống nhau, kết quả với phương pháp CV + DL (thứ nhất) tốt hơn một chút so với phương pháp DL + DL (thứ hai). Chúng tôi tin rằng, DL + DL của chúng tôi có thể tốt hơn nếu chúng tôi có thể tạo một bộ dữ liệu giới hạn hộp được dán nhãn rõ ràng và rõ ràng.

Sau khi hoàn thành đào tạo thành công, một giải pháp suy luận phải được tìm thấy để hoàn thành toàn bộ giải pháp kết thúc. Chúng tôi đã sử dụng phần mềm Intel OpenVino để tối ưu hóa khả năng suy luận trong các loại phần cứng khác nhau bên cạnh CPU như FPGA, Intel Movidius, v.v.

 

Intel Open Vino

Intel Open Vino : Dựa trên các mạng nơ-ron thần kinh tích chập (CNN), bộ công cụ Intel Open Vino mở rộng khối lượng công việc trên phần cứng của Intel và tối đa hóa hiệu suất:

– Cho phép suy luận Deep Learning dựa trên CNN ở rìa

– Hỗ trợ thực thi không đồng nhất trên các máy gia tốc thị giác máy tính – CPU, GPU, Intel Compidius ™ Neute Compute Stick và FPGA – sử dụng API phổ biến

– Dành thời gian để tiếp thị thông qua thư viện các chức năng và hạt nhân được tối ưu hóa trước

– Bao gồm các cuộc gọi được tối ưu hóa cho OpenCV và OpenVX *

Tham khảo các số liệu sau về kiến ​​trúc Open Vino:

Triển khai hai bước:

– Bước một là chuyển đổi mô hình được đào tạo trước thành IR bằng Trình tối ưu hóa mô hình :

§ Tạo một Đại diện trung gian hợp lệ : Nếu tạo phẩm chuyển đổi chính này không hợp lệ, Công cụ suy luận không thể chạy. Trách nhiệm chính của Trình tối ưu hóa mô hình là tạo ra hai tệp để tạo thành Đại diện trung gian.

§ Tạo ra một Đại diện trung gian được tối ưu hóa: Các mô hình được đào tạo trước chứa các lớp rất quan trọng cho đào tạo, chẳng hạn như lớp bỏ học. Các lớp này là vô dụng trong quá trình suy luận và có thể làm tăng thời gian suy luận. Trong nhiều trường hợp, các lớp này có thể được tự động xóa khỏi Biểu diễn trung gian kết quả. Tuy nhiên, nếu một nhóm các lớp có thể được biểu diễn dưới dạng một hoạt động toán học và do đó là một lớp duy nhất, Trình tối ưu hóa mô hình nhận ra các mẫu đó và thay thế các lớp này bằng một lớp. Kết quả là một Đại diện trung gian có ít lớp hơn mô hình ban đầu. Điều này làm giảm thời gian suy luận.

IR là một cặp tệp mô tả toàn bộ mô hình:

.xml : Mô tả cấu trúc liên kết mạng

.bin : Chứa dữ liệu nhị phân trọng số và sai lệch

– Bước hai là sử dụng Công cụ suy luận để đọc, tải và suy ra các tệp IR, sử dụng API phổ biến trên phần cứng CPU, GPU hoặc VPU

Tài liệu Vino: https://software.intel.com/en-us/inference-trained-models-with-intel-dl-deployment-toolkit-beta-2017r3

Điểm chuẩn suy luận trên ảnh mẫu:

Rõ ràng là tối ưu hóa với ngăn xếp phần mềm là rất quan trọng để giảm thời gian suy luận. Có sự cải thiện 30X đến 100 lần về thời gian trễ bằng cách tối ưu hóa phần mềm OpenVino. Ngoài ra, các bộ tăng tốc phần cứng khác của Intel như Intel Movidius và FPGA đã được chạy qua thử nghiệm suy luận tương tự. Mục đích là để xem các bộ tăng tốc cải tiến có thể có bao nhiêu so với CPU truyền thống. Một số điểm chuẩn suy luận dưới đây trên một hình ảnh mẫu:

Intel Movidius Myriad1 đã sử dụng, đã chuyển đổi mô hình Resnet-50 Tensorflow / Keras của chúng tôi thành đồ thị NCS bằng SDK NCS, Raspberry Pi đang lưu trữ hình ảnh và suy luận được thực hiện với bộ xử lý tầm nhìn trong thanh Movidius. Thanh Movidius có công suất tính toán thấp hơn nên máy gia tốc này không cung cấp hiệu suất tăng lớn. Ngoài ra, khung phần mềm được sử dụng là một biểu đồ NCS có thể không chứa tất cả các hiệu suất tăng (độ thưa, lượng tử hóa, v.v.) từ một khung như OpenVino.

* Định cấu hình và lập trình bảng mạch với Open Vino trong máy linux với luồng bit được cung cấp cho mô hình Resnet-50 của chúng tôi. FPGA hoạt động như một máy gia tốc thực sự và cung cấp một cải tiến hơn ~ 10 lần so với CPU với cùng khung phần mềm (OpenVino).

Các con số hiệu suất trên cho thấy rõ sự cần thiết của một cái nhìn toàn diện để cải thiện hiệu suất Deep Learning. Cả hai ngăn xếp phần mềm được tối ưu hóa cũng như các bộ tăng tốc phần cứng đều cần thiết để có hiệu suất tối ưu.

Trực quan hóa CNN của chúng tôi với Deep Learning :

Thông thường các Mạng lưới nơ-ron thần kinh sâu bị chỉ trích vì khả năng diễn giải thấp và hầu hết các giải pháp Học sâu – Deep Learning đều dừng lại ở điểm khi việc phân loại nhãn được thực hiện. Chúng tôi muốn giải thích kết quả của chúng tôi, tại sao kiến ​​trúc CNN gắn nhãn một hình ảnh là tốt hay xấu (phân loại nhị phân cho nghiên cứu trường hợp của chúng tôi), lĩnh vực nào trong hình ảnh mà CNN đang tập trung nhiều nhất.

Dựa trên nghiên cứu này trong MIT https://arxiv.org/pdf/1512.04150.pdf, một bản đồ kích hoạt lớp kết hợp với lớp tổng hợp tối đa toàn cầu đã được đề xuất để bản địa hóa các vùng hình ảnh cụ thể của lớp.

Tổng hợp trung bình toàn cầu thường hoạt động như một người thường xuyên, ngăn ngừa quá mức trong quá trình đào tạo. Nó được thành lập trong nghiên cứu này rằng những lợi thế của lớp gộp trung bình toàn cầu vượt ra ngoài việc đơn giản là hoạt động như một bộ chỉnh tần số – một chút tinh chỉnh, mạng có thể giữ được khả năng bản địa hóa đáng chú ý của nó cho đến lớp cuối cùng. Điều chỉnh này cho phép dễ dàng xác định các vùng hình ảnh phân biệt đối xử trong một lần chuyển tiếp duy nhất cho nhiều loại nhiệm vụ, ngay cả những vùng mà mạng không được đào tạo ban đầu.

Sau đây là một diễn giải Deep Learning bằng cách sử dụng kỹ thuật này trên vết nứt trên một hình ảnh bề mặt đơn giản bằng cách sử dụng kiến ​​trúc Resnet-50 được đào tạo trên ImageNet. Như chúng ta có thể thấy, Deep Learning tập trung vào khu vực vết nứt bên dưới mặc dù kiến ​​trúc không được đào tạo về những hình ảnh như vậy –

 

Kết luận 

Với Computer Vision dựa trên Deep Learning, chúng tôi đã đạt được độ chính xác ở cấp độ con người và tốt hơn với cả hai phương pháp của chúng tôi – CV + DL và DL + DL (đã thảo luận trước đó trong blog này). Giải pháp của chúng tôi là duy nhất – chúng tôi không chỉ sử dụng Học sâu – Deep Learning để phân loại mà còn để giải thích khu vực khiếm khuyết bằng Deep Learning trên chính hình ảnh.

Yếu tố con người không thể tách rời hoàn toàn nhưng chúng ta có thể giảm đáng kể sự can thiệp của con người. Một mô hình tối ưu luôn là sự tinh chỉnh giữa FPR (tỷ lệ dương tính giả) & FNR (tỷ lệ âm tính giả) hoặc Chính xác so với Thu hồi. Đối với trường hợp sử dụng của chúng tôi, chúng tôi đã tự động phát hiện lỗi tự động thành công với một mô hình được tối ưu hóa cho FNR thấp (Thu hồi cao). 

Chúng tôi giảm đáng kể tỷ lệ xem xét của con người. Với nghiên cứu trường hợp của chúng tôi, chúng tôi đã chứng minh rằng chúng tôi có thể tự động hóa kiểm tra vật liệu với việc Học sâu – Deep Learning & giảm tỷ lệ xem xét của con người.

 

Leave A Reply

Your email address will not be published.