Image Recognition in der industriellen Fertigung

In der indus­tri­el­len Fer­ti­gung kann die Aus­wer­tung von bild­ge­ben­den Sys­te­men zu deut­li­chen Ver­bes­se­run­gen der Über­wa­chung füh­ren und die Iden­ti­fi­ka­ti­on von Defek­ten opti­mie­ren. 

In der Fer­ti­gung ent­ste­hen Bil­der meist nach einem streng stan­dar­di­sier­ten Ablauf und unter genau defi­nier­ten Rah­men­be­din­gun­gen. Außer­dem steht meist (wenigs­tens teil­wei­se) eine exter­ne Bewer­tung der Bil­der durch Expert:innen zu Ver­fü­gung.  

Stren­ge Rah­men­be­din­gun­gen und aus­rei­chend klas­si­fi­zier­te Daten ver­ein­fa­chen die Fra­ge­stel­lung. Unter die­sen Umstän­den kann die Kame­ra als wei­te­rer Sen­sor mit einem sehr “brei­ten” (daten­rei­chen) Infor­ma­ti­ons­strom betrach­tet wer­den. Die­ser Strom ist in sich hoch­kom­plex und muss durch ein ML oder AI Modell ver­dich­tet wer­den, bevor eine “ein­fa­che” Reak­ti­on auf das Sen­sor­si­gnal mög­lich wird. 

Bilderkennung mit klassischem Machine Learning 

Ist der Pro­zess der Bil­der­stel­lung stark stan­dar­di­siert, lässt sich ein ML-Modell ver­wen­den, um den Signal­strom auf ein­fach zu inter­pre­tie­ren­de Signa­le zu redu­zie­ren.  

Stan­dar­di­sie­rung kann hier­bei bedeu­ten: 

  • Immer die­sel­be Zahl Werk­stü­cke wird gleich­zei­tig betrach­tet (bspw. nur eines) 
  • Die Lage und Ori­en­tie­rung der Werk­stü­cke ist immer gleich 
  • Es wird die­sel­be Kame­ra bzw. Nur Kame­ras des­sel­ben Typs und glei­cher Kon­fi­gu­ra­ti­on ein­ge­setzt 
  • Beleuch­tungs­si­tua­ti­on ist durch die Nut­zung von Kunst­licht ver­ein­heit­licht 

Der Zusam­men­hang zwi­schen ein­zel­nen Pixeln und Aus­ga­be ist in jedem Fall hoch­kom­plex.  

Das Modell (ML und AI) ver­wen­det die Bild­pi­xel, inter­pre­tiert sie als Signa­le und lernt im Trai­nings­pro­zess einen Zusam­men­hang die­ser Signa­le mit einer (im Trai­ning bekann­ten) Ziel­grö­ße. Ein “klas­si­sches” künst­li­ches neu­ro­na­les Netz­werk sam­melt bei­spiels­wei­se – leicht ver­ein­facht for­mu­liert – alle Signa­le, die an den Ein­gän­gen anlie­gen, und ver­ar­bei­tet sie durch geschick­te Sum­mie­rung und nicht­li­nea­re Trans­for­ma­ti­on zu einem Aus­gangs­si­gnal (im Wer­te­be­reich der Ziel­grö­ße). 

Das kann in ein­fa­chen Sze­na­ri­en leicht nach­voll­zieh­bar sein: So lie­ße sich der Back­grad eines Kuchens über die Sum­me der Braun­tö­ne in einem Bild bestim­men, kei­ne simp­le aber auch kei­ne hoch­kom­ple­xe Schluss­fol­ge­rung. 

Komplexere Fragestellungen 

Die klas­si­schen künst­li­chen neu­ro­na­len Net­ze und ande­re ML-Modell­ty­pen kom­men bei kom­ple­xe­ren Fra­ge­stel­lun­gen schnell an ihre Gren­zen oder bräuch­ten unver­hält­nis­mä­ßig vie­le Trai­nings­da­ten. 

Was hie­ße denn nun eigent­lich “kom­ple­xe­re Fra­ge­stel­lung”? Das kann viel­fäl­ti­ge Aus­prä­gun­gen haben, aber neh­men wir ein­fach mal fol­gen­des Bei­spiel an: 

Ein­fach: stan­dar­di­siert fixier­tes und aus­ge­rich­te­tes Werk­stück 

Kom­plex: Werk­stück liegt so, wie es gefal­len ist (bei­spiels­wei­se auf einem Fließ­band) 

Kann im ers­ten Fall noch ein ML-Modell zum Ein­satz kom­men, wür­de dies im zwei­ten Fall nur unter dem Umstand mög­lich sein, dass wir die Trai­nings­men­ge um ein Viel­fa­ches ver­grö­ßern und wesent­lich mehr Werk­stück-Kan­di­da­ten betrach­ten (qua­si das Pro­blem pro Win­kel und pro Posi­ti­on mul­ti­pli­zie­ren). Das ist ver­mut­lich unrea­lis­tisch. (Die Alter­na­ti­ve, dass wir die Bil­der hin­ter­her aus­rich­ten oder ander­wei­tig anpas­sen, ist mög­lich aber eben­falls hoch kom­plex). 

In die­sem Fall soll­ten AI-Model­le zum Ein­satz kom­men, die wesent­lich näher von den Fähig­kei­ten des mensch­li­chen Seh­ap­pa­ra­tes inspi­riert sind (für Men­schen ist die Inter­pre­ta­ti­on einer Bild­si­tua­ti­on mit bspw. unter­schied­li­chen Lage­win­keln meist tri­vi­al: eine Kat­ze von links oder rechts macht für uns – abge­se­hen vom Aber­glau­ben – kei­nen Unter­schied). 

Moderne AI-basierte Ansätze 

Sol­che AI-Model­le zur Bil­der­ken­nung ver­ar­bei­ten die Bild­da­ten durch eine gro­ße Men­ge an unter­schied­li­chen und spe­zi­fisch gestal­te­ten Schich­ten. Man nennt die­se Net­ze des­we­gen auch Con­vo­lu­tio­nal Neu­ral Net­work (CNN, etwa zu ver­ste­hen als “gefal­te­tes” neu­ro­na­les Netz).  

Die ein­zel­nen Schich­ten bzw. Lay­er sind dabei nicht (wie bei klas­si­schen ML-Model­len) wei­test­ge­hend gleich­ar­tig auf­ge­baut, son­dern sind auf bestimm­te Auf­ga­ben spe­zia­li­siert (z.B. Erken­nung von Kan­ten, oder ande­ren Objekten/Formen, oder die Zusam­men­füh­rung die­ser Extrak­te usw.). Die vie­len Schich­ten erfor­dern, dass spe­zi­el­le Trai­nings­me­cha­nis­men (Deep Lear­ning) ein­ge­setzt wer­den. 

Die­se Struk­tur macht es mög­lich Bil­der sehr viel gene­ri­scher aus­zu­wer­ten und auf dem Niveau zu ver­ar­bei­ten, so dass es dem mensch­li­chen Gehirn nahe­kommt. 

Off-the-Shelf Modelle 

Das Trai­ning sol­cher Model­le ist trotz opti­mier­ter moder­ner Algo­rith­men ein res­sour­cen­in­ten­si­ver (Zeit, Per­for­mance, Strom) Pro­zess und erfor­dert eine gro­ße Men­ge Trai­nings­ma­te­ri­al. 

Zum Glück kann man sich einer “Abkür­zung” bedie­nen. Es gibt gene­ri­sche, vor­trai­nier­te Model­le, die man auf eige­ne Pro­ble­me adap­tie­ren kann. Das ist ein sehr cle­ve­res und effi­zi­en­tes Vor­ge­hen. Inter­es­san­ter­wei­se bedient sich der Mensch dabei Kon­zep­ten, die wir schon seit Anbe­ginn der Zeit nut­zen: etwas Neu­es hin­zu­zu­ler­nen, fällt uns viel leich­ter, als bei den Anfän­gen zu star­ten. Als Neu­ge­bo­re­nes sehen (und ver­ste­hen) zu ler­nen dau­ert vie­le Jah­re. Als Erwach­se­ner einen neu­en visu­el­len Ein­druck vor­ge­legt zu bekom­men und die­sen zu ver­in­ner­li­chen, dau­ert unter Umstän­den nur weni­ge “Augen­bli­cke”. 

Man kann sich die­se off-the-shelf Model­le im Prin­zip so vor­stel­len: wir bekom­men ein gene­risch auf visu­el­les Ver­ständ­nis aus­ge­bil­de­tes Modell, das mit einer gro­ßen Viel­zahl von Bil­dern trai­niert wur­de und so die “visu­el­len Kon­zep­te” unse­rer Umwelt gelernt hat. Anschlie­ßend müs­sen nur noch die pro­jekt-spe­zi­fi­schen Aspek­te hin­zu­trai­niert wer­den (anhand unse­rer eige­nen spe­zi­fi­schen Bil­der). Ver­ein­facht gesagt, wer­den dafür nur die äuße­ren Schich­ten “abge­schnit­ten” und durch eige­ne – dem Pro­blem ange­pass­te Schich­ten – ersetzt. Nur noch die­se Schich­ten wer­den dann trai­niert und der inne­re Teil des Net­zes belas­sen, wie er ist. 

Die­se Vor­ge­hens­wei­se macht es mög­lich, mit ver­gleichs­wei­se gerin­gem Auf­wand und rela­tiv wenig Trai­nings­ma­te­ri­al (d.h. eige­nen Bil­dern) zu guten Ergeb­nis­sen zu kom­men und hohe Pro­gno­se­gü­te zu errei­chen. 

 

Haben wir ihr Interesse geweckt? Sprechen Sie uns gerne an. Der Bereich der Bilderkennung ist ein weites Feld, das sich mit verschiedenen Werkzeugen und unterschiedlichen Herangehensweisen bearbeiten lässt. Auch die Inbetriebnahme der Lösungen kann sich je nach Anwendungsfall stark unterscheiden. StatSoft steht ihnen gerne als Partner in Bilderkennungsprojekten zur Seite. 
Kategorien
Letzte News
Ihr Ansprechpartner

Wenn Sie Fra­gen zu unse­ren Pro­duk­ten haben oder Bera­tung benö­ti­gen, zögern Sie nicht, direkt Kon­takt zu uns auf­zu­neh­men.

Tel.: +49 40 22 85 900-0
E-Mail: info@statsoft.de

Sasha Shiran­gi (Head of Sales)