Bei uns wirst du...
- ein Verfahren entwickeln, das Ground-Truth-Labels mit fotografierten oder gescannten Handschriften vergleicht, um Inkonsistenzen zu identifizieren und die Trainingsdatenqualität zu verbessern.
- dabei moderne OCR-Technologien (Optical Character Recognition) einsetzen, um handschriftliche Inhalte zu analysieren und mit den Sensordaten abzugleichen.
- zusätzliche Ground-Truth-Daten durch Fotos oder Scans handschriftlicher Texte sammeln.
- vortrainierte OCR-Modelle zur Segmentierung, Texterkennung und Bounding-Box-Detektion anwenden und ggf. anpassen.
- ein automatisiertes Vergleichsmodul zur Erkennung von Abweichungen zwischen erkannter Schrift und Ground-Truth-Labels entwickeln.
- typische Fehlerquellen identifizieren, wie: Rechtschreibfehler; ausgelassene Buchstaben oder Satzzeichen; unleserliche Handschrift, die für das Training ungeeignet ist.
- die Qualitätsverbesserung durch die bereinigten Trainingsdaten bewerten.