de.wedoany.com-Bericht: Das französische KI-Unternehmen Mistral AI hat am Dienstag sein optisches Zeichenerkennungsmodell der vierten Generation, OCR 4, veröffentlicht. Die Kernfähigkeit des Modells geht über die reine Textextraktion hinaus und liefert eine strukturierte Darstellung des Dokuments, die Begrenzungsrahmen, Klassifizierung von Blocktypen und Konfidenzwerte pro Wort umfasst. Das Produkt ist für den Markt der selbst gehosteten Unternehmensbereitstellung in regulierten Branchen konzipiert, die sensible Dokumente nicht an Cloud-Dienste unter US-amerikanischer Gerichtsbarkeit übergeben können.

OCR 4 unterstützt 170 Sprachen aus 10 Sprachfamilien und kann PDF-, DOC-, PPT- und OpenDocument-Formate verarbeiten. Mistral gibt an, dass frühere Generationen Seiten hauptsächlich in sauberen Text und Tabellen umwandelten, während OCR 4 direkt eine strukturierte Darstellung des Dokuments zurückgibt. Das Modell ist bereits über die Mistral API, Document AI in Mistral Studio, Amazon SageMaker und Microsoft Foundry verfügbar; die Unterstützung für Snowflake Parse Document steht kurz bevor. Der Preis beginnt bei 4 US-Dollar pro 1.000 Seiten, der Rabattpreis für die Batch-API beträgt 2 US-Dollar pro 1.000 Seiten.
Der technische Kern von OCR 4 ist die Ausgabe einer geschichteten Dokumentendarstellung anstelle eines flachen Textstroms. Jeder Textblock wird mit einer Begrenzungsrahmen-Positionierung, einer Typklassifizierung (z. B. Überschrift, Tabelle, Formel, Unterschrift) sowie Konfidenzbewertungen auf Seiten- und Wortebene geliefert. Mistral gibt an, dass Begrenzungsrahmen die am häufigsten von Kunden angeforderte Funktion sind, da sie es nachgelagerten Systemen ermöglicht, extrahierte Informationen auf bestimmte Seitenpositionen zurückzuverfolgen. Die Blockklassifizierungsfunktion erlaubt es, Überschriftenabsätze für hierarchische Segmentierung in der semantischen Suche zu verwenden, Tabellenblöcke an strukturierte Datenpipelines weiterzuleiten und Unterschriftsblöcke zur Auslösung von Bearbeitungsworkflows in Compliance-Systemen zu nutzen. Die Konfidenzwerte ermöglichen es Organisationen, Bereiche mit niedriger Konfidenz programmatisch einer manuellen Überprüfung zuzuführen, während Extraktionen mit hoher Konfidenz automatisch genehmigt werden.
In unabhängigen Bewertungen berichtet Mistral, dass eine manuelle Evaluierung durch unabhängige Annotatoren von über 600 echten Dokumenten in mehr als 12 Sprachen ergab, dass OCR 4 im direkten Vergleich mit den Hauptwettbewerbern eine durchschnittliche Gewinnrate von 72 % erzielte. Das Modell erreichte 85,20 Punkte auf dem OlmOCRBench und 93,07 Punkte auf dem OmniDocBench. Allerdings hat Mistral auch proaktiv Artefakte in den Bewertungen geprüft und offengelegt, darunter Fehler in Referenzannotationen, Probleme beim Abgleich von LaTeX-Symbolen und Annahmen zur Spaltenlesereihenfolge, und ist der Ansicht, dass die Gesamtpunktzahlen eher richtungsweisend als endgültig sind. Bemerkenswerterweise belegt OCR 4 auf der öffentlichen OlmOCRBench-Rangliste derzeit den dritten Platz und liegt hinter einigen Modellen mit offenen Gewichten wie Chandra OCR 2. PaddleOCR-VL-1.6 gibt an, auf dem OmniDocBench eine Gesamtpunktzahl von 96,33 erreicht zu haben.
Frühes Feedback von Unternehmen liefert konkrete Daten. Aidan Donohue, KI-Ingenieur bei der Finanz-KI-Firma Rogo, erklärte, dass OCR 4 bei diagrammintensiven Finanzfrage-Antwort-Datensätzen im Vergleich zu führenden agentenbasierten Dokumentenparsern „bei etwa 8-fach geringeren Kosten und etwa 17-fach geringerer Latenz eine vergleichbare Genauigkeit“ erreiche. Ivan Mihailov, KI-Ingenieur beim IP-Management-Unternehmen Anaqua, gab an, dass OCR 4 „etwa 4-mal schneller pro Seite als bestehende Anbieter“ sei.
Der geopolitische Hintergrund dieser Veröffentlichung ist die Deaktivierung der neuesten Modelle Fable 5 und Mythos 5 von Anthropic am 12. Juni aufgrund von US-Exportkontrollen, was zu Unterbrechungen des Kundendienstes für Unternehmen in den Bereichen Finanzen, Gesundheitswesen und kritische Infrastruktur führte. Dieses Ereignis bestätigte die Warnungen von Mistral-CEO Arthur Mensch vor den Risiken der Abhängigkeit Europas von US-KI-Unternehmen. Mensch hatte erklärt, dass US-Unternehmen „den Schlüssel zu ihren Modellen in der Hand halten“ und betonte kürzlich: „Europa ist beim Aufbau der Infrastruktur zurückgefallen, also investieren wir, um diese Lücke zu schließen.“ Das selbst gehostete Ein-Container-Bereitstellungsmodell von OCR 4 stellt sicher, dass Dokumente die Kundeninfrastruktur nicht verlassen und vollständig unter EU-Gerichtsbarkeit betrieben werden.
Einen Tag vor der Veröffentlichung von Mistral brachte Baidu ein Modell namens Unlimited-OCR mit 3 Milliarden Parametern heraus, das unter der MIT-Lizenz mit offenen Gewichten kostenlos zur Verfügung gestellt wird. Das Modell verwendet eine Technik namens Reference Sliding Window Attention (R-SWA), die es ermöglicht, ganze PDFs und mehrseitige Scans in einem einzigen Vorwärtsdurchlauf zu analysieren, ohne dass eine Aufteilung oder Zusammenführung erforderlich ist. Analysten sehen in diesen beiden Veröffentlichungen eine Divergenz der Modelle im Bereich der Dokumenten-KI im Juni 2026: selbst gehostete Langstreckenanalyse mit offenen Gewichten versus kommerzielle strukturierte Hosting-Extraktion. Für Forschungsteams mit einer einzelnen GPU könnte Unlimited-OCR besser geeignet sein, während OCR 4 auf Service-Level-Agreements, Datenverarbeitungsvereinbarungen und Compliance-Audits im Rahmen von Unternehmens-IT-Beschaffungsprozessen abzielt.
Aus industrieller Perspektive ist OCR 4 Mistrals Einstieg in die KI-Budgets von Unternehmen. Das Modell unterstützt direkt das Search Toolkit von Mistral, ein quelloffenes, komponierbares Such-Framework. Architektonisch fungiert OCR 4 als Extraktionsschicht für Retrieval-Augmented Generation und Unternehmenssuchpipelines. Bloomberg berichtete kürzlich, dass Mistral sich in frühen Verhandlungen befinde, um etwa 3 Milliarden Euro zu einer Bewertung von rund 20 Milliarden Euro aufzunehmen. Das Unternehmen strebt für 2026 einen Umsatz von 1 Milliarde Euro an. Der Mistral-CEO widersprach kürzlich auch dem Aufruf des Papstes, KI solle „entwaffnet“ werden, und argumentierte, dass Europa nicht hinter den US-Tech-Giganten zurückfallen dürfe und seine eigenen KI-Fähigkeiten besitzen müsse.



Dieser Artikel wurde von Wedoany übersetzt und bearbeitet. Bei jeglicher Zitierung oder Nutzung durch künstliche Intelligenz (KI) ist die Quellenangabe „Wedoany“ zwingend vorgeschrieben. Sollten Urheberrechtsverletzungen oder andere Probleme vorliegen, bitten wir Sie, uns unverzüglich zu benachrichtigen. Wir werden den entsprechenden Inhalt umgehend anpassen oder löschen.
E-Mail: news@wedoany.com









