WiMi kündigte semantische Segmentierung auf der Grundlage von Multi-Modal-Datenfusion an

BEIJING, Nov. 9, 2023 — WiMi Hologram Cloud Inc. (NASDAQ: WIMI) (“WiMi” oder das “Unternehmen”), ein führender globaler Anbieter von Hologram Augmented Reality (“AR”)-Technologie, gab heute bekannt, dass es mehrmodale Daten verwendet hat, um den Mangel an einmodalen Daten auszugleichen, und ein semantisches Segmentierungsverfahren auf der Grundlage der Fusion mehrmodaler Daten vorgeschlagen wurde, um die Genauigkeit der semantischen Segmentierung zu verbessern. Die Fusion mehrmodaler Daten bezieht sich auf die Fusion von Daten aus verschiedenen Sensoren oder Modalitäten, um umfassendere und genauere Informationen zu liefern.

Die Fusion mehrmodaler Daten ist für die semantische Segmentierung von großer Bedeutung, da die Fusion mehrmodaler Daten Daten von verschiedenen Sensoren oder Modalitäten nutzen kann und durch die Integration von Informationen aus verschiedenen Modalitäten den Vorteil der Daten aus verschiedenen Modalitäten voll ausschöpfen, eine umfassendere und bereicherte Darstellung der Merkmale bereitstellen, ein umfassenderes Verständnis der Szene erhalten und die Genauigkeit der semantischen Segmentierung verbessern kann. Beispielsweise können bei der semantischen Segmentierung sowohl RGB-Bilder als auch Tiefenbilder als Eingabedaten verwendet werden. RGB-Bilder liefern Farb- und Texturinformationen, während Tiefenbilder Objektgeometrie- und Distanzinformationen liefern. Durch die Fusion der Informationen aus diesen beiden Modalitäten können die semantischen Kategorien der Objekte im Bild besser verstanden und die Segmentierung genauer durchgeführt werden.

Darüber hinaus kann die Fusion mehrmodaler Daten die Genauigkeit der semantischen Segmentierung verbessern. In realen Szenen können Bilder durch Faktoren wie Beleuchtungsänderungen, Okklusion, Rauschen usw. beeinträchtigt werden, was zu einem Rückgang der Genauigkeit einmodaler Daten führt. Durch die Fusion von Daten aus mehreren Modalitäten kann der Einfluss einmodaler Daten durch diese störenden Faktoren reduziert werden, wodurch die Stabilität der semantischen Segmentierung verbessert und bessere Unterstützung und Lösungen für damit zusammenhängende Aufgaben im Bereich der Computer Vision bereitgestellt werden.

Die Technik der Fusion mehrmodaler Daten ist ein wichtiges Werkzeug zur Verbesserung der Leistungsfähigkeit der semantischen Segmentierung. Merkmalsebene-Fusion, Entscheidungsebene-Fusion und andere gemeinsame Modellierungsmethoden können für die Fusion mehrmodaler Daten verwendet werden, um die Genauigkeit der semantischen Segmentierung zu verbessern. In praktischen Anwendungen helfen die Auswahl geeigneter Fusionsmethoden und -techniken sowie die Anpassung und Optimierung an spezifische Aufgaben und Datencharakteristika, die Wirkung der semantischen Segmentierung zu verbessern und mehr Möglichkeiten für die weitere Entwicklung und Anwendung von Aufgaben der semantischen Segmentierung zu bieten.

WiMi wendet Daten-Vorverarbeitung, Merkmalsextraktion, Datenfusion und das Training von Segmentierungsmodellen an, um die semantische Segmentierung für die Fusion mehrmodaler Daten zu erreichen. Zunächst müssen die von verschiedenen Sensoren erfassten Daten vorverarbeitet werden, z. B. durch Normalisierung, Entrauschung und Verbesserung, um die Qualität und Verwendbarkeit der Daten zu verbessern. Anschließend werden Merkmale aus den Daten jedes Sensors extrahiert. Für Bilddaten kann ein Convolutional Neural Network (CNN) verwendet werden, um die Merkmalsdarstellung des Bildes zu extrahieren; für Textdaten kann ein Word-Embedding-Modell verwendet werden, um den Text in einen Vektorraum abzubilden. Auf der Grundlage der Merkmalsextraktion werden dann die Merkmale der Daten aus verschiedenen Sensoren integriert. Schließlich werden die integrierten Merkmale verwendet, um das Modell der semantischen Segmentierung zu trainieren.

Die semantische Segmentierung für die Fusion mehrmodaler Daten ist in vielen Bereichen wie Computer Vision, Sprachverarbeitung und intelligenter Interaktion von großer Bedeutung. Es gibt jedoch immer noch einige Herausforderungen und Probleme in diesem Bereich, die weiterer Forschung und Erkundung bedürfen. Die semantische Segmentierung auf der Grundlage der Fusion mehrmodaler Daten hat in zukünftigen Forschungen noch viel Entwicklungspotenzial, und durch die Lösung von Problemen der Fusion mehrmodaler Daten und die Verbesserung der Effizienz und Genauigkeit des Algorithmus kann die Entwicklung und Anwendung der semantischen Segmentierung weiter gefördert werden.

In Zukunft wird WiMi fortschrittlichere Technologien für die Fusion mehrmodaler Daten wie das gemeinsame Modellieren von Bildern, Text und komplexeren semantischen Segmentierungsmodellen weiter erforschen. Darüber hinaus wendet WiMi die semantische Segmentierung für die Fusion mehrmodaler Daten auch auf ein breiteres Spektrum von Bereichen wie medizinische Bildanalyse, intelligenten Verkehr usw. an, um reale Probleme zu lösen und die Entwicklung von Wissenschaft und Technik zu fördern.

Über WIMI Hologram Cloud

WIMI Hologram Cloud, Inc. (NASDAQ:WIMI) ist ein umfassender technischer Lösungsanbieter für holografische Cloud, der sich auf professionelle Bereiche wie holografische AR-Automobil-HUD-Software, 3D-holografische Puls-LiDAR, head-mounted light field holografische Ausrüstung, holografische Halbleiter, holografische Cloud-Software, holografische Auto-Navigation und andere konzentriert. Zu ihren Dienstleistungen und holografischen AR-Technologien gehören die holografische AR-Automobil-Anwendung, die 3D-holografische Puls-LiDAR-Technologie, die holografische Halbleiter-Vision-Technologie, die Entwicklung holografischer Software, die holografische AR-Werbetechnologie, die holografische AR-Unterhaltungstechnologie, die holografische ARSDK-Zahlung, die interaktive holografische Kommunikation und andere holografische AR-Technologien.

Safe Harbor-Erklärungen

Diese Pressemitteilung enthält “zukunftsgerichtete Aussagen” im Sinne des Private Securities Litigation Reform Act von 1995. Diese zukunftsgerichteten Aussagen können anhand von Begriffen wie “wird”, “erwartet”, “antizipiert”, “zukünftig”, “beabsichtigt”, “plant”, “glaubt”, “schätzt” und ähnlichen Ausdrücken identifiziert werden. Aussagen, die keine historischen Fakten sind, einschließlich Aussagen über die Überzeugungen und Erwartungen des Unternehmens, sind zukunftsgerichtete Aussagen. Unter anderem enthalten der Geschäftsausblick und Zitate der Unternehmensführung in dieser Pressemitteilung und die strategischen und operativen Pläne des Unternehmens zukunftsgerichtete Aussagen. Das Unternehmen kann auch in seinen bei der US-Börsenaufsichtsbehörde SEC eingereichten vierteljährlichen und jährlichen Berichten auf den Formblättern 20-F und 6-K, in seinem Jahresbericht an die Aktionäre, in Pressemitteilungen und anderen schriftlichen Materialien sowie in mündlichen Aussagen von Führungskräften, Direktoren oder Mitarbeitern gegenüber Dritten zukunftsgerichtete Aussagen machen. Zukunftsgerichtete Aussagen beinhalten inhärente Risiken und Ungewissheiten. Mehrere Faktoren könnten dazu führen, dass die tatsächlichen Ergebnisse wesentlich von den in zukunftsgerichteten Aussagen enthaltenen abweichen, darunter unter anderem die folgenden: die Ziele und Strategien des Unternehmens, die künftige Geschäftsentwicklung, die Finanzlage und die Betriebsergebnisse des Unternehmens, die voraussichtliche Entwicklung der AR-Hologramm-Branche, die Erwartungen des Unternehmens in Bezug auf die Nachfrage nach und die Marktzulassung seiner Produkte und Dienstleistungen.

Weitere Informationen zu diesen und anderen Risiken finden Sie im Jahresbericht des Unternehmens auf Formular 20-F und im aktuellen Bericht auf Formular 6-K sowie in anderen Unterlagen, die das Unternehmen bei der SEC eingereicht hat. Alle in dieser Pressemitteilung enthaltenen Informationen werden zum Zeitpunkt dieser Pressemitteilung bereitgestellt. Das Unternehmen ist nicht verpflichtet, zukunftsgerichtete Aussagen zu aktualisieren, es sei denn, dies ist nach geltendem Recht erforderlich.