Freigeben über


Azure Content Understanding in Foundry Tools Videolösungen (Vorschau)

Wichtig

Azure Content Understanding ist in der Vorschau verfügbar. Öffentliche Vorschauversionen bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich ändern oder eingeschränkte Funktionen vor der allgemeinen Verfügbarkeit (GENERAL Availability, GA) aufweisen. Weitere Informationen finden Sie unter ergänzende Nutzungsbedingungen für Microsoft Azure Previews.

Mit Azure Content Understanding können Sie einen Standardsatz von Videometadaten generieren und benutzerdefinierte Felder für Ihren spezifischen Anwendungsfall mithilfe von generativen Modellen erstellen. Das Inhaltsverständnis hilft Ihnen beim Verwalten, Kategorisieren, Abrufen und Erstellen von Workflows für Videoressourcen. Sie verbessert Ihre Medienobjektbibliothek, unterstützt Features wie die Generierung von Highlights, kategorisiert Inhalte und erleichtert Anwendungen wie die abrufgestützte Generierung (RAG).

Abbildung des Inhaltsverständnis-Videoverarbeitungsflusses.

Der vordefinierte Videoanalysator (prebuilt-videoAnalysis) liefert RAG-kompatible Ergebnisse. In Markdown gibt es Folgendes aus:

  • Abschrift: Inlinetranskriptionen im WebVTT-Standardformat
  • Keyframes: Sortierte Keyframeminiaturansichten ermöglichen eine tiefere Analyse

Und das JSON-Schema enthält weitere Details aus der visuellen Analyse.

  • Beschreibung: Beschreibungen von Segmenten in natürlicher Sprache mit visuellem und Sprachkontext
  • Segmentierung: Automatische Szenensegmentierung, die das Video basierend auf den von Ihnen definierten Kategorien in logische Blöcke unterteilt

Dieses Format kann direkt in einen Vektorspeicher eingefügt werden, um einen Agent oder RAG-Workflow zu aktivieren– es ist keine Nachbearbeitung erforderlich.

Von dort aus können Sie den Analyzer für eine präzisere Steuerung der Ausgabe anpassen. Sie können benutzerdefinierte Felder und Segmente definieren. Mithilfe der Anpassung können Sie die volle Leistungsfähigkeit von generativen Modellen nutzen, um tiefe Einblicke aus den visuellen und Audiodetails des Videos zu extrahieren.

Durch Anpassung können Sie beispielsweise Folgendes tun:

  • Definieren Sie benutzerdefinierte Felder: Um zu identifizieren, welche Produkte und Marken im Video angezeigt oder erwähnt werden.
  • Generieren Sie benutzerdefinierte Segmente: um eine Nachrichtenübertragung basierend auf den Themen oder Nachrichtenmeldungen zu segmentieren.
  • Identifizieren Sie prominente Personen anhand der Gesichtsbeschreibung: Ermöglichen Sie es einem Kunden, Prominente in Filmmaterial anhand des Weltwissens des generativen Modells mit Namen und Titel zu kennzeichnen, z. B. Satya Nadella.

Gründe für die Verwendung von Inhaltsverständnis für Video?

Content Understanding bietet sehr viel Potenzial für Videoinhalte. Sie können z. B. Metadaten so anpassen, dass bestimmte Szenen in einem Schulungsvideo gekennzeichnet werden, sodass Mitarbeitende wichtige Abschnitte einfacher finden und überarbeiten können. Sie können auch Metadatenanpassungen verwenden, um Produktplatzierung in Werbevideos zu identifizieren, damit Marketingteams die Präsentation von Marken analysieren können. Weitere Anwendungsfälle sind:

  • Übertragen von Medien und Unterhaltung: Verwalten Sie große Bibliotheken von Shows, Filmen und Clips, indem Sie detaillierte Metadaten für jedes Objekt generieren.
  • Bildung und E-Learning: Indizierung und Abrufen bestimmter Momente in Lehrvideos oder Vorträgen.
  • Unternehmensschulung: Organisieren Sie Schulungsvideos nach wichtigen Themen, Szenen oder wichtigen Momenten.
  • Marketing und Werbung: Analysieren Sie Werbevideos, um Produktplatzierungen, Markenauftritte und wichtige Nachrichten zu extrahieren.

Beispiel für eine vorgefertigte Videoanalyse

Mit dem vorgefertigten Videoanalysator (prebuilt-videoSearch) können Sie ein Video hochladen und eine sofort verwendbare Wissensressource erhalten. Der Dienst verpackt den Inhalt in reich formatierte Markdown- und JSON. Mit diesem Prozess kann Ihr Suchindex oder Chat-Agent den Inhalt ohne benutzerdefinierten Klebecode aufnehmen.

  1. Rufen Sie zum Beispiel den Analyzer auf, der für die Retrieval-unterstützte Generierung für Video prebuilt-videoSearch entwickelt wurde. Ausführliche Informationen finden Sie in der SCHNELLstartanleitung der REST-API .

  2. Als Nächstes würde die Analyse eines 30-Sekunden-Werbevideos zur folgenden Ausgabe führen:

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

Lesen Sie die folgende Schritt-für-Schritt-Anleitung für RAG on Video mithilfe von Inhaltsverständnis:

RAG on Video mit Azure Content Understanding

Fähigkeiten

Hinweis

Gesichtsidentifikations- und Gruppierungsfunktionen sind nur in der Vorschau-API-Version verfügbar und sind nicht in der GA-Version enthalten.

Unter der Haube verwandeln zwei Stufen Rohpixel in geschäftsbereite Einblicke. Das Diagramm unten zeigt, wie die Extraktion zur Generierung beiträgt, damit jeder nachgeschaltete Schritt den benötigten Kontext hat.

Screenshot des Video Analyzer-Flows

Der Dienst wird in zwei Phasen betrieben. In der ersten Phase der Inhaltsextraktion werden grundlegende Metadaten wie Transkriptionen und Aufnahmen erfasst. Die zweite Stufe, Feldextraktion, verwendet ein generatives Modell, um benutzerdefinierte Felder zu erzeugen und Segmentierung durchzuführen.

Inhaltsextraktionsfunktionen

Beim ersten Durchgang geht es darum, eine erste Reihe von Details zu extrahieren – wer spricht und wo wird geschnitten. Es schafft ein solides Metadaten-Rückgrat, über das spätere Schritte nachdenken können.

  • Transkription: Konvertiert Unterhaltungsaudio in durchsuchbare und analyzierbare textbasierte Transkripte im WebVTT-Format. Zeitstempel auf Satzebene sind verfügbar, wenn "returnDetails": true festgelegt ist. Das Inhaltsverständnis unterstützt das vollständige Set von Azure Speech in Foundry Tools Sprache-zu-Text-Sprachen. Details zur Sprachunterstützung für Video sind identisch mit Audio, ausführliche Informationen finden Sie unterAudiosprachenbehandlung . Die folgenden Transkriptionsdetails sind wichtig zu berücksichtigen:

    • Diarisierung: Unterscheidet zwischen Sprechern in einer Unterhaltung in der Ausgabe, wobei Teile des Transkripts bestimmten Sprechern zugewiesen werden.

    • Mehrsprachige Transkription: Generiert mehrsprachige Transkriptionen. Sprache/Gebietsschema wird pro Ausdruck im Transkript angewendet. Ausdrucksausgabe, wenn "returnDetails": true festgelegt wird. Das Feature wird von der Spracherkennung abweichend aktiviert, wenn keine Sprache bzw. kein Gebietsschema angegeben ist oder auf " autoSprache" festgelegt ist.

      Hinweis

      Wenn mehrsprachige Transkription verwendet wird, erzeugen alle Dateien mit nicht unterstützten Gebietsschemas ein Ergebnis basierend auf dem nächstgelegenen unterstützten Gebietsschema, das wahrscheinlich falsch ist. Dieses Ergebnis ist ein bekanntes Verhalten. Vermeiden Sie Probleme mit der Transkription, indem Sie sicherstellen, dass Sie Gebietsschemas konfigurieren, wenn Sie kein mehrsprachiges Transkription unterstütztes Gebietsschema verwenden!

    • Keyframeextraktion: Extrahiert Keyframes aus Videos, um jeden Shot vollständig darzustellen, um sicherzustellen, dass jeder Screenshot über genügend Keyframes verfügt, um die Feldextraktion effektiv zu ermöglichen.

    • Szenenwechselerkennung: identifiziert Segmente des Videos, die nach Möglichkeit an Aufnahmegrenzen ausgerichtet sind, um eine präzise Bearbeitung und Umsortierung von Inhalten mit genauen Szenenwechseln zu ermöglichen. Die Ausgabe ist eine Liste der Zeitstempel in Millisekunden in cameraShotTimesMs. Die Ausgabe wird nur zurückgegeben, wenn "returnDetails": true festgelegt ist.

Feldextraktion und Segmentierung

Als Nächstes legen die generativen Modell-Ebenen die Bedeutung fest: Szenen markieren, Aktionen zusammenfassen und Filmmaterial in Segmente gemäß Ihrer Vorgabe aufteilen. Bei dieser Aktion werden Aufforderungen in strukturierte Daten umgewandelt.

Benutzerdefinierte Felder

Gestalten Sie die Ausgabe so, dass sie Ihrem Geschäftsvokabular entspricht. Verwenden Sie ein fieldSchema Objekt, in dem jeder Eintrag den Namen, den Typ und die Beschreibung eines Felds definiert. Zur Laufzeit füllt das generative Modell diese Felder für jedes Segment aus.

  • Medienobjektverwaltung:

    • Videokategorie: Hilft Editoren und Produzenten dabei, Inhalte zu organisieren, indem sie als Nachrichten, Sport, Interview, Dokumentarfilm, Werbung usw. klassifiziert werden. Nützlich für Metadatenmarkierung und schnellere Inhaltsfilterung und -abruf.
    • Farbschema: Vermittelt Stimmung und Atmosphäre, die für die Narrative Konsistenz und das Engagement des Betrachters unerlässlich ist. Das Identifizieren von Farbschemas hilft bei der Suche nach übereinstimmenden Clips und beschleunigt so die Videobearbeitung.
  • Werbung:

    • Marke: Identifiziert Die Markenpräsenz, die für die Analyse von Anzeigenwirkungen, die Markensichtbarkeit und die Zuordnung zu Produkten von entscheidender Bedeutung ist. Mit dieser Funktion können Werbekunden die Markenpräsentation bewerten und die Einhaltung von Brandingrichtlinien sicherstellen.
    • Anzeigenkategorien: Kategorisiert Anzeigentypen nach Branche, Produkttyp oder Zielgruppensegment, die gezielte Werbestrategien, Kategorisierung und Leistungsanalyse unterstützt.

Beispiel:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Gesichtsbeschreibungsfelder

Hinweis

Diese Funktion ist nur eingeschränkt zugänglich; Kunden müssen die Deaktivierung der Gesichtsunschärfe für Azure OpenAI-Modelle mit einer Support-Anfrage bei Azure anfordern. Weitere Informationen zum Verwalten einer Azure-Supportanfrage.

Die Feldextraktionsfunktion kann optional erweitert werden, um detaillierte Beschreibungen von Gesichtern im Video bereitzustellen. Diese Funktion umfasst Attribute wie Gesichtshaare, Gesichtsausdruck und das Vorhandensein von Prominenten, die für verschiedene analytische und indizierende Zwecke von entscheidender Bedeutung sein können. Um die Fähigkeiten zur Gesichtsbeschreibung zu aktivieren, müssen Sie disableFaceBlurring : true in der Analysekonfiguration einstellen.

Beispiele:

  • Beispielfeld: facialHairDescription: Beschreibt die Art der Gesichtshaare (z. B beard. , mustache, clean-shaven)
  • Beispielfeld: nameOfProminentPerson: Stellt einen Namen bereit, wenn möglich von einem Prominenten im Video (z. B Satya Nadella. )
  • Beispielfeld: faceSmilingFrowning: Stellt eine Beschreibung bereit, ob eine Person lächelt oder die Stirn runzelt.

Segmentierungsmodus

Hinweis

Das Festlegen der Segmentierung verwendet das generative Modell, wobei Token verwendet werden, auch wenn keine Felder definiert sind.

Das Inhaltsverständnis bietet zwei Möglichkeiten zum Segmentieren eines Videos, sodass Sie die ausgabe abrufen können, die Sie für ganze Videos oder kurze Clips benötigen. Sie können diese Optionen verwenden, indem Sie die enableSegment Eigenschaft für einen benutzerdefinierten Analyzer festlegen.

  • Gesamtes VideoenableSegment : false Der Dienst behandelt die gesamte Videodatei als einzelnes Segment und extrahiert Metadaten während der gesamten Dauer.

    Anwendungsfälle:

    • Complianceüberprüfungen, die überall in einer Anzeige nach bestimmten Problemen mit der Markensicherheit suchen
    • Ausführliche beschreibende Zusammenfassungen
  • Benutzerdefinierte SegmentierungenableSegment : true Sie beschreiben die Logik in natürlicher Sprache, und das Modell erstellt Segmente, die übereinstimmen sollen. Legen Sie contentCategories eine Zeichenfolge fest, die beschreibt, wie das Video segmentiert werden soll. Benutzerdefiniert ermöglicht Segmente unterschiedlicher Länge von Sekunden bis Minuten, je nach Aufforderung. In dieser Version unterstützt Video nur ein contentCategories Objekt.

    Beispiel: Unterteilen Sie eine Nachrichtenübertragung in Geschichten.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Hauptvorteile

Content Understanding bietet im Vergleich zu anderen Videoanalyselösungen mehrere wichtige Vorteile:

  • Segmentbasierte Multiframeanalyse: Identifizieren Sie Aktionen, Ereignisse, Themen und Designs, indem Sie mehrere Frames aus jedem Videosegment statt einzelner Frames analysieren.
  • Anpassung: Passen Sie die von Ihnen generierten Felder und Segmentierung an, indem Sie das Schema gemäß Ihrem spezifischen Anwendungsfall ändern.
  • Generative Modelle: Beschreiben Sie in natürlicher Sprache, welchen Inhalt Sie extrahieren möchten, und inhaltsverständnis verwendet generative Modelle, um diese Metadaten zu extrahieren.
  • Optimierte Vorverarbeitung: Führen Sie mehrere Schritte zur Präverarbeitung der Inhaltsextraktion aus, z. B. Transkription und Szenenerkennung, die optimiert sind, um einen umfassenden Kontext für AI-generative Modelle bereitzustellen.

Technische Zwänge und Einschränkungen

Spezifische Einschränkungen der Videoverarbeitung, die Sie berücksichtigen sollten:

  • Frame sampling (~ 1 FPS): Der Analyzer prüft etwa einen Frame pro Sekunde. Schnelle Bewegungen oder Einzelframeereignisse werden möglicherweise verpasst.
  • Frameauflösung (512 × 512 px):Beispielframes werden auf 512 Pixel quadratisch geändert. Kleine Oder entfernte Objekte können verlorengehen.
  • Sprache: Nur gesprochene Wörter werden transkribiert. Musik, Soundeffekte und Umgebungsgeräusche werden ignoriert.

Eingabeanforderungen

Unterstützte Formate finden Sie unter Dienstkontingente und Grenzwerte.

Unterstützte Sprachen und Regionen

Siehe Sprach- und Regionsunterstützung.

Datenschutz und Sicherheit

Wie bei allen Foundry Tools lesen Sie die Dokumentation zu Daten, Schutz und Datenschutz von Microsoft.

Wichtig

Wenn Sie biometrische Daten verarbeiten (z. B. Gesichtsbeschreibung aktivieren), müssen Sie alle Benachrichtigungs-, Zustimmungs- und Löschungsanforderungen gemäß den geltenden Gesetzen erfüllen. Siehe Daten und Datenschutz für Gesicht.