SIS

Editor audio

Componente principale che include potenti strumenti per l’esame dei segnali vocali, eccezionali possibilità di analisi e visualizzazione del parlato visibile, segmentazione delle trascrizioni, strumenti di identificazione automatica e semiautomatica insieme a molte altre funzioni.

Esame della registrazione audio per l’identificazione dell’altoparlante mediante campioni vocali

(formanti e analisi del tono fondamentale del segnale vocale principale)

Metodi

Formato hex del file
Ricerca delle parole nel markup del segnale
• Speech to text plugin
Collegamento di Sound Cleaner al SIS
Visualizzazione
Modifica ed elaborazione
Rilevamento del discorso e del rumore
Trascrizione e segmentazione
Diarizzazione degli interlocutori nel dialogo/polilogo
Interface multischermo
Confronto dei segnali

• Calcolo delle proprietà del segnale
• Gestione dei progetti, creazione di report
• Identificazione
• Confronto automatico
• Confronto delle funzioni vocali
• Confronto formanti
• Confronto delle tonalità fondamentali
• “Metodologia”
• Soluzione comune
• Analisi della registrazione audio estratta dal file video
• EdiTracker e modulo diagnostico

Dati nel formato hex

Questa operazione permette di esaminare in formato esadecimale il contenuto binario dei titoli dei file audio.

Ricerca di parole nella marcatura dei segnali

Questa operazione consente di effettuare la ricerca di tutte le parole simili in due segnali preimpostati o di trovare le parole nella lista selezionata dall’operatore.

Speech to test plugin

La disponibilità di dizionari utente consente all’esperto di fonetica di aggiungere ulteriori dizionari con trascrizioni al modulo di riconoscimento vocale. È utile quando il discorso della registrazione audio contiene slang, cioè parole che non sono comuni per il linguaggio formale. In questo caso il riconoscimento automatico “non sa” come vengono pronunciate queste parole. Pertanto, un dizionario aggiuntivo può essere molto istruttivo.

Collegamento Sound Cleaner al SIS (usando plugin VST)

Nel menu SIS “Elaborazione” è presente l’operazione “Sound Cleaner”. Ciò consente di utilizzare gli schemi di elaborazione del segnale di Sound Cleaner per il lavoro con il segnale in SIS.

Visualizzazione

Gli algoritmi di rappresentazione spettrale del segnale applicati garantiscono la massima qualità e chiarezza del parlato visibile. L’utente seleziona la rappresentazione appropriata o utilizza i preset per diversi tipi di analisi spettrale.

  • Oscillogrammi
  • Spettrogrammi FFT e LPC
  • Spettro istantaneo e medio lungo
  • Cepstrogramma
  • Autocorrelogramma

  • Estrattore di passo fondamentale
  • Estrattore di formanti
  • Energia
  • Istogramma e correlazione dell’istogramma

Modifica ed elaborazione

SIS fornisce un’ampia varietà di strumenti (professionali) di elaborazione e modifica del segnale (esperti) che migliorano l’intelligibilità del discorso registrato e preparano le registrazioni audio per ulteriori analisi.

  • Normalizzazione dell’ampiezza
  • Trasformazione lineare
  • Soppressione offset CC
  • Miscelazione
  • Modulazione
  • Correzione del tempo*
  • Ricampionamento

  • Conversione della profondità di bit
  • Separazione stereo e fusione di due segnali mono in stereo
  • Cambio di fase
  • Filtro inverso adattivo
  • Soppressore di tono adattivo
  • Filtri antirumore adattivi a banda larga

Rilevamento di voci e rumori (Riconoscimento vocale e del rumore)

Il rilevatore vocale contrassegna automaticamente i frammenti vocali nel segnale audio che sono adatti all’identificazione. Inoltre, il modulo può essere configurato per rilevare aree rumorose: segnali acustici, frammenti ritagliati e clic.

Trascrizione del testo e segmentazione vocale

Il plugin speech-to-text consente di ottenere automaticamente il contenuto testuale di un segnale vocale di una registrazione audio in varie lingue. Inoltre, la trascrizione è accompagnata da una segmentazione parola per parola che indica la posizione delle parole pronunciate. Questa funzionalità consente all’esperto di lavorare in modo efficace con grandi quantità di registrazioni audio.

In modalità manuale, i frammenti audio selezionati possono essere facilmente assegnati a categorie particolari (ad esempio, diversi altoparlanti, suoni o rumori) con commenti mentre il testo generale verrà esportato in MS Word. Se sono presenti due file di testo trascritto, il programma può cercare automaticamente tutte le parole corrispondenti nelle registrazioni audio confrontate.

Trascrizione automatica del testo con la segmentazione delle righe pronunciate dai interlocutori

Separazione degli oratori in un dialogo/polilogo

Il modulo segna automaticamente le linee in base agli interlocutori. La sua affidabilità arriva fino al 95% con un rapporto segnale/rumore di almeno 20 dB e la durata del discorso di ciascun oratore di almeno 16 secondi.

Utilizzando algoritmi integrati, il modulo consente la segmentazione delle linee pronunciate da un massimo di 5 interlocutori.

Interface multi-window

Nel SIS è possibile aprire più file audio in una o più finestre contemporaneamente. Le finestre sono posizionate in base a un compito: verticalmente per attività di identificazione o orizzontalmente per confrontare copie di registrazioni audio o le varie opzioni di pulizia sonora.
I segnali possono essere aperti in più livelli in una finestra e i loro colori e trasparenza possono essere modificati per una migliore visualizzazione.

Lavoro con le registrazioni audio in un’interface multi-schermo

Confronto dei segnali

Le finestre possono essere collegate in base al tempo e al dominio spettrale, il che semplifica la misurazione utilizzando i cursori verticali e orizzontali. Lo spettro istantaneo può essere sovrapposto per un migliore confronto visivo.
Gli istogrammi del passo possono essere confrontati visivamente o numericamente utilizzando valori di minimo, massimo, mediana, asimmetria e correlazione generale.

Analisi del segnale

Il SIS calcola automaticamente le caratteristiche del segnale, sulla base delle quali l’esperto giunge a una conclusione se la registrazione è idonea per l’analisi di identificazione.

  • Risposta in frequenza
  • Rapporto segnale-rumore
  • Tempo di riverberazione
  • Clipping e rumori tonali
  • Durata del discorso chiaro

Valutazione caratteristiche del segnale

Lavoro con i progetti e creazione report

IKAR Lab 3 organizza il flusso di lavoro dell’esperto in modo efficiente. Il progetto apre i file relativi all’esame direttamente dal SIS, siano essi file audio, di testo, video o fotografici. Questi file e risultati di identificazione possono essere salvati in modo strutturato, così come i report creati in MS Word. Il rapporto può essere integrato con informazioni sulle impostazioni per illustrazioni e rappresentazioni visibili del discorso, screenshots della schermata di lavoro o della sua parte.

Identificazione

Questo strumento unico basato su algoritmi biometrici e moduli esperti è realizzato per automatizzare e formalizzare i processi coinvolti nella ricerca di identificazione audio-forense: ricerca di parole e suoni comparabili, selezione di suoni e frammenti melodici da confrontare, confronto di formanti e altezze dei relatori ed esecuzione analisi del discorso. I risultati sono presentati come indicatori numerici per contribuire alla conclusione generale dell’identificazione.

Comparazione automatica

Il modulo esegue il confronto 1:1 del segnale vocale. Il metodo utilizzato dipende dalle caratteristiche del segnale vocale delle registrazioni audio studiate. Tutti i risultati si basano sull’estrazione dei tratti biometrici della voce e sui calcoli relativi alla loro somiglianza.

Altri metodi di confronto: cxvector (uno sviluppo su xvector) viene utilizzato come metodo principale e, inoltre, smart-speaker e gen6-v3 (quando il contenuto vocale chiaro in una registrazione audio è compreso tra 1,5 e 5 secondi). La nuova funzionalità offre un’identificazione più rapida e sicura.

Il processo di apprendimento automatico del modulo ha coinvolto decine di migliaia di relatori per far allenare il motore sulle registrazioni audio fatte da speeker di sesso, età, etnia e lingua differenti. I vari tipi di materiale vocale sono stati catturati in vari canali e in più sessioni di registrazione del suono. L’elevata affidabilità del motore biometrico è stata confermata nei test NIST.

Risultati di identificazione automatica

Confronto di formanti

Il processo di confronto dei formanti prevede due fasi:

  1. Ricerca e selezione di frammenti sonori di riferimento per relatori noti e sconosciuti:
  • utilizzando il grafico a dispersione con triangolo vocale ed evidenziando l’area di ricerca
  • specificando la gamma di frequenza di ricerca delle formanti
  • dalla posizione dei segni orizzontali che indicano i limiti in hertz e percentuale
  • utilizzando una tabella vocale grafica

2. Confronto tra esperti.

Il modulo calcola automaticamente FR, FA e LR per i suoni selezionati e decide se l’esito dell’identificazione è positivo, negativo o indefinito.

Identificazione del relatore mediante il metodo esperto del confronto delle formanti

Caratteristiche aggiuntive:

  • Confronto visivo di suoni selezionati su un diagramma vocale
  • Confronto dei valori delle formanti medi per i suoni selezionati di due speaker
  • Specifica di parole o triadi come commenti testuali su frammenti di riferimento
  • Esportazione di tabelle di frammenti di riferimento e risultati in MS Word

Pitch comparison/ confronto tonale

Il modulo confronta le specificità dei modelli melodici degli oratori. Il modulo consente di selezionare i frammenti melodici, di attribuirli a 1 di 18 possibili tipi melodici e di confrontarli in base a 15 parametri, inclusi i valori di altezza massima, media e minima, la velocità di variazione dell’altezza, l’asimmetria, la curtosi e altri.

L’algoritmo genera risultati come corrispondenza percentuale per ciascun parametro e fornisce una conclusione complessiva di identificazione/eliminazione o un risultato inconcludente. Tutti i dati possono essere facilmente esportati come report di testo.

Identificazione degli interlocutori mediante confronto tonale

Identificazione guidata

Questo plugin offre un processo di identificazione passo dopo passo, mostra le fasi della ricerca e visualizza i risultati per ogni confronto effettuato.

Conclusioni generali

Il risultato di ogni metodo può essere salvato in un determinato progetto. Il programma è progettato per tenere conto dei risultati di ciascun modulo quando si elabora una conclusione generale. L’esperto può regolare il peso relativo di ciascun metodo nella conclusione complessiva o il loro significato può essere assegnato automaticamente attraverso un calcolo delle caratteristiche qualitative e quantitative delle registrazioni audio confrontate. Sulla base dei risultati, l’esperto può generare automaticamente un rapporto dettagliato.

Analisi di una traccia audio estratta da un video

Con il nuovo metodo SIS, l’esperto ottiene l’accesso immediato alla traccia audio di un file video senza richiedere alcun editor aggiuntivo. Basta caricare il file video e SIS estrarrà automaticamente la traccia audio dal video e la aprirà in una finestra separata.

Il modulo consente di lavorare contemporaneamente su un video nel lettore video e su una traccia audio nell’editor. Il video e l’audio vengono sincronizzati e il video viene modificato automaticamente durante la modifica della parte audio.

Estrazione e analisi della traccia audio da un video

EdiTracker

Il plug-in esegue la diagnostica dell’autenticità delle registrazioni audio analogiche e digitali e semplifica notevolmente l’analisi tramite SIS fornendo all’utente metodi di analisi manuali e automatici.

Controllo di autenticità per l’utilizzo della preelaborazione digitale della registrazione audio

Metodi di analisi EdiTracker

  • Specificazione dei parametri del dispositivo di registrazione
  • Identificazione di tracce di precedenti elaborazioni
  • Analisi auditiva

  • Rilevazione di tracce di manomissione attraverso sfasamenti nelle armoniche e scansione di fase
  • Scansione del rumore ambientale.

Specificazione dei parametri del dispositivo di registrazione

Ogni dispositivo di registrazione analogico ha caratteristiche uniche, come risposta in frequenza, distorsione armonica totale, variazione dell’intonazione, gamma di frequenza effettiva, deviazione del tempo, ecc.

EdiTracker valuta automaticamente queste caratteristiche utilizzando un segnale di test. Una mancata corrispondenza tra i parametri del dispositivo e le caratteristiche di un segnale presumibilmente registrato con quell’unità può essere un’indicazione di manomissione.

Identificazione di tracce di preelaborazione digitale

L’elaborazione digitale dei segnali analogici richiede sempre una frequenza di campionamento specifica. Durante il processo di digitalizzazione si verifica un fenomeno noto come aliasing. L’aliasing degrada la qualità audio poiché i componenti ad alta frequenza si sovrappongono a quelli a bassa frequenza.

La stragrande maggioranza dei convertitori analogico-digitale e digitale-analogico utilizza filtri anti-alias. EdiTracker rileva automaticamente tracce di tali filtri, la cui presenza può suggerire che l’audio sia stato digitalizzato.

Rilevamento delle tracce di manomissione attraverso sfasamenti nelle armoniche

EdiTracker automatically scans audio for technical narrow-band signals which normally come from an electrical network (ENF), batteries, nearby electrical appliances, etc.,

and estimates their phase continuity. An unjustified phase break can be interpreted as potential evidence of audio editing.

Scansione del rumore di fondo

La scansione del ambiente rileva cambiamenti bruschi nello spettro che non sono evidenti sulla forma d’onda e che possono essere segni di editing audio. EdiTracker scansiona automaticamente anche l’integrità dei rumori di sottofondo e segnala qualsiasi cambiamento improvviso nel livello di rumore.

Authenticity check for hidden editing of an audio recording based on the uniformity of the background noise

Analisi auditiva

Durante la riproduzione della registrazione audio originale, tutte le comunicazioni audio, compreso il discorso verbale e non verbale dell’oratore, nonché il rumore di fondo aggiuntivo, si uniscono per formare un’immagine completa e integrata dell’ambiente audio e vocale. L’analisi uditiva di questi eventi sulla base delle caratteristiche note degli apparecchi di registrazione e dei metodi utilizzati può rivelare possibili 

violazioni nell’integrità dell’immagine audio complessiva e identificare l’ubicazione, i fatti e le modalità di tali violazioni. EdiTracker fornisce un elenco esteso di indicatori uditivi e linguistici che possono indicare violazioni nell’autenticità di una registrazione. Queste risorse possono essere utilizzate per creare un rapporto testuale.

Modulo diagnostico

Un nuovo modulo SIS per una valutazione più affidabile dell’autenticità e dell’esaminabilità di una registrazione audio. Il modulo rileva varie caratteristiche del segnale che spiegano la natura della sua origine o possibili metodi di elaborazione, che possono essere sconosciuti o deliberatamente nascosti. Oltre a EdiTracker, rileva l’applicazione di determinate operazioni su un segnale utilizzando i seguenti metodi

  • Rilevamento di spoofing
  • Analisi dell’offset DC
  • Analisi di tracce di codifica A/μ
  • Analisi di tracce di codifica MP3

Rilevazione di spoofing

Il rilevatore di spoofing ricerca tracce di attacchi di spoofing nella registrazione audio, come replay, sintesi vocale e dissimulazione vocale. Questo algoritmo si basa su una rete neurale addestrata su vari tipi di spoofing. Di conseguenza, può concludere se la registrazione audio si maschera o meno come la registrazione autentica di un oratore.

Analisi esperta del rilevamento dello spoofing

Analisi dell'offset DC

Questo modulo analizza la registrazione audio per identificare qualsiasi cambiamento drammatico nell’offset CC, poiché potrebbe essere un segno di violazione dell’integrità. Se viene rilevata tale violazione, il modulo evidenzia le aree corrispondenti.

Rilevamento del disturbo dell’uniformità dell’offset CC in due aree della registrazione audio

Rilevamento della codifica A/μ

Questo modulo analizza la registrazione per rilevare aree con segni di codifica A/μ. La possibilità che un audio sia stato elaborato utilizzando questi codec non è indicata dal formato di registrazione. In caso di rilevamento di tale codifica, il modulo evidenzia le aree corrispondenti o l’intero brano.

Rilevamento di aree con la codifica A/μ

Rilevamento della codifica MP3

Questo modulo analizza il file  per identificare i segni della codifica MP3. La possibilità che una registrazione audio sia stata elaborata utilizzando questo codec non è indicata dal formato di registrazione. Se è presente la codifica MP3, il modulo visualizza un messaggio che descrive le caratteristiche rilevate, oltre a spettrogrammi, grafici e istogrammi che spiegano la soluzione dell’algoritmo.

Rilevamento della codifica MP3