domenica 3 gennaio 2021

I segreti di MQA, spiegati

Il nuovo formato di codifica digitale MQA (Master Quality Authenticated) proposto da Bob Stuart e dalla Tidal ormai 4 anni fa si propone di sostituire la codifica standard PCM grazie ad alcuni percepibili vantaggi. La cosa non è ancora avvenuta e l'operazione suscita molti dubbi soprattutto tecnici, illustrati in un precedente post. L'occasione per tornarci con maggiore dettaglio nasce da un lungo articolo sull'ultimo numero di Audio Review, dal titolo "I segreti di MQA".

L'articolo, di taglio didattico e quindi orientato a farsi capire bene dal lettore, già dal titolo (ma non nel testo) mette in risalto uno degli elementi critici del nuovo standard, ovvero la poca chiarezza e la conseguente scarsa scientificità con cui è presentato MQA, nonostante i siti web sul quale è ampiamente presentato e promozionato.

Il sistema di misura Audio Precision APX517B utilizzato nei test presentati in uno degli articoli citati.

MQA spiegato in dettaglio

Grazie all'articolo e alle fonti disponibili sul web, in particolare agli articoli estremamente approfonditi e corredati da test effettuati con strumentazione professionale del noto super-esperto di audio digitale "Archimago", è possibile tentare un approfondimento. Iniziando dagli obiettivi di MQA, più volte ribaditi:

  • elevato risparmio di spazio dati
  • miglioramento della messa a fuoco temporale delle tracce audio
L'audio ha bisogno di essere messo a fuoco?
Dimentichiamo subito il primo obiettivo, a cui l'articolo dedica due inutilissime pagine. Risparmiare lo spazio dati in un mondo in cui sta arrivando il 5G, nel quale qualsiasi contratto economico garantisce 40-50GB al mese (se non illimitati) utilizzati magari per videogame interattivi 4K, nel quale hard disk da 2TB che possono contenere 1000 album in HD costano 60 € (in diminuzione) è totalmente privo di senso. Poteva essere un argomento 20 anni fa, ai tempi dell'MP3 che consentiva di diffondere la musica in rete, ma ora fa quasi ridere.

Più interessante il secondo obiettivo. La "messa a fuoco" è una necessità nella cattura delle immagini utilizzando sistemi di lenti e non si capisce cosa c'entri con la registrazione e riproduzione della musica ma, superando la diffidenza che accompagna questi claim di puro marketing, ed essendo l'obiettivo di qualsiasi audiofilo capire cosa effettivamente rende diverso e sempre più fedele l'ascolto, vale la pena approfondire. Anzitutto perché molti ascoltatori disinteressati hanno apprezzato molto l'ascolto con MQA.

Registrazione e riproduzione dei suoni impulsivi
Continuando nella lettura dell'articolo e delle altre fonti in rete (incluse quelle del consorzio MQA) si apprende che il miglioramento è indirizzato unicamente ai suoni impulsivi, la cui registrazione e digitalizzazione può presentare dei problemi con le tecniche tradizionali. I problemi sono due:
  • introduzione di una sfocatura (blurring) nella digitalizzazione con codifica PCM dei suoni impulsivi;
  • impossibilità di digitalizzare correttamente impulsi separati tra loro fino a 10 µs.
Sono due criticità oggettive e anche note (la prima soprattutto), ma dobbiamo farci alcune domande in merito:
  • Sono effettivamente presenti sistematicamente nella musica, hanno effettiva rilevanza nell'ascolto, sono tuttora presenti e ascoltabili nella musica codificata in PCM?
  • MQA risolve effettivamente queste criticità?
  • Possono essere risolte anche senza ricorrere alla codifica MQA che, lo ricordiamo, è lossy, con perdita (impossibile tornare all'audio originale)?
Il fenomeno pre-ringing schematizzato
Hanno effettiva rilevanza?
I transienti (rapide variazioni temporali) sono ovviamente presenti in musica, i suoni impulsivi e brevissimi, meno. Provare o negare che siano percepibili è quasi impossibile considerando il concetto estesissimo di "musica". Quindi rispondiamo di sì, e passiamo alle altre due.

Blurring, de-blurring e apodizzazione
La prima criticità può essere presente con la codifica PCM. In presenza di un rapido transiente o di un impulso la codifica e la successiva decodifica possono introdurre un artifatto, un "pre-ringing", un rimbalzo, un'oscillazione, prima dell'impulso, e quindi uno sfasamento temporale. Qualcosa di simile alla sfocatura nel senso che vengono sovrapposte all'originale informazioni (acustiche in questo caso) che rendono meno nitida l'informazione principale. 
MQA afferma di intervenire su questa criticità in conversione con un algoritmo simile alla apodizzazione in uso nella gestione delle immagini nei radiotelescopi (quindi sempre ricavate da onde, un paragone accettabile), in pratica la eliminazione dei "ring" più evidenti e prossimi all'impulso.

Ma come avviene l'eliminazione, e funziona?
Nella documentazione di MQA non si fornisce nessuna informazione in merito (è più o meno tutta così, poche informazioni e molta fuffa marketing) e così Archimago in un lungo articolo corredato da test approfonditi ha cercato di scoprirlo. Cliccando sul link si può leggere l'articolo, molto ricco di dati come sempre. Ma per chi ha più fretta riporto qui gli elementi principali.
  • riguardo alla presenza del fenomeno del "blurring":
    • (1) impulsi di ampiezza molto ridotta e transienti molto ripidi sono rari in musica ma possono introdurre artifatti analoghi alla "immagine fantasma" (fenomeno di aliasing) ben noto nella cattura delle immagini in movimento;
    • il blurring può presentarsi invece in modo più sistematico quando si usano filtri digitali a fase minima molto ripidi, cosa che può essere più frequente perchè sono usati nelle funzioni DSP, per esempio per la equalizzazione ambientale;
  • il fenomeno può essere affrontato e risolto solo con MQA?
    • l'anomalia (1) è nota sin dall'inizio della musica digitale, quindi anche a risoluzione CD, ed è stata affrontata con diversi metodi; può essere annullata passando adottando filtri digitali anti-aliasing e portando l'eventuale rumore di quantizzazione fuori della banda audio e questa azione è risolutiva passando alla risoluzione HD;
    • per l'anomalia (2) le tecniche anti-aliasing citate sopra possono essere non sufficienti e di conseguenza un algoritmo di de-blurring potrebbe essere effettivamente utile;
  • l'algoritmo di MQA è efficace?
    • è stato provato nell'articolo su due DAC che implementano MQA, uno relativamente economico (Meridian Explorer 2) ed uno di fascia alta (Mytek Brooklyn);
    • testando il comportamento del filtro con un'atterzzatura professionale Audio Precision  nell'articolo è dimostrato che il de-blurring è realizzato con un filtro anti-imaging debole, ovvero il tipo di filtraggio utilizzato per rendere "smooth", più lineare, un segnale campionato digitalmente;
    • il risultato, sempre secondo l'articolo, non è ottimale, nel senso che introduce uno slittamento temporale di 40 µs; in sostanza, elimina in parte il pre-ringing ma al prezzo di introdurre un peggioramento temporale anziché un miglioramento, quindi una minore fedeltà rispetto all'originale, con impatto non limitato solo ai file audio equalizzati e alle sezioni con fenomeni di pre-ringing;
    • lo stesso risultato, sempre secondo l'articolo, si potrebbe ottenere con un intermediate phase filter (un filtro digitale a fase intermedia tra la fase lineare e fase minima) applicabile solo quando serve, ovvero ai file audio equalizzati.

    La soluzione della prima criticità è un'esclusiva di MQA?
    In altre parole, nel caso i test dell'articolo citato fossero non corretti o contestabili (cosa che comunque il consorzio MQA non ha fatto), il de-blurring di MQA sarebbe l'unica soluzione al problema, e quindi la probabile motivazione per l'apprezzamento di molti all'ascolto con questa codifica?

    No, perché questo sfasamento temporale è, come anticipato, un noto effetto "alias" del campionamento PCM, che è risolto nei DAC, come anticipato, con un apposito filtraggio anti-aliasing. Quello che afferma il consorzio MQA  è infatti che anche questo filtraggio non è perfetto e quindi il pre-ringing e il blurring possono manifestarsi egualmente.

    Indipendentementemente che ciò sia vero o no (per i produttori di DAC ovviamente no), una soluzione accettata da tutti (incluso il consorzio MQA) esiste già, ed è la codifica DSD a 1 bit, che non richiede filtraggio anti-alias, anzi questo è uno dei vantaggi, forse il principale, che sostiene il suo elevato apprezzamento. Ma, ancora una volta, il consorzio MQA ritorna sui presunti vantaggi della compressione e del risparmio di spazio (ancora superiore nel caso del DSD). Vantaggio inesistente come già scritto.
    Per un ripasso sulla correzione della distorsione "aliasing" e un generale sulla codifica DSD consiglio questo articolo (in italiano) di Fabrizio Montanucci di qualche anno fa, molto chiaro e leggibile.

    La soluzione della seconda criticità è un'esclusiva di MQA?
    Ma il DSD invece uno svantaggio lo ha, non si possono implementare con la stessa facilità filtraggi ed elaborazioni DSP ed in particolare la room equalization, che raccoglie un notevole interesse, quindi un anti-alias più efficiente applicato anche al PCM potrebbe essere un vantaggio. (Lo so, stiamo andando veramente ad analizzare situazioni molto particolari, ma voglio andare a fondo nella ricerca dei presunti vantaggi si MQA).
    La domanda quindi diventa la seguente (supponendo che il de-blurring di MQA sia invece efficace).

    Il de-blurring di MQA funziona solo con audio codificato con MQA?
    Il consorzio MQA ovviamente lo afferma come plus, ma sempre senza dettagli tecnici che facciano capire il perché. In particolare, non è noto come l'algoritmo usato èsia applicato nella produzione del "master authenticated" oggetto del precedente post. Ovvero, se questa particolare codifica possa essere applicata senza ricorrere all'inutile compressione per risparmiare i dati, che rimane un processo separato e con una funzione diversa, o se è integrato inevitabimente in essa. 
    Sono due processi con scopo diverso ed è difficile immaginare che non siano separabili, è certo in ogni caso che il consorzio MQA non è interessato a farlo, ma anche che nessun altro pare interessato a scoprire i segreti dell'algoritmo o a inventare qualcosa di analogo, 

    Non basta però (e passiamo all'analisi speculativa che conclude l'articolo): un intervento di codifica preventiva non può essere applicato indistintamente a tutto il master, ma solo in presenza degli impulsi e dei transienti che possono generare pre-ringing, operazione ovviamente manuale, anti-economica e incompatibile con la produzione di centinaia di migliata o milioni di tracce MQA.
    A meno che in MQA abbiano anche implementato un raffinato sistema di AI (intelligenza artificiale) basato su un altrettanto raffinato set di misure, in grado di effettuare automaticamente questo compito. E soprattutto, avessero deciso con puro auto-lesionismo di non farlo sapere a nessuno ma avessero preferito rimanere nel vago della fuffa marketing. Quindi, in sintesi:
    • è impossibile più che improbabile che la correzione sia applicata selettivamente
    • probabilmente è applicata in modalità "batch" nella conversione alla codifica MQA
    • potrebbe essere realizzata e applicata anche in PCM
    • essendo un'esigenza molto particolare non è al momento interesse di alcuno occuparsene
    • la criticità non gestita in PCM, ovvero il pre-ringing generato da filtri DSP, si può verificare solo dopo la creazione del master MQA, e quindi non è garantita la correzione dalla codifica MQA.
    Aggiungo solo che, essendo l'effetto della correzione in sostanza un leggero "ammorbidimento" del suono, può darsi che sia all'origine del buon apprezzamento della codifca MQA in ascolto. Una sorta di filtro "analogico" e non a caso nelle presentazioni Bob Stuart fa criptiche allusioni al "suono analogico" di MQA.

    Digitalizzazione di impulsi separati tra loro fino a 10 µs.
    E veniamo infine alla seconda "criticità temporale" citata nell'articolo. Che ha una spiegazione molto semplice: 10 µs = 1/96KHz e quindi per il teorema di Nyquist è necessario, per non perdere queste informazioni, campionare il contenuto analogico a 192KHz al minimo, in modo da poter registrare contenuti fino a 96KHz.
    Anche qui MQA dice di essere utile, ma solo per la riduzione di spazio dati. Dimentichiamo quindi questo vantaggio riferito a MQA e limitiamoci a considerarlo un vantaggio (sinora poco noto e poco verificato) della codifica a 192KHz. Un vantaggio che dipende però da due requisiti:
    • esiste nella musica?
    • siamo in grado di ascoltarlo?
    Per poter riprodurre gli impulsi rapidissimi che si susseguono entro 10 micro-secondi (in un secondo ci sono un milione di micro-secondi) è necessario che questa informazione sia presente nella registrazione originale, quindi che il microfono (se è un suono acustico) arrivi a 96KHz e che l'audio originale non sia derivato da master analogici su nastro magnetico, che ovviamente anch'essi non arrivano a questa larghezza di banda. Potrebbe essere prodotta solo con suoni sintetizzati. Per arrivare al nostro sistema uditivo dovrebbe poi essere riprodotta con cuffie stereo o altoparlanti in grado di estendere la risposta sino a 96KHz. Il sistema uditivo pare che sia in grado di percepire questo tipo di suoni, anche se arriva (su suoni continui) solo a 20KHz (in giovane età) ma per cuffie e casse acustiche attuali è decisamente fuori range.

    Esiste qualche prova di ascolto?
    Per sapere se un umano giovane o meno può sentireil fenomeno di blurring e il suo annullamento con MQA nonché abbia la capacità di percepire suoni impulsivi ripetuti con audio a 192KHz che invece spariscono con audio a 96KHz o inferiore, sono necessarie accurate prove d'ascolto. Non si trovano riferimenti nell'articolo di Audio Review da cui siamo partiti, dove prudentemente si danno indicazioni su come dovrebbe essere organizzata una sezione d'ascolto per differenze, perché possa essere oggettiva (molto simile a quelle riportate a suo tempo in un articolo sul blog) suggerendo ai lettori interessanti (e molto pazienti e molto confidenti nelle loro capacità di ascolto) di farsele da soli.

    Qualcuno però ha fatto alcune prove di ascolto sul blurring e il pre-ringing, accompagnate da misure tecniche molto approfondite, è il forum Audio Italia e le prove sono a cura del suo amministratore Tom Capraro. L'articolo è in italiano e i test e i risultati sono spiegati in modo chiaro e con molti esempi, rimando quindi ad esso per approfondimenti, e mi limito a citare i risultati:
    • i suoni impulsivi non sono percepibili e se ne ha conferma analizzando il corrispondente spettrogramma;
    • il pre-ringing generato da interventi di filtri digitali minimal phase è percepibile, ma solo se non mascherato da alcune scelte di filtraggio e soprattutto dal pre-ringing indotto dal dispositivo usato per l'ascolto.
    In sintesi, cosa ci interessa in pratica di questa complessa questione teorica?
    Separiamo la risposta in tre. Per chi ascolta in streaming, la scelta per l'ascolto in HD al momento è tra Qobuz (PCM) e Tidal (MQA), per chi preferisce il download digitale cominciano ad essere disponibili album codificati MQA. Le differenze all'ascolto sono minime e anche variabili in base a cosa si ascolta (qualità del master originale soprattutto), quindi equivalenti. La differenza la fa il catalogo, di gran lunga più ampio quello in PCM.

    Per chi è interessato alla room equalization e all'uso del DSP la teorica e del tutto da provare efficacia di MQA per ridurre alcuni effetti (peraltro non sistematici) è ancor  più "teorica", perché potrebbe essere applicata solo al ridottissimo catalogo di album in download codificati MQA.

    Infine, riguardo alla temuta "sfocatura" da aliasing, chi non si fida della qualità conclamata dei DAC PCM dell'ultima generazione deve puntare sulla codifica DSD che da' garanzie certe di essere "pre-ringing free" e quindi priva del fenomeno di aliasing, e che presenta già ora un catalogo molto ampio di scelte (solo in digital download).