Il limite massimo per il CD
Come più o meno tutti sanno il sistema PCM adottato per quasi tutta la musica digitale sin dai primi anni '80 si basa sul campionamento del segnale audio (ed era nato dalla telefonia) e la qualità dipende dal numero di bit con il quale è descritto il campione e dal numero di campioni nell'unità di tempo, ovvero dalla frequenza di campionamento. Per un teorema di fisica, il teorema di Nyquist, dalla frequenza di campionamento deriva anche la frequenza massima dell'audio digitalizzato, in rapporto 1:2. Quindi se la frequenza massima che vogliamo digitalizzare senza perdere nulla è 20KHz, ovvero la frequenza di un segnale sonoro più alta che un umano (giovane) è in grado di distinguere, ci serve un sistema in grado di campionare almeno a 40KHz.
Nel mondo digitale tutto va a multipli di 2 o di 8 come si sa e quindi la frequenza standard doveva essere un multiplo di 8, ma 40 era troppo poco per motivi di filtraggio e la scelta logica sarebbe stata 48KHz. Per motivi extra-tecnologici questa scelta logica venne però scartata scegliendo una curiosa frequenza intermedia, 44.1KHz. Che dipendeva dalla capienza massima del primo CD originale Red Book. Con la frequenza a 48KHz non ci sarebbe infatti entrata per intero la più celebre sinfonia della musica classica, la 9a di Beethoven, e la frequenza venne ridotta per arrivare al minutaggio necessario. Secondo alcuni è stata una scelta dell'allora presidente e fondatore della Sony, Akio Morita, secondo altri sarebbe stata suggerita o addirittura imposta dall'altrettanto mitico direttore d'orchestra Herbert Von Karajan (per la durata della sua esecuzione coi Berliner Philarmoniker, ovviamente), ma è andata così. E non è stato un bene, perché poi si è scoperto che 48KHz sarebbe stata una scelta migliore, e peraltro i CD hanno raggiunto dopo pochi anni una capienza superiore e il problema è sparito.
Il limite sale con l'alta definizione
Con l'alta definizione, figlia della rapida crescita di potenza dei computer e di capacità di memoria, il numero di bit per il campionamento è salito dagli originari 16 (il massimo gestibile a inizio anni '80, anzi i primissimi DAC erano a 14 bit) a 24 e poi a 32, mentre la frequenza è salita a 48KHz (già con il DAT, Digital Audio Tape, praticamente contemoraneo) poi 96KHz, 192KHz, fino a 384KHz negli ultimi sistemi professionali.
Un album prodotto e distribuito dalla etichetta norvegese 2L - The Nordic Sound, disponibile in alta definizione fino ai livelli massimi attuali (356,8KHz e DSD256) |
La domanda che ci si pone quindi è se questo incremento porta effettivi benefici all'ascolto delle musica. Per rispondere si devono esaminare separatamente due aspetti:
- l'incremento della frequenza riproducibile;
- l'incremento della risoluzione.
Se non siamo in grado di percepire con il nostro sistema uditivo suoni oltre i 20KHz evidentemente almeno per noi umani sopra questa frequenza non c'è musica; anche se ci fosse (nel senso che gli strumenti con cui suoniamo emettono frequenze ultra-soniche) non ne sapremmo nulla. Inoltre, i sistemi di riproduzione, quindi soprattutto i diffusori, non sono progettati per riprodurre frequenze ultrasoniche, per gli stessi motivi. La risposta in frequenza del buon vecchio CD è quindi sufficiente e tutti questi incrementi nella frequenza di campionamento sembrano essere inutili. E conseguenti polemiche sulla inutilità dell'alta definizione nel suo complesso.
La fisiologia umana è più complessa
Questo è vero ma sino a un certo punto, anche perché non siamo in grado di effettuare test audiometrici su tutti gli uomini e le donne della terra, e quindi questo limite famoso di 20KHz è statistico, e deriva dai test effettuati su molte persone, ma non su tutte. Possiamo però affermare con ragionevole certezza che se anche esiste qualcuno da qualche parte con un udito straordinario, non andrà molto oltre questo limite per ragioni fisiologiche.
C'è da considerare poi la tecnica del test audiometrico, che molti dei visitatori del blog avranno, come me, sperimentato qualche volta, quindi con cuffie chiuse, in camera anecoica. Il nostro sistema uditivo è però assai complesso e il cervello elabora informazioni che provengono non solo dalle orecchie, ma da altre parti del corpo, come avviene e come sperimentiamo facilmente per le frequenze inferiori. Secondo alcuni studi anche la struttura ossea del capo è utilizzata dal sistema uditivo per acquisire informazioni dalle frequenze superiori. Ipotesi confermate da alcuni esperimenti, che si possono reperire anche su Wikipedia, nei quali diversi panel di ascoltatori sono stati in grado di riconoscere le differenze tra segnali audio che contenevano oppure non contenevano frequenze ultra-soniche.
Quindi c'è una scuola di pensiero che sostiene che anche queste informazioni sono importanti per ricreare l'evento sonoro originale e devono essere preservate, anche se non c'è una prova definitiva che ciò sia vero.
Gli strumenti, i suoni ultra-sonici e la loro riproduzione
Poiché sono indirizzati a noi umani gli strumenti musicali non sono progettati per generare suoni ultra-sonici ovvero al di fuori del campo udibile per noi. Se sono generati noi non ce ne ce ne dovremmo accorgere, ma possono essere eventualmente emessi come armoniche a frequenze superiori (ma di intensità più bassa) da alcuni strumenti sull'estremo acuto. Questo effettivamente avviene, e suoni oltre i 20KHz si trovano nelle registrazioni HD, anche se non oltre i 25-30KHz, come è documentato anche in questo blog con alcuni test eseguiti con un analizzatore di spettro software ormai parecchio tempo fa.
Perché arrivino a noi e possano o meno avere un effetto sulla nostra percezione dell'evento sonoro è però anche necessario che vengano riprodotti dal nostro impianto. Amplificatori e lettori non hanno problemi, ma i diffusori sono progettati per arrivare, con gli altoparlanti per le vie superiori, a 20KHz e non di più, tranne rarissime realizzazioni con super-tweeter utilizzanti varie tecnologie alternative (come i tweeter a nastro). Identiche considerazioni si possono fare per i microfoni da ripresa: esistono quelli in grado di andare oltre i 20KHz ma non sempre sono usati e certamente non è avvenuto per le registrazioni storiche o datate.
In conclusione, per la risposta in frequenza
Il beneficio ottenibile in termini di realismo nella riproduzione, anche se esiste, è certamente limitato a pochi generi e composizioni musicali e per essere apprezzato impone diversi vincoli. Resta il fatto che nell'evento dal vivo questi vincoli non ci sono e, se abbiamo una tecnologia che ci consente di registrare integralmente il contenuto musicale, senza tagli in frequenza e senza costo aggiuntivo, non si vede alcun motivo per non adottarla.
Secondo aspetto: la risoluzione
La risoluzione, o definizione, cioè il livello di approssimazione all'evento originale (che è sempre analogico, cioè continuo, con infinito numero di livelli di variazione) dipende certamente dal campione singolo, quindi dal numero di bit con il quale può essere codificato, ma anche dal numero di campioni nel tempo. La frequenza di campionamento non ha effetto quindi solo sulla frequenza udibile, ma anche sulla risoluzione. Più è elevata e maggiore è la risoluzione.
Un parallelo cinematografico
Per comprenderlo facilmente basta ricondursi a un sistema di campionamento inventato nel XIX secolo e che tutti conosciamo: il cinema (o il video). I campioni sono come i singoli fotogrammi e la frequenza di campionamento sono i fotogrammi al secondo. Nelle prime cineprese (o in quelle amatoriali) erano 18 fotogrammi al secondo e nelle scene di azione poteva capitare di vedere a scatti, con la frequenza poi adottata universalmente di 24 fotogrammi al secondo si aveva una buona fluidità, per una scena al rallentatore (nella quale sono mostrati molti più elementi) servivano frequenze superiori anche di molto, e molta più "memoria" e tecnologia. Dopo oltre 100 anni le cose non sono molto diverse e le moderne action cam come la diffusa Go Pro consentono di registrare a 50fps (anche per video non rallentati) per garantire poi con successive elaborazioni una maggiore fluidità. A spese magari della risoluzione del "campioni" (non full HD o non 4K ad esempio, rispetto ai 25fps standard).
Aumentando la frequenza aumenta anche la risoluzione
Nella musica la situazione non è diversa, aumentando la frequenza si potranno registrare più campioni e quindi ci sarà una minore probabilità di perdere minime variazioni del segnale audio tra un campione e il successivo. Perché allora quasi nessuno riesce a individuare differenze tra una registrazione 24/96 ed una 24/192? Una spiegazione può essere che già con una frequenza molto elevata, come 96.000 campioni al secondo, la probabilità di una micro-variazione nell'istante di tempo diventa prossima allo zero. Per tornare all'esempio cinematografico, se filmiamo una grossa pietra con una cinepresa ben piazzata su un solido cavalletto, possiamo aumentare i fotogrammi al secondo quanto vogliamo, ma saranno tutti uguali, anche con meno fotogrammi avremmo la stessa qualità. Con un segnale audio musicale in molte casi si raggiunge probabilmente la stessa situazione di campioni tutti uguali, quindi in parte inutili.
Perché allora in campo professionale si usano frequenze di campionamento sempre più elevate, fino a 384KHz al momento? Per semplificare, soprattutto per motivi legati alle esigenze di filtraggio digitale, spostabile molto al di fuori del campo utile e alla conseguente maggiore flessibilità nel trattamento delle registrazioni.
Nel DSD
Tutte le considerazioni fatte riguardano la tecnica di campionamento PCM, più facile da illustrare. Non diverse sono le considerazioni che si possono fare sulla tecnica DSD. Anche in questo caso, partendo da una frequenza di campionamento che può essere ricondotta come ordine di grandezza a un livello intermedio tra 48 e 96KHZ (DSD64) sono state via via introdotte registrazioni con frequenza doppia (DSD128), quadrupla (DSD256) o addirittura anche 8 volte superiore (DSD512) anche se non ancora con una vera produzione per quest'ultima. I vantaggi veri e presunti sulla banda audio riproducibile e sulla risoluzione sono gli stessi.
In conclusione, per la risoluzione
Quasi tutti concordano che la sicurezza di un audio effettivamente HD si ottiene già a 96KHz, e che anche a 48KHz le differenze sono difficilmente percepibili. Vale sempre il discorso che se non costa nulla di più non ha senso perdere qualcosa, fosse anche superfluo. La frequenza elevata però comporta ancora un costo aggiuntivo, legato alle dimensioni dei file che diventano sempre più rilevanti. I costi sono elevati, più che per esigenze di memorizzazione, per la banda trasmissiva necessaria (in streaming e download) che diventa dell'ordine di 9Mbps per il 24/192, più elevata che per il video streaming in HD e critica soprattutto in mobilità su reti 3G o 4G.
Essendo nella stragrande maggioranza dei casi quasi sempre non avvertibile la differenza , non è illogico adottare frequenze più ridotte per lo streaming, mentre per il download la continua crescita di capacità di memorizzazione e banda trasmissiva rende il problema dimensionale sempre più marginale e casomai il dubbio può essere generato dal costo piuttosto elevato di queste produzioni in "super-HD" dell'ordine dei 60$ in USA e 52-55 € in Europa.