S.G. |
Progetto 1A Modulo 2 Il suono nel PC |
I.T.I.S. "Modesto Panetti" B A R I itis.panetti.bari@quipo.it |
Il suono nel PC |
1. Generalità
Fra le caratteristiche multimediali del personal computer si deve annoverare quella della registrazione e della riproduzione del suono.
E' possibile riprodurre l'audio di un CD musicale in formato CDA, di musica elettronica sintetizzata in formato MIDI, di voci, effetti speciali, brani musicali memorizzati sull'hard disk in uno dei tanti formati specifici tra cui il WAV.
Recentemente si è affermato il formato MP3 che consente di compattare i file in formato WAV riducendo le dimensioni del file a meno del 10% delle dimensioni originali senza apprezzabile degrado della qualità audio.
E' possibile registrare l'audio proveniente da un microfono o da altra sorgente memorizzando su hard disk il file prodotto in un formato consentito dal software di registrazione utilizzato. Quasi tutti i software di registrazione audio permettono l'utilizzo del formato WAV.
I software dedicati ai file audio consentono numerose funzioni di elaborazioni vocali come filtraggio, fader, eco, riverbero, riduzione del fruscio e dei "tick", modifica della velocità, conversione da un formato all'altro, ecc.
Per poter utilizzare le prestazioni audio è necessario possedere, all'interno del PC, una scheda audio che ha il compito, durante la fase di registrazione, di convertire il segnale elettrico analogico proporzionale all'intensità del suono in segnale elettrico digitale in grado di poter essere memorizzato nel PC.
In fase di riproduzione, la scheda audio deve effettuare la conversione opposta, ossia deve trasformare i dati digitali in segnale analogico che, opportunamente amplificato dalla scheda audio o da un amplificatore esterno, viene inviato agli altoparlanti.
Nel successivo paragrafo saranno analizzate alcune caratteristiche delle schede audio.
2. Schede audio
La scheda audio si inserisce in uno slot di espansione a 16 bit del PC (connettore nero).
Presenta, nella parte posteriore del PC, una serie di prese Jack ed un connettore a D a 15 poli a cui collegare un Joystick o un dispositivo MIDI.
Si mostra in fig.1 lo schema a blocchi di una scheda audio (Sound Blaster a 16 bit).
Di seguito si indicano le funzioni dei connettori e delle prese Jack della scheda audio.
Fig.1 - Le prese jack ed i connettori della scheda audio.
Una scheda audio è perfettamente in grado di digitalizzare un suono analogico, copiarlo in memoria o su disco rigido, leggerlo e riconvertirlo per l'ascolto. Per queste operazioni sono necessari le prese jack precedentemente indicate.
Il connettore per Joystick non serve solo per giocare ma permette di collegare tra loro vari strumenti musicali e di controllarli da un'unica tastiera-master secondo lo standard MIDI.
Lo standard MIDI, in riproduzione, consente di "suonare" simultaneamente un certo numero di strumenti, indicati col termine voci, grazie ad un circuito integrato interno alla scheda audio che funge da sintetizzatore FM secondo la tecnologia Yamaha OPL2 e OPL3.
Fra le tante caratteristiche che determinano la buona qualità di una scheda audio occorre ricordare:
Si riassumono nella tabella 1 le caratteristiche tecniche salienti delle schede audio tratte dalla rivista PC Magazine:
Tabella 1
Produttore |
Aztech |
Creative Lab |
Creativ Lab |
Gravis |
TerraTec |
Modello |
Waverider pro 32-3D |
SB AWE 64 Gold |
Soundblaster 16 |
Ultrasound PnP Pro |
Maestro 32/96 |
Prezzo |
85.000 |
419.000 |
149.000 |
369.000 |
480.000 |
Plug & Play |
NO |
SI |
SI |
SI |
SI |
Sintesi Wav. |
SI |
SI |
NO |
SI |
SI |
ROM Wav. |
1Mbyte |
1Mbyte |
NO |
1Mbyte |
4Mbyte |
RAM standard |
NO |
4Mbyte |
NO |
512Kbyte |
NO |
Max RAM |
NO |
28Mbyte |
NO |
NO |
NO |
Slot per RAM |
NO |
Proprietarie |
NO |
2x30pin |
NO |
Voci HD |
32 |
32 |
NO |
32 |
32 |
Voci SW |
NO |
32 |
NO |
NO |
NO |
Frequenza campionam. |
48KHz |
44.1KHz |
44.1KHz |
48KHz |
48KHz |
Effetti 3D |
SI |
SI |
SI |
SI |
SI |
Full duplex |
SI |
SI |
SI |
SI |
SI |
Soundblaster |
SI |
SI |
SI |
SI |
SI |
General MIDI |
SI |
SI |
NO (?) |
SI |
SI |
Extra/cavi |
Cuffie |
Midi/audio/mic |
Audio |
Microfono |
Midi/audio |
Da PC Magazine n.140 luglio/agosto 97.
3. Il suono
Il suono è prodotto da turbolenze ondulatorie dell'aria: onde di pressione che sono percepite come suoni dall'orecchio umano.
Gli elementi fondamentali del suono sono l'ampiezza, la frequenza e il timbro.
3.1. Ampiezza
Un suono con ampiezza (o intensità) nulla non è percepito dal nostro orecchio; un suono con elevata ampiezza viene percepito con una intensità elevata che risulta molto fastidioso. In realtà il nostro orecchio presenta una curva di sensibilità che va dalla cosiddetta soglia di udibilità alla soglia del dolore.
L'ampiezza dipende dal flusso di potenza che investe l'orecchio umano e si misura in Watt/cm².
Sperimentalmente si è ricavato che la soglia di udibilità e del dolore alla frequenza di 1KHz valgono, rispettivamente:
Jo = 10-10 µWatt/cm² |
J1 = 104 µWatt/cm² |
Il flusso di potenza J, alla frequenza di 1KHz, è proporzionale alla pressione acustica emessa dalla sorgente sonora per cui è possibile esprimere la sensazione sonora S in deciBel secondo la formula:
SdB = 20 log (p/po)
Ove po rappresenta la pressione acustica in corrispondenza della soglia di udibilità.
Dalla formula si evince che se la pressione acustica corrisponde alla soglia di udibilità, la sensazione sonora vale 0dB mentre se la pressione acustica corrisponde alla soglia del dolore la sensazione sonora vale 140dB.
Poiché l'intensità sonora di un ambiente silenzioso vale 10-8 µWatt/cm², possiamo dedurre che il "rumore di fondo" corrisponde a circa 40dB.
3.2. Frequenza
In Fisica la frequenza è definita come il numero di oscillazioni complete compiute nell'unità di tempo. La frequenza di un suono corrisponde al numero di vibrazioni al secondo dell'aria emesse dal generatore di suoni. La frequenza dipende dalle caratteristiche fisiche e geometriche del generatore di suoni. Il diapason, la laringe, la corda di una chitarra emettono particolari valori di frequenze.
I suoni a frequenza bassa (20-500 Hz) sono detti gravi, quelli a frequenza elevata (2K-20KHz) sono detti acuti.
Il nostro orecchio ha una elevata sensibilità alle variazioni di frequenza potendo distinguere con facilità suoni che differiscono anche di pochi Hertz.
Tale sensibilità è, comunque, soggettiva e consente di percepire sotto forma di suono le onde acustiche di frequenza compresa tra 20Hz e 16KHz tipicamente. Quelle all'esterno di tale intervallo non sono percepite dall'orecchio umano.
Le onde con frequenza inferiore a 20Hz sono dette subsoniche mentre quelle superiori a 20KHz sono dette ultrasuoni.
I cani, come è noto, sono in grado di percepire gli ultrasuoni: esistono fischietti che emettono ultrasuoni percepiti dai cani ma non dall'uomo.
3.3. Timbro
I suoni sinusoidali puri sono definiti esclusivamente conoscendo la frequenza di oscillazione e l'intensità sonora.
Le sorgenti sonore più complesse, come gli strumenti musicali o la nostra voce, generano suoni non puri, caratteristiche della sorgente stessa, che si possono pensare costituiti dalla somma di due o più suoni puri ognuno avente una certa ampiezza ed una certa frequenza.
Il "La" emesso da una chitarra non è un suono puro ma è costituito dalla somma dei suoni puri contemporaneamente generati dalla chitarra. In particolare ciascuno di questi suoni puri ha frequenza multipla della frequenza fondamentale (armoniche) ma ampiezze differenti caratteristiche della chitarra.
La stessa nota emessa da una tromba presenta stesse armoniche aventi, però, ampiezze differenti da quelle della chitarra.
Per questo motivo il nostro orecchio è in grado di discriminare facilmente se il suono del "La" proviene dalla chitarra o dalla tromba.
Questo terzo attributo del suono prende il nome di timbro.
3.4. Esempi di suoni
Si riportano in figura 2 le rappresentazioni grafiche di suoni puri a diversa ampiezza, frequenza e timbro. Facendo click sui relativi grafici si ottiene il corrispondente suono attivato per 5 secondi.
Fig.2 Esempi di forme d'onde:
4. Campionamento del segnale audio
Per convertire un'onda sonora analogica in segnale digitale, il computer deve essere in grado di misurarne l'ampiezza in istanti successivi periodicamente.
Ogni misura si chiama campione per cui la conversione A/D prende il nome di campionamento del suono.
Per la riproduzione di un suono digitale memorizzato nel PC è necessario effettuare la conversione D/A, cioè dalla forma digitale alla forma analogica.
4.1. Frequenza di campionamento
Più elevata è la frequenza di campionamento tanto maggiore è la rassomiglianza tra il segnale campionato e quello originario.
Spingere la frequenza di campionamento all'infinito pone un problema sul numero di campioni generati in un secondo. Se, ad esempio, la frequenza di campionamento fosse di 1 MHz, avremmo un milione di campioni al secondo per cui per cui un brano di 5 minuti (300 secondi) sarebbe convertito in 300 milioni di campioni. Ciascun campione, inoltre, può impegnare uno o più byte per cui il citato brano potrebbe avere una dimensione anche superiore a 1G byte !!
Riducendo la frequenza di campionamento oltre un certo limite, però, non saremmo in grado di ricostruire fedelmente la forma d'onda di partenza.
Come fare ?
Ci viene incontro il teorema del campionamento di Shannon che dice che un segnale complesso avente massima frequenza fmax può essere completamente ricostruito se si effettua il campionamento ad una frequenza fc almeno pari al doppio di fmax. In formula:
fc ³ 2*fmax
Il limite fc = 2*fmax è puramente teorico perché per la ricostruzione del segnale di partenza è necessario un filtro passa-basso di ordine molto elevato, praticamente impossibile da realizzare.
In genere si campiona ad una frequenza maggiore di 2*fmax.
In telefonia viene destinata alla voce una banda di frequenza da 300Hz a 3.4KHz e gli impianti telefonici, per la conversione A/D, campionano alla frequenza di 8KHz (maggiore del doppio di 3.4KHz).
In campo telefonico non ha importanza la qualità audio ma la intelligibilità del messaggio.
In campo radiofonico, invece, è importante anche la qualità dell'audio. Infatti nella modulazione di ampiezza AM viene destinata all'audio una banda di 10KHz per cui il campionamento per la conversione A/D deve avvenire ad una frequenza superiore a 20KHz (in FM la banda è di 15KHz).
I brani audio incisi su CD, infine, per poter essere fedelmente riprodotti devono essere campionati ad una frequenza superiore a 40KHz poiché la banda acustica del nostro orecchio va 20Hz a 20KHz.
Si riassumono nella seguente tabella 2 le tre frequenze di campionamento tipiche utilizzate per l'acquisizione digitale di segnali audio.
Tabella 2
Denominazione |
Frequenza di campionamento |
Numero di campioni per la durata di un minuto |
Qualità telefono | 11 KHz |
660.000 campioni |
Qualità radio | 22 KHz |
1.320.000 campioni |
Qualità CD | 44.1 KHz |
2.646.000 campioni |
4.2. Lunghezza del campione
Il dato campionato deve essere convertito in forma digitale. Se si destinano 8 bit ad ogni campione, la dinamica del segnale analogico viene suddivisa in:
28 = 256 livelli. Nella ricostruzione si ottiene un tipico andamento a scalinata come si mostra in fig.3. Facendo click sul grafico si ottiene il relativo suono.
Fig.3 Onda sinusoidale di ampiezza 1V e frequenza 1KHz campionata a 11KHz con campioni a 8 bit in formato mono.
Assegnando ad ogni campione non 8 bit ma 16 bit la dinamica viene divisa in 216 = 65536 livelli. La conversione è più precisa ma il file prodotto ha dimensione doppia.
In genere, tuttavia, si preferisce un campionamento a 16 bit rispetto a 8 bit per ridurre il rumore di fondo.
In caso di campionamento stereo si generano due campioni per volta.
Per la produzione di brani audio in formato CDA da registrare su CD-R la scelta obbligata è 44.1KHz a 16bit stereo. In questa modalità di funzionamento un minuto di riproduzione occupa 2.646.000 x 4 = 10.584.000 byte cioè poco più di 10Mbyte, cioè un brano di durata 5 minuti viene memorizzato in 50Mbyte.
Se il brano è memorizzato su CD-ROM, il driver deve leggere il file ad una velocità di 44.1 x 4 = 176.400 byte/secondo. Questo valore rappresenta la velocità base dei lettori di CD-ROM.
Un lettore di CD-ROM si dice a doppia velocità, o 2X, se è in grado di leggere i dati ad una velocità doppia del valore 176.400 (approssimato a 150Kbyte).
I lettori di CD-ROM più recenti sono del tipo 40x, cioè possono leggere dati ad una velocità 40 volte superiore a quella necessaria per la riproduzione di un brano audio campionato a 44.1KHz, 16 bit, stereo.
5. Formati dei files audio
Di seguito si elencano alcuni formati audio di maggior utilizzo e riconosciuti dalla maggior parte dei programmi di elaborazione del suono.
5.1. WAV
Si è già detto che uno dei formati più diffusi per i file audio è il formato WAV.
Esso è stato sviluppato da IBM e MicroSoft e può contenere campioni ottenuti con qualsiasi frequenza, risoluzione e numero di canali e può includere uno dei tanti stili di compressione. Quando si esegue il salvataggio in formato WAV è possibile impostare gli attributi del file consistenti nella frequenza di campionamento, numero di bit, mono o stereo, legge µ e legge A, MPEG layer-3, Creative ADPCM, ecc.
Nel dubbio conviene non modificare l'impostazione automatica.
5.2. AU
Il formato AU è molto diffuso ed utilizzabile su varie piattaforme operative.
Fu sviluppato dall'industria telefonica degli Stati Uniti col nome µ-law, campiona un canale mono a 8 bit a 8KHz e consente una gamma dinamica più ampia rispetto ad altri suoni codificati a 8 bit e a 8 KHz.
Presenta un fruscio di sottofondo piuttosto fastidioso.
5.3. RA
Il formato RealAudio RA, ascoltabile facendo uso direttamente del software riproduttore di tale formato, è molto utilizzato in Internet perché consente l'ascolto durante la ricezione dei dati e non dopo che il file sia stato scaricato completamente. Esso viene fornito in due versioni: 14.4 adatto ai modem da 14.4Kbps con qualità radio AM mono e il formato 28.8, utilizzabile con il modem da 28.8Kbps con qualità radio FM mono. Presenta un algoritmo molto complesso di tipo lossy (a perdita di informazioni), è molto più compatto del file WAV ma la qualità audio non è altrettanto buona.
5.4. MP3
È quello che risulta di gran lunga il più conveniente. Esso, infatti, consente di ridurre a 5Mbyte un file audio di 50Mbyte con trascurabile decadimento delle prestazioni ( si tratta di un formato lossy).
Il principio di funzionamento consiste nell'eliminare le informazioni ritenute non importanti ai fini della qualità del suono. Per stabilire quali siano le informazioni da sacrificare si ricorre allo studio delle capacità percettive dell'orecchio umano.
La procedura di compressione prevede l'analisi dello spettro del segnale audio e la suddivisione in sub-bande, quindi l'applicazione di un modello psico-acustico per definire quale sia il livello di suono percettibile. Di conseguenza viene valutato se codificare questa parte di segnale o meno (CHIP - aprile 98).
5.5. Altri formati
Si elencano infine, a solo titolo d'esempio, le estensioni di alcuni altri formati audio: VOC, IFF, RAW, MAT, VOX, SMP, SDS, ecc.
5.6. Estrazione di audio digitale dal CR-ROM
I circuiti di trattamento dell'audio digitale sono diversi da quelli necessari per l'elaborazione dei dati. Se il lettore di CD-ROM non presenta queste due funzioni, non è possibile estrarre le tracce audio dal CD-ROM. I moderni lettori, tuttavia, presentano queste due funzioni.
I CD-audio non usano la stessa formattazione dei CD-dati ma seguono lo standard CD-DA. Per leggere le tracce audio è necessario che il firmware del lettore sappia trattare il formato CD-DA.
L'audio digitale estratto viene memorizzato su hard-disk sotto forma di file WAV a 44.1KHz, 16 bit stereo. L'operazione di estrazione, a secondo del lettore e del software utilizzato può avvenire a velocità 1x o superiore. Se ad esempio un brano di 4 minuti viene estratto alla velocità 12x, l'operazione di estrazione si conclude dopo un tempo pari a 4x60/12=20 secondi (CHIP - aprile 98).
6. Confronto pratico tra file WAV ed MP3
Si riporta, di seguito, parte di un brano musicale, ridotto a soli 32 secondi, estratto in forma digitale da un CD audio in formato WAV e lo stesso brano compresso in formato MP3 al fine di valutare le eventuali differenze. Si noti come il file WAV occupi 5.5Mbyte mentre il file MP3 occupa soli 0.5Mbyte.
Si descrive la procedura adottata.
Estrazione della traccia audio n.8 in formato digitale col programma Easy CD Pro 2.1 (programma per la gestione del masterizzatore).
Il brano ha una durata di 3 minuti e 38 secondi, ed è stato estratto dal lettore di CD-ROM Pioneer SCSI 12x in poco meno di 20 secondi e salvato su hard-disk col nome 8.WAV di 35 Mbyte circa.
Col programma Goldwave di elaborazione audio sono stati salvati su hard-disk i primi 6 secondi di brano col nome 8.WAV con gli attributi di file: 16-bit, stereo, signed. Il file occupa 516 Kbyte.
Successivamente lo stesso file è stato salvato col nome 8MP3.WAV ma con gli attributi: MPEG Layer-3 128Kbit/s, 44100Hz, Stereo.
Il salvataggio è avvenuto dopo una fase di
codifica nel formato MP3 che è durata alcuni secondi.
Il file occupa 48 Kbyte.
L'ascolto del file 8MP3.WAV non è, però, ottimale: si sentono continuamente dei salti fastidiosi dovuti al programma lettore del file WAV che non sa che deve effettuare una decodifica prima della riproduzione.
Si è modificata l'estensione del file da WAV a MP3 e si è riprodotto il brano col programma WINAMP 1.9, ottimo riproduttore dei file in formato MP3, e l'ascolto è stato perfetto.
Si riportano nella tabella 3 i link dei due brani per poter fare un confronto.
Tabella 3
8MP3.MP3 |
|
516 Kbyte |
48 Kbyte |
7. Lo standard MIDI
La sigla MIDI (Musical Instrument Digital Interface) è riferita ad un protocollo di comunicazione studiato per consentire a due o più strumenti musicali di dialogare tra loro. Il protocollo MIDI non trasmette suoni ma istruzioni sotto forma di note: ad esempio la nota "Do" diesis per un secondo, attende due secondi e poi lo ripete più forte o più piano, ecc.
Su tutte le schede audio, la porta Joystick è anche l'interfaccia MIDI che consente di collegare al PC strumenti musicali.
In assenza di strumenti musicali si può utilizzare il sintetizzatore FM della propria scheda audio che consente di simulare un numero abbastanza elevato di tali strumenti. Affinché il file MIDI possa essere riprodotto correttamente su qualsiasi PC multimediale è necessario che vi sia una precisa corrispondenza tra numerazione e strumenti musicali.
Lo standard General MIDI, o GM, definisce 128 strumenti secondo un ordine prestabilito. I file prodotti hanno il suffisso MID, sono costituiti da suoni perfetti con riproduzione simultanea di uno o più di essi. Poiché, come si è detto, il file è costituito da istruzioni piuttosto che da campioni di suoni, la sua dimensione è estremamente contenuta: 40-50Kbyte per brani della durata di diversi minuti primi.
Lo svantaggio principale consiste nel fatto che non è possibile inserire la voce.
Per meglio comprendere la differenza tra file WAV e file MID è sufficiente fare riferimento al confronto, a proposito delle immagini, al formato bitmap BMP rispetto al formato vettoriale.
Utilizzando programmi di elaborazione del suono è possibile registrare un file MID, magari miscelato con l'audio che proviene da un microfono o da un CD-ROM, in un file in formato WAV o MP3, più compresso.
Si riportano nella tabella 4 i link di un file MIDI e del file WAVE ottenuto dal precedente attivando, nella registrazione, solamente il canale MIDI.
Tabella 4
JINGBEL.WAV |
|
6 Kbyte |
2585 Kbyte |
8. Software per l'audio
Il Windows 95 mette a disposizione un certo numero di programmi per la produzione e riproduzione del suono. Per l'elaborazione del suono si dovrà ricorrere ad opportuni programmi a basso costo o di tipo professionale.
Citiamo subito il programma Registratore di suoni attivabile con:
Avvio/ Programmi/ Accessori/ Multimedia/ Registratore di suoni (fig.4).
Fig.4 Schermata del programma Registratore di suoni.
La barra del menù presenta 4 voci: File/Modifica/Effetti/?
Il menu File consente le solite scelte: nuovo, apri, salva, salva con nome, proprietà, esci.
I file trattabili sono solo quelli in formato WAV. Per modificare gli attributi del file è sufficiente attivare File/Proprietà e specificare il formato desiderato.
Il menù Modifica consente di copiare, incollare più qualche altra funzione di scarso utilizzo.
Il menù Effetti consente di aumentare o diminuire il volume, la velocità, di inserire l'eco e di riprodurre al contrario.
Il menù ? presenta una guida in linea.
I cinque pulsanti che scorgiamo in basso in fig.4 consentono di andare all'inizio del brano, alla fine, di avviare la riproduzione, lo stop ed infine la registrazione.
Cliccando sul pulsante di registrazione (quello a destra) si dà avvio a tale funzione che avviene aggiungendo in coda i valori campionati finché si decide di interrompere la registrazione, cosa che avviene cliccando sul pulsante Ferma.
La registrazione è un'operazione semplice ma preventivamente dobbiamo controllare se sono stati selezionati i canali di input desiderati e dobbiamo impostare i livelli di registrazione. Quest'ultima operazione comporta l'esecuzione di un certo numero di prove preliminari prima che la vera registrazione possa ritenersi soddisfacente.
Per far ciò si deve attivare il programma Controllo volume di Win 95 con:
Start/ Programmi/ Accessori/ Multimedia/ Controllo volume (fig.5).
Fig.5 Controllo volume.
In fig.5 si vede come è possibile selezionare il volume in fase di riproduzione delle diverse sorgenti di audio. In realtà interessa effettuare il controllo della registrazione e non della riproduzione per cui dal menù Opzioni si sceglie la voce Proprietà e si seleziona Regola il volume di registrazione.
Fig.6 Controllo di registrazione.
Si clicca su OK e si ottiene la schermata
di fig.6 in cui è possibile scegliere il canale di ingresso da
registrare ed il livello del volume.
Si osservi che i canali di ingresso per la registrazione sono il
microfono, la linea di ingresso, il lettore di CD ed i file MIDI.
Tali canali possono essere selezionati o deselezionati. Per tale
motivo questo programma prende il nome di mixer audio.
Per la sola riproduzione di file di altro formato il Win 95 mette
a disposizione un altro programma che si chiama Lettore
multimediale attivabile con:
Avvio/Programmi/Accessori/Multimedia/Lettore multimediale (fig.7).
Fig.7 Lettore multimediale.
Esso è in grado di riprodurre file WAV, MIDI, AVI, MP3 (se si installa un driver apposito), CD audio; in poche parole i tipi più importanti di file audio ed i filmati.
I programmi di elaborazione audio presentano funzioni più o meno sofisticate di elaborazione audio e l'inserzione di effetti speciali come:
effetto doppler, eco, filtraggi, modifica volume e velocità, fader, ecc.
Generalmente mostrano la forma d'onda del file in esame, mono o stereo, una pulsantiera per la riproduzione, la registrazione, il riavvolgimento veloce ed il mixer del tipo in dotazione in WIN 95 esaminato in precedenza (vedi figg.5 e 6).
Torna a modulo2.htm