next up previous contents
Next: Allineamento tra due sequenze Up: Allineamento di sequenze Previous: Introduzione   Indice

Distanza tra due sequenze

Siccome stiamo trattando sequenze biologiche, il problema può essere approciato utilizzando due diversi punti vista, che di fatto conducono allo stesso risultato. Si dice infatti che si cerca:

Nel primo caso si fa riferimento al processo evolutivo, per cui noi diciamo che se due sequenze ortologhe, per esempio una di topo ed una di rana, hanno avuto evoluzioni separate da un certo punto nel tempo in poi, ci si aspetta che le differenze tra le due sequenze ci diano una indicazione della loro divergenza. Nel secondo caso, si fa riferimento più direttamente alla ricerca di zone simili, per poterne derivare delle relazioni strutturali e funzionali. Per questo motivo, nella letteratura scientifica spesso si usano in maniera intercambiabile minima distanza oppure massima similarità tra due sequenze.

Volendo procedere al calcolo della distanza tra due sequenze, bisogna definire come misuriamo tale distanza. Questo è vero in tutti i settori in cui si vuole definire una misura di distanza. Per esempio, se vogliamo sapere qual'è la distanza tra Roma e Milano, otteniamo diverse risposte a seconda di ciò che definiamo come misura di distanza, esempio:

è chiaro che a seconda del tipo di misura (metrica) che si utilizza si possono ottenere diversi valori. Se per esempio due città A e B, sono separate da un fiume, il cui ponte passa solo tramite la città C, le distanze in linea d'aria (ld) o su connessione stradale (ds) possono essere diverse e dare risultati diversi, es ciò rimane vero anche quando utilizzo programmi per il confronto tra biosequenze.

Una semplice misura di distanza, è quella di considerare tutti i simboli diversi equidistanti, e quelli uguali a distanza nulla. Questa misura utilizzata per le stringhe diviene per esempio


$\displaystyle dist(a,b) = 0 \quad \quad if a =b$     (8.1)
$\displaystyle dist(a,b) = 1 \quad \quad if a \ne b$     (8.2)

Questa distanza è anche nota come Hamming distance. Possiamo per esempio calcolare la distanza di Hamming tra le due sequenze ACGTA e ACTA

1)   ACGTA    Distanza 0+0+1+1+1
     ||
     ACTA

2)   ACGTA    Distanza 1+1+1+0+0
        ||
      ACTA

3)   ACGTA    Distanza 0+0+?+0+0
     || ||
     AC-TA
Come si può verificare, nel caso 1), la distanza vale 3, nel caso 2) vale ancora 3, mentre nel terzo caso, abbiamo proceduto ad introdurre una operazione sulla sequenza, per cui abbiamo che la distanza calcolata nel caso 3) è uguale al costo dell'operazione di inserimento di un gap (-). Se si pesa questa operazione $+1$ (come se fosse un diverso carattere), allora la distanza nel caso 3) equivale ad 1.


next up previous contents
Next: Allineamento tra due sequenze Up: Allineamento di sequenze Previous: Introduzione   Indice
2004-11-02