2. Programma del corso
1. Diversità genetica
2. Equilibrio di Hardy-Weinberg
3. Unione assortativa
4. Linkage disequilibrium
5. Mutazione
6. Deriva genetica
7. Flusso genico e varianze genetiche
8. Selezione
9. Mantenimento dei polimorfismi e teoria neutrale
10. Introduzione al coalescente
11. Evidenze genetiche sull’evoluzione umana
3. Popolazioni strutturate
Perché ci sia flusso genico la popolazione deve essere
suddivisa in demi o sottopopolazioni
Disponiamo di vari modelli per descrivere i rapporti
migrazionali fra popolazioni
8. Migrazione unidirezionale
pc = frequency of A1 allele on the Continent
pi = frequency of A1 allele on the island
p1’ = the frequency of the A1 allele in the next generation on the
island
each generation (1 – m) of the individuals on the island were
already on the island and m individuals migrated from the continent
to the island.
p1’ = the A1 allele frequency originally on the island plus any A1
alleles that came in with the migrants
p1’ = (1 – m)p1 + mpc
9. Attraverso le generazioni, la migrazione porta le
due popolazioni ad assomigliarsi
pc p1
migrazione m (1-m) non migrazione
alleli immigrati alleli trasmessi dalla
generazione
precedente
p1’ = (1 – m)p1 + mpc
12. Migrazione unidirezionale
p1’ = (1 – m)p1 + mpc
e ∆p = p1’ – p1 =
= (1-m)p1 + mpc –p1 =
= p1 – mp1 + mpc – p1
∆p = m(pc – p1)
Perciò
Se pc > p1 ∆p è positivo e la F(A1) sull’isola aumenta
Se pc < p1 ∆p è negativo e la F(A1) sull’isola diminuisce
Solo quando pc = pi la frequenza allelica non cambia
13. Modello ad isole
m
m m
m
N costante, migrazione simmetrica e indipendente
dalla posizione nello spazio
14. Modello ad isole
Sewall Wright pt
migrazione m (1-m) non migrazione
pmed pt-1
pt = pt-1 (1-m) + pmed m
Δp = pt - pt-1 = pt-1 (1-m) + pmed m – pt-1 =
= pt-1 (1 – m – 1) + pmed m = m (pmed – pt-1)
Δp = 0 quando pt-1 = pmed
15. Vediamo se ci siamo capiti
Se alla migrazione non si oppongono altri processi evolutivi, il risultato sarà:
1.Una omogeneizzazione delle frequenze alleliche nelle sottopopolazioni
2. Un aumento dell’omozigosi nelle sottopopolazioni
3.La perdita di alleli in ciascuna sottopopolazione
4.Un aumento dell’inbreeding
Se misuriamo le differenze genetiche fra sottopopolazioni in tempi differenti,
mentre avviene flusso genico, le differenze maggiori si osserveranno:
1.All’inizio
2.Nella fase centrale
3.Alla fine
Quali di queste affermazioni sono vere in una popolazione di 100 individui,
all’arrivo di 50 migranti da una località lontana?
1.La popolazione sarà in equilibrio di Hardy Weinberg
2.Ci sarà probabilmente un deficit di eterozigoti
3.Ci sarà probabilmente un eccesso di eterozigoti
4.Ci sarà un aumento del linkage disequilibrium
5.Ci sarà un aumento della diversità nucleotidica
16. Flusso genico e deriva hanno effetti opposti
Il flusso genico introduce nuovi alleli nelle sottopopolazioni
e riduce le differenze fra sottopopolazioni
Flusso genico
deriva
17. Modello a stepping-stone
Motoo Kimura
N costante, migrazione simmetrica da e verso le
sottopopolazioni adiacenti
•Decremento esponenziale della somiglianza genetica in
funzione del numero di passi che separano due popolazioni
•Decremento più rapido in una che in due dimensioni, in
due che in tre
18. Modello a isolamento per
distanza
N costante, migrazione simmetrica in funzione della distanza
geografica fra popolazioni, deriva
Decremento esponenziale della somiglianza genetica (kinship) in
funzione della distanza geografica ln φ
Kinship = φij = (pi-pmed) (pj-pmed)
φ(d) = a + e-bd + L (Malécot-Morton)
d
19. Distanze genetiche
Misure quantitative della divergenza genetica fra individui,
popolazioni o specie
Forniscono stime del tempo trascorso da quando le popolazioni
o specie hanno cominciato a esistere come entità
indipendenti dal punto di vista riproduttivo
1. Distanza di Nei [mutazione e deriva]
2. Distanza di Edwards e Cavalli-Sforza [deriva]
3. Fst fra coppie di popolazioni
4. …
5. N di sostituzioni a coppie
6. Fst fra coppie di individui
7. …
20. Distanza di Nei
Se le frequenze alleliche nelle popolazioni X e Y
sono x1, x2,…xN e y1, y2,…yN
D = -ln I [I: gene identity]
dove I = Σxiyi /√ (Σxi2 Σyi2)
Se xi = yi , Σxiyi =√ (Σxi2 Σyi2) I=1 -ln I = 0
• Per più loci, si calcola la media aritmetica su tutti i loci
• Può essere interpretata come numero medio di sostituzioni di codon
per locus
21. Distanza di Nei – Un locus, due alleli
Popolazione X Y
Fr (a1) 0.2 0.7
Fr (a2) 0.8 0.3
I = (0.2 x 0.7) + (0.8 x 0.3) = 0.14 + 0.24 = 0.605
√ (0.22 x 0.72) (0.82 x 0.32) √ 0.68 x 0.58
D = - ln 0.605 = 0.503
22. Distanza di Edwards e Cavalli-Sforza
Equazione del cerchio: X2 + Y2 = r2
Y
P
r
X X1
√ 1-p
X2
Si possono immaginare le popolazioni
X1 e X2 come punti su una circonferenza,
determinati dalle loro frequenze alleliche r=1
p1 , q1 e p2 , q2 ϕ
√p
23. Distanza di Edwards e Cavalli-Sforza
X1
√q
d X2
ϕ
√p
La distanza fra X1 e X2 è la lunghezza della corda, √ 2 d, dove d = √ 1 – cos ϕ
Si può dimostrare che d2 = 1 – √p1 p2 - √ q1 q2
Per più loci, si combinano le misure col teorema di Pitagora
Nessuna assunzione su equilibrio mutazione-deriva
24. Distanza genetica di Edwards e Cavalli-Sforza
Distanze fra popolazioni di ghiandaie Aphelocoma californica
WOb3 WSp3 WCal WOoc WSp2
WOb3 0
WSp3 0.0332 0
WCal 0.0492 0.0488 0
WOoc 0.0428 0.0645 0.0617 0
WSp2 0.0466 0.0449 0.0533 0.058 0
25. N di sostituzioni a coppie
CA02 CA14 PE15 PE20
AL07 1 2 3 1
CA02 1 2 0
CA14 3 1
PE15 2
26. FST fra coppie di popolazioni
DRUZ BDN PAL AJA GRK ITN ADY SPN BAS IRISH GERM EEUR RUS SWED ORC SARD
BDN 0.0072
PAL 0.0064 0.0056
AJA 0.0088 0.0108 0.0093
GRK 0.0052 0.0064 0.0057 0.0042
ITN 0.0057 0.0079 0.0064 0.0040 0.0001
ADY 0.0092 0.0123 0.0108 0.0107 0.0054 0.0067
SPN 0.0096 0.0103 0.0101 0.0056 0.0035 0.0010 0.0090
BAS 0.0186 0.0204 0.0199 0.0144 0.0098 0.0084 0.0180 0.0060
IRISH 0.0154 0.0187 0.0170 0.0109 0.0067 0.0048 0.0110 0.0037 0.0086
GERM 0.0121 0.0147 0.0136 0.0072 0.0039 0.0029 0.0089 0.0015 0.0079 0.0010
EEUR 0.0128 0.0149 0.0133 0.0068 0.0049 0.0040 0.0086 0.0033 0.0091 0.0034 0.0014
RUS 0.0194 0.0211 0.0202 0.0137 0.0108 0.0088 0.0120 0.0079 0.0126 0.0038 0.0037 0.0029
SWED 0.0167 0.0204 0.0191 0.0120 0.0084 0.0064 0.0117 0.0055 0.0100 0.0020 0.0007 0.0025 0.0036
ORC 0.0194 0.0212 0.0201 0.0146 0.0103 0.0080 0.0136 0.0063 0.0124 0.0039 0.0048 0.0055 0.0092 0.0046
SARD 0.0163 0.0183 0.0166 0.0131 0.0088 0.0072 0.0204 0.0071 0.0133 0.0140 0.0117 0.0132 0.0210 0.0155 0.0162
TUSC 0.0086 0.0102 0.0096 0.0066 0.0005 0.0004 0.0094 0.0023 0.0084 0.0055 0.0032 0.0045 0.0108 0.0061 0.0098 0.0083
Tian et al. (2009) Molecular Medicine. Paired Fst values from three nonoverlapping sets of 3,500 SNPs
using the Weir and Cockerham algorithm;
Druze, Bedouin (BDN), Palestinian (PAL), Ashkenazi Jewish American (AJA), Greek (GRK), Italian
(ITN), Adygei (ADY), Spanish (SPN), Basque (BAS), IRISH, German (GERM), Eastern European
(EEUR), Russian (RUS), Swedish (SWED), Orcadian (ORC), Sardinian (SARD), and Tuscan (TUSC).
33. Un altro esempio: isolamento per distanza in senso lato
nelle anguille danesi
34. Un altro esempio: isolamento per distanza in senso stretto
in Arabidopsis thaliana
35. Deficit di eterozigoti nelle popolazioni di merluzzo
Studio delle emoglobine (Sick 1965)
Equilibrio di HW
P=0.23 Equilibrio di HW
P=0.90
Deficit di eterozigoti
P=0.00
36. Effetto Wahlund
• Che una popolazione sia suddivisa non è sempre
evidente. Cosa succede se non ce ne accorgiamo?
Genotipo A B A+B attese
AA 4 49 53 40.5
Aa 32 42 74 99
aa 64 9 75 60.5
p 0.2 0.7 0.45
q 0.8 0.3 0.55
Totale 100 100 200 200
La suddivisione provoca un deficit di eterozigoti,
proporzionale alla varianza di frequenze alleliche fra
sottopopolazioni
37. Nota bene
La variabilità interna di una popolazione è solo uno degli
aspetti della variabilità genetica:
Variabilità tra individui della stessa popolazione
Variabilità tra individui di popolazioni diverse
Variabilità tra individui di gruppi di popolazioni diverse
eccetera
38. Varianze genetiche
• Fit = varianza di ciascun individuo rispetto alla media
totale della popolazione
• Fis = varianza di ciascun individuo rispetto alla media
della sua sottopopolazione
• Fst = varianza di ciascuna sottopopolazione rispetto alla
media totale della popolazione
(1 – Fit) = (1 – Fis) (1- Fst)
39. Varianze genetiche
(1 – x) = (1 – y) (1- z)
Manca, rispetto In parte, per una quota z,
In parte, per una
alle attese di HW, a causa della
quota y, a causa
una certa quota x suddivisione: deriva
dell’inbreeding
di eterozigoti indipendente nelle
sottopopolazioni
y è interno alle
sottopopolazioni e
z è la varianza standardizzata
corrisponde all’F di
delle frequenze alleliche fra
inbreeding
sottopopolazioni
(1 – Fit) = (1 – Fis) (1- Fst)
40. Varianze genetiche
(1 – Fit) = (1 – Fis) (1- Fst)
Il deficit totale di eterozigoti
in una popolazione dipende
Dal deficit interno delle
sottopopolazioni: inbreeding
E dal deficit dovuto alla
suddivisione: deriva indipendente
nelle sottopopolazioni
41. Fst
• Fst = σ2p/pmedqmed
• pmedqmed = max (σ2p)
• Fst è la frazione espressa della varianza
genetica teorica
σ2p=0, Fst=0 σ2p=pmedqmed, Fst=1
44. Mescolanza o admixture
Se p1=0.8, p2=0.4 e pB=0.6, m1=m2=0.5
Se p1=0.8, p2=0.4 e pB=0.7, m1=0.75, m2=0.25
ecc.
45. Un’applicazione: Relazioni evolutive degli Etruschi
Etruscans 30
Medieval Tuscan 27
(Guimaraes, S. et al 2009)
Modern communities:
Casentino 122
Murlo 86
Volterra 114
(Achilli et al. 2005)
52. It all began from this
Fig. 1. The first principal component of gene frequencies from 38 independent alleles at
the human loci: ABO, Rh, MNS, Le, Fy, Hp, PGMi, HLA-A, and HLA-B. Shades indicate
different intensities of the first principal component, which accounts for 27 percent of
the total variation
(P. Menozzi, A. Piazza & L.L. Cavalli-Sforza, Science, 1978)
54. Diffusion of Neolithic artifacts in Europe
(Balaresque et al. 2010; interpolated from data by Pinhasi et al. 2005)
55. Rationale for the proposal of a Neolithic demic diffusion
European genetic diversity distributed in gradients. Only gene flow can generate such
patterns on the continental scale
No documented migration in historical times spanning the area from the Levant to the
Atlantic coasts
Neolithic technologies may have spread by cultural contact or by migration (most
likely, by a combination thereof)
Parallelism between genetic gradients and diffusion of Neolithic artifacts cannot be the
product of cultural exchanges only
Demic diffusion: expanding Neolithic people carried in Europe their know-how, their
genes, and perhaps their languages too.
56. Conditions for the origin of genetic gradients
by demic diffusion
0. Low population density
1. Demographic growth of farmers
2. Diffusion, incomplete
admixture
3. Farmers continue to grow in
numbers, hunter-gatherers don’t
(Ammerman & Cavalli-Sforza 1984) But…
57. In the first DNA studies (mtDNA)
very old ages are estimated for
the main European mutations
“Each cluster can be assigned, in its
entirety, to one of the proposed
migration phases; the age of each
cluster approximates very closely the
timing of the migratory event”
“The main mitochondrial variants in
Europe predate the Neolithic
expansion”
(Richards et al. 1996, 2000)
58. Estimated ages of mitochondrial haplogroups (x 1000)
Richards Sykes Richards
et al. 1996 1999 et al. 2000
H 23.5 11.0-14.0 15.0 - 17.2
J 23.5 8.5 6.9 - 10.9
T 35.5 11.0-14.0 9.6 - 17.7
IWX 50.5 11.0-14.0 Haplogroup H, “the signature of the
X: 20.0 I: 19.9 - 32.7 Paleolithic expansion in Europe”
K 17.5 11.0-14.0 10.0 - 15.5
U 36.5 5: 50.0 44.6 - 54.4
Neolithic contribution overestimated in
preDNA studies? Hans Bandelt
59. Two basic models
Palaeolithic model Neolithic model
(Cultural diffusion of food- (Demic diffusion of food-
production technologies production technologies
(Barbujani 2012)
60. “Each cluster can be assigned, in its entirety,
to one of the proposed migration phases; the age of each cluster
approximates very closely the timing of the migratory event”
Ok folks, all those with haplogroup H
come with me, let’s do the Paleolithic
migration. No way Steve, not you. You’re
a J, damn it, a J! Wait until the Neolithic!
61. It is people who migrate, not haplogroups
Haplogroup ages are not estimates of migration times
But inconsistencies in the arguments claimed to support the Palaeolithic
model do not prove that the alternative model is correct
62. Is a demic diffusion from the Near East the only
explanation available for that pattern?
0. Low population density
1. Dispersal without founder effect
2. Dispersal and founder effect
3. Drift
No. And this may have happened both
in Palaeolithic and Neolithic times
63. Maybe a single migration process is too much of an
oversimplification?
No spatial
autocorrelation of
mtDNA molecular
differences (AIDA)
E-W cline of mtDNA
molecular differences
(AIDA)
64. Some answers from ancient DNA
Mitochondrial
haplogroups in
ancient and
modern
European
populations
1. Modern European mtDNAs resemble
Neolithic, not Paleolithic mtDNAs
66. 3. (Perhaps) Increase in the population size of H hg carriers 9,000
to 7,000 years BP
67. 4. Genetic continuity since Paleolithic times very unlikely in ABC
analyses of mtDNA
2 individuals from the Upper Paleolithic, 43 from
the Mesolithic (including the two La Braña
specimens) and 121 from the Neolithic
Post Pr (Model B): 1,655 to 2,691
folds as high as Post Pr (Model A)
68. Some questions to be addressed:
1.Are the two main models different enough to be
distinguished in analyses of modern DNAs?
69. Some questions to be addressed:
2. While we wait for sufficiently large ancient DNA nuclear
datasets to be assembled, how much can we trust inferences
from mtDNA data?
3. Do we have sufficiently detailed archaeological
information to construct a mixed model, incorporating the
possibility of cultural and demic change at various locations?
70. All in all, perhaps something of this kind happened
Paleolithic Mesolithic Neolithic Modern times
73. Sintesi
1. Lo scambio di geni fra popolazioni prende il nome di
flusso genico, in molti casi sinonimo di migrazione
2. Disponiamo di vari modelli per descrivere i rapporti
migrazionali fra popolazioni: unidirezionale; isole;
stepping-stone; isolamento per distanza
3. Tutti questi modelli predicono che il flusso genico
aumenti la variabilità genetica interna e riduca la
variabilità fra popolazioni
4. L’effettivo livello di diversità genetica fra popolazioni
dipende perciò dal peso relativo di isolamento e flusso
genico
74. Sintesi
5. Si possono quantificare le differenze genetiche fra
popolazioni per mezzo di misure di distanza genetica
6. La formazione di un nuovo pool genico a partire da
popolazioni separate prende il nome di mescolanza o
admixture
7. In generale la suddivisione provoca un apparente deficit di
eterozigoti (effetto Wahlund)
8. Le varianze genetiche permettono di attribuire il deficit
osservato di eterozigoti agli effetti dell’inbreeding e della
suddivisione