2. Programma del corso
1. Diversità genetica
2. Equilibrio di Hardy-Weinberg
3. Inbreeding
4. Linkage disequilibrium
5. Mutazione
6. Deriva genetica
7. Flusso genico e varianze genetiche
8. Selezione
9. Mantenimento dei polimorfismi e teoria neutrale
10. Introduzione alla teoria coalescente
11. Struttura e storia della popolazione umana
+ Lettura critica di articoli
3. Popolazioni strutturate
Perché ci sia flusso genico la popolazione deve essere
suddivisa in demi o sottopopolazioni
Disponiamo di vari modelli per descrivere i rapporti
migrazionali fra popolazioni
8. Migrazione unidirezionale
P = frequency of A1 allele on the Continent
p0 = frequency of A1 allele on the island
p1 = the frequency of the A1 allele in the next generation on the island
each generation (1 – m) of the individuals on the island were already on
the island and m individuals migrated from the continent to the island.
p1’ = the A1 allele frequency originally on the island plus any A1 alleles
that came in with the migrants
p1 = (1 – m)p0 + mP
9. Attraverso le generazioni, la migrazione porta le due
popolazioni ad assomigliarsi
P p0
m [migrazione] (1-m) [non migrazione]
alleli immigrati alleli trasmessi dalla
generazione precedente
p1 = (1 – m)p0 + mP
p2 = (1 – m)p1 + mP = (1-m) [(1-m) p0 + mP] + mP
12. Migrazione unidirezionale
p2 = (1 – m)p1 + mpc
e ∆p = p2 – p1 =
= (1-m)p1 + mpc –p1 =
= p1 – mp1 + mpc – p1
∆p = m(pc – p1)Perciò
Se pc > p1 ∆p è positivo e la F(A1) sull’isola aumenta
Se pc < p1 ∆p è negativo e la F(A1) sull’isola diminuisce
Solo quando pc = pi la frequenza allelica non cambia
13. Modello ad isole
mm
m
m
N costante, migrazione simmetrica e indipendente
dalla posizione nello spazio
14. Modello ad isole
pt
migrazione m (1-m) non migrazione
pmed pt-1
pt = pt-1 (1-m) + pmed m
Δp = pt - pt-1 = pt-1 (1-m) + pmed m – pt-1 =
= pt-1 (1 – m – 1) + pmed m = m (pmed – pt-1)
Δp = 0 quando pt-1 = pmed
Sewall Wright
15. Vediamo se ci siamo capiti
Se alla migrazione non si oppongono altri processi evolutivi, il risultato sarà:
1.Una omogeneizzazione delle frequenze alleliche nelle sottopopolazioni
2. Un aumento dell’omozigosi nelle sottopopolazioni
3.La perdita di alleli in ciascuna sottopopolazione
4.Un aumento dell’inbreeding
Se misuriamo le differenze genetiche fra sottopopolazioni in tempi differenti,
mentre avviene flusso genico, le differenze maggiori si osserveranno:
1.All’inizio
2.Nella fase centrale
3.Alla fine
Quali di queste affermazioni sono vere in una popolazione di 100 individui,
all’arrivo di 50 migranti da una località lontana?
1.La popolazione sarà in equilibrio di Hardy Weinberg
2.Ci sarà probabilmente un deficit di eterozigoti
3.Ci sarà probabilmente un eccesso di eterozigoti
4.Ci sarà un aumento del linkage disequilibrium
5.Ci sarà un aumento della diversità nucleotidica
16. Il flusso genico introduce nuovi alleli nelle sottopopolazioni e
riduce le differenze fra sottopopolazioni
Flusso genico
deriva
Flusso genico e deriva hanno effetti opposti
17. Modello a stepping-stone
N costante, migrazione simmetrica da e verso le sottopopolazioni
adiacenti
•Decremento esponenziale della somiglianza genetica in
funzione del numero di passi che separano due popolazioni
•Decremento più rapido in una che in due dimensioni, in due che
in tre
Motoo Kimura
18. Modello a isolamento per
distanza
N costante, migrazione simmetrica in funzione della distanza geografica fra
popolazioni, deriva
Decremento esponenziale della somiglianza genetica (kinship) in funzione
della distanza geografica
Kinship = φij = (pi-pmed) (pj-pmed)
φ(d) = a + e-bd
+ L (Malécot-Morton)
d
ln φ
19. Distanze genetiche
Misure quantitative della divergenza genetica fra individui,
popolazioni o specie
Forniscono stime del tempo trascorso da quando le popolazioni
o specie hanno cominciato a esistere come entità
indipendenti dal punto di vista riproduttivo
1. Distanza di Nei [mutazione e deriva]
2. Distanza di Edwards e Cavalli-Sforza [deriva]
3. Fst fra coppie di popolazioni
4. …
5. N di sostituzioni a coppie
6. Fst fra coppie di individui
7. …
20. Se le frequenze alleliche nelle popolazioni X e Y
sono x1, x2,…xN e y1, y2,…yN
D = -ln I [I: gene identity]
dove I = Σxiyi /√ (Σxi
2
Σyi
2
)
Se xi = yi, Σxiyi =√ (Σxi
2
Σyi
2
) I=1 -ln I = 0
• Per più loci, si calcola la media aritmetica su tutti i loci
• Può essere interpretata come numero medio di sostituzioni di codon
per locus
1. Distanza di Nei
21. I = (0.2 x 0.7) + (0.8 x 0.3) = 0.14 + 0.24 = 0.605
√ (0.22
x 0.82
) (0.72
x 0.32
) √ 0.68 x 0.58
D = - ln 0.605 = 0.503
Distanza di Nei – Un locus, due alleli
Popolazione X Y
Fr (a1) 0.2 0.7
Fr (a2) 0.8 0.3
22. X
Y
P
2. Distanza di Edwards e Cavalli-Sforza
Equazione del cerchio: X2
+ Y2
= r2
r
√ p
√ 1-p
X1
X2
ϕ
Si possono immaginare le popolazioni
X1 e X2 come punti su una circonferenza,
determinati dalle loro frequenze alleliche
p1 , q1 e p2 , q2
r = 1
23. √ p
√ q
X1
X2
ϕ
Distanza di Edwards e Cavalli-Sforza
La distanza fra X1 e X2 è la lunghezza della corda, √ 2 d, dove d = √ 1 – cos ϕ
Si può dimostrare che d2
= 1 – √p1 p2 - √ q1 q2
d
Per più loci, si combinano le misure col teorema di Pitagora
Nessuna assunzione su equilibrio mutazione-deriva
24. Distanza genetica di Edwards e Cavalli-Sforza
WOb3 WSp3 WCal WOoc WSp2
WOb3 0
WSp3 0.0332 0
WCal 0.0492 0.0488 0
WOoc 0.0428 0.0645 0.0617 0
WSp2 0.0466 0.0449 0.0533 0.058 0
Distanze fra popolazioni di ghiandaie Aphelocoma californica
25. 3. N di sostituzioni a coppie
CA02 CA14 PE15 PE20
AL07 1 2 3 1
CA02 1 2 0
CA14 3 1
PE15 2
26. DRUZ BDN PAL AJA GRK ITN ADY SPN BAS IRISH GERM EEUR RUS SWED ORC SARD
BDN 0.0072
PAL 0.0064 0.0056
AJA 0.0088 0.0108 0.0093
GRK 0.0052 0.0064 0.0057 0.0042
ITN 0.0057 0.0079 0.0064 0.0040 0.0001
ADY 0.0092 0.0123 0.0108 0.0107 0.0054 0.0067
SPN 0.0096 0.0103 0.0101 0.0056 0.0035 0.0010 0.0090
BAS 0.0186 0.0204 0.0199 0.0144 0.0098 0.0084 0.0180 0.0060
IRISH 0.0154 0.0187 0.0170 0.0109 0.0067 0.0048 0.0110 0.0037 0.0086
GER
M
0.0121 0.0147 0.0136 0.0072 0.0039 0.0029 0.0089 0.0015 0.0079 0.0010
EEUR 0.0128 0.0149 0.0133 0.0068 0.0049 0.0040 0.0086 0.0033 0.0091 0.0034 0.0014
RUS 0.0194 0.0211 0.0202 0.0137 0.0108 0.0088 0.0120 0.0079 0.0126 0.0038 0.0037 0.0029
SWE
D
0.0167 0.0204 0.0191 0.0120 0.0084 0.0064 0.0117 0.0055 0.0100 0.0020 0.0007 0.0025 0.0036
ORC 0.0194 0.0212 0.0201 0.0146 0.0103 0.0080 0.0136 0.0063 0.0124 0.0039 0.0048 0.0055 0.0092 0.0046
SARD 0.0163 0.0183 0.0166 0.0131 0.0088 0.0072 0.0204 0.0071 0.0133 0.0140 0.0117 0.0132 0.0210 0.0155 0.0162
TUSC 0.0086 0.0102 0.0096 0.0066 0.0005 0.0004 0.0094 0.0023 0.0084 0.0055 0.0032 0.0045 0.0108 0.0061 0.0098 0.0083
Tian et al. (2009) Molecular Medicine. Paired Fst values from three nonoverlapping sets of 3,500 SNPs using the
Weir and Cockerham algorithm;
Druze, Bedouin (BDN), Palestinian (PAL), Ashkenazi Jewish American (AJA), Greek (GRK), Italian (ITN), Adygei
(ADY), Spanish (SPN), Basque (BAS), IRISH, German (GERM), Eastern European (EEUR), Russian (RUS), Swedish
(SWED), Orcadian (ORC), Sardinian (SARD), and Tuscan (TUSC).
4. FST fra coppie di popolazioni
27.
28. One-dimensional stepping stone model of gene flow in the Mediterranean killifish
Aphanius fasciatus
Ferruccio Maltagliati, Serena Como, Serena Corti, Alberto Castelli
Dipartimento di Scienze dell’Uomo e dell’Ambiente, University of Pisa, Italy
Un’applicazione
http://www.discat.unipi.it/BiolMar/people/maltagli/posters/EMBS2003.htm
29.
30.
31.
32. Un altro esempio: isolamento per distanza in senso lato nelle
anguille danesi
33. Un altro esempio: isolamento per distanza in senso stretto in
Arabidopsis thaliana
34. Equilibrio di HW
P=0.23 Equilibrio di HW
P=0.90Deficit di eterozigoti
P=0.00
Deficit di eterozigoti nelle popolazioni di merluzzo
Studio delle emoglobine (Sick 1965)
35. Effetto Wahlund
• Che una popolazione sia suddivisa non è sempre evidente.
Cosa succede se non ce ne accorgiamo?
Genotipo A B A + B attese
AA 4 49 53 40.5
Aa 32 42 74 99
aa 64 9 75 60.5
p 0.2 0.7 0.45
q 0.8 0.3 0.55
Totale 100 100 200 200
La suddivisione provoca un deficit di eterozigoti,
proporzionale alla varianza di frequenze alleliche fra
sottopopolazioni
36. Nota bene
La variabilità interna di una popolazione è solo uno degli
aspetti della variabilità genetica:
Variabilità tra individui della stessa popolazione
Variabilità tra individui di popolazioni diverse
Variabilità tra individui di gruppi di popolazioni diverse
eccetera
37. Varianze genetiche
• Fit= varianza di ciascun individuo rispetto alla media totale
della popolazione
• Fis = varianza di ciascun individuo rispetto alla media della sua
sottopopolazione
• Fst = varianza di ciascuna sottopopolazione rispetto alla media
totale della popolazione
(1 – Fit) = (1 – Fis) (1- Fst)
38. Varianze genetiche
(1 – x)
Manca, rispetto
alle attese di HW,
una certa quota x
di eterozigoti
In parte, per una
quota y, a causa
dell’inbreeding
= (1 – y)
In parte, per una quota z, a
causa della
suddivisione: deriva
indipendente nelle
sottopopolazioni
(1- z)
y è interno alle
sottopopolazioni e
corrisponde all’F di
inbreeding
z è la varianza standardizzata
delle frequenze alleliche fra
sottopopolazioni
(1 – Fit) = (1 – Fis) (1- Fst)
39. Varianze genetiche
(1 – Fit) = (1 – Fis) (1- Fst)
Il deficit totale di eterozigoti
in una popolazione dipende
Dal deficit interno delle
sottopopolazioni: inbreeding
E dal deficit dovuto alla
suddivisione: deriva indipendente nelle
sottopopolazioni
40. Fst
• Fst = σ2
p/pmedqmed
• pmedqmed = max (σ2
p)
• Fst è la frazione espressa della varianza genetica
teorica
σ2
p=0, Fst=0 σ2
p=pmedqmed, Fst=1
43. Mescolanza o admixture
Se p1=0.8, p2=0.4 e pB=0.6, m1=m2=0.5
Se p1=0.8, p2=0.4 e pB=0.7, m1=0.75, m2=0.25
ecc.
44.
45. Stime di coefficienti di admixture
in popolazioni americane da
frequenze alleliche
Ruiz-Linares et al. (2014)
m1 m2
46. Un’applicazione: Relazioni evolutive degli Etruschi
Etruscans 30
Medieval Tuscan 27
(Guimaraes, S. et al 2009)
Modern communities:
Casentino 122
Murlo 86
Volterra 114
(Achilli et al. 2005)
53. Fig. 1. The first principal component of gene frequencies from 38 independent alleles at
the human loci: ABO, Rh, MNS, Le, Fy, Hp, PGMi, HLA-A, and HLA-B. Shades indicate
different intensities of the first principal component, which accounts for 27 percent of
the total variation
It all began from this
(P. Menozzi, A. Piazza & L.L. Cavalli-Sforza, Science, 1978)
55. Diffusion of Neolithic artifacts in Europe
(Balaresque et al. 2010; interpolated from data by Pinhasi et al. 2005)
56. Rationale for the proposal of a Neolithic demic diffusion
European genetic diversity distributed in gradients. Only gene flow can generate such
patterns on the continental scale
No documented migration in historical times spanning the area from the Levant to the
Atlantic coasts
Neolithic technologies may have spread by cultural contact or by migration (most
likely, by a combination thereof)
Parallelism between genetic gradients and diffusion of Neolithic artifacts cannot be the
product of cultural exchanges only
Demic diffusion: expanding Neolithic people carried in Europe their know-how, their
genes, and perhaps their languages too.
57. Conditions for the origin of genetic gradients
by demic diffusion
1. Demographic growth of farmers
2. Diffusion, incomplete
admixture
3. Farmers continue to grow in
numbers, hunter-gatherers don’t
(Ammerman & Cavalli-Sforza 1984) But…
0. Low population density
58. In the first DNA studies (mtDNA)
very old ages are estimated for
the main European mutations
“Each cluster can be assigned, in its
entirety, to one of the proposed
migration phases; the age of each
cluster approximates very closely the
timing of the migratory event”
“The main mitochondrial variants in
Europe predate the Neolithic
expansion”
(Richards et al. 1996, 2000)
59. Estimated ages of mitochondrial haplogroups (x 1000)
Richards Sykes Richards
et al. 1996 1999 et al. 2000
H 23.5 11.0-14.0 15.0 - 17.2
J 23.5 8.5 6.9 - 10.9
T 35.5 11.0-14.0 9.6 - 17.7
IWX 50.5 11.0-14.0
X: 20.0 I: 19.9 - 32.7
K 17.5 11.0-14.0 10.0 - 15.5
U 36.5 5: 50.0 44.6 - 54.4
Neolithic contribution overestimated in
preDNA studies? Hans Bandelt
Haplogroup H, “the signature of the
Paleolithic expansion in Europe”
63. Two basic models
Palaeolithic model Neolithic model
(Cultural diffusion of food- (Demic diffusion of food-
production technologies) production technologies)
(Barbujani 2012)
64. Ok folks, all those with haplogroup H
come with me, let’s do the Paleolithic
migration. No way Steve, not you. You’re
a J, damn it, a J! Wait until the Neolithic!
“Each cluster can be assigned, in its entirety,
to one of the proposed migration phases; the age of each cluster
approximates very closely the timing of the migratory event”
65. It is people who migrate, not haplogroups
Haplogroup ages are not estimates of migration times
But inconsistencies in the arguments claimed to support the Palaeolithic
model do not prove that the alternative model is correct
66. Is a demic diffusion from the Near East the only
explanation available for that pattern?
2. Dispersal and founder effect
3. Drift
No. And this may have happened both
in Palaeolithic and Neolithic times
0. Low population density
1. Dispersal without founder effect
67. No spatial
autocorrelation of
mtDNA molecular
differences (AIDA)
E-W cline of mtDNA
molecular differences
(AIDA)
Maybe a single migration process is too much of an
oversimplification?
70. 3. (Perhaps) Increase in the population size of H hg carriers 9,000
to 7,000 years BP
71. Post Pr (Model B): 1,655 to 2,691
folds as high as Post Pr (Model A)
4. Genetic continuity since Paleolithic times very unlikely in ABC
analyses of mtDNA
2 individuals from the Upper Paleolithic, 43 from
the Mesolithic (including the two La Braña
specimens) and 121 from the Neolithic
72. Some questions to be addressed:
1.Are the two main models different enough to be
distinguished in analyses of modern DNAs?
73. Some questions to be addressed:
2. While we wait for sufficiently large ancient DNA nuclear
datasets to be assembled, how much can we trust inferences
from mtDNA data?
3. Do we have sufficiently detailed archaeological
information to construct a mixed model, incorporating the
possibility of cultural and demic change at various locations?
74. All in all, perhaps something of this kind happened
Paleolithic Mesolithic Neolithic Modern times
77. Sintesi 1
1. Lo scambio di geni fra popolazioni prende il nome di
flusso genico, in molti casi sinonimo di migrazione
2. Disponiamo di vari modelli per descrivere i rapporti
migrazionali fra popolazioni: unidirezionale; isole;
stepping-stone; isolamento per distanza
3. Tutti questi modelli predicono che il flusso genico
aumenti la variabilità genetica interna e riduca la
variabilità fra popolazioni
4. L’effettivo livello di diversità genetica fra popolazioni
dipende perciò dal peso relativo di isolamento e flusso
genico
78. Sintesi 2
5. Si possono quantificare le differenze genetiche fra
popolazioni per mezzo di misure di distanza genetica
6. La formazione di un nuovo pool genico a partire da
popolazioni separate prende il nome di mescolanza o
admixture
7. In generale la suddivisione provoca un apparente deficit di
eterozigoti (effetto Wahlund)
8. Le varianze genetiche permettono di attribuire il deficit
osservato di eterozigoti agli effetti dell’inbreeding e della
suddivisione