Atlantis and Paleogeography

 

 

European DNA

from a Geographer's Perspective:

 

40,000 years

of mixing

 

 

by

Ulf Erlingsson

 


A report from an unfinished project (last updated 2003, and the data is a few years older still). It could not reach conclusions, just speculations, since there was still too little data. The purpose was to find constraints for the prehistoric development, based on DNA, which can be combined with archaeology, mythology, and paleogeography. This version of the text is being translated from Swedish to English, so check back for updates. Note that many figure captions are translated even when the surrounding text is not.

This is text number 2. Text number 1 is "Global Change".

© Ulf Erlingsson, 2003, 2004, 2005
Photos and illustrations by the author if not specified (if you notice some error please point it out).
All rights are reserved.


 

Table of Contents

 

Preface

Introduction

The study of DNA

Modern man

Phylo-geographic studies

Family tree

Dating of the tree

Population statistics

Founder analysis

Mapping

The Y chromosome

Family tree

Thematic maps

The dominating haplogroups in Europe

Mitochondrie DNA

Family tree

Thematic maps

Determination of age and origin

Correlation analyses

The enigma of Saami and Scanians

Where is haplogroup V from?

Where are then the Saami from?

Summary maps

Discussion: Prehistoric Migrations

Out of Africa

The peak of the Ice Age

Repopulating Northern Europe

Middle Eastern genes to Europe

Europe's large islands

More pieces in the puzzle

Genes as a link between myth and history

Domestic animals

Conclusion

Appendix: Geostatistics for the analysis of DNA data

Spatial correlation

A simulated example

Conclusion

Links


Preface

Europe's history consists of many pieces of puzzle, and can be studied with the help of various disciplines. This text is based on the analysis of DNA (our genes) from both the Y chromosome and the mitochondria (mtDNA). These enable us to decipher how humans are related on the paternal and maternal side, respectively, in a time perspective of thousands to tens of thousands of years.

This study is aimed at getting data for the creation of an overview of European history. It focuses not only on how man arrived to the continent, but also on migrations within it and in neighbouring regions (the Middle East, west Siberia, and Central Asia). The time frame is during and after the Ice Age. Even if it is only exceptionally that DNA data can confirm historical migrations, they can—and this is much more interesting, if you think about it—shed light on myths and sagas. Thereby one can show that these tales are historic, which moves the limit for prehistory back in time. It turns out that the events of the myths typically happened much earlier than the myths themselves claim. This might be a general rule in all oral tradition.

In this text a foundation is laid for the interpretation of Europe's history from the Ice Age to the modern age. Of course, only a selection of myths are discussed, some that are relatively easy to interpret. Other myths can be understood only with an inter-disciplinary approach. History consists of course of many parallel threads. It is the natural history, the history of the DNA of populations, the history of languages, the political history, the war history, the history of material sulture, of migrations, of natural disasters, of religions... They are all intertwined; to understand the whole, one must know the parts, and to understand the parts, one must know the whole.

I would like to point out that man's intellectual capacity surely has not changed noticably during the time frame this deals with. What makes prehistory appear more primitive in the archaeological archive is to a large extent that objects disappear with time. They disappear by rotting and rusting and weathering away, but also because it becomes increasingly unlikely to find an object the older it is, for geological reasons. From the oldest ages almost only stone remains today. And gold; but being so valuable it has surely been re-used since.

We call it the Stone Age. The old Greeks called it the Golden Age. Objectively speaking, the latter is probably more accurate. The availability of gold per capita was probably higher back then, so gold probably played a larger role in their technology than in later ages. With the exception of our own age, gold being a pre-requisite for much of the modern electronics, as contact metal. During the Golden Age tehy knew of gold, silver, cupper, and lead. One can do much with those metals.

The point is that the history of mankind can be much longer than what we generally assume. When combining facts from different disciplines one should therefore probably allow for flexibility in the chronology. This said, I will get to the topic of DNA.

 



Introduction

The study of DNA

The latest source of knowledge about human history comes from our genes in the DNA, the genetical code. They play the same role for all living things, as the source code of a computer program: They do not perform the tasks, but they create the proteins that do the job. Most genes are in chromosomes that exist in double numbers, so that one comes from the father and one from the mother. But there are two sets of DNA that is not recombined: The Y chromosome (which only men have), and the mitochondrie-DNA (which is inherited only from the mother). With the help of these one can make one family tree for each woman, a two for each man (his ancestral father and mother).

Mitokondrie-DNA (mtDNA) är en liten ring på endast 16571 baspar som finns inne i mitokondrierna, alltså de organeller inne i cellerna där själva energiomsättningen sker. De bildades, får man väl anta, som följd av en symbios mellan en encellig organism och en bakterie för mer än en miljard år sedan. Mitokondrierna kommer helt från äggcellen, och därför ärvs mitokondrie-DNA på mödernet, från mor till barn. År 2000 blev kartläggningen av hela sekvensen klar. [1]

Även om dessa bitar DNA går i arv från släktled till släktled utan omkombinering, så förändras de ändå så sakteliga på grund av mutationer. En del mutationer påverkar förstås individens överlevnadsförmåga. Därför verkar det naturliga urvalet på dem, och deras frekvens ökas eller minskas i enlighet med det. Andra mutationer är däremot neutrala ur överlevnadssynpunkt. I mtDNA-molekylen används framför allt två hypervariabla regioner i den så kallade D-slingan, HVS1 och HVS2 (andra skrivsätt: HV1, HVR1, HVS-I). Mutationer i dessa beräknas inträffa mellan 1 gång per 77 till 1 gång per 1136 generationer (medel: 1 per 235 generationer). Det kan också uttryckas som en mutation per baspar per 3,1 miljon år. Eftersom det finns många hundra baspar, och många människor i en population, så blir det många mutationer även på ganska kort tid. Siffrorna är framtagna just genom att titta på ett antal människor på Island vars släktskap är känd, i flera generationer, och i det materialet fanns 3 mutationer av 705 möjliga generationsskiften (Sigurdardottir et al. 2000)[2].

En enskild människa tillhör en viss utvecklingslinje när det gäller mtDNA (och, om det är en man, även Y-kromosomen). Om en grupp av människor har samma sekvens i det avsnitt som studerades kallas det en haplotyp. En grupp av haplotyper som är närliggande och förmodas ha utvecklats från samma ursprung kallas en haplogrupp. De inordnas i sin tur i överhaplogrupper, och så vidare.

Det är ju inte säkert att två individer med samma haplotyp är på samma linje, eftersom det dels kan förekomma mutationer också i de avsnitt som inte studerades, och dels kan samma mutation ha uppkommit flera gånger. Sannolikheten för det senare är minimal om bara slumpen spelar in, men om mutationen har ett överlevnadsvärde så ökar sannolikheten betydligt.

Det finns olika typer av mutationer, med olika frekvens. Dessutom är mutationsfrekvensen enligt forskarrapporter olika på olika platser i arvsanlaget, och det förefaller som om vissa mutationer kan göra närliggande positioner instabila. När man börjar fördjupa sig i människans släktskap är det lätt att glömma bort, att arvsanlaget inte finns till för att kunna studera släktskap, utan för att koda de proteiner som behövs för individens grundläggande livsfunktioner. Det betyder, att segment där man observerar låg variation kanske inte nödvändigtvis har lägre mutationsfrekvens, utan de kanske istället är mera kritiska för individens överlevnadsförmåga.

Med andra ord, ett grundantagande som man ofta gör när man studerar släktskap med hjälp av mutationer, är att de mutationer man tittar på är neutrala i förhållande till det naturliga urvalet. Men ny forskning visar att en mutation som kan vara neutral under vissa förhållanden, kan ha ett överlevnadsvärde under andra förhållanden, till exempel ett annat klimat. Två folkgrupper som hade samma fördelning av haplotyper från början, men som har vistats i olika klimat under en längre tid, kan därför nu ha olika frekvens av haplotyperna.

Modern man

Med "den moderna människan" avser jag inte den post-industriella1900-talsmänniskan, utan Homo sapiens sapiens, Cro Magnon, vår art och ras helt enkelt. Som det nu ser ut, har den moderna människan utvecklats i Afrika, från en anmoder som levde för ett par hundra tusen år sedan. Denna anatomiskt moderna människa (kallad Cro Magnon) kom till Europa under den senaste istiden, och ersatte då den tidigare människan, av Neandertaltyp. Fortfarande pågår det dock forskning om det var två raser som blandades med varandra, eller om de uppträdde som två arter i förhållande till varandra. Det är nämligen inte nödvändigt att två grupper är så genetiskt olika att de inte kan fortplanta sig för att de ska låta bli — de kan också låta bli därför att de inte vill, därför att de inte är attraherade av varandra.

Från Afrika spreds den moderna människan till Mellanöstern. Därifrån tog hon sig vidare dels till Asien, dels till Europa. Senare spreds en grupp från Centralasien till både Amerika och Europa, och blev dominerande överallt utom i Afrika och Sydostasien. Till det senare området kom människan tidigt, och ättlingarna till de första invandrarna finns kvar i isolerade delar av övärlden. Minst två invandringsvågor har nått den Australiska kontinenten och övärlden norr därom före den europeiska invasionen, och förmodligen kom den moderna människan till Australien innan hon kom till Europa. Över havet, väl att märka. Vare sig det nu var i en människogjord farkost, eller flytande på drivved som förts till sjöss av en tyfon.

Med hjälp av mtDNA-analys har man kunnat visa att det finns ett stort hopp mellan de europeiska neandertalarna, och de samtida Cro Magnon-människorna. De senare ligger däremot helt inom den nutida variationen — två individer från södra Italien hade båda haplotyper som idag återfinns i trakten, och som är möjliga anmödrar till de flesta nutida européer (noll respektive en mutation från Cambridge Reference Sequence, CRS, den vanligaste i Europa). I Afrika finns det idag haplotyper som ligger mer än ett dussin mutationer från CRS, men europeiska neandertalare däremot ligger ungefär två dussin mutationer från CRS.

Som exempel på denna forskning kan nämnas Comas et al. (1997)[3], som jämförde mtDNA hos 9 europeiska och västasiatiska populationer och kom fram till slutsatsen att det var en gradvis och utdragen process att ersätta neandertalarna med moderna människor. De sista neandertalarna dog förmodligen ut då istiden gick mot sitt allra kallaste, för mellan 20 och 30 tusen år sedan, medan de första moderna människorna kom till Europa för si så där 50 tusen år sedan. Arkeologiska vittnesbörd placerar den första invandringen några tiotusentals år längre tillbaka i tiden. Det är ju inte säkert att några av deras mtDNA eller Y-kromosomlinjer överlevt, så uppgiften om mutationens ålder ger bara en minimiålder — och dessutom med stor osäkerhet.

Nu skall man komma ihåg, att även om inte en enda neandertal-mtDNA-linje eller dito Y-kromosom överlevt till nutid, så kunde ändå vissa andra gener ha tagits upp av den moderna människan, ifall de två grupperna hade blandats. Emellertid finns det inga skelettfynd som tyder på en sådan "felande länk". Visst finns det en modern folktro som vill göra gällande att det fortfarande finns "snömän" (se till exempel www.bigfootencounters.com), men det finns inga handfasta bevis i form av kranier eller DNA-prov. Personligen tror jag därför att yetin har mera släktskap med jättar än med neandertalare. Som Hans Blix påpekade beträffande ABC-stridsmedel i Irak: Det är svårt att bevisa att det som inte existerar inte finns. Bättre då att basera sin verklighetsuppfattning på någorlunda objektiv kunskap om sådant som kan studeras, och acceptera att det finns olika typer av vetande. Bland det mest objektiva är människans DNA. Hur man tolkar data är mera subjektivt, så det skjuter jag upp till slutet av texten.

Phylo-geographic studies

Det finns en hel del man kan använda DNA-data till, kring det centrala temat att titta på släktskap. Men det finns också fallgropar, och det finns all anledning att komma ihåg den gamla sanningen att det finns tre grader av lögn: Lögn, förbannad lögn, och statistik. Annorlunda uttryckt, man måste hålla huvudet kallt och ha i åtanke vad data egentligen representerar, och vilka uttalade eller underförstådda antaganden man gjort. Som den vetenskapliga litteraturen de senaste 5 till 7 åren visar, så går det att komma fram till diametralt motsatta slutsatser för människans spridning, när man använder dessa data.

Man kan inte nog påpeka vikten av att som forskare (vare sig man är amatör eller yrkesforskare) göra sig själv medveten om sina egna undermedvetna antaganden. Oftast är det där, på det undermedvetna planet, som de grövsta felen uppstår. (Egentligen borde en formell logisk analys vara en del av all vetenskaplig slutledning, men det är väl att kräva för mycket av inledande studier i ett nytt ämnesområde.)

Det mest grundläggande som man måste göra klart för sig är emellertid, att det finns olika typer av kunskap och kunskapssökande. Ofta söker man det allmänna från det specifika. Det är då statistiken kommer in. Men det finns en annan sorts kunskap, som kräver att man behåller det specifika i fokus.

Låt mig visa med ett exempel. Människornas historia i Europa är som ett pussel. Genetikerna har försökt bringa ordning i oredan genom att söka efter Principal Components,de "viktigaste komponenterna". Vad man då vill åstadkomma är att finna de bakomliggande faktorer som orsakat den komplicerade bilden — till exempel invandring från Mellanöstern. Det är alltså underförstått att det finns några få faktorer som orsakat den komplicerade bilden. Men jämför nu med ett pussel. Principal component analysis ger oss gradienten i färg från topp till botten, och från vänster till höger. Men placerar vi in pusselbitarna efter deras genomsnittliga färg i förhållande till dessa gradienter, så får vi en nonsensbild som inte föreställer någonting. Slutsatsen blir att man måste studera varje pusselbit för sig. Likadant är det med Europas historia. Orsaken är att vår kontinents historia inte domineras av några få faktorer, utan förefaller vara summan av en stor mängd ungefär lika viktiga händelser: Folkvandringar, härnadståg, etnisk rensning, slavhandel, kvinnorov...

Om man låter bli att försöka generalisera, så kan man konstatera att det går att få fram mycket information om släktskap med genernas hjälp. Mig veterligen är denna text den första gång någon tagit sig an att verkligen gå till botten med Europas DNA, och inte ge upp inför den synbart slumpvisa sammanblandningen av folken.

Resultaten uteblev inte. Den som är otålig att direkt komma till nyheterna kan hoppa till avsnittet "Hur nära släkt är egentligen samerna och skåningarna?", efter att ha ögnat igenom kartorna över de olika haplotyperna. De andra får här först en introduktion till studiet av arvsanlag, och en redogörelse för de olika haplogruppernas utbredning.

Family trees

Koden i DNA består av en sekvens av fyra sorters heterocykliska kvävebaser. Det kan därför representeras av en rad bokstäver, initialerna för dessa fyra basers namn, på detta sätt: ACGGTCATAAG. För att minska datamängden presenterar man ofta bara de platser som är variabla, och anger deras läge i sekvensen med ett nummer. På första raden anges referenssekvensen (här nedan CRS, Cambridge Reference Sequence, referensen för mtDNA), och på följande rader de prov man analyserat. En punkt (.) anger att den stämde med referenssekvensen. Om den skiljde sig så sätter man ut basens initial. Resultatet blir som i tabellen i Figur 2-1 (positionen skrivs vertikalt; den första är alltså 16039):

1111111111

6666666666

0000000001

3566788990

9179912623

GACCCCTTTT  CRS

.G........  Haplotype 1

A......C..  Haplotype 2

..........  Haplotype 3

...T.C....  Haplotype 4

...T......  Haplotype 5

A......CG.  Haplotype 6

..G.......  Haplotype 7

....C.....  Haplotype 8

......T...  Haplotype 9

.........A  Haplotype 10

 

Figure 2-1. Dummy mtDNA data and the resulting family tree.

I detta påhittade exempel med 10 variabla platser, har 10 haplotyper identifierats. Haplotyp 3 är identisk med CRS. Haplotyperna 1, 5, samt 7 till 10 är direkta döttrar till 3. Haplotyperna 2 skiljer sig med två mutationer från CRS, och vi vet inte vilken av mutationerna (16039G->A eller 16092T->C) som kom först. Föregångaren till haplotyp 2 kan antingen finnas kvar men inte vara anträffad vid provtagningen, eller ha dött ut. Haplotyp 4 är en dotter till 5; och 6, slutligen, är en dotter till haplotyp 2.

En linje som stämmer med mutationen i typ 2 hänför vi till haplogrupp 2. Stämmer den dessutom med 6, så hänförs den till haplotyp 6. För att skilja samtliga i haplogrupp 2, från dem i haplogrupp 2 som inte tillhör haplotyp 6, kallar man de förra för 2, och de senare för 2* (med en asterisk efter). Eftersom det kan finnas flera haplotyper under 2 förutom 6, så är 2* potentiellt flerfylig[4], medan 2 och 6 är enfyliga. På samma sätt är 3* och 5* potentiellt flerfyliga (3* är de som tillhör 3 men inte någon av de identifierade underklanerna).

Observera att haplogrupp 3 i exemplet inte nödvändigtvis representerar den mest ursprungliga DNA-sekvensen. Vilken som helst av de identifierade typerna kan vara den mest ursprungliga — och även den icke identifierade typen mellan 2 och 3. För att få reda på vilken som är mest ursprunglig har man tillgripit två metoder: Att analysera DNA från nutida schimpanser, och att analysera DNA från skelett av utdöda människor av neandertaltyp. Det har visat sig att även om CRS är den i Europa vanligaste sekvensen, så är den långt ifrån den äldsta haplogruppen bland nutida människor.

Detta illustrerar principen, men i verkligheten finns det ofta tvetydighet om hur olika haplotyper är släkt. De släktträd som presenteras är därför de statistiskt mest sannolika. Det är viktigt att ha det i åtanke, att även om det mesta nog är rätt, så är det också troligt att det finns vissa fel — som kanske spelar stor roll för en specifik tolkning. Alltså, man får inte ta detta för en absolut sanning. Finns det starka motargument så måste man väga in dem.

Dating the family tree

Släktträdet i Figur 2-1 är i stort sett stjärnformat runt 3. När så är fallet kan man beräkna statistik för hur länge sedan det var som mutationen som ligger till grund för haplogrupp 3 inträffade. Haplogruppen som CRS hör hemma i kallas H, och mutationen som bildade H har daterats till ca 26000 år före nutid. Osäkerheten i dessa dateringar är dock stor. Dels finns en möjlighet till ett systematiskt fel, ifall man har beräknat mutationsfrekvensen fel. Dels finns en stor statistisk osäkerhet, eftersom formeln bygger på att man har hittat samtliga mutationer som har inträffat efter att H bildades. Därför finns naturligtvis en stor osäkerhet på grund av att det trots allt är så få personer som har provtagits. Allt detta gör att felmarginalen på dateringarna ofta är tiotals procent, och ibland 50% — speciellt om släktträdet inte är stjärnformat.

Vad man daterar är naturligtvis inte själva mutationen, utan tidpunkten från vilken den haplotypen började differentieras genom nya, överlevande mutationer. Observera att om några av dessa nya mutationer inte återfinns i populationen så blir dateringen fel, åldern blir för låg. Det betyder, att om befolkningen nästan dog ut, men sedan började öka i antal igen, så ger dateringen inte åldern på mutationen utan på denna flaskhals för populationen. Precis samma sak händer när en liten grupp människor isoleras och startar en ny population.

Om haplogruppen också återfinns i en annan folkgrupp, och har en högre ålder där, så kan man dra slutsatsen att det rör sig antingen om en flaskhals eller om en "grundareffekt". Endast genom att ta hjälp av andra discipliner kan man skilja mellan de två alternativen.

DNA-studier har visat att med stor sannolikhet uppstod den moderna människan i Afrika, och spreds ut över världen genom Mellanöstern för mellan 35 och 89 tusen år sedan. Därefter har dock kontakterna mellan Afrika söder om Sahara och resten av världen varit ganska svaga. Av den anledningen fokuseras detta kapitel på utvecklingen i Eurasien.

Population statistics

Den grundläggande analys man kan göra är att beräkna hur många procent av de provtagna individerna som har respektive haplotyp. Man behöver inte ens göra något släktträd för att göra den statistiken. Provtar man till exempel 100 norrmän och 100 svenskar så kan man se om norrmän och svenskar är samma population eller ej. Om de visar sig inte tillhöra samma population, så kan man emellertid inte direkt se hur nära eller långt ifrån varandra de ligger, om man inte har ett släktträd. Skillnaden kan ju vara på kvistnivå i släktträdet, men det kan lika gärna vara olika stammar, även om bara en mutation skiljer. Vidare, en haplogrupp som man identifierat baserat på en del av DNA-sekvensen kan i verkligheten vara flerfylig, alltså sammansatt av grenar som ligger långt från varandra på släktträdet. Även om de två populationerna förefaller vara lika så kan de ändå vara olika.

En mera filosofisk fråga är om det över huvud taget är meningsfullt att tala om populationer. DNA ärvs ju faktiskt på individnivå. Det är individerna som är mer eller mindre släkt, inte "populationerna". Enligt modernt synsätt är det generna själva som är utvecklingslärans subjekt, så att säga. Det är inte arternas kamp om överlevnad, utan genernas kamp om överlevnad. Vi är bara vandrande genbärare — ville man vara finurlig kunde man därför påstå att vi alla är "gengångare".

Populationerna är statistiska konstruktioner, och man kan tala om att de är "samma" med 95% sannolikhet, åtskiljda med 95% sannolikhet, eller vad som helst däremellan. Men individerna är ju aldrig "samma". Hur nära släkt måste individerna vara för att de ska räknas som "samma" i populationsstudien? Det är naturligtvis en bedömningsfråga, och det kan variera, från att de skall tillhöra samma haplogrupp till samma haplotyp.

Man kan också ange det genomsnittliga antalet mutationer som skiljer, men även det kan stöta på svårigheter. Om ett folk består av en blandning av två grenar som ligger långt ifrån varandra, så blir ju den inre olikheten stor. Skulle ett annat folk bestå av samma två grenar i blandning, så kommer skillnaden mellan folken att bli mindre än den inom folken. Detta är en av svårigheterna i Europa — ca 99% av variationen ligger inom folken.

Nästa steg är naturligtvis att försöka räkna ut hur och när de två populationerna fick de likheter de uppvisar. Det är det som kallas "founder analysis" på engelska, alltså "grundaranalys" ungefär, studiet av vilka som grundade en population.

Founder analysis

I denna analys försöker man räkna ut hur stor andel av en viss population som har tillförts utifrån, varifrån den tillfördes, och när. Man behöver släktträd, dateringar och populationsstatistik som underlag. Men det räcker inte.

Vad man försöker göra är ju att, utifrån kunskaper om gensammansättningen i nutida populationer, för det första försöka uppskatta en forntida populations gensammansättning, och för det andra beräkna hur många procent av den populationen som tillfördes det som sedermera blev den nutida populationen. Denna analys har gett upphov till många motsägelsefulla resultat, när den har använts för att försöka uppskatta varifrån européerna härstammar. Det vanligaste felet är att man tagit gensammansättningen i en nutida förment ursprungspopulation som direkt representativ för den forntida populationen.

Som exempel på detta fel kan nämnas att anta att jordbrukarna som kom till Europa med den neolitiska revolutionen kom från Mellanöstern, och kan representeras av de nutida innevånarna i den regionen. Några har kommit fram till att de flesta av Europas människor härstammar från den invandringen, efter att ha jämfört med befolkningen i Levanten (Libanon, Syrien, Irak). Andra har kommit fram till att väldigt få kom i den vågen, efter jämförelse med beduinerna i den saudiska öknen. Bägge studierna gjorde felaktiga antaganden — den första genom att bortse från alla de invandringsvågor som gått från Europa till Levanten i historisk tid, den andra genom att jämföra med en nomadisk herdebefolkning som genetiskt sett inte är samma population som bönderna i regionen.

Att använda dagens befolkning i Mellanöstern som närmevärde för den forntida för mer än 8000 år sedan, utan någon diskussion om senare förändringar, är oklokt, och att det har kommit i tryck i en vetenskaplig tidskrift gör inte saken bättre. Det finns ju flera folk som har invandrat dit de senaste 5000 åren, en del med okänt ursprung, andra med känt europeiskt ursprung. Inte undra på att man kom fram till att Europas befolkning till nästan 80% överensstämmer med Mellanösterns. Problemet är alltså att forskarna valde att testa en modell för folkvandringar som inte är förenlig med historiska fakta. Därmed saknar analysen bevisvärde. Men detta får väl hänföras till kategorin ungdomssynder för forskningsgrenen ifråga.

Senare har ett fullgott forskningsarbete gjorts, och problemen i de tidiga studierna påvisats. Även flera av de forskare som själva gjort misstag har senare bidragit till att korrigera dem. Detta är ett utmärkt exempel på många saker, till exempel att forskningen går framåt, att forskare strävar efter perfektion, att man inte skall ta några resultat för de slutgiltiga, och att konkurrensen är så knivskarp att forskare kan frestas att ta genvägar för att snabbt få ut resultaten även om forskningen inte riktigt är mogen för det. Sens moral: Läs forskningsresultat kritiskt. Tänk! Är det rimligt? Gjordes de rätta antagandena? Artikelns början är speciellt viktig att lusläsa. Felen ligger kanske inte i de kemiska analyserna, utan i tillämpningen av resultaten inom fält där genetikerna kanske inte var specialister då de påbörjade arbetet?

I det följande skall vi återkomma till själva resultaten, och även diskutera hur frågeställningen bör formuleras.

Mapping

När man läser vetenskapliga artiklar om "fylogeografi", alltså studiet av folkstammarnas geografi, baserat på genanalys, stöter man i huvudsak på kartor av tre typer: Sådana som visar var proverna tagits (med punkter eller polygoner för att ange en lokaliserad respektive utspridd provtagning), sådana som visar populationsstatistik med hjälp av cirkeldiagram ovanpå en karta, samt kartor med pilar som visar antagna folkvandringar. Endast någon enstaka studie har redovisat tematiska kartor över haplogruppernas fördelning.

Cirkeldiagrammen ger en hyfsad bild av respektive folks genfördelning, men det är inte möjligt att visuellt få en god överblick över en viss haplogrupps utbredning. För att få denna överblick presenteras här nedan tematiska kartor, med en karta för varje haplogrupp, för varje förgrening på släktträdet (i mån av tillgång till data). Kartorna redovisas sida vid sida på planscher (Plansch 2-1 och 2-2), och dessutom finns många av dem som figurer i texten i samband med att de diskuteras.

Själva DNA-data finns deponerade på databaser åtkomliga via Internet. Det som ofta inte finns är uppgifter om provets ursprung — för att få det måste man gå till källan, den artikel där undersökningen presenterades. Tyvärr varierar metadata (data om data) från undersökning till undersökning. Oftast anges landet, ibland folkgruppen (stammen), ibland språket, ibland vilken del av landet personen kom ifrån. Graden av geografisk ortbestämning varierar alltså kraftigt, men gemensamt är att ett antal prov tagits från samma population. Det beror givetvis på att man använder den statistiska metoden: Identifiera en population och gör ett urval från den.

I denna metod utgår man från en definition av populationer, för att sedan kontrollera om man hade rätt i att de var distinkta. "Som man frågar får man svar", heter det.  Vore det inte möjligt, undrar vän av geografi, att istället förutsättningslöst söka efter populationerna bland rådata? Det vill säga koordinatsätta de personer som provtagits (inte alltför exakt, av hänsyn till den personliga integriteten), och sedan analysera data på olika sätt för att hitta gränser och andra strukturer i befolkningsfördelningen? Naturligtvis vore denna geostatistiska metod ett intressant alternativ, och man får väl hoppas att genetikerna tar hjälp av geostatistik och inte bara statistik i framtida studier.

På många platser är förstås den rumsliga fördelningen av folkgrupper uppenbar, och frågan är bara hur de olika grupperna är släkt, och med vilka. Men på andra platser, som i Skandinavien, är istället frågan i vilken mån det finns genetisk variation som motsvarar de skillnader i dialekt och andra karaktärer som landsbygdsbefolkningen själv ofta är medveten om. I Sverige, Norge, Danmark och Finland skulle ett finmaskigt nät av provtagning av folk ute i bygderna säkert vara den metod som skulle ha störst möjlighet att ge ett meningsfullt resultat. Som vi skall se i det följande kan det mycket väl finnas strukturer i data som dolts av den statistiska metoden, med dess definition av population som liktydigt med invånarna i Sverige. Om man istället jämförde härad för härad skulle resultatet säkerligen bli ett annat, men varför använda sådana indelningar över huvud taget? Varför inte använda de geografiska koordinaterna direkt, som i geostatistiken? Kanske en metod som kriging kan vara lämplig?

Vid författandet av denna text var önskemålet att prova att använda kriging på genetiska data, men dessvärre var det inte möjligt att få tag i användbara data. Den kartläggning som har gjorts har därför måst baseras på data per land eller region. I slutet av texten skisserar jag ändå hur kriging skulle kunna användas i framtida studier.[5]

The Y chromosome

Vi ska först se på männens förhistoria, sedan på kvinnornas. Det beror inte på någon könsdiskriminering, utan på att Y-kromosomen muterar långsammare än mtDNA, och därför berättar om utvecklingen i ett längre tidsperspektiv än den senare. Och kanske med mindre ambivalens, eftersom det visar sig att mtDNA ofta har muterat flera gånger på samma plats i sekvensen, varför släktträdets utseende är mera osäkert. Dessutom måste man ha i åtanke att de två DNA-sekvenserna inte nödvändigtvis berättar samma historia — man kan inte utgå ifrån att männens och kvinnornas historia är sammanfallande, utan man måste leda i bevis att män och kvinnor har spritt sig på samma sätt ifall man vill använda det i ett senare skede av argumentationen. Utgångspunkten måste vara att de två typerna av DNA mycket väl kan ha spritt sig på delvis olika sätt och olika vägar, vid olika tidpunkter — inom vissa ramar och gränser.

Som exempel på detta kan nämnas att befolkningen i Belém i Brasilien idag till 59% är ättlingar till indiankvinnor, men samtidigt är de till mindre än 5% ättlingar till indianmän. Detta verkar för övrigt bekräfta studier som kommit fram till att kvinnor från låga socialgrupper, och män från höga socialgrupper, har störst chanser att föra släktet vidare. Liknande sociala och kulturella faktorer måste oundvikligen vägas in vid tolkningen av resultaten.

Family tree

A family tree for the Y chromosome was published in February 2002 by The Y Chromosome Consortium (2002)[6], from here on abbreviated YCC. Apart from giving a coherent nomenclature system the new system is compared with seven earlier published, incomplete or ambivalent systems. The main features of the family tree are shown in Figure 2-2, and the complete diagram is shown in Figure 2-3.

Figure 2-2. The basic structure, and some branches of great relevance for Europe, in the Y chromosome family tree. The numbers refer to the calculated age of the mutation—or rather, for the beginning expansion of the following haplogroup. The distribution of most of these haplogroups in Eurasia is presented in Plate 2-1 [not present here]. Data are compiled from several of the articles cited in the text.

Haplogrupp Y inkluderar samtliga kända linjer. F är en övergrupp som inkluderar flera stora haplogrupper, samt övergruppen K, som i sin tur inkluderar flera stora haplogrupper samt övergruppen P. Störst inom P är R, som dominerar västra Eurasien, samt Q3 som endast finns bland Amerikas indianer. N3 har hög frekvens hos samer (förr: lappar) och andra finsk-ugriska folk. R1b är dominerande i Västeuropa, och R1a1 i Östeuropa; den senare har associerats till indoeuropéernas utbredning och Ukrainas kurgan-kultur. I dominerar i Skandinavien och är även vanlig i Tyskland, medan E, G, H, J och L hör hemma i området Mellanöstern — Kaukasus — Indien. C hör till Sibirien, D till Tibet, M till Oceanien och O till Kina. Detta är naturligtvis en förenkling, men den ger en första grov kartbild.

File written by Adobe Photoshop® 4.0

Figure 2-3. Family tree and labeling system for the human Y chromosome haplotypes according to YCC (2002)6. The main haplogroups are given with capital letters. The red codes at the branching locations refer to mutations (e.g. M9). The seven columns to the right show how this system correlates with earlier systems.

Thematical maps

I en serie kartor över Eurasien (Plansch 2-1) återges frekvensen av respektive haplogrupp. Fördelen med denna kartläggningsmetod är att man snabbt får en överblick över en haplogrupps utbredning. Förutsättningen för att det skall vara meningsfullt är givetvis att varje karta endast återger en enda enfylig haplogrupp. Det vill säga, R är meningsfullt eftersom det visar "en släkt", medan en karta över R* visar en del av samma släkt, med vissa delar uteslutna — med andra ord, det är ett okänt antal släkter som samredovisas på en karta.

Med tanke på detta summerades haplogruppdata ihop, så att så många enfyliga haplogrupper som möjligt skapades. Dessa redovisades sedan på en karta över Eurasien. Framställningen av kartan består av två huvudsteg: Att skapa tabellen med haplogruppdata (denna tabell kallas attributdata i GIS-sammanhang — där GIS står för geografiska informationssystem), samt att avgränsa de geografiska områden (så kallade polygoner) som respektive post i attributdatatabellen skall kopplas till.

Visserligen kom den moderna människan från Afrika enligt så gott som samstämmiga forskningsresultat, men ändå redovisas inte Afrika på dessa kartor. Anledningen är dels praktisk (brist på data), dels att Afrika söder om Sahara och Eurasien är relativt isolerade från varandra, jämfört med Eurasien inbördes. Det är just folkrörelserna inom Eurasien som är temat.

Attribute data

Data were compiled from the following five studies:

Helgason et al. (2000)[7]: Svenskar, norrmän, danskar, tyskar, islänningar, britter, irländare, skottar, ryssar, italienare, greker. Indelningen i haplogrupper är tyvärr ganska grov, och antalet provtagna personer varierar kraftigt, mellan 12 danskar och 332 italienare, med 106 som medeltal (110 svenskar deltog). Den största nackdelen med det använda systemet för haplogrupper (a i YCC; se Figur 2-3) var att det inte skiljde mellan G och I, och därmed inte kunde skilja mellan neolitiska invandrare till Europa, och Europas äldre ursprungsbefolkning. Man kan heller inte plocka ut vare sig R, R1, R1a, eller R1b.

Karafet et al. (2001)[8]: Analyserade tjugofyra folkslag från Öst- och Centralasien, plus att han-kineser ("äkta" kineser) delats upp i en nordlig och en sydlig grupp. Mellan 13 och 147 personer analyserades, i medeltal 55. De använde klassifikationssystem d enligt YCC. Ingen information om haplogrupp G, H, I eller R1a1.

Qamar et al. (2002)[9]: Undersökte tolv folkslag från Pakistan och den av Pakistan ockuperade delen av Kashmir. Antalet individer som analyserades per folk varierade mellan 12 och 122, i medeltal 60. Liksom Helgason et al. (2000) använde de system a för klassificeringen.

Semino et al. (2000)[10]: Analyserade tjugofem grupper från kontinentala Europa och Mellanöstern, ibland per land, men ofta från en del av ett land (Baskien, Sardinien, Udmurt). Mellan 16 och 77 personer per grupp, i genomsnitt 40. Klassificerade i system e. Systemet ger värden för G, H, I, R1 och R1a1, men inte för R, R1a eller R1b.

Wells et al. (2001)[11]: Dessa analyserade 49 grupper från Eurasien; från Orkneyöarna i väster till Korea i öster, från Norra Ishavet i norr till Indiens sydspets i söder. Fokus låg på Centralasien, och syftet var att ta reda på hur centralasiaterna var besläktade med omkringboende folk. Därför har vissa folk delats upp i regioner, ända upp till 7 geografiska enheter för uzbekerna i Uzbekistan. På andra platser med en multietnisk befolkning, till exempel Samarkand, finns flera populationer från samma plats. I vissa av dessa fall har den utländska befolkningen strukits från kartdatabasen, i andra fall har den fått en liten cirkel eller liknande för att resultatet skall kunna synliggöras. Totalt delade författarna in proven i 49 grupper, med mellan 12 och 129 personer per grupp, i genomsnitt 40. Indelningen i haplogrupper gjordes inte med något av de system som beaktades av YCC, utan genom att ange mutationen (t.ex. "M96"). I de flesta fall kunde denna mutation identifieras på släktträdet, och haplogruppen klassificeras i samma system som de övriga. Liksom i de andra fallen kunde inte vissa haplogrupper särskiljas, till exempel G, J, R och R1a.

Samtliga data sammanställdes i en tabell med procenttal, med klassificering enligt YCC (jämför Figur 2-3). I de fall (Mongoliet, Korea, Tyskland, Storbritannien) då data fanns från två studier, valdes den studie som hade störst statistiskt urval, utom för de haplogrupper som bara hade identifierats i den andra studien. Det uppstod naturligtvis luckor i tabellen för många kombinationer av plats och haplogrupp.

Key map

Utgångspunkten var en vektorkarta över världens länder (en generalisering av WDB II). Data som hänförde sig till hela länder kopplades helt enkelt till dessa i det geografiska informationssystemet (GIS). Länder varifrån det fanns flera urval delades upp, och data kopplades till respektive del. Om dessa detaljerade data inte täckte hela landytan, och det fanns andra data som representerade landet som helhet, så användes dessa senare data för restytan.

I de fall då urvalet representerade ett folk och inte en namngiven geografisk region, blev det nödvändigt att söka finna en karta över detta folks utbredning (inom det land det gällde; vissa folk finns ju i flera länder, men i data var det alltid angivet inom vilket land folket provtagits). I de flesta fallen hade folket sitt eget språk, och kunde därför återfinnas i en databas över all världens språk (URL: http://www.ethnologue.com/; den listar de 6800 huvudspråken samt 41000 alternativa namn och dialekter).

I några fall, exemplifierat av hui i Kina, rörde det sig om en minoritet av annan etnisk bakgrund som dock talade majoritetsfolkets språk. I dessa fall är det sällan fråga om en territoriell minoritet ("stamfolk"), utan om en etnisk minoritet som är mer eller mindre uppblandad med majoritetsbefolkningen. De lokaliserades så gott möjligt med hjälp av sökningar på Internet, och placerades på kartan genom att området där de fanns delades rumsligt med en slumpvis avgränsning mellan de olika folk som delar på området. Till exempel är uigurerna kopplade till provinsen Xinjiang i västligaste Kina, och hui till en del av Kina omedelbart öster om dem, trots att det numera även bor han-kineser i hela det området.

Figur 2-4 visar polygonernas läge och vilket folk de representerar. Observera att en cirkel har lagts till väster om Orkney för att göra det möjligt att se färgen på den ögruppen.

Key map NRY.gif

Figure 2-4. Key map for Y chromosome data (also applies for Plate 2-1). Since data are compiled from different studies, they vary a bit in what they represent. Some represent a random selection from a country, but most of the samples represent a people (an ethnic group). Many of these have their own territory, but not all—in the latter case this map is necessary as a key to see which polygon represents which people. Orthographic projection with centre in 45º N, 60º E.

De fylogeografiska kartorna över haplogruppernas fördelning i Eurasien redovisas på Plansch 2-1. Den första raden visar haplogrupperna A, C, D, E och F. Tillsammans med B (som förefaller saknas i Eurasien) representerar de samtliga haplogrupper. A och B är afrikanska haplogrupper, även om det inte framgår av kartorna.

Comments to the distribution maps

Haplogrupp C förekommer i ansenlig mängd hos Sibiriens jakuter, samt hos kazakerna och mongolerna. På ön Sakhalin öster om Sibirien och norr om Japan finns ett litet folk, Oroqen, som hade 91% haplogrupp C i provet. Med tanke på hur nära släktträdets stam C ligger, kan man gissa att det handlar om en mycket gammal invandring, från långt före istidens maximum. Så hur klarade de istiden i Sibirien? Eftersom frekvensen är högst på Sakhalin kan man hypotetisera att de levde i isolation i ett refugium på den kusten, norr om Korea, och därifrån spred sig västerut då klimatet förbättrades igen. Således hade sibiriska evenker 68%, buryater 60%, mongoler 52% - 59%, och kazaker 40% - 66% beroende på studie. Samtliga dessa talar altaiska språk. Altaierna däremot hade bara 24% — istället hade de en för Asien hög frekvens av R1a (se nedan). Och uigurerna hade inte mer än 7% haplogrupp C, trots att de också talar altaiska språk. Där de ligger på sidenvägen i västligaste Kina är de en blandning av ett flertal folk, men den dominerande haplogruppen är den europeiska R1. Tills för bara ett årtusende sedan talades det där ett indoeuropeiskt språk, men så tog ett turkiskt folk och språk överhanden.

Haplogrupp D har högst värden i Tibet, men har också spritts till angränsande områden i mindre mån. Den ligger på samma gren som följande grupp.

Haplogrupp E har synbarligen sitt centrum i Mellanöstern, i Levanten. Högst frekvens uppvisar Libanon (29% och 32% hos Semino respektive Wells), men samma storleksordning förekommer i Grekland (24% hos Semino, 33% hos Helgason[12]). Aningen lägre frekvens förekommer i norra och centrala Iran (21% - 25%) och i Albanien (21%). Turkiet uppvisar 13%, Sardinien 12%, och Andalusien 10%, medan resten av kontinentala Europa varierar mellan sådär 2% och 8%. Detta är uppenbart en haplogrupp som kommit till Europa efter istiden, från Mellanöstern. Den kan ha kommit dels med den neolitiska revolutionen, dels med handel (fenicierna bodde som bekant i dagens Libanon), dels med de muslimer som ockuperade delar av Spanien under nästan tusen år.

Haplogrupp F har frekvenser på långt över 50% hos de flesta provtagna folk i Eurasien. Enda undantaget är de där C eller D dominerar (altaiska respektive tibetanska folk). Det betyder att F dominerar över hela Europa och över ungefär halva Asien till ytan räknat. Räknat i folkmängd är dock F totalt dominerande även i Asien. Den kartbild vi ser för F är resultatet av många tiotusentals år av befolkningsutveckling, med expansion över stora områden. Hur denna expansion gått till går inte att säga utan mera detaljerade analyser. Som ett första steg går vi därför in och tittar på undergrupperna till F, vilka återfinns i nästa rad av planschen.

Haplogrupp G kan bara identifieras i en av de nämnda studierna, och i den har G högst frekvens i Georgien med 30%. Därnäst följer Sardinien med 14%, centrala norra Italien med 10%, Katalonien och Kalabrien båda med 8%, samt Turkiet med 7%. Inga data fanns från Iran, men å andra sidan fanns där uppgifter för H, I och J2, förutom F och K. Det betyder att frekvensen av G + J1 (samt J*) kan beräknas, och den visar sig vara kring 40%. Nu finns förmodligen J1 i Iran, men man kan ändå gissa att andelen G är avsevärd också. Andelen i Grekland låg, under 3%. Semino et al. (2000) tolkade G (jämte E, F1 och J) som indikatorer på invandring från Mellanöstern under neolitikum.

Haplogrupp H har högst frekvens hos yadhava (ett dravidiskt folk) i södra Indien, 19%. Därnäst följer de andra två sydindiska folken (ett av vilka är nyliga indoeuropeiska invandrare), och därefter romani (förr: zigenare) i Uzbekistan och tadzjiker i Dusjanbe i Tadzjikistan; bägge de senare har 13% H. Däremot hade tadzjikerna i Khoiant 0% H. Man kan gissa att haplogruppen kommer från Indien eller Sydostasien (från det senare området fanns inga data).

Haplogrupp I uppvisar högst frekvens hos kroaterna, 45%, tätt följda av samerna (förr: lappar) med 42% enligt samma studie (Semino et al. 2000). Tyskland och Sardinien låg båda kring 38%, medan Kalabrien hade exakt 0%. Samernas språkfränder udmurterna (förr: votjaker) och marierna (förr: tjeremisser), som bor kring Volgakröken, hade endast 7% respektive 4%. Från Skandinavien fanns inga data, men åter om detta senare.

Haplogrupp J fanns endast redovisat från undersökningar i Asien. Därför presenteras istället J2 på Plansch 2-1, för att få lite europeiska data. Den i särklass högsta frekvensen återfanns hos det sydkaukasiska folket kazbegi i norra Georgien, vilka uppvisade 72% J2. Grannfolket svaneterna hade 0%. Näst högst var istället azererna i Azerbajdzjan med 48%, och folk i Turkiet med 40%. Även i Libanon var talen höga, kring 30%, liksom i Tadzjikistan. Detta placerar J i ungefär samma del av världen som haplogrupp G.

Haplogrupp K, slutligen, är den i särklass största undergruppen till F. Fördelningen av K i Eurasien uppvisar flera lokala centra, vars tillblivelse kan bero på flera faktorer. Dessa centra — som de framgår av de tillgängliga data — är Kina, Tadzjikistan, folken kring Uralbergen, Baskien, samt gaelerna på Brittiska Öarna. Liksom fallet var med F måste man se på underhaplogrupperna för att upptäcka något meningsfullt mönster i kartbilden. Men först en sammanfattning av F.

F inhyser som sagt haplogrupperna G, H, I, J och K. Tyvärr finns endast data för F och K från Skandinavien. Dessa data visar att majoriteten av de provtagna personerna tillhörde F men inte K. Denna differens har plottats som "F minus K" på Plansch 2-1. Detta är det enda undantaget, den enda karta som är flerfylig. Orsaken till undantaget är att det är det enda sättet att åskådliggöra den haplogrupp som dominerar i Sverige. Logiskt sett är det en okänd blandning av F*, G, H, I och eller J, men eftersom vi ser att svenskarnas grannar (tyskar, samer... ) av dessa haplogrupper endast har I, så kan vi förmoda att nästan hela den andelen om 54% för Sveriges del representerar I (i Norge 51%). Kartans andra mörka område, Mindre Asien, representerar en blandning av G, I och J, med betoning på J.

Därmed över till haplogrupperna under K.

Haplogrupp L har sitt högsta värde hos de dravidisktalande kallarerna i delstaten Tamil Nadu i södra Indien, med 48%. Eftersom även balucherna i Pakistan har höga värden (29%) får man förmoda att haplogruppen har sitt ursprung hos de dravidiska folken i Indien. Endast i Kalabrien, Andalusien, Ungern och Grekland påträffades personer med denna haplogrupp i Europa (frekvens 5%, 3%, 2%, respektive 1%).

Eftersom inga data fanns från haplogrupp M i Europa, och alla data från östra Asien hade värdet 0 (noll) utom Malaysia med 3%, så visas inte denna karta. Enligt Su et al. (1999)[13] är detta en exklusivt Oceanisk haplogrupp.

Även haplogruppen N led av brist på data, medan däremot dess undergrupp N3 var bättre representerad. Eftersom N3 är karaktärshaplogrupp för samerna (ca 40%) visas den kartan istället. Allra högst frekvens hade N3 hos marierna vid Volga, med 70%. Även buryaterna i Sibirien hade ganska höga värden, 28%.

Haplogruppen O är av allt att döma centrerad i södra Kina, där frekvensen når 100% hos folken zhuang och she. På Taiwan och i Korea är frekvenserna över 80%, hos kineser, vietnameser och malaysier mellan 70 och 80%. Man kan uppskatta att uppåt en miljard människor har denna haplogrupp.

Den sista haplogruppen under K är P, bildad för cirka fyrtio tusen år sedan. Det är också den sista fullständiga kartan i serien. Det högsta värdet för P noterades från Orkneyöarna: 92%. Nästan lika höga värden noterades i spanska Baskien, med 89%. Därefter följer dels Skottland och Irland, dels Kashmir, med ca 83%. Denna haplogrupp har en vidsträckt utbredning, med höga frekvenser från Brittiska Öarna i väster till Amerikas indianer i öster.

Underhaplogruppen P1 har däremot en mycket begränsad spridning. Endast hos romani i Uzbekistan dominerar den, med 53% (av det undersökta materialet; som alltid måste man reservera sig för att man kan ha missat en verklig "hot spot"). Bartangi i Tadzjikistan har 17%, de dravidisktalande yadhava i Tamil Nadu samt tadzjiker i Khoiant i Tadzjikistan följer med 9% (de senare har 64% R1a1). Haplotypen förefaller höra hemma i Centralasien (antikens Baktrien och Sogdiana), eller — troligare — i det icke provtagna området i norra Indien.

Haplogrupp Q är intressant framför allt genom sin undergrupp Q3, vilken dominerar bland Amerikas indianer. I Eurasien har Q en östlig utbredning, och låga frekvenser.

Huvuddelen av P utgörs av R, och eftersom data för R saknas från många platser kan man därför tjuvtitta på kartan för P istället. Därför har heller inte någon karta gjorts för R.

R domineras dessutom helt av sin underhaplogrupp R1, vilken beräknas ha bildats för cirka trettio tusen år sedan. R1 består i sin tur av R1a och R1b, vilka dominerar i Östeuropa respektive Västeuropa. R1a i sin tur är i huvudsak representerad av R1a1, och det är denna som har kopplats samman med indoeuropéernas expansion österut.

The dominating haplogroups in Europe

Three haplogroups dominate in Europe, and all three came to the continent before the Ice Age maximum (it was at the coldest some 25 to 15 thousand years ago). Figure 2-5 shows haplogroup I, the one that dominates in Scandinavia.

Even if I dominates in northern Europe, another haplogroup dominates on "the continent," namely R1. It is however divided into two branches, R1b and R1a1, with distinctly different distributions (Figure 2-6 and 2-7, respectively).

Frekvenserna av R1b i Figur 2-6 är beräknade genom att subtrahera R1a1 från P. Eftersom ingen Q verkar finnas i Europa, så motsvarar det ungefär att subtrahera R1a1 från R (jämför Figur 2-2). Frekvensen av R1* och R1a* är låga men inte noll. De mörkare tonerna i Ryssland och Armenien kan orsakas av dessa, snarare än av R1b. Därför kan man inte enbart utifrån denna karta dra några slutsatser om att västeuropéer dragit till Asien. Dock finns det direkta mätningar från Centralasien, som visar att Kinas uigurer har 17% R1b. Eftersom uigurerna assimilerat den tidigare indoeuropeiska befolkningen (nu kallade tokharer), och tokhariskan är släkt med armeniskan (och germanska språk), så kan man dock med visst fog misstänka att den mörka gråtonen i Armenien också verkligen orsakas — åtminstone delvis — av R1b.

Figure 2-5. The frequency of haplogroup I in Europe and Asia Minor. For the Nordic countries all haplotypes of type F that are not K are shown, since data suggest that the frequency of F1, G, H, and J are negligible (I is approximately = F - K). Sweden has the highest frequency of I with 53%, followed by Norway, Croatia, Scandinavian Saami, Sardinia, and Germany. Sardinia is, however, totally dominated by haplotype I1b2, which they share only with the Basques. Calabria has 0% of I. Orthographic projection with centre at 45º N, 15º E.

Figure 2-6. An approximation of the distribution of haplogroup R1b (see text for description). The highest frequency is found among the Basques, followed by Ireland.

Figure 2-7. The frekvency of R1a1. The highest frequency on this map is found in Hungary with 60%, followed by Poland with 56%, and Ukraine with 54%. Compare also the following map.

Trots att frekvensen av R1a1 är något högre bland vissa folk i Centralasien än i Östeuropa, menade forskarna bakom studien ändå att Ukraina var detta folks urhem, eftersom flest varianter av R1a1 fanns där. Centralasien var dels den väg indoeuropéerna kom in i Indien, på den tiden då Indus-kulturen[14] florerade i det som nu är södra Pakistan. Det nordligaste dravidisktalande folket finns i denna trakt. Dessa brahuier har uppåt 39% av R1a1. Det är lika mycket som det sydligaste indoeuropeisktalande folket i södra Indien, sourashtran. Siffrorna visar hur folken blandats upp med sina grannar på respektive plats.

Figure 2-8. The frequency of R1a1 in Central Asia. Ishkashimi in Tajikistan (a small ethnic group on the border to Afghanistan) has as much as 68%, which might be a result of genetical drift. They are, however, closely followed by Tajiks in the district Khoiant with 64%, and Kirgiz in all of Kirgistan with 63%. In Pakistan the Kashmir have 58% and Sindhi 49%—and, remarkably, the Tibetian-speaking people Balti high in the Himalayas have 46%.

Samtidigt som de dravidisktalande brahuierna har 39% R1a1, har de indoeuropeisktalande hazarerna i Pakistan 0%. Deras egen mytologi säger att de härstammar från Djingis khans armé, och det faktum att de har 30% C antyder att det är möjligt. Vad det visar är hur lite språket säger om ett folks ursprung.

A recent immigrant from Sibiria: N3

The map in Figure 2-9 shows that haplotype N3 is concentrated to the same area where Finnish-Ugrian and related languages are spoken.

Lahermo et al. (1999)[15], concluded that the N3 mutation (Tat polymorphism) is ca 4,440 years old (95% confidens intervall is 3,140 — 6,200 years). They found that it is lacking among the Hungarians, and most common among the Khant people (who live in western Siberia, around lower—i.e., northern—Ob). The Latvian sample had 30% N3. On the map in Figure 2-9 the frequency is highest among the Mari (formerly Cheremiss; by Volga), with 70%.

Figure 2-9. The frequency of Y-haplogroup N3. The distribution pattern in combination with the low age of the mutation suggests that we are faced with a clear expansion in relatively recent prehistoric times.

The Saami (they are probably referring to the Scandinavian ones) have just under 42% N3 according to Semino et al. (2000), thus not much more than the Latvians. One may assume that the Estonians should have as much or more N# as the Latvians, considering that the Estonians are purely Finno-Ugric speaking, while Latvia historically consists of a mixture of diverse Finno-Ugric linguistic groups (Livoni, Curi) and the Baltic Latvians (Latgalli, Semgalli).

In Sweden there are just over 7% of N3, in Norway under 3%, according to Helgason et al. (2000)7. These values in all probability refer to the majority population in the southern half of each country. Why would Sweden have so much more N3 than Norway is the source was the Saami? We can safely hypothezise that it is not from the Saami that the Swedes have got the N3 haplotype, but from across the Baltic Sea.

Let us not, however, rush away in speculations now. Later in the text we shall see how haplogroups may have spread, and how the country can have become populated. This will then be used as a foundation for an attempt of creating a prehistoric history in subsequent texts. But here and now we shall look at kinship on the maternal side, as it is reflected in the mtDNA.

Mitochondrial DNA

Mutationshastigheten för mtDNA är hög, vilket har resulterat i att en lång rad neutrala variationer i koden har ackumulerats. Det genomsnittliga antalet skillnader i mtDNA mellan två individer har uppskattats vara mellan 9,5 och 66. De neutrala variationerna varierar med befolkningsgrupp, och kan därför användas för att studera släktskap. Variationerna har ackumulerats i olika serier längs olika grenar av släktträdet från en gemensam anmoder. Samtidigt som den genetiska koden har förgrenats på detta sätt, har folkgrupperna avskiljts från varandra genom folkvandringar till andra delar av världen — eller därför att en skiftande natur har separerat dem med inlandsisar, hav, öknar och så vidare. De kvinnor som var grundare av en ny population gav det folket en viss uppsättning ursprungliga mtDNA-haplotyper, som nu återspeglas i form av grupper av besläktade mtDNA-haplotyper. Är dessa grupper närbesläktade så är det troligt att de respektive anmödrarna var från samma population; är de däremot väldigt olika, så kan de återspegla olika invandringsvågor till samma trakt. Men samma situation kan uppkomma om det invandrade folket i sig var en blandning av två grupper från olika delar av släktträdet.

Family tree

Den mest variabla regionen i människans mitokondrie-DNA är D-slingan, och de flesta polymorfa ("mångformade") ställen i denna slinga är koncentrerade i två så kallade hypervariabla segment, HVS1 och HVS2, som nämndes inledningsvis. Den övervägande delen av DNA-sekvensdata som har publicerats är begränsade till HVS1. Dessutom har analyser av släktskap gjorts genom att dela upp DNA-molekylen i fragment och se hur dessas längd varierar (RFLP, restriction fragment length polymorphisms).[16]

Kodnings- och klassifikationssystemet för mtDNA-haplogrupper bygger på kapitäler som betecknar grupper av närbesläktade haplotyper. Systemet är liknande som för Y-haplogrupper, men de har inget med varandra att göra, och när det gäller mtDNA finns det ingen logisk ordning i systemet. Det har växt fram beroende på slumpen. Att A, B, C och D är haplogrupper hos Amerikas indianer är till exempel en effekt av att systemet skapades i en undersökning i USA. Först senare har det klarlagts hur dessa är släkt med varandra. Systemet vidareutvecklades i en europeisk studie på svenskar, finnar och italienare, och då lades till exempel T, U, V, W och X till.

Figure 2-10. Generalized family tree for mtDNA. It is based on a combination of family trees from Europe and Asia. The large variability within Africa has been simplified to the sole haplogroup L—in reality both M and N are sub-haplogroups to L3a. The simplifications in this family tree consists in both eliminating many geographically isolated sub-haplogroups, and in eliminating some intermediary haplogroups (e.g., pre-HV). The age estimates are from different sources and locations, which means that they all give minimum ages for the mutation, but on top of that they often have a large uncertainty. Age estimates within paranthesis are for Sweden - Finland (from Torroni et al. 1996). The mutation T1 has been dated to 16,700 – 28,400 in the Middle East, 6,100 – 12,800 BP in Europe, by Richards et al. (2000)24.

Tio haplogrupper stod för nästan alla varianter av mtDNA bland dessa folk. Ungefär 99% av variationen representerades av haplogrupperna H, I, J, K, M, T, U, V, W och X, enligt Torroni et al. (1996).[17] Som framgår av Figur 2-10 har dock forskarnas syn på släktträdet förändrats en hel del sedan dess, och vi kan säkert förvänta oss ytterligare förändringar inom de närmaste åren. Till exempel är K nu en undergrupp till U, som delats upp i många varianter som skiljs med en siffra.

Figure 2-11. Haplotypes for mtDNA anchored in a Neanderthal sequence. Most of the data behind the tree are from Europeans, why the African branches (L) are very simple—in reality there is much more variation in Africa than in Europe. From Macaulay et al. (1999).[18]

I Europa är haplogrupp H i särklass vanligast — hälften av alla européer har den. Även J, T, K och U är vanliga, och representerade hos samtliga europeiska folk. De övriga (I, V, W och X) är vitt spridda i låga frekvenser, men med lokala koncentrationer.

Ungefär 76% av alla afrikanska mtDNA-sekvenser hör till haplogrupp L1 eller L2 (se Figur 2-11). Omkring 55% av östasiaterna och sibirierna hör till övergrupp M (som inkluderar undergrupperna C, D, E,  G), medan de flesta övriga har A, B eller F. I stort sett alla indianers mtDNA faller in i någon av haplogrupperna A, B, C, eller D, men i Nordamerika finns även några procent av X.

Reservations regarding the use of mtDNA

Mitokondrie-DNA muterar snabbt, och antalet baspar i HVS1 är ganska litet. Det har lett till att vissa positioner har muterat flera gånger i människans senare historia (de senaste 50 tusen åren eller så). Det leder i sin tur till att det kan vara svårt att veta hur släktträdet ser ut, eftersom en viss haplotyp ibland lika väl kan vara en kvist på den ena grenen som på den andra grenen. Eftersom kartorna baseras på ett antal olika artiklar, så kan det dessutom hända att vissa haplotyper också har klassificerats olika i olika studier.

Vissa haplotyper som är helt lika i HVS1, hör ändå inte till samma gren och kvist på släktträdet. De kan skilja sig i andra delar, och slumpen kan ha gjort att mutationerna lett till samma haplotyp via olika vägar. I sådana fall måste man göra ytterligare analyser för att kunna tilldela en otvetydig haplogrupp.

Det är också något osäkert, när det gäller mtDNA, hur olika haplotyper och haplogrupper är besläktade med varandra. Huvuddragen är förmodligen riktiga, men lika sannolikt är det att detaljerna kommer att måsta ritas om många gånger framöver.

Ett annat antagande som ligger bakom användandet av mtDNA för att studera människans släktskap är att de variationer man tittar på inte påverkats av det naturliga urvalet. En nyligen publicerad artikel påstår emellertid att det antagandet inte är riktigt riktigt, så att säga (se faktaruta).

Natural selection of mtDNA Mitokondrie-DNA kodar 13 polypeptider som behövs i ämnesomsättningen, alltså omvandlingen av kalorier i födan till ATP, musklernas "drivmedel". Eftersom vi är varmblodiga så måste en del kalorier också gå till att upprätthålla kroppstemperaturen. Om verkningsgraden är låg i omsättningen av kalorier till ATP, så går mera av födan till att höja kroppstemperaturen. Det är en fördel för folk i kalla klimat. Om en mutation uppstår som ökar individens överlevnadsvärde, så kommer den haplogrupp i vilken mutationen skedde att öka i frekvens, eftersom ingen omkombinering sker av mtDNA. Och eftersom mtDNA förmodligen är den viktigaste metoden för att anpassa sig genetiskt till ändringar i klimat eller föda, så följer det att man borde kunna förvänta sig en samvariation av haplotyp och klimat som ett resultat av det naturliga urvalet, även om man klassificerar haplotyperna efter de neutrala mutationerna. Detta har påpekats helt nyligen av Mishmar et al. (2003)[19]. De visade även att det fanns klara globala skillnader i mutationsfrekvens. Till exempel har arktiska folk hög frekvens av icke-neutrala mutationer i genen för aminosyran ATP6, medan europeiska folk har hög mutationsfrekvens i genen för Cytb, och tropiska folk i genen för ND3. Detta betyder att en hel del av den storskaliga variationen i haplogruppfrekvens kan bero på klimatet. Det finns redan bevis för att de olika haplogrupperna är funktionellt olika. Haplogrupp T är associerad med minskad spermierörlighet hos europeiska män, och J är associerad med högre livslängd i Europa. Det följer också av detta, att om folk byter klimat och eller diet, så kan en "missanpassad mitokondrie" ge upphov till fenomen som övervikt och hjärt-kärlsjukdomar enligt forskarrapporten. De utfärdar också en varningsflagga för att denna effekt kan göra att tidigare beräkningar av tidpunkten för människans spridning kan behöva revideras. Eftersom inga nya data framkommit som tagit denna rapport i beaktande, så redovisas här de tidigare beräkningarna, dock med denna brasklapp.

Nå, om urvalet verkar så faller ju hela premissen för att använda DNA. Hela? Nej, inte riktigt, för fortfarande kan man kartera skillnaderna. Beräkningar av befolkningstäthet i forntiden och liknande kanske man skall akta sig för, men att objektivt kartera släktskap i nutiden kan man naturligtvis fortfarande göra. Och fortfarande kan det ge upplysningar om folkförflyttningar i nära förhistorisk tid, på kortare sikt än det naturliga urvalet hinner verka effektivt.

Thematic maps

In order to get a better spatial image of the distribution of haplotypes, the same procedure was used as with NRY data. A database was compiled from different studies, and thematical maps were constructed.

Attribute data

The following articles have been used as sources of mtDNA data:

Helgason et al. (2001)[20] studied where the women of Iceland came from. They reported both data from small areas such as the Orkneys and Hebrides, and aggregated data from large areas such as Scandinavia, Bulgaria plus Turkey, France plus Italy, etc. All together tehy had data from 15 geographical areas of very different size and heterogenity, and with 102 to 891 persons per area, with an average of 331.

Torroni et al. (1996)[21] analysed DNA from 49 Finns, 37 Swedes, and 48 Italians from Toscana, the region where the Etruscans lived.

Finnilä et al. (2001)[22] examined 480 persons originating in northern Ostrobothnia, central Ostrobothnia, Kainuu (Kajanaland in Swedish), and northern Savo (Savolax in Swedish). On the map they are shown as "N Finland".

Pereira et al. (2000)[23] undersökte 100 personer från norra Portugal, 82 från mellersta, samt 59 från södra delen av landet. I databasen slogs de ihop till 241 personer från Portugal (med undantag för kartan över T1).

Macaulay et al. (1999)18 undersökte 50 adygier, ett nordkaukasiskt folk i sydligaste Ryssland, samt 45 druser samplade i norra delen av nuvarande Israel. Eftersom de flesta druser bor i södra Libanon (och en del i Syrien) placerades deras data på Libanon snarare än på Israel (dessa data är endast med på några av kartorna).

Richards et al. (2000)[24] undersökte ett antal folkgrupper i nordöstra Afrika och i Mellanöstern, och jämförde dem med geografiskt sammanslagna data från olika geografiska regioner i Europa. Bland folkgrupperna som undersökts kan nämnas nubier, beduiner (de som egyptierna kallar "araber"), egyptier, palestinier, syrier, irakier, jemeniter, kurder och turkar. Somliga data är kompilerade från andra studier. Antalet individer per population som undersökts varierar mellan 29 och 456, med ett medel av 171. Dessutom var Iran med, men med endast 12 undersökta individer måste data därifrån betraktas som exempel, inte som ett statistiskt urval (det enda som kan sägas om Iran är att haplogrupp H sannolikt dominerar).

Kittles et al. (1999)[25] redovisade en undersökning av både NRY och mtDNA från finnar, från skåningar från Lund, från vita amerikaner, samt från två indianstammar i USA. Från deras appendix gick det att få fram haplogruppfördelningen för mtDNA för skåningarna, och dessa data har använts (28 individer). Det skall påpekas att det finns några tryckfel i artikeln (muntlig uppgift från Rick A. Kittles); deras position 19 motsvarar position 16042 i Cambridge Reference Sequence, inte 16043 som det står i artikeln. Vidare var det 45 skåningar som provtogs totalt (och 39 cheyenner), men bara 28 av analyserna lyckades. Trots det ringa statistiska underlaget är ändå detta en mycket intressant studie, eftersom den behandlar ett så geografiskt och etnografiskt välavgränsat område: Den skånska slätten.

Key map

Figure 2-12 indicates where each ethnic group is shown on the following maps.

Nyckelkarta mtDNA

Figure 2-12. Key map for the following figures with maps of the distribution of mtDNA haplotypes (applies also to Plate 2-2). In several cases there was bot ha study with aggregated data (e.g. Finland-Estonia), and data for a smaller part of this area (e.g. N Finland). The smaller part is then shown in the correct location, while the aggregated data is shown on the remaining area. "S Finland" shows data that was labeled "Finland" in the original study, but since the samples were taken in the Helsinki area the data are shown there. Similarly "V Götaland" shows data originally labeled "Sweden," but since all samples were taken on medicin students at the University of Gothenburg, the data are shown over the main recruiting area of that university.

The distribution of mtDNA haplogroups in Eurasia

Modern man, Homo sapiens sapiens, is generally considered to have originated in Africa. One of the African branches, L3a, spred to Eurasia through the Middle East. Haplogroup M is mostly found in East Asia, while N is found all over Eurasia. From haplogroup M essentially only Z (a sub-haplogroup to M8) exists in Europe, with a few percent mostly in the Saami.

Haplogroup N splits in a number of branches with different apparent age. N9 and A mainly occur in East Asia. The mostly European haplogroups I, W, and X, occur in low frequencies over most of the continent, with characteristic peaks in the concentration (Figs. 2-13 to 2-15).

By studying the appearance of the family tree in Europe and the Middle East, Richards et al. (2000)24 tried to determine which haplogroups had been developed where. When it comes to these three, though (I, W, and X), it turned out to be impossible to judge if they had developed in Europe or the Middle East (a third possibility is of course that neither of those two areas is the origin).

Figure 2-13. The frequency of mtDNA haplogroup I (black means >10%). The value in Iran is not significant; it was 1 in 12 who had I. The Outer Hebrides had 6.5%, after which follows a number of areas with between 4% and 5%, including Egypt, Balkan, and Toscana.

Figure 2-14. The distribution of haplogroup W. Northern Finland has the highest frequency with 9,5%, followed by Kurds with 7,5%.

Haplogroup X is a curiosity (Fig. 2-15), since it is the only one to appear both in Europe and in the North American native population (a.k.a. "Indians"; the average frequency is ca 3%), but not in East Asia [NB: Since this was written X has been found in small amounts in Central Asia/Siberia, but the issue of migration route is by no means permanently settled yet /UE 2006-09-15]. The highest frequency was found in the Druze (data from Macaulay et al. 1999) 18, a shiitic religious group that is found mostly in Syria and Lebanon, to where they fled from Egypt in AD 1017.[26]

Figure 2-15. The distribution of haplogroup X. The highest freqeuncy is found among the Druze with 27%, followed by Toscana (where teh Etruscans lived) with 8,3%, and the Orkneys with 7,2%. Note that already 10% gives black, so the difference in frequency between the Druze and Toscana is much larger than what the map implies.

The Druze live where the Phoenicians used to live. It would be odd, wouldn't it, if they hadn't mixed with the pre-existing population, why one may wonder if not haplogroup X was common among the Phoenicians.

The second highest frequency was detected in Tuscany, where the Etruscans used to live. Thereafter came the Orkney Islands in the North Atlantic Ocean. The most exiting feature with X is, of course, that it also exists among the Native North Americans, but not in Asia [NB: With the exception of a small area mentioned above /UE 2006-09-15]. So how did it get there?

It is hard not to suspect that it came to America over the Atlantic ocean. Considering how wide spread X is in North America—obviously an effect of the migration of the Native Americans—it seems justified to hypothesize that the ancestors of the Druze sailed to America some very long time ago. The question is of course who these ancestors were; as we shall see later they do not seem to have lived in the Middle East. [NB: X is in fact very common in a few Native North American tribes, e.g. around the Great Lakes, and totally absent in others. Furthermore, the X haplogroup is 4 mutations away from the European haplogroups, why it should have arrived no later than the end of the ice age 11 600 years ago/ UE 2006-09-15.]

The largest mtDNA branch: R

Haplogrupp R delas upp i ett antal grenar, där R9 och B huvudsakligen förekommer i Östasien (liksom de tidigare nämnda N9 och A). Dessa två asiatiska grenar har hög ålder (81 respektive 75 tusen år), medan de europeiska grenarna förefaller yngre. Detta behöver dock inte betyda att de verkligen är yngre. Det kan lika väl bero på det faktum att Europa blev en mycket ogästvänlig plats under istiden, med relativt små och isolerade områden lämpliga för mänsklig bosättning.

Av "döttrarna" till R är det HV, JT och U som är av intresse i Europa. Den förra förefaller exklusivt europeisk och har låg skenbar ålder (26 tusen år), de övriga finns även i Mellanöstern och har högre ålder. Men det finns en föregångare till HV i Mellanöstern, kallad pre-HV. Den förekommer med 26% i Jemen, och 17% hos beduiner. Detta visar att även HV har nått Europa från det hållet.

Haplogrupp U har daterats till 56 kBP (tusentals år före nutid) i Europa, och samma ålder i Skandinavien — Finland. Det antyder att den skandinaviska befolkningen inte är skiljd från den kontinentala via någon flaskhals orsakad till exempel av en folkvandring till ett nytt område, och heller inte av någon befolkningskris orsakad av till exempel högistiden kring 25 — 15 kBP. Dessa haplogrupper finns återgivna på Plansch 2-2. Kartbilden är emellertid ganska ointressant och jämngrå när man ser på denna nivå. Det är först när man kommer in på mera specifika kluster av haplotyper som kartbilden klarnar. Så låt oss gå vidare till nästa nivå.

Haplogrupp HV delar sig i H och V. Haplogrupp H är totalt dominerande i Europa (Figur 2-16).

Figure 2-16. The frequency of haplogroup H (note that black = 100%). The highest frequency is found around the Bay of Biscay, with 59% in the Basques. Data from Iran has a large uncertainty.

En av anledningarna till att det sagts att Europa är så homogen vad gäller mtDNA är just att haplogrupp H är såpass jämnt spridd. Men som siffrorna från Skåne visar, så kan denna homogenitet vara skenbar; en artefakt orsakad av bristande rumslig upplösning i data. Vi har tidigare sett ett annat exempel på detta: Den höga frekvensen av W i norra Finland, i relation till omgivande lan