Геномика единорога проливает свет на историю старейшей одомашненной пшеницы

Новости

ДомДом / Новости / Геномика единорога проливает свет на историю старейшей одомашненной пшеницы

Jul 29, 2023

Геномика единорога проливает свет на историю старейшей одомашненной пшеницы

Nature (2023)Цитировать эту статью 6925 Доступов 193 Подробности Altmetric Metrics Эйнкорн (Triticum monococcum) был первым одомашненным видом пшеницы и сыграл центральную роль в зарождении сельского хозяйства и

Природа (2023)Цитировать эту статью

6925 Доступов

193 Альтметрика

Подробности о метриках

Эйнкорн (Triticum monococcum) был первым одомашненным видом пшеницы и сыграл центральную роль в зарождении сельского хозяйства и неолитической революции в Плодородном полумесяце около 10 000 лет назад1,2. Здесь мы создаем и анализируем сборки генома размером 5,2 ГБ для диких и домашних однозерен, включая полностью собранные центромеры. Центромеры однорогих очень динамичны, демонстрируя свидетельства древних и недавних сдвигов центромер, вызванных структурными перестройками. Анализ полногеномного секвенирования группы разнообразия раскрыл структуру популяции и историю эволюции однозерен, выявив сложные закономерности гибридизации и интрогрессии после расселения одомашненных однозернов из Плодородного полумесяца. Мы также показываем, что около 1% субгенома А современной мягкой пшеницы (Triticum aestivum) происходит от однозерня. Эти ресурсы и результаты освещают историю эволюции однозерен и обеспечивают основу для ускорения улучшения однозернянки и мягкой пшеницы с помощью геномики.

Эйнкорн (T. monococcum) был первым видом пшеницы, который люди одомашнили около 10 000 лет назад в Плодородном полумесяце, регионе на Ближнем Востоке, который часто называют колыбелью цивилизации1,2. Дикая однозернянка была ингредиентом старейших известных хлебобулочных изделий, которые пекли охотники-собиратели на территории современной Иордании за четыре тысячелетия до рассвета земледелия3. Эйнкорн сыграл ключевую роль в становлении сельского хозяйства в Плодородном полумесяце, и это единственный диплоидный вид пшеницы (2n = 2x = 14, геном AmAm), у которого существуют как дикие, так и одомашненные формы. Заметное морфологическое различие между дикими и одомашненными однозерняками заключается в системе распространения зерна. Дикое однозерно имеет хрупкий стержень, который облегчает распространение семян, тогда как стержень одомашненного однозерна неломкий4. Эйнкорн тесно связан с Triticum urartu, донором генома А тетраплоидной твердой пшеницы (Triticum durum) и гексаплоидной мягкой пшеницы (T. aestivum)5. В отличие от T. urartu, дикие и одомашненные однозернянки имеют долгую историю выращивания и человеческого отбора в различных условиях окружающей среды, что делает однозерно ценным источником генетической изменчивости для селекции пшеницы. Описаны многочисленные естественные и искусственные интрогрессии однозерен в мягкую пшеницу, содержащую важные для сельского хозяйства гены6,7,8,9,10. Популяционно-генетический анализ показывает, что дикая однозернянка объединяется в три отдельные группы (расы α, β и γ) и указывает на регион вокруг гор Каракадаг на юго-востоке Турции как место одомашнивания однозерна11,12,13,14,15,16,17 .

Здесь мы создаем и анализируем полный набор геномных ресурсов однозерна, включая аннотированные de novo эталонные сборки хромосом одного дикого и одного одомашненного образца однокорня, а также полногеномное секвенирование панели разнообразия однозерен. Наши результаты раскрывают сложную эволюционную историю однозернянки и дают представление о динамике генома Triticeae, включая структуру центромеры, а также устанавливают ценные ресурсы, которые дополняют набор геномных инструментов для улучшения пшеницы.

Мы создали эталонные сборки из двух образцов однозерна, используя комбинацию кольцевого консенсусного секвенирования PacBio18, оптического картирования19 и захвата конформации хромосом20 (таблица расширенных данных 1, дополнительная таблица 1 и дополнительный рисунок 1). TA10622 — одомашненный сорт однозернянки (T. monococcum L. subsp. monococcum) с неломким позвоночником, собранный в Албании в начале двадцатого века. Образец дикого однозерняка TA299 (T. monococcum L. subsp. aegilopoides; раса α) был собран во время экспедиции в 1972 году на севере Ирака21 и имеет хрупкий позвоночник. Целостность сборки проверяли с использованием генетической карты однозернового зерна (дополнительные таблицы 2 и 3). Мы наблюдали высокую степень коллинеарности между двумя наборами псевдомолекул (рис. 1 и дополнительный рисунок 2), а также между двумя сборками единорога и субгеномом А мягкой пшеницы (дополнительный рисунок 3). Наиболее очевидными исключениями были хорошо описанные перестройки хромосомы 4А мягкой пшеницы, которая подвергалась инверсиям и транслокациям у полиплоидной пшеницы22. Мы аннотировали 32 230 и 32 090 моделей генов высокой достоверности на 7 псевдомолекулах TA299 и TA10622 соответственно (оценка BUSCO 99,2% для TA299 и 99,4% для TA10622) (дополнительные таблицы 4 и 5).

30% missing) at the population level. In JoinMap, we removed identical markers (similarity = 1) and mapped only one marker of the identical pair. We grouped the markers using minimum LOD of 6 and the markers were mapped using a regression mapping approach and the Kosambi function. The linkage maps were visualized using Mapchart (v.2.32; https://www.wur.nl/en/show/mapchart.htm). Linkage maps were constructed using this approach with both wild and domesticated einkorn assemblies./p> 60.0 || MQ < 40.00 || MQRankSum < −12.5 || ReadPosRankSum < −8.0 || SOR > 3.0’. In total, 208,855,939 SNPs were called from 219 einkorn accessions. After quality control using VCFtools108 (v.0.1.17), the raw SNPs were filtered using GATK107 (v.4.1.8.0) and VCFtools108 (v.0.1.17) as follows: SNP clusters, defined as three or more SNPs located within 10 bp; low and high average SNP depth (4 ≤ DP ≥ 15); and SNPs located in the unanchored chromosome were removed. Moreover, one misclassified accession (TA574; initially was classified as γ) was removed on the basis of PCA and divergence analysis. Finally, only biallelic SNPs were retained for further analyses, representing a final VCF file of 121,459,674 SNPs (Supplementary Table 15). These SNPs were annotated using snpEff109 (v.5.0e) with TA299 HC gene models. The false-positive error rate of variant calling (percentage of polymorphic sites in a resequenced TA299 sample compared with the TA299 reference) was 0.008%, which is comparable to the error rates of other studies43,44,45,46 (Supplementary Fig. 19a). Variants were evenly distributed across the seven chromosomes, except for the centromeres that showed a marked reduction in variant densities due to reduced read mapping (Supplementary Fig. 19b, Supplementary Fig. 20 and Supplementary Table 16). Approximately 2.2% of the total SNPs were gene-proximal (2 kb upstream and downstream of a coding sequence). An additional 0.8% of the SNPs were located in introns and 0.5% in exons. Of the exonic SNPs, 317,023 (53.4%) were non-synonymous affecting 26,505 genes, of which 9,145 SNPs resulted in a disruption of coding sequences (premature stop codon) in 5,726 genes. Furthermore, 45.7% of the total SNPs (55,558,212 SNPs) represented rare variants with a minor allele frequency below 1% (Supplementary Fig. 19c and Supplementary Table 17). Variant calling using the TA10622 assembly revealed very similar results on the basis of population divergence, PCA and nucleotide diversity (α, π = 0.0012; β, π = 0.0017; γ, π = 0.0022; domesticated, π = 0.0012; Supplementary Fig. 21a–c), confirming the high accuracy of variant calling and the independence of population structure analyses from which reference assembly is used. The SNP calling against the TA10622 reference assembly was used for the analyses presented in Extended Data Fig. 7a,b,e./p> 10% and 5% randomly sampled SNPs; total SNPs = 5,318,268). First, the genetic distances were computed using Euclidean distances with the ‘dist’ function in the stats R package. The distance matrix was converted to a phylo object using the R package ape and the tree was generated using the phyclus R package. For estimating individual ancestry coefficients, the R package LEA ‘snmf’ function was used with the entropy option and with 10 independent runs for each K (K is the number of putative ancestral populations) from K = 1 to K = 10 using the same SNP subset used to generate the phylogenetic tree. The cross-entropy value decreased with increasing K and reached a plateau starting from K = 6 (Supplementary Fig. 14)./p>13-fold coverage. We used the Illumina reads of TA4342-L96 (Sequence Read Archive: SRR21543761) as the parental control. We followed the MutMap protocol with minor modifications57. High-quality filtered reads were aligned to the T. monococcum accession TA10622 using BWA96. SAM files were converted into .bam files using SAMtools69. SAMtools (markdup option) was used to mark and remove PCR duplicates. Improperly mapped read pairs were removed from the .bam files retaining only concordantly aligned reads with MAPQ ≥ 30. The BCFtools mpileup tool was used for SNP calling70. SNPs were filtered on the basis of the following criteria: minQ ≥ 30, Fisher Strand (FS) > 40, mapping quality (MQ < 40), minDP > 3 and genotype quality (GQ < 20). SNPs within 10 bp proximity of indels were removed and only the biallelic SNPs were retained. SNP positions with an identical allele in both TA4342-L96 and the tin3 mutant bulk were treated as varietal SNPs and were removed from the analysis. SnpSift109 was used to select EMS-type (G/C to A/T) transitions from the VCF file. We considered the positions with a SNP index of ≥0.9 to be homozygous, whereas SNPs with an SNP index of <0.3 were removed, and the rest were considered to be heterozygous. We used the mutplot tool (https://github.com/VivianBailey/Mutplot) to calculate the average SNP index using a window size of 100 kb116. The average SNP index was plotted along the chromosomes using ggplot2117. SnpEff 5.0c (build 2020-11-25 14:23) was used to calculate the effect of the variants on genes./p>