Telómero
HogarHogar > Blog > Telómero

Telómero

Jun 26, 2023

Nature Genetics volumen 55, páginas 1390–1399 (2023)Cite este artículo

6669 Accesos

58 altmétrico

Detalles de métricas

Los pangenomas brindan acceso a una representación precisa de la diversidad genética de las especies, tanto en términos de polimorfismos de secuencia como de variantes estructurales (SV). Aquí generamos el Panel de ensamblaje de referencia de Saccharomyces cerevisiae (ScRAP) que comprende genomas de calidad de referencia para 142 cepas que representan la diversidad filogenética y ecológica de la especie. El ScRAP incluye ensamblajes de haplotipos en fases para varios aislados diploides y poliploides heterocigotos. Identificamos alrededor de (aproximadamente) 4.800 SV no redundantes que brindan una visión amplia de la diversidad genómica, incluida la dinámica de la longitud de los telómeros y los elementos transponibles. Descubrimos casos frecuentes de aneuploidías complejas en las que cromosomas grandes sufrieron grandes eliminaciones y translocaciones. Descubrimos que los SV pueden afectar la expresión genética cerca de los puntos de interrupción y contribuir sustancialmente a la evolución del repertorio genético. También descubrimos que las regiones adquiridas horizontalmente se insertan en los extremos de los cromosomas y pueden generar nuevos telómeros. En general, el ScRAP demuestra el beneficio de un pangenoma para comprender la evolución del genoma a escala poblacional.

La secuenciación de lectura larga de una sola molécula proporciona acceso a ensamblajes genómicos sin espacios, incluidas regiones cromosómicas repetitivas que generalmente permanecen sin ensamblar con tecnologías anteriores. Esto se ejemplifica mejor en el rápido aumento de la contigüidad del genoma humano1, especialmente gracias a las lecturas ultralargas de Oxford Nanopore Technology (ONT)2. Recientemente, el consorcio telómero a telómero (T2T) lanzó el primer ensamblaje 'T2T' completo de dos cromosomas humanos3,4,5, seguido de la liberación del primer genoma humano sin espacios, que incluye casi 200 Mb de nuevas secuencias6. Los genomas de plantas complejos y los organismos modelo clásicos también han experimentado mejoras en la contigüidad del ensamblaje, gracias a tecnologías de lectura larga7,8,9,10,11.

Estos avances permitieron que pocas especies tuvieran múltiples genomas contiguos de referencia, que incluyen organismos modelo y especies de importancia antropocéntrica como Escherichia coli12, Drosophila melanogaster10,13, Solanum lycopersicum14, Glycine max15, Oryza sativa8,16, Bombyx mori17 y humanos18,19. ,20. La levadura de panadería, Saccharomyces cerevisiae, tiene en total 68 conjuntos de genomas de lectura larga de cepas que no son de referencia21,22,23,24,25,26,27,28,29,30. Estos datos se han utilizado para cuantificar mejoras de contigüidad con respecto a datos de lectura corta25, crear mapas de elementos transponibles (TE) de todo el genoma22,24,25, caracterizar regiones subteloméricas29, haplotipos de fase y detectar grandes variantes estructurales (SV)22,25. 26,29,30. Sin embargo, la contigüidad de los conjuntos genómicos disponibles varía ampliamente en S. cerevisiae y sólo un pequeño subconjunto de ellos alcanzó la contigüidad a nivel cromosómico. Además, el muestreo sigue siendo limitado, ya que muchos clados carecen de un genoma de referencia representativo y no se han incluido genomas poliploides a pesar de su abundancia (11,5% de los aislados)31. Por último, la eliminación gradual de los haplotipos de los genomas diploides y poliploides es un desafío, ya que impide la inferencia de haplotipos y las medidas de heterocigosidad.

Aquí generamos el Panel de ensamblaje de referencia de S. cerevisiae (ScRAP) que comprende ensamblajes del genoma T2T para 142 aislados que toman muestras del espacio genómico de la especie. La calidad de estos genomas supera el estándar de referencia y nos permite caracterizar con precisión los SV y las regiones complejas a una escala que aún no se ha logrado en otras especies.

El ScRAP incluye 142 cepas que cubren las distribuciones geográficas y ecológicas de las especies y sus niveles de ploidía y heterocigosidad (Fig. 1a, b y Tabla complementaria 1). El panel comprende 197 conjuntos de genomas nucleares y 136 mitocondriales, incluidos 100 genomas recién secuenciados, entre los cuales se encuentran disponibles conjuntos resueltos por haplotipos para genomas diploides y poliploides (Tabla 1 y Tablas complementarias 1 a 3). Las métricas genómicas revelan altos niveles de contigüidad e integridad en todos los ensamblajes (Nota complementaria 1). El ScRAP proporciona genomas de calidad de referencia en todos los clados filogenéticos principales31,32 (Fig. 1c y Nota complementaria 2). Los conjuntos diploides resueltos por haplotipos T2T muestran que los haplotipos hermanos (HP; haplotipo 1 (HP1) y haplotipo 2 (HP2)) siempre se agruparon en el árbol y compartieron el mismo perfil de mezcla (Fig. 1c, d). La diferencia más sorprendente se observó entre los dos HP de la cepa Wine/European MC9 (AIS) para los cuales la longitud de la rama de HP2 (AIS_HP2) es desproporcionadamente más larga en comparación con todas las demás ramas terminales (Fig. 1c), lo cual está impulsado por el cromosoma. Introgresiones a escala de los cromosomas VI y VII de una especie muy divergente (ver Introgresiones de cromosomas completos).

a, Descripción del origen ecológico, ploidía y cigosidad de las 142 cepas ScRAP. Los colores se utilizan como claves para simbolizar el origen de la cepa (salvaje (verde), domesticado (rojo), humano (azul) o de laboratorio (amarillo)) y las formas simbolizan sus niveles de ploidía y cigosidad (haploide (semicírculo de un corte), homocigoto). diploide (círculo completo), diploide heterocigoto (círculo de dos cortes), triploide heterocigoto y tetraploide (círculo de tres y cuatro cortes). La categoría haploide contiene cepas naturales y genéticamente modificadas (Δho). Todas las cepas triploides y tetraploides son heterocigotas excepto para la cepa triploide homocigótica aislada en EE. UU. b, Origen geográfico de los aislados. La forma y los colores de los símbolos son como en a. c, Árbol filogenético basado en el alineamiento de secuencias de proteínas concatenadas de 1.612 ortólogos 1:1. El árbol se basó en la inclusión de 23 cepas de otras especies de Saccharomyces (no presentadas en la figura). Los símbolos de la derecha recuerdan el origen ecológico, la ploidía y la cigosidad de todos los aislados, como se describe en a. La presencia de cromosomas aneuploides está marcada con un asterisco con distintos niveles de gris que discriminan entre varios casos en relación con el estudio de 1.011 genomas31: negro, detectado previamente; gris oscuro, no detectado previamente; gris medio, previamente ausente y recién adquirido; gris claro, previamente presente pero recientemente perdido. d, ascendencia genética de la población definida ejecutando ADMIXTURE con k = 13.

Aplicamos un modelo de reloj molecular estricto para cronometrar los principales eventos fundacionales de la historia de la especie (Métodos). De acuerdo con estimaciones anteriores, S. cerevisiae se ha separado de su especie hermana Saccharomyces paradoxus hace 5,7-1,7 millones de años (Tabla complementaria 4). La primera división del linaje más divergente (CHN-IX/TW1) ocurrió entre 680 y 180 KYA. El origen de la especie fue seguido por un único evento fuera de China que fundó el resto de la población mundial hace 290-80 KYA. El linaje Wine/Europeo separó entre 55 y 15 KYA de la población silvestre de roble mediterráneo, que probablemente representa a su ancestro silvestre33.

Identificamos un total de 36,459 SV mediante alineaciones de genoma completo por pares contra el genoma de referencia S288C (Fig. 2a; Métodos). Estas llamadas consisten en variantes de número de copias (CNV) >50 pb, incluidas eliminaciones, inserciones, duplicaciones y contracciones de secuencias repetitivas y reordenamientos de copia neutral que incluyen inversiones (>1 kb) y translocaciones (>10 kb). Se originaron a partir de 4.809 reordenamientos a gran escala no redundantes que se comparten con frecuencias variables entre las 141 cepas sin referencia (Tabla 1 y Tabla complementaria 5). Este catálogo SV no redundante cubre ca. El 80% de la diversidad estructural estimada de especies completas que predijimos contenía aproximadamente 6000 SV (Fig. 2b y Tabla 1).

a, El gráfico de anillo exterior indica el número de SV de cada tipo. El gráfico de barras interior muestra la repartición de SV entre las 142 cepas. b, Curva de rarefacción que muestra la evolución del número de SV no redundantes en función del número de cepas secuenciadas. Los gráficos insertados muestran curvas de rarefacción por tipo de SV. c, Los números de SV y SNV/indeles se calculan en relación con el genoma de referencia (S288C). Las categorías 'monospórico heterocigoto' y 'monospórico homocigoto' corresponden a aislados monospóricos derivados de la esporulación de cepas diploides heterocigotas y homocigotas, respectivamente. d, La frecuencia alélica muestra cómo se comparten los SV entre las cepas. e, Los valores de 0 y 1 representan las posiciones relativas de los centrómeros y telómeros, respectivamente. f, El eje x se ha truncado a 10 kb. Los colores atribuidos a los distintos tipos de SV son los mismos que en el resto de paneles. g, Los enriquecimientos de veces corresponden a la relación entre la proporción de puntos de interrupción asociados con un tipo de ARS determinado y la proporción del genoma cubierto por el mismo tipo de ARS. h, "Intragénico" significa que los SV están completamente incluidos dentro de los genes. "Que contienen genes" significa SV que contienen al menos un gen completo. La "disrupción genética" corresponde a los SV que tienen un punto de interrupción ubicado dentro de un gen y el otro punto de interrupción en una región intergénica. La 'fusión de genes' indica casos en los que los dos puntos de ruptura del SV se encuentran dentro de dos secuencias codificantes diferentes. En la columna esencial, n (no) e y (sí) significan genes no esenciales y esenciales, respectivamente. Una revisión manual de 29 genes eliminados, que se describen como esenciales, reveló que en realidad no son esenciales, son condicionalmente esenciales o se encuentran eliminados sólo en el estado heterocigoto. i, Los números en la parte inferior indican para cada tipo de SV el número total de pares de genes SV y el número de pares que muestran una diferencia de expresión sustancial en presencia o ausencia de un SV determinado.

La fase de genomas heterocigotos agregó una gran cantidad de SV que no habrían pasado desapercibidos utilizando solo ensamblajes colapsados. En promedio, el 33% de las llamadas detectadas en cepas en fases solo fueron validadas por ensamblajes en fases (Datos ampliados, figura 1a) y el 53% de ellas son heterocigotas (Tabla 1 y Datos ampliados, figura 1b). En particular, tanto la proporción de llamadas validadas solo en presencia de genomas en fases como la proporción de variantes heterocigotas aumentan con la ploidía. El número medio de SV también aumenta con la ploidía, de 219 SV en haploides a 453 en tetraploides (Datos ampliados, figura 1c). Trazamos el número de SV en función del número de SNV / indeles para cada cepa y observamos una correlación positiva (Fig. 2c). Sin embargo, el número de SV aumenta más rápidamente con mayor ploidía que el de los SNV (Fig. 2c). Además, para un número determinado de SNV/indeles, el número de SV también es sistemáticamente mayor en genomas heterocigotos que en homocigotos. Estas observaciones sugieren que los SV se acumulan preferentemente o son mejor tolerados en genomas heterocigotos y de mayor ploidía.

Hay una mediana de 240 SV por cepa con un máximo de 639 eventos en la cepa tetraploide altamente heterocigótica YS8 (E) (BTE) (Tabla 1 y Tabla complementaria 6). El número de VS no difiere entre los aislados domesticados y salvajes (prueba de rangos con signo de Wilcoxon, P = 0,53). Las eliminaciones e inserciones son los tipos más frecuentes de SV (~100 eventos por cepa), seguidas de duplicaciones y contracciones (10 a 20 eventos por cepa), las translocaciones y las inversiones son más raras (solo unas pocas ocurrencias por cepa; Tabla complementaria 6). La mayoría de los SV están presentes en bajas frecuencias en la población, con un 34% de los eventos que se encuentran en un solo genoma y un 91% con una frecuencia de alelo menor <0,1 (Fig. 2d), lo que sugiere que los SV son en su mayoría nocivos o recientes.

Todos los tipos de SV, excepto las inversiones, se limitan principalmente a regiones subteloméricas (Fig. 2e), de acuerdo con la alta plasticidad evolutiva de estas regiones29. Las inserciones contienen con mayor frecuencia secuencias repetitivas (82%) en comparación con las eliminaciones, duplicaciones e inversiones (41-47%). La distribución de los tamaños de los eventos, excluidas las translocaciones, muestra que los SV pequeños son los más prevalentes: el 58% de los eventos son <1 kb y solo el 9% son> 10 kb (Fig. 2f). Esta distribución muestra dos picos claros alrededor de 300 pb y 6 kb para eliminaciones, inserciones e inversiones correspondientes a repeticiones terminales largas (LTR) en solitario y elementos Ty de longitud completa. La movilidad de los elementos Ty representa directamente el 59% de todas las inserciones (1571 eventos) y el 16% de las eliminaciones mediante recombinación entre LTR (218 eventos). Este desequilibrio se explica por el número limitado de elementos Ty en el genoma de referencia que puede interpretarse como una eliminación cuando están ausentes en otros genomas. Curiosamente, el 19% y el 8% de todas las duplicaciones y contracciones (que representan 74 y siete casos, respectivamente) también resultaron de movimientos Ty en tándem. En total, el 39% de todos los SV resultan de la inserción y eliminación de elementos Ty.

Encontramos un claro enriquecimiento de secuencias repetitivas (LTR, Tys, tRNA, elementos Y' y X) en la unión de SV, así como una subrrepresentación sustancial de secuencias de ADN codificantes (CDS) que se superponen con esos puntos de interrupción (Datos ampliados, figura 2). . Curiosamente, encontramos una asociación sustancial entre las secuencias de replicación autónoma (ARS) y los puntos de interrupción de SV. Extrajimos todos los ARS de ORIDb34 y demostramos que la asociación ARS-SV es mayor a medida que aumenta la probabilidad de que se dispare el ARS (Fig. 2g).

Descubrimos que casi el 40% de los SV (1876 de 4809) impactaban directamente en los genes codificadores de proteínas (Tabla 1), excluyendo los SV involucrados en la inserción y eliminación de elementos Ty. Curiosamente, esta proporción cae al 3% para los genes esenciales. El caso más frecuente es, con diferencia, la situación en la que ambos puntos de ruptura de un determinado SV se encuentran dentro del mismo gen. Encontramos 1.170 casos de VS intragénicos, en su mayoría correspondientes a inserciones y, en menor medida, a eliminaciones y duplicaciones (Fig. 2h). La mayoría de las contracciones de secuencias repetitivas también pertenecen a esta categoría, ya que 78 de 93 caen dentro de secuencias codificantes. Es difícil predecir el resultado funcional de los SV intragénicos ya que cada evento puede alterar, o no, su secuencia codificante correspondiente dependiendo de su tamaño y posición en relación con el marco de lectura. Encontramos 508 SV donde al menos un gen completo se encuentra entre los dos puntos de interrupción, lo que corresponde a 345 eliminaciones, 84 inversiones y 27 duplicaciones que contienen en promedio cinco, 30 y dos genes, respectivamente. En total, las 345 eliminaciones comprendían 525 genes diferentes que se habían eliminado por completo en al menos un HP. Las dos últimas categorías, alteración genética y fusión genética, comprenden todos los SV para los cuales uno o ambos puntos de ruptura se encuentran dentro de un gen codificante de proteínas. Tenga en cuenta que estas dos categorías no son mutuamente excluyentes con la anterior, ya que un evento determinado puede contener genes completos y alterar o fusionarse con otros genes en sus puntos de ruptura. Identificamos 450 casos de alteraciones genéticas que producen truncamientos genéticos al fusionar la parte interna de un gen con una región intergénica. También encontramos 145 supuestos eventos de fusión de genes en los que ambos puntos de interrupción de un SV determinado se encuentran dentro de genes diferentes. Estos eventos pueden crear nuevos genes quiméricos, aunque probablemente comprendan proporciones indeterminadas de fusiones tanto dentro como fuera del marco. Sorprendentemente, aproximadamente la mitad de las translocaciones (98 de 200) resultaron en alteración genética (n = 71) o fusión (n = 27) en sus puntos de ruptura, en contraste con la suposición general de que las translocaciones ocurren principalmente entre TE. En total, identificamos 1.698 eliminaciones y duplicaciones completas de genes, así como 1.513 alteraciones de la estructura genética en el origen de nuevas secuencias genéticas que pueden ampliar sustancialmente el repertorio genético de la especie.

Los SV pueden influir en la expresión genética al afectar la secuencia del marco de lectura abierto, modificar su número de copias o cambiar sus elementos reguladores. Aprovechando una encuesta reciente que generó el transcriptoma de más de 1000 aislados de S. cerevisiae35, exploramos la relación entre la expresión génica y los SV. Para 51 aislados, analizamos los niveles de expresión de 6445 transcripciones frente a 1876 SV, lo que abarca una proporción similar de los diferentes tipos de SV que todo el conjunto de datos (Datos ampliados, Fig. 3a). Primero definimos un conjunto de 2.808 pares de genes SV y más de la mitad de los pares implicaban eventos de inserción o eliminación. Luego comparamos la expresión de genes asociados o no con un SV determinado (Datos ampliados, figura 3b). Encontramos que 124 pares de genes SV (4,4%; Tabla complementaria 7), que abarcan 97 SV únicos, mostraron cambios sustanciales en la expresión diferencial (Tabla 1). Este impacto parece ser sutil, pero los datos transcriptómicos se obtuvieron de una sola condición (medio rico) y restringimos el análisis solo a los efectos cis directos. Curiosamente, esta proporción varía según el tipo de VS (Fig. 2i), con más del 5% de los pares que involucran eliminaciones y duplicaciones, y solo el 1% de los pares que involucran inversiones, translocaciones y contracciones.

Exploramos la diferencia entre SV ubicados en regiones codificantes y no codificantes, restringiéndonos a eventos de inserciones y eliminaciones. En total, el 7,3% de los pares de genes SV (60 de 815) que afectan las secuencias codificantes se asocian con diferencias sustanciales en la expresión, principalmente al reducir o suprimir la expresión (Fig. 2i). Por el contrario, se detectó que solo el 3,1% (23 de 726) de los pares presentes en regiones no codificantes afectaban sustancialmente la expresión génica. En general, estos resultados demuestran un impacto variable en la expresión genética según el tipo y la ubicación del SV.

Identificamos 26 aneuploidías de cromosomas completos que afectaron a 18 de los 142 aislamientos (Tabla complementaria 8). Curiosamente, también descubrimos un tipo complejo de aneuploidías que comprenden SV grandes, como translocaciones, inserciones de transferencia horizontal de genes (HGT) y eliminaciones grandes (~ 100 kb) (Tabla complementaria 8). Identificamos ocho aneuploidías complejas en siete cepas, lo que representa el 24% de todas las aneuploidías en el ScRAP. Resolvimos completamente la organización cromosómica en cinco cepas (Fig. 3a) y confirmamos que las siete aneuploidías complejas ya estaban presentes cuando las cepas se secuenciaron inicialmente con Illumina31. Volvimos a analizar 993 cepas (84 de la referencia 36 y 909 de la referencia 31) para detectar aneuploidías tanto simples como complejas. Descubrimos que una gran proporción de cromosomas aneuploides (hasta un 18%) están asociados con grandes SV a escala poblacional (Nota complementaria 3 y Tablas complementarias 9 y 10). Curiosamente, encontramos que las aneuploidías complejas involucran cromosomas más grandes en comparación con las aneuploidías simples (Fig. 3b). Existe una correlación positiva entre la proporción de aneuploidías complejas para cada cromosoma y su tamaño (Fig. 3c), mientras que varios estudios informaron una correlación negativa entre el tamaño de los cromosomas y la aparición de aneuploidías simples de cromosomas completos37. Además, encontramos una proporción cada vez mayor de aneuploidías complejas con ploidías crecientes (Fig. 3d), como se describió para las aneuploidías simples37. Estos hallazgos sugieren que las aneuploidías complejas abren una ruta adaptativa alternativa que no sería accesible a las aneuploidías simples, al permitir un mayor número de copias de genes ubicados en cromosomas grandes.

a, Esquemas que representan la composición cromosómica de aneuploidías complejas. Los puntos rojos simbolizan los centrómeros. Los cuadros grises indican los puntos de interrupción de la translocación. Los marcos de puntos muestran regiones duplicadas, mientras que las líneas de puntos dentro de los cromosomas indican eliminaciones. El cuadro negro en ASB simboliza la región HGT. b, Distribución de los tamaños de los cromosomas implicados en aneuploidías complejas (n = 85 cromosomas diferentes) frente a simples (n = 379 cromosomas diferentes). Las líneas horizontales en los diagramas de caja corresponden a la mediana, las bisagras inferior y superior corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil. Se indican los valores P de comparación media de Wilcoxon bilateral. c, Porcentaje del total de aneuploidías cromosómicas que son complejas en función de su tamaño. El coeficiente de determinación (r2) se calculó con el método lm del programa R. La banda de error sombreada representa el intervalo de confianza del 95% del ajuste de regresión. d, Número y porcentaje de aneuploides euploides, simples y complejos entre 993 cepas analizadas.

El tamaño medio de los telómeros varía en un factor de 4 entre diferentes aislados (Datos ampliados, figura 4), desde 166 pb en la cepa vinícola (AFI) CBS2183 hasta 686 pb en la cepa láctea francesa CLIB561 (BGN_3a). Algunas cepas albergan telómeros de longitud homogénea en diferentes extremidades cromosómicas, mientras que otras exhiben una gran variación. La longitud promedio de los telómeros por cepa se correlaciona positivamente con la varianza (Datos ampliados, figura 5a). No encontramos una correlación sustancial entre la longitud de los telómeros y la ploidía, la heterocigosidad o la ecología (Datos ampliados, figuras 5b-d). También examinamos la variación de la longitud de los telómeros entre los extremos de los cromosomas individuales en la población de 100 cepas. A pesar de una distribución globalmente homogénea, TEL03L y, en menor medida, TEL07R, son sustancialmente más largos que todos los demás telómeros (Fig. 4a). Las dos mismas extremidades cromosómicas también se describieron como las más largas en W303 (ref. 38). La conservación de un tamaño de telómero más grande en TEL03L a nivel de población sugiere que los determinantes genéticos subyacentes se conservarían porque la especie divergió de su último ancestro común al menos ~ 180 KYA. Descubrimos que la mayoría de los extremos llevan una única copia del elemento central X (67%, 3036/4528; Tabla complementaria 11) y la longitud de los telómeros es sustancialmente más larga en los extremos cromosómicos desprovistos de este elemento, pero esta diferencia no es visible en TEL03L (Extendido Datos Fig. 6a – c). También encontramos que la longitud de los telómeros era sustancialmente mayor cuando los subtelómeros contenían un elemento Ty5, pero a pesar de un enriquecimiento específico, la longitud de TEL03L no está influenciada por la presencia de Ty5 (Datos ampliados, figuras 6d-f). Finalmente, encontramos que TEL03L está agotado en elementos Y′, siendo en realidad el más pobre de todos los extremos de la población (Datos ampliados, Fig. 6g y Nota complementaria 3), y TEL03L que contiene un elemento Y′ tiene telómeros sustancialmente más cortos que los sin (Fig. 4b y Datos extendidos Fig. 6h, i) y esta tendencia es exclusiva de TEL03L entre las 32 extremidades del cromosoma (Datos extendidos Fig. 7). Este hallazgo sugiere que el efecto de la secuencia que promueve la formación de telómeros más largos en TEL03L estaría específicamente amortiguado por la presencia de un elemento Y' en este extremo.

a, Las barras transversales dentro de los gráficos de violín indican la longitud media de los telómeros individuales, y la línea horizontal muestra la longitud media global de los telómeros en todos los extremos (n = 100 tensiones independientes en cada diagrama de caja). No se aplicó ninguna corrección para pruebas múltiples, pero las tasas de descubrimiento falso se estimaron calculando la proporción de falsos positivos con 1, 2 y 3 estrellas negras para el producto de clasificación y grises para la prueba de suma de rangos) correspondientes a P < 0,05, 0,01 y 0,001, respectivamente. b, Las barras transversales indican longitudes medias de TEL03L (n = 100 cepas independientes en cada diagrama de caja). Se indican los valores P de comparación media de Wilcoxon bilateral. c, la Región A se transfirió de una especie de Torulaspora a las cepas BLD_1a y AAB y se interrumpió mediante una inserción de Ty2 en AAB. La parte más interna de las repeticiones teloméricas está cerca de las repeticiones de Torulaspora (AAGGTTGA/TGGTGT50), mientras que la porción distal está formada por Saccharomyces (TG1-3). d, Telomere repite la transición gradualmente del tipo Torulaspora al tipo S. cerevisiae. Los colores corresponden a los tipos de repetición presentados en c. e, los cromosomas de S. cerevisiae y S. kudriavzevii están representados en azul y en rojo oscuro, respectivamente. Ambos puntos de ruptura en los cromosomas VI y VII ocurren en regiones que tienen una divergencia de secuencia baja en comparación con el promedio de todo el genoma (línea discontinua roja). f, La topología del árbol es la misma que en la Fig. 1. Las ganancias y pérdidas del gen tRNA se representan en azul oscuro y naranja, respectivamente. Las modificaciones de anticodón están escritas en azul claro. Los nombres de las cepas están coloreados en azul oscuro para las ganancias, en naranja para las pérdidas y en malva cuando coexisten diferentes tipos de eventos. g, repartición cromosómica de todo tipo de elementos transponibles en los 100 genomas ensamblados de novo (arriba). Para aislados que albergan varios tipos de elementos en una sola región, se representa preferentemente el Ty completo, seguido del Ty truncado. Repartición cromosómica de elementos Ty completos (abajo). Sólo se traza un elemento por aislado. Para aislados con varias familias en un sitio de inserción determinado, la familia encontrada en el genoma de referencia estuvo representada preferentemente.

Se han informado múltiples eventos de HGT en S. cerevisiae, pero su origen mecanicista y su estructura precisa siguen siendo difíciles de alcanzar31,39,40. Caracterizamos la estructura y evolución de todas las grandes regiones HGT conocidas en S. cerevisiae (regiones A – G; Tabla complementaria 12). Aunque los HGT están enriquecidos en cepas domesticadas, también están presentes en aislados silvestres (Datos ampliados, figura 8), lo que muestra que pueden ocurrir en ambientes naturales y tal vez amplificarse en condiciones antrópicas. Una característica emergente compartida por todas las regiones HGT es que están localizadas en los telómeros, lo que implica que deben preservar o restaurar la secuencia telomérica y funcionar tras su transferencia (Nota complementaria 3). Por ejemplo, la región A de HGT (40 kb) se ha transferido de una especie de Torulaspora indefinida40 y está presente en el cromosoma IX-L en DBVPG1608 (BLD_1a) y en el cromosoma IL en CBS422a (AAB; Fig. 4c y Datos ampliados, Fig. 8). Además, la región A en AAB tiene una inserción Ty2, lo que muestra cómo estas regiones evolucionaron aún más después de la transferencia. Inspeccionamos las repeticiones teloméricas en la parte distal de la región A y observamos que las repeticiones teloméricas más internas de la especie donante de Torulaspora se desplazan gradualmente hacia las repeticiones clásicas de S. cerevisiae TG1-3, y algunas repeticiones intermedias contienen una composición mixta (Fig. 4c). ,d). Esta estructura sugiere que las repeticiones de Torulaspora han sembrado la adición de novo de telómeros mediante la telomerasa para reconstituir un telómero funcional similar a S. cerevisiae.

La fase HP de la cepa MC9 (AIS), aislada de Vino Cotto en Italia, reveló un caso nunca antes visto de introgresión a escala cromosómica. Un homólogo completo de chrVI y un homólogo casi completo de chrVII introgresaron de Saccharomyces kudriavzevii (Sk), lo que ejemplifica un cariotipo híbrido único (Fig. 4e). Los puntos de interrupción de la recombinación ocurren en regiones que tienen baja divergencia en comparación con el promedio de todo el genoma (1 SNP cada 4,78 pb, línea discontinua roja, Fig. 4e). En general, la peculiar estructura del genoma AIS es difícil de explicar con los modelos actuales de evolución del genoma de Saccharomyces. La formación de un híbrido Sc × Sk completo con una pérdida secuencial de 14 cromosomas Sk y la rediploidización de los cromosomas Sc correspondientes o la transferencia parcial de dos cromosomas Sk a una cepa Sc representan dos rutas posibles.

Las familias de ADNt multigénico están ubicadas en regiones repetitivas complejas, ya que sirven como objetivos genómicos para la transposición de novo de los elementos Ty1 a Ty441 y, por lo tanto, no pueden ensamblarse mediante secuenciación genómica de lectura corta. Identificamos 310 familias de genes de ADNt ortólogos que compartían el mismo anticodón y estaban flanqueados por los mismos genes codificadores de proteínas, al menos en un lado (Tabla complementaria 13). El repertorio de ADNt está compuesto por 41 especies de isoaceptores compartidos por todos los aislados. Dos familias sufrieron una mutación en el anticodón de un miembro del ADNt (Nota complementaria 3). Encontramos que 248 de 310 familias se conservaron en los 100 aislados, mientras que los demás se separaron en dos categorías distintas según la cantidad de cepas que comprendían. Observamos 35 familias de ADNt en menos de cinco cepas, lo que sugiere que fueron adquiridas por ganancias recientes de genes de ARNt, mientras que se encontraron 27 familias en más de 90 cepas, lo que sugiere pérdidas recientes en 1 a 10 aislados (Datos ampliados, figura 9a), no necesariamente compartido por cepas estrechamente relacionadas como, por ejemplo, la tK (CUU) que se perdió diez veces de forma independiente pero nunca se ganó (Fig. 4f y Tabla complementaria 14). En total, encontramos que 30 y 38 cepas experimentaron 38 ganancias de genes de ADNt y 42 pérdidas de genes, respectivamente, y que todos los clados se ven afectados por estos eventos (Fig. 4f). Varias cepas acumularon múltiples eventos (hasta cinco en HN10 (BAM) aislado de madera podrida en China). Algunos clados acumulan preferentemente un tipo de evento, lo que sugiere que las limitaciones funcionales pueden favorecer la expansión o contracción del repertorio de genes de ADNt (Fig. 4f). Curiosamente, los ADNt que se obtuvieron recientemente se encuentran más cerca de los extremos cromosómicos que los ADNt conservados o perdidos (Datos ampliados, figura 9b), con 17/35 ADNt recién adquiridos ubicados en subtelómeros, mientras que ninguno de los 248 genes conservados lo está, lo que sugiere que los subtelómeros podrían Sirve como vivero de genes de ARNt donde se obtienen nuevas copias mediante duplicaciones segmentarias asociadas con la unión de segmentos translocados de otros cromosomas. Los otros 18 de los 35 ADNt recién adquiridos que se encuentran fuera de las regiones subteloméricas también resultan principalmente de duplicaciones segmentarias, ya sea dispersas o en conjunto.

Anotamos todas las copias completas y truncadas de los retrotransposones y sus LTR individuales de las cinco familias (Ty1-Ty5), así como el elemento Tsu4, procedente de un linaje relacionado con Saccharomyces uvarum o Saccharomyces eubayanus42 (Tabla complementaria 11 y Nota complementaria 3). ). Observamos que los TE están impulsando variaciones en el tamaño del genoma, junto con los elementos Y ′ (Datos ampliados, figura 10a). El segundo genoma más grande (12,65 Mb) proviene de un aislado monospórico (AMM_1a) derivado de un árbol de hoja en Taiwán (SJ5L12; Datos ampliados, Fig. 10a) que experimentó una fuerte actividad de transposición43 con un total de 120 elementos completos y ocho truncados, mientras que la mediana El número es 14,5 (Datos ampliados, Fig. 10b,c). El contenido de TE es muy variable entre los aislamientos en términos de número y tipos de elementos (Datos ampliados, Fig. 10b, c), como se describió anteriormente43. Identificamos 426 sitios de inserción ortólogos compartidos entre varios genomas (es decir, flanqueados por los mismos genes codificadores de proteínas ortólogos, al menos en un lado, Tabla complementaria 15). Su reparto entre la población muestra una distribución en forma de U: el 50 % lo comparten menos de 15 cepas y el 26 % lo comparten más de 90 cepas (Datos ampliados, figura 10d). Los sitios más conservados son los más enriquecidos en LTR solo (Datos ampliados, Fig. 10e y Fig. 4g), lo que sugiere que la recombinación entre LTR es común. El elemento completo más conservado está presente en solo 62 cepas (Tabla complementaria 15), y 118 sitios de inserción no contienen ninguna copia completa (Fig. 4g). Las cuatro cepas estrechamente relacionadas del clado malasio (BMB, BMC_2a, UWOPS034614 y UWOPS052272) contienen un número promedio de LTR individuales (alrededor de 390) y copias Ty truncadas (entre 6 y 9), pero están completamente desprovistas de elementos completos, lo que sugiere que todas las copias funcionales se perdieron por recombinación entre LTR. Confirmamos que las cepas de Malasia se encuentran entre los genomas más reordenados, con 14 translocaciones y entre 6 y 8 inversiones por genoma (Tabla complementaria 6)29,44, lo que coincide con una mayor recombinación ectópica entre repeticiones dispersas. La frecuente pérdida de elementos completos por recombinación entre LTR se contrarresta con un proceso activo de transposición de novo. Hay 61 sitios que solo contienen elementos completos, dos tercios se encuentran en un solo aislado y el resto lo comparten unas pocas cepas (entre 2 y 7) que son vecinas filogenéticas (Tabla complementaria 15). Esto es particularmente visible en el clado 13 (cepas relacionadas con el laboratorio), donde 30 nuevas inserciones resultaron de seis eventos de inserción independientes recientes (Datos ampliados, figura 10f).

Utilizando ensamblajes T2T de un gran panel de cepas de S. cerevisiae, capturamos una gran fracción (80%) de la diversidad estructural de la especie. Estimamos que acceder a los eventos faltantes requeriría ~360 cepas adicionales. Demostramos que los SV pueden afectar la expresión de genes ubicados cerca. Además, descubrimos que los VS tienen el potencial de aumentar la diversidad del repertorio de genes, lo que exige un cambio de paradigma pangenoma que permita la caracterización funcional de genes accesorios45. La verdadera contribución tanto de los SV como de los genes accesorios a la heredabilidad faltante aún no se ha cuantificado, pero el ScRAP representa un recurso genómico fundamental para lograr este objetivo.

Encontramos una mediana de 240 SV (>50 pb) por genoma, lo que representa una densidad promedio de 1 SV cada 50 kb. En comparación, cada genoma humano contendría >20.000 SV46, lo que corresponde aproximadamente a 1 SV/150 kb, es decir, tres veces menos que en S. cerevisiae. En otros eucariotas que se benefician de los datos del pangenoma, la densidad de SV varía desde 1 SV/90 kb en Drosophila47 (probablemente subestimada porque solo se consideraron SV eucromaticos >100 pb), 1 SV/38 kb en soja15, 1 SV/17 kb en arroz8 y hasta 1 SV/4 kb en gusanos de seda17. También encontramos una clara correlación positiva entre el número de SV y SNV/indels que se acumulan dentro de los genomas. Se ha propuesto que un reloj genómico coordinaría el ritmo de fijación entre las sustituciones de aminoácidos y los reordenamientos a gran escala en bacterias y levaduras48,49. Sin embargo, este reloj parece correr a un ritmo diferente dependiendo de los niveles de ploidía y cigosidad del genoma. Los SV se acumulan preferentemente en genomas heterocigotos y de mayor ploidía (Fig. 2c). Una posibilidad sería que los SV se toleren mejor en genomas de mayor ploidía, ya que sus efectos nocivos (por ejemplo, eliminación de genes y desequilibrio de dosis) se amortiguan de manera más eficiente. Alternativamente, la tasa de formación de SV podría aumentar con la ploidía, como se sugirió para las aneuploidías37.

En un futuro próximo, ensamblajes de novo de alta calidad de miles de individuos generarán una representación unificada, completa y precisa de la diversidad genómica de la especie. Más allá del análisis aquí presentado, el ScRAP proporciona una base sólida para este propósito e impulsará la transición a un pangenoma libre de sesgos de referencia.

El panel completo se compone de tres conjuntos de datos distintos, de la siguiente manera: (1) 100 genomas recién secuenciados y ensamblados de novo, (2) 18 genomas reensamblados utilizando datos de lectura de Nanopore sin procesar previamente disponibles25 y (3) 24 ensamblajes de genomas completos disponibles públicamente. incluido el genoma de referencia S288C22,23,24,26,28,29,51,52 (Figura complementaria 1). La justificación para la selección de las 100 cepas secuenciadas de novo en este estudio se basó principalmente en el conocimiento obtenido del proyecto 1.011 genoma31,53. Seleccionamos uno por clado y subclados, con buen fenotipo esporulador. Seleccionamos algunas cepas con una firma conocida de SV (por ejemplo, AIF con duplicaciones segmentarias). La cepa AIS que contenía introgresión a escala cromosómica se detectó por primera vez en el trabajo de 1.011, pero se excluyó debido a su compleja estructura genómica. También seleccionamos cepas que se sabe que portan grandes eventos de HGT. Los 31 diploides (diez casi homocigotos y 21 altamente heterocigotos) que no pudieron esporular o producir esporas viables fueron secuenciados en sus ploidías originales. Tenga en cuenta que, como excepción, BAF se secuenció como diploide a pesar de que está esporulando bien y tiene buena viabilidad de las esporas.

Cultivamos células de levadura en 10-15 ml de medio de peptona dextrosa de levadura (YPD) a 30 ° C durante la noche (220 rpm). Se utilizó un número total de células de menos de 7 × 109 para la extracción de ADN. El ADN de alto peso molecular (HMW) se extrajo con QIAGEN Genomic-tip 100/G de acuerdo con el 'Manual de ADN genómico de QIAGEN' para levaduras. La cantidad y la longitud del ADN se controlaron mediante el ensayo Qubit dsDNA HS y la electroforesis en gel de campo pulsado (PFGE), respectivamente. La preparación de la biblioteca y la secuenciación ONT se realizaron según el protocolo de 'ADN genómico con código de barras nativo 1D con EXP-NBD104 y SQK-LSK108' cuando se utilizaron células de flujo MinION FLO-MIN106 y el protocolo de 'ADN genómico 1D por ligación con EXP-NBD104 y SQK -LSK109—PromethION' cuando se utiliza la celda de flujo V2 FLO-PRO002. Estos protocolos están disponibles en la comunidad de Oxford Nanopore Technologies.

Para la preparación de la biblioteca de secuenciación, se utilizaron hasta 2 µg de ADN de HMW por muestra para iniciar la preparación de la biblioteca. La reparación del ADN y la preparación final se realizaron utilizando la mezcla de reparación de ADN NEBNext FFPE con la siguiente configuración de reacción: 48 µl de ADN, 3,5 µl de tampón de reparación de ADN NEBNext FFPE, 2 µl de mezcla de reparación de ADN NEBNext FFPE, 3,5 µl de tampón de reacción de preparación final Ultra II y 3 µl de mezcla de enzimas Ultra II End Prep; 20 °C durante 15 min seguido de 65 °C durante 15 min. Posteriormente, la selección del tamaño del ADN se llevó a cabo utilizando perlas AMPure XP (proporción 1:1) seguida de la ligación con código de barras nativo (22,5 µl de ADN, 2,5 µl de código de barras nativo proporcionado por el kit EXP-NBD104 y 25 µl de Blunt/TA Ligase Master Mix; 25 °C durante 20 min). Después de otra ronda de limpieza de perlas AMPure XP (proporción 1:1), las muestras se agruparon y se ligaron los adaptadores para la muestra combinada a 25 °C durante 15 minutos (65 µl de ADN, 5 µl de mezcla de adaptador II (AMII) proporcionado por el kit EXP-NBD104, 20 µl de tampón de reacción de ligadura rápida NEBNext y 10 µl de ADN ligasa Quick T4; 25 °C durante 15 min). El ADN ligado al adaptador se limpió añadiendo un volumen de 0,4x de perlas AMPure XP seguido de una incubación durante 5 minutos a temperatura ambiente. Cuando se utilizó el kit SQK-LSK108 para celdas de flujo FLO-MIN106 MinION, se realizaron dos lavados con tampón de unión de perlas adaptadoras (ABB) de 140 µl. Cuando se utilizó el kit SQK-LSK109 para celdas de flujo FLO-PRO002, se realizaron dos lavados de tampón de fragmentos de 250 µl L. La biblioteca final se eluyó en 15 µl de tampón de elución y se cargó en las celdas de flujo MinION o PromethION según los manuales de la ONT. Los archivos raw fast5 se llamaron mediante Guppy (versión: 3.4.5) seguido de la eliminación de adaptadores y códigos de barras de Porechop (versión: 0.2.4;github.com/rrwick/Porechop). Todo el proyecto generó cerca de 204 Gbp de datos de secuenciación de Nanopore. Las estadísticas de secuenciación se detallan en la Tabla complementaria 16. Para el almacenamiento/intercambio de archivos fast5, se eliminaron los datos de llamadas base de los archivos fast5 únicos utilizando Picopore (versión: 1.2.0; github.com/scottgigante/picopore), asegurando que todos los archivos contengan solo los datos necesarios. para volver a realizar una llamada base. A continuación, los archivos single-fast5 se convirtieron en archivos multi-fast5 usando el comando ont-fast5-api (versión: 0.3.2; github.com/nanoporetech/ont_fast5_api) single_to_multi, seguido del comando fast5_subset para generar archivos fast5 específicos de la cepa. que contiene archivos fast5 para todas las lecturas dentro de cada archivo fastq específico de la cepa. Esto se hizo para reducir la complejidad del reanálisis utilizando archivos fast5 de cepas ejecutadas con varios códigos de barras y en varias celdas de flujo y eliminar archivos fast5 para lecturas de calidad insuficiente. Todos los archivos fastq sin adaptadores/códigos de barras y sus archivos fast5 específicos de cepa asociados están disponibles bajo el acceso PRJEB50706/ERP135326.

Cultivamos cultivos de células de levadura durante la noche a 30 °C en 20 ml de medio YPD hasta la fase estacionaria temprana. Recogimos células mediante centrifugación y extrajimos el ADN genómico total utilizando el QIAGEN Genomic-tip 100/G según las instrucciones del fabricante. Se prepararon bibliotecas de secuenciación genómica de Illumina con un tamaño de inserción medio de 280 pb y se sometieron a secuenciación de extremos emparejados (2 × 100 pb) en secuenciadores Illumina HiSeq 2500. Todas las lecturas de Illumina de extremos emparejados están disponibles con el número de acceso PRJEB50706/ERP135326.

Todas las tuberías se detallan en los Métodos complementarios.

Las regiones subteloméricas fueron anotadas y nombradas de la misma manera que propuso nuestro estudio anterior29. Se aplicaron además el examen y ajuste manual para seleccionar extremos subteloméricos con información de secuencia incompleta o reorganización sustancial (Tabla complementaria 17).

Definimos un conjunto consistente de 100 ensamblajes de genomas haploides u homocigotos para los análisis de la dinámica de los tDNA y los elementos Ty excluyendo primero los ensamblajes en fases diploides, triploides y tetraploides porque contenían números de copias de tDNA y Ty anotadas que eran proporcionales a su ploidía. y, por lo tanto, es difícil de comparar con conjuntos de genomas haploides y colapsados ​​(Tabla complementaria 11). También eliminamos ocho genomas haploides de un estudio específico22 porque contenían una cantidad mucho menor de ADNt que todos los demás genomas del conjunto de datos, lo que probablemente indica errores de ensamblaje local. Finalmente excluimos los ensamblajes colapsados ​​de genomas heterocigotos porque mostraron algunas discrepancias con sus ensamblajes en fases afines, lo que sugiere posibles problemas de ensamblaje en estas regiones complejas.

Desarrollamos Telofinder54 (https://telofinder.readthedocs.io/en/latest/) para determinar la ubicación cromosómica y el tamaño de las secuencias de telómeros en conjuntos de genomas de levadura. La detección de telómeros se basa en el cálculo tanto de la entropía de la secuencia de ADN como de las proporciones de los dinucleótidos 'CC', 'CA' y 'AC' en una ventana deslizante de 20 pb. Telofinder genera dos archivos csv y dos archivos bed que contienen las llamadas de los telómeros y sus coordenadas, ya sea como salida sin procesar o después de fusionar llamadas consecutivas. Ejecutamos Telofinder (versión: 1.0; opciones: -s -1) en los 394 ensamblajes de genoma nuclear de novo y 24 previamente disponibles para escanear secuencias completas del genoma.

Las lecturas de Illumina se alinearon con el genoma de referencia utilizando BWA-MEM (versión: 0.7.17) y la cobertura se calculó utilizando BEDTools genomecov (versión: 2.27.1; opciones: -d -ibam). Luego se visualizó la cobertura del genoma para cada cepa por separado con las posiciones del centrómero. Luego se anotaron manualmente las aneuploidías. Para validar estructuras complejas de aneuploidía, utilizamos además lecturas de nanoporos y ensamblajes de genomas. Las lecturas de nanoporos se alinearon con la referencia usando minimap2 (versión: 2.17) y se visualizaron usando tablet55. Los ensamblajes del genoma sin procesar y finalizados se alinearon con MUMmer nucmer (versión: 4.0.0beta2) con el ensamblaje de referencia S288C y otros ensamblajes y se visualizaron como un diagrama de puntos. Además, mediante el análisis de ensamblajes de genoma sin procesar, se identificaron y extrajeron cuatro cromosomas de aneuploidía complejos que estaban completa o parcialmente ensamblados, que al menos contenían la región compleja (CBS1586/AHG +1×chr10c; CBS457/AIF +1×chr11c; CBS4255/ASB +2×chr9c; CBS1489/ASG +1×chr3c).

El proceso de detección de aneuploidías56 utilizando datos de Illumina de las referencias. 31,36 está disponible en https://github.com/SAMtoBAM/aneuploidy_detection y consta de los siguientes pasos:

Las lecturas de Illumina se alinearon con BWA-MEM (versión: 0.7.17) y la cobertura se calculó utilizando BEDTools genomecov (versión: 2.27.1; opciones: -d -ibam).

La cobertura se agrupó para calcular la cobertura media en contenedores de 30 kb con un tamaño de paso de 10 kb utilizando tanto las ventanas de creación como el mapa de BEDTools, durante las cuales se eliminaron las regiones que cubrían 15 kb (media ventana) de cada extremo de los cromosomas para reducir los problemas de variación/mapeo de los telómeros. .

La cobertura se normalizó según la mediana de todo el genoma y se extrajeron las regiones candidatas si se desviaban en ±0,7*(1/n). 0,7 otorga cierta indulgencia a la desviación de cobertura que se considera suficiente para un cambio en el número de copias.

Se agregaron contenedores desviados, permitiendo un espacio de <= 10 kb (el tamaño de 1 diapositiva).

Los contenedores agregados se dividieron en dos tipos dependiendo de si se superponían a un centrómero o no, llamados relacionados con centrómero (CR) y no relacionados con centrómero (NCR), respectivamente.

El tamaño de las regiones CR se aumentó a la suma de todas las regiones dentro del mismo cromosoma con la misma desviación, por ejemplo, +1, +2, −1, etc., para dar una suma CR. Luego eliminamos cualquier suma de CR <50 kb y calculamos la diferencia entre esta suma de CR y el tamaño del cromosoma (menos los 30 kb eliminados de los extremos).

Todas las sumas de CR con una diferencia de tamaño >100 kb (es decir, una CR no cubre regiones que suman 100 kb o más) se etiquetaron como complejas y el resto como simples

Trace la cobertura normalizada de todas las aneuploidías y seleccione manualmente la lista para eliminar falsos positivos y ajustar la clasificación complejo-simple.

Durante la curación manual, 34 complejos permanecieron complejos, 347 simples permanecieron simples, cuatro complejos fueron eliminados como aneuploidías falsos positivos (debido al impacto del 'efecto sonriente'), 32 pasaron de complejos a simples y diez pasaron de simples a complejo. El paso de lo simple a lo complejo siempre se debió al umbral de tamaño (la diferencia de tamaño de estos diez CR fue 96, 90, 82, 80, 72, 72, 66, 66, 50 y 40 kb). Todos los ejemplos de esta reclasificación de simple a complejo fueron distintos.

Identifique cualquier NCR > 100 kb que esté presente dentro de una cepa que contenga una aneuploidía detectada anteriormente. Etiquételo como relacionado con aneuploidías complejas y utilícelo en la estimación menos conservadora del recuento de aneuploidías complejas.

El gran conjunto de datos de aneuploidía recién generado se superpone, por cepa y cromosoma, en un 88% (303/343) con el de la ref. 31 conjuntos de datos. Esto deja sólo 40 aneuploidías (12%) no redestectadas. De estos 40, la inspección manual identificó que nueve eran claramente falsos positivos en la ref. 31, ocho provienen de la misma cepa y es cuestión de definir si ocho cromosomas se perdieron o se ganaron los otros ocho, uno contiene un gran aumento en la cobertura cerca del centrómero pero no cubre y tres contienen un ligero cambio en la cobertura pero son muy por debajo del umbral establecido para indicar un cambio en el número de copias. Por lo tanto, es probable que sólo 19 aneuploidías omitidas sean verdaderos falsos negativos en el nuevo conjunto de datos. La superposición entre conjuntos de datos muestra además 120 aneuploidías no detectadas previamente en el nuevo conjunto de datos. De estos 120, 35/120 (29%) son aneuploidías complejas, en comparación con 9/303 (2%) encontradas dentro del solapamiento.

Los pares de genes SV se evaluaron utilizando BEDTools (versión: 2.27.1). Para los SV que se superponen a CDS, se utilizó BEDTools intersect para identificar los pares. Se aplicó un filtro awk complementario para identificar específicamente los CDS completamente ubicados dentro de los SV. Para los SV dentro de regiones intergénicas, se utilizó BEDTools más cercano para identificar los pares, ya sea identificando los dos SV más cercanos a un CDS en el caso de indeles (usando las opciones –io y –id o –iu) o identificando el CDS más cercano a cada límite de un SV, así como aquellos que podrían superponerse a los límites de un SV. En el caso de eventos de inversión, solo se investigaron los pares que involucraban a los genes más cercanos o que se superponían a los puntos de ruptura de inversión asociados. Además, en el caso de los indeles, los SV se asociaron con un CDS solo si estaban ubicados en el espacio intergénico entre el CDS observado y el siguiente, tanto aguas arriba como aguas abajo.

Para cada uno de los pares de genes SV obtenidos en el paso anterior, las 51 cepas estudiadas se dividieron en los dos grupos siguientes: cepas con y sin SV. Luego, los valores de expresión del gen estudiado en cada una de las cepas se clasificaron y normalizaron entre 0 y 1 y luego se usaron para evaluar la expresión diferencial realizando una prueba bilateral de Wilcoxon-Mann-Whitney entre las cepas con y sin SV. grupos. Este análisis estadístico se realizó utilizando R (versión: 3.5.1).

Para el genoma nuclear, se utilizaron para el análisis filogenético las secuencias de proteoma de 181 genomas de entrada (con 23 especies externas de Saccharomyces). Proteinortho identificó un total de 1.612 grupos de ortólogos nucleares uno a uno (versión: 6.0.25; opciones: --check -selfblast -singles). Para cada grupo de ortólogos, MACSE generó la alineación de proteínas y CDS (versión: 2.04; opciones: -prog alignSequences -gc_def 1 -seq $i.species_relabeled.fa -out_NT $i.macse_NT.aln.fa -out_AA $i. macse_AA.aln.fa y -prog exportAlignment -align $i.macse_NT.aln.fa -codonForFinalStop --- -codonForInternalStop NNN -codonForInternalFS NNN -codonForExternalFS --- -charForRemainingFS - -out_NT $i.macse_NT.aln.tidy.fa -out_AA $i.macse_AA.aln.tidy.fa). Se generó además una supermatriz concatenada de la alineación CDS basada en 1.612 ortólogos con diferentes particiones definidas correspondientes a diferentes grupos de ortólogos. IQtree utilizó esta supermatriz y su definición de partición asociada para la creación de árboles de máxima probabilidad (versión: 1.6.12; opciones: -spp $prefix.concatenated.cds.partition.txt -s $prefix.concatenated.cds.tidy.fa - m MFP -bb 1000 -alrt 1000 -nt $threads -pre $prefix.iqtree -safe). En total, se utilizaron 1.000 rondas de arranque ultrarrápido (UB) y prueba de índice de probabilidad aproximada (aLRT) para evaluar los soportes de las ramas.

El archivo VCF de entrada (matrixSam.snp.vcf.gz) se generó utilizando HaplotypeCaller y GenotypeGVCF de GATK4 (versión: 4.1.8.1) con lecturas de Illumina alineadas con BWA-MEM (versión: 0.7.17). Luego, el VCF de muestras múltiples resultante se filtró en busca de variantes con Quality-by-Depth, StrandOddsRatio, FisherStrand, Mapping Quality, MappingQualityRankSum y/o ReadPosRankSum de más de dos sd del promedio. Finalmente, se eliminaron variantes de las regiones etiquetadas como repetitivas por RepeatMasker y/o en la ref. 57 para generar el VCF final.

Usamos el script de Python vcf2phylip58 (https://github.com/edgardomortiz/vcf2phylip; versiones: 2.8; opciones: -I $input_vcf –resolve-IUPAC -o S288C –fasta –output-prefix) para convertir el archivo VCF al formato fasta. La entrada SGDref correspondiente en formato fasta se extrajo en función de la columna de alelo de referencia del archivo vcf de entrada. MAFFT (versión: 7.471; opciones: --auto --thread $threads --preservecase --addfragments) se usó para alinear estos dos archivos fasta usando la entrada SGDref extraída como secuencia de referencia para la alineación. ClipKIT filtró aún más la alineación resultante (versión: GitHub commit cccc8bf; opciones: -m gappy). La alineación filtrada se introdujo en IQtree para la construcción del árbol (versión: 1.6.12; opciones: -s $prefix.fasta -m GTR+ASC -bb 1000 -alrt 1000 -nt $threads -pre $prefix.iqtree -safe). Se utilizaron mil rondas de UB y aLRT para evaluar los soportes de las ramas.

El archivo SV VCF de entrada (homo_and_hetero_noDoublonsInCoordinates.vcf.gz) se generó utilizando el conjunto de datos SV no redundante. Con base en la información de presencia/ausencia de estos SV identificados en cada entrada del ensamblaje, se generó una matriz 0/1 con formato phylip y se utilizó para la construcción del árbol. IQtree (versión: 1.6.12; opciones: -s $prefix.phylip -st MORPH -m MK+ASC -bb 1000 -alrt 1000 -nt $threads -pre $prefix.iqtree -safe) se utilizó para generar el árbol filogenético . Se utilizaron mil rondas de UB y aLRT para evaluar los soportes de las ramas.

Para los árboles filogenéticos generados anteriormente, las operaciones basadas en árboles, como reenraizamiento, recorte de ramas y extracción de etiquetas de puntas, se realizaron mediante las herramientas nw_reroot, nw_prune, nw_labels del paquete Newick Utilities (versión: 1.6.0). La visualización del árbol se realizó mediante el paquete R ggtree (versión: 3.2.1). La comparación de Cophylo se realizó mediante el paquete R phytools (versión: 1.0-3). La distancia entre árboles se evaluó en términos de la cantidad de información que las divisiones de los árboles tienen en común con la distancia de información de agrupamiento implementada en el paquete R TreeDist (versión: 2.4.1).

Utilizamos la fórmula de datación molecular publicada anteriormente59. Consideramos 100 y 365 generaciones por año para consolidar nuestras estimaciones, como se sugirió anteriormente60. El valor de la tasa de mutación de 2.31072123540072E-10 se calculó como el promedio de las tasas para líneas homocigotas y heterocigotas informadas anteriormente61. Las distancias por pares entre cepas se calcularon utilizando MEGA11 (versión: 11.0)62 como distancia p, utilizando solo los sitios cuádruples degenerados. Para determinar si la posición de un codón es un sitio degenerado cuádruple, escaneamos cada codón y posición de codón (es decir, primera, segunda y tercera posiciones) según la tabla de codones del NCBI (https://www.ncbi.nlm.nih.gov). /Taxonomy/Utils/wprintgc.cgi) basado en la alineación CDS de cada grupo de genes ortólogos. Todas las posiciones de codones correspondientes a sitios degenerados cuádruples se concatenaron juntas para formar la alineación del sitio degenerado cuádruple de la alineación CDS correspondiente. La alineación cuádruple del sitio degenerado de todos los CDS ortólogos 1 a 1 se concatenó aún más para formar una superalineación de sitios cuádruple degenerados.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Todos los datos de secuenciación y los archivos de ensamblaje/anotación se depositaron en el Archivo Europeo de Nucleótidos (https://www.ebi.ac.uk/ena/browser/home) bajo el proyecto general PRJEB59869. La adhesión al proyecto para los datos de secuenciación sin procesar (fast5, nanopore fastq, Illumina fastq) es PRJEB50706. Las accesiones de ensamblaje/anotación son PRJEB59413, PRJEB59129, PRJEB59231, PRJEB59232 y PRJEB59230 para ensamblajes nucleares, HP1, HP2, HP (para poliploides) y mitocondriales sin fase, respectivamente. Cada adhesión para ensamblajes individuales se indica en la Tabla complementaria 1 (nuclear) y en la Tabla complementaria 3 (mitocondrial).

Todo el software publicado y/o disponible públicamente utilizado en el estudio, con sus números de versión y su referencia para descargar, se indican en las secciones de métodos y Métodos complementarios, así como en el Resumen del informe. Los scripts personalizados desarrollados en este estudio son Telofinder (https://doi.org/10.5281/zenodo.8063924)54 que también está disponible en https://github.com/GillesFischerSorbonne/telofinder, el canal de detección de aneuploidías (https:// doi.org/10.5281/zenodo.8068318)56 que también está disponible en https://github.com/SAMtoBAM/aneuploidy_detection, el proceso de fases de HP (https://doi.org/10.5281/zenodo.8068328)63 es decir también disponible en https://github.com/SAMtoBAM/PhasedDiploidGenomeAssemblyPipeline y el script para generar el conjunto de datos SV no redundante (https://doi.org/10.5281/zenodo.8068284)64 que también está disponible en https://github. com/SAMtoBAM/MUMandCo/tree/master/nonredundant_population_datasets.

Chaisson, MJP y cols. Resolver la complejidad del genoma humano mediante secuenciación de una sola molécula. Naturaleza 517, 608–611 (2015).

Artículo CAS PubMed Google Scholar

Jain, M. y col. Secuenciación de nanoporos y ensamblaje de un genoma humano con lecturas ultralargas. Nat. Biotecnología. 36, 338–345 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Logsdon, GA, Vollger, MR y Eichler, EE Secuenciación del genoma humano de lectura larga y sus aplicaciones. Nat. Rev. Genet. 21, 597–614 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Logsdon, GA y cols. La estructura, función y evolución de un cromosoma 8 humano completo. Nature 593, 101–107 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Miga, KH et al. Ensamblaje telómero a telómero de un cromosoma X humano completo. Naturaleza 585, 79–84 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Nurk, S. y col. La secuencia completa de un genoma humano. Ciencia 376, 44–53 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Choi, JY y cols. Ensamblaje del genoma basado en secuenciación de nanoporos y genómica evolutiva del arroz circum-basmati. Genoma Biol. 21, 21 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Qin, P. y col. El análisis pangenómico de 33 muestras de arroz genéticamente diversas revela variaciones genómicas ocultas. Celda 184, 3542–3558 (2021).

Artículo CAS PubMed Google Scholar

Rousseau-Gueutin, M. et al. Ensamblaje de lectura larga del genoma de referencia de Brassica napus Darmor-bzh. GigaScience 9, giaa137 (2020).

Artículo PubMed PubMed Central Google Scholar

Kim, BY et al. Ensamblajes altamente contiguos de 101 genomas de drosofílidos. eLife 10, e66405 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

O'Donnell, S., Chaux, F. y Fischer, G. Ensamblaje del genoma de nanoporos altamente contiguos de Chlamydomonas reinhardtii CC-1690. Microbiol. Recurso. Anunciar. 9, e00726 (2020).

Artículo PubMed PubMed Central Google Scholar

Wang, J. y col. Secuenciación de lectura larga para interrogar la variación del nivel de cepa entre Escherichia coli adherente invasiva aislada de tejido intestinal humano. MÁS UNO 16, e0259141 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Rech, GE y col. La secuenciación de lectura larga a escala poblacional descubre elementos transponibles asociados con la variación de la expresión genética y las firmas adaptativas en Drosophila. Nat. Comunitario. 13, 1948 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

A lo largo de, M. et al. Principales impactos de la variación estructural generalizada en la expresión genética y la mejora de cultivos de tomate. Celda 182, 145-161 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Liu, Y. et al. Pangenoma de soja silvestre y cultivada. Celda 182, 162-176 (2020).

Artículo CAS PubMed Google Scholar

Zhang, F. y col. La secuenciación de lectura larga de 111 genomas de arroz revela pangenomas significativamente más grandes. Genoma Res. 32, 853–863 (2022).

PubMed PubMed Central Google Académico

Tong, X. y col. El pangenoma del gusano de seda de alta resolución proporciona información genética sobre la selección artificial y la adaptación ecológica. Nat. Comunitario. 13, 5619 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Audano, PA et al. Caracterización de las principales variantes estructurales de alelos del genoma humano. Celda 176, 663–675 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Beyter, D. y col. La secuenciación de lectura larga de 3.622 islandeses proporciona información sobre el papel de las variantes estructurales en las enfermedades humanas y otros rasgos. Nat. Gineta. 53, 779–786 (2021).

Artículo CAS PubMed Google Scholar

Wong, KHY, Levy-Sakin, M. y Kwok, P.-Y. Los ensamblajes de novo del genoma humano revelan un espectro de haplotipos alternativos en diversas poblaciones. Nat. Comunitario. 9, 3040 (2018).

Artículo PubMed PubMed Central Google Scholar

Abou Saada, O., Tsouris, A., Eberlein, C., Friedrich, A. y Schacherer, J. nPhase: un método de fase contiguo y preciso para poliploides. Genoma Biol. 22, 126 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Bendixsen, DP, Gettle, N., Gilchrist, C., Zhang, Z. y Stelkens, R. Evidencia genómica de un evento de divergencia del antiguo Asia oriental en Saccharomyces cerevisiae salvaje. Genoma Biol. Evolución. 13, evab001 (2021).

Artículo PubMed PubMed Central Google Scholar

Berlín, K. et al. Ensamblaje de genomas grandes con secuenciación de una sola molécula y hash sensible a la localidad. Nat. Biotecnología. 33, 623–630 (2015).

Artículo CAS PubMed Google Scholar

Czaja, W., Bensasson, D., Ahn, HW, Garfinkel, DJ & Bergman, CM Evolución del control del número de copias Ty1 en levadura mediante transferencia horizontal y recombinación. PLoS Genet. 16, e1008632 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Istace, B. et al. Ensamblaje de novo y estudio genómico poblacional de aislados de levadura naturales con el secuenciador Oxford Nanopore MinION. GigaCiencia 6, 1-13 (2017).

Artículo PubMed PubMed Central Google Scholar

Jenjaroenpun, P. et al. Análisis completo del panorama genómico y transcripcional mediante secuenciación de tercera generación: un estudio de caso de Saccharomyces cerevisiae CEN.PK113-7D. Ácidos nucleicos res. 46, e38 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Lee, TJ y cols. Un muestreo extenso de Saccharomyces cerevisiae en Taiwán revela la ecología y la evolución de linajes predomesticados. Genoma Res. 32, 864–877 (2022).

PubMed PubMed Central Google Académico

Shao, Y. et al. Creando una levadura funcional de un solo cromosoma. Naturaleza 560, 331–335 (2018).

Artículo CAS PubMed Google Scholar

Yue, J.-X. et al. Contrastando la dinámica del genoma evolutivo entre levaduras domesticadas y salvajes. Nat. Gineta. 49, 913–924 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Heasley, LR & Argueso, JL La caracterización genómica de un aislado diploide silvestre de Saccharomyces cerevisiae revela un paisaje extenso y dinámico de variación estructural. Genética 220, iyab193 (2022).

Artículo PubMed Google Scholar

Peter, J. y otros. Evolución del genoma en 1.011 aislados de Saccharomyces cerevisiae. Naturaleza 556, 339 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Duan, S.-F. et al. El origen y evolución adaptativa de poblaciones domesticadas de levadura del Lejano Oriente asiático. Nat. Comunitario. 9, 2690 (2018).

Artículo PubMed PubMed Central Google Scholar

Almeida, P. et al. Una visión de la genómica de poblaciones sobre los orígenes mediterráneos de la domesticación de la levadura de vino. Mol. Ecológico. 24, 5412–5427 (2015).

Artículo PubMed Google Scholar

Siow, CC, Nieduszynska, SR, Müller, CA y Nieduszynski, CA OriDB, la base de datos del origen de la replicación del ADN actualizada y ampliada. Ácidos nucleicos res. 40, D682-D686 (2012).

Artículo CAS PubMed Google Scholar

Caudal, E. et al. El pantranscriptoma revela una gran contribución del genoma accesorio a la variación de la expresión genética en la levadura. Preimpresión en bioRxiv https://doi.org/10.1101/2023.05.17.541122 (2023).

Strope, PK y cols. Las cepas de 100 genomas, un recurso de S. cerevisiae que ilumina su variación fenotípica y genotípica natural y su aparición como patógeno oportunista. Genoma Res. 25, 762–774 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Gilchrist, C. y Stelkens, R. Aneuploidía en levadura: ¿error de segregación o mecanismo de adaptación? Levadura 36, ​​525–539 (2019).

CAS PubMed Google Académico

Sholes, SL et al. Longitudes de telómeros específicas de cromosomas y telómeros funcionales mínimos revelados por la secuenciación de nanoporos. Genoma Res. 32, 616–628 (2022).

Artículo PubMed PubMed Central Google Scholar

Legras, J.-L. et al. La adaptación de S. cerevisiae a entornos alimentarios fermentados revela una notable plasticidad del genoma y las huellas de la domesticación. Mol. Biol. Evolución. 35, 1712-1727 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Novo, M. et al. Eventos de transferencia de genes de eucariota a eucariota revelados por la secuencia del genoma de la levadura del vino Saccharomyces cerevisiae EC1118. Proc. Acad. Nacional. Ciencia. Estados Unidos 106, 16333–16338 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Bonnet, A. & Lesage, P. Luces y sombras sobre los mecanismos de selección del sitio de integración en familias de retrotransposones Ty de levadura. actual. Gineta. 67, 347–357 (2021).

Artículo CAS PubMed Google Scholar

Bergman, CM Transferencia horizontal y proliferación de Tsu4 en Saccharomyces paradoxus. Multitud. ADN 9, 18 (2018).

Artículo PubMed PubMed Central Google Scholar

Bleykasten-Grosshans, C., Fabrizio, R., Friedrich, A. y Schacherer, J. Los repertorios de elementos transponibles para toda la especie rastrean la historia evolutiva del huésped Saccharomyces cerevisiae. Mol. Biol. Evolución. 38, 4334–4345 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Marie-Nelly, H. et al. (Re)ensamblaje del genoma de alta calidad utilizando datos de contacto cromosómicos. Nat. Comunitario. 5, 5695 (2014).

Artículo CAS PubMed Google Scholar

McCarthy, CGP y Fitzpatrick, DA Análisis pangenómicos de especies de hongos modelo. Microbio. Genoma. 5, e000243 (2019).

PubMed PubMed Central Google Académico

Ho, SS, Urban, AE y Mills, RE Variación estructural en la era de la secuenciación. Nat. Rev. Genet. 21, 171–189 (2020).

Artículo CAS PubMed Google Scholar

Chakraborty, M., Emerson, JJ, Macdonald, SJ y Long, AD Las variantes estructurales exhiben una heterogeneidad alélica generalizada y una variación de forma en rasgos complejos. Nat. Comunitario. 10, 1-11 (2019).

Artículo de Google Scholar

Vakirlis, N. y col. La reconstrucción de la arquitectura cromosómica ancestral y el repertorio de genes revela los principios de la evolución del genoma en un género de levadura modelo. Genoma Res. 26, 918–932 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Puigbò, P., Lobkovsky, AE, Kristensen, DM, Wolf, YI y Koonin, EV Genomas en agitación: cuantificación de la dinámica del genoma en supergenomas procariotas. BMC Biol. 12, 66 (2014).

Artículo PubMed PubMed Central Google Scholar

Peska, V. y col. Extraordinaria diversidad de telómeros, ARN de telomerasa y sus regiones plantilla en Saccharomycetaceae. Ciencia. Rep. 11, 12784 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Goffeau, A. y col. Vida con 6000 genes. Ciencia 274, 563–567 (1996).

Artículo de Google Scholar

Zhang, X. & Emerson, JJ Inferir la arquitectura genética de la variación de la expresión a partir de experimentos de expresión específicos de alelos replicados de alto rendimiento. Preimpresión en bioRxiv https://doi.org/10.1101/699074 (2019).

De Chiara, M. et al. La domesticación reprogramó el ciclo de vida de la levadura en ciernes. Nat. Ecológico. Evolución. 6, 448–460 (2022).

Artículo PubMed Google Scholar

Fischer, G., Kornobis, E. y Cokelaer, T. Telofinder: un paquete de Python para determinar la ubicación y el tamaño de las repeticiones teloméricas. Zenodo https://doi.org/10.5281/zenodo.8063924 (2023).

Edwards, D. (ed.) Bioinformática vegetal: métodos y protocolos, págs. 253–268 (Springer, 2016).

SAM a BAM. SAMtoBAM/aneuploidy_detection: v1. Zenodo https://doi.org/10.5281/zenodo.8068318 (2023).

Jubin, C., Serero, A., Loeillet, S., Barillot, E. y Nicolas, A. El perfil de secuencia del genoma de Saccharomyces cerevisiae permite la deconvolución de lecturas únicas y multialineadas para la detección de variantes. G3 (Bethesda) 4, 707–715 (2014).

Artículo PubMed Google Scholar

Ortiz, EM vcf2phylip v2.0: convertir una matriz VCF en varios formatos de matriz para análisis filogenético. Zenodo https://doi.org/10.5281/zenodo.2540861 (2019).

Fay, JC & Benavides, JA Evidencia de poblaciones domesticadas y silvestres de Saccharomyces cerevisiae. PLoS Genet. 1, e5 (2005).

Artículo PubMed PubMed Central Google Scholar

D'Angiolo, M. et al. Un ancestro vivo de levadura revela el origen de las introgresiones genómicas. Naturaleza 587, 420–425 (2020).

Artículo PubMed Google Scholar

Tattini, L. y col. Seguimiento preciso del panorama mutacional de genomas híbridos diploides. Mol. Biol. Evolución. 36, 2861–2877 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Tamura, K., Stecher, G. & Kumar, S. MEGA11: análisis de genética evolutiva molecular versión 11. Mol. Biol. Evolución. 38, 3022–3027 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

SAM a BAM. SAMtoBAM/PhasedDiploidGenomeAssemblyPipeline: v1. Zenodo https://doi.org/10.5281/zenodo.8068328 (2023).

SAM a BAM. SAMtoBAM/MUMandCo: v3.8. Zenodo https://doi.org/10.5281/zenodo.8068284 (2023).

Descargar referencias

Agradecemos a B. Dujon y B. Llorente por sus valiosos comentarios sobre el artículo. Este trabajo fue apoyado por la Agence Nationale de la Recherche ANR-16-CE12-0019 (para GL, JS y GF) y ANR-18-CE12-0004 (para GL y GF). Este trabajo también fue apoyado parcialmente por ANR-15-IDEX-01 (para GL), Fondation pour la Recherche Médicale (EQU202003010413 para GL), el Consejo Europeo de Investigación (ERC Consolidator Grant 772505 para JS), Guangdong Basic y Applied Basic. Fundación de Investigación (2019A1515110762 a J.-XY), Programa de Talentos del Río Perla de Guangdong (2019QN01Y183 a J.-XY) y Fundación Nacional de Ciencias Naturales de China (32070592 a J.-XY). JS es miembro del Instituto de Estudios Avanzados de la Universidad de Estrasburgo (USIAS) y miembro del Institut Universitaire de France.

Estos autores contribuyeron igualmente: Samuel O'Donnell, Jia-Xing Yue.

Estos autores supervisaron conjuntamente este trabajo: Joseph Schacherer, Gianni Liti, Gilles Fischer.

Universidad de la Sorbona, CNRS, Institut de Biologie Paris-Seine, Laboratorio de Biología Computacional y Cuantitativa, París, Francia

Samuel O'Donnell, Nicolas Agier, Stéphane Delmas y Gilles Fischer

Laboratorio Estatal Clave de Oncología en el Sur de China, Centro de Innovación Colaborativa para la Medicina del Cáncer, Laboratorio Clave de Diagnóstico y Terapia del Carcinoma Nasofaríngeo de Guangdong, Centro Oncológico de la Universidad Sun Yat-sen, Guangzhou, China

Jia-Xing Yue, Jing Li y Zepu Miao

Universidad de la Costa Azul, CNRS, INSERM, IRCAN, Niza, Francia

Jia-Xing Yue, Matteo De Chiara, Jing Li, Lorenzo Tattini y Gianni Liti

Universidad de Estrasburgo, CNRS, GMGM UMR 7156, Estrasburgo, Francia

Omar Abou Saada, Claudia Caradec, Fabien Dutreux, Téo Fournier, Anne Friedrich y Joseph Schacherer

Plataforma Tecnológica de Biómica, Centro de Investigación y Recursos Tecnológicos (C2RT), Instituto Pasteur, París, Francia

Thomas Cokelaer y Etienne Kornobis

Centro de Bioinformática y Bioestadística, Departamento de Biología Computacional, Instituto Pasteur, París, Francia

Thomas Cokelaer y Etienne Kornobis

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

JS, GL y GF concibieron el estudio. SOD, NA, CC, SD, TF y JL realizaron experimentos. SOD, J.-XY, OAS, TC, MDC, FD, TF, AF, EK, JL, ZM, LT, JS, GL y GF analizaron los resultados. SOD, J.-XY, JS, GL y GF escribieron el artículo. Todos los autores revisaron y contribuyeron a la versión final del artículo.

Correspondencia a Joseph Schacherer, Gianni Liti o Gilles Fischer.

Los autores declaran no tener conflictos de intereses.

Nature Genetics agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores pares están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

a. Impacto de la fase de haplotipo en la validación de SV para los diferentes niveles de ploidía (n = 21, n = 6 y n = 7 para cepas diploides, triploides y tetraploides, respectivamente). b. Distribución del número de SV heterocigotos por cepa dividido por ploidía. Para los diploides, esto se hizo simplemente considerando cualquier variante que no contuviera los genomas HP1 y HP2 como heterocigótica (n = 21 cepas). Para los poliploides, primero se alinearon los genomas en fases con la referencia, se calculó la cobertura alrededor de la región del evento y luego se utilizó esta cobertura para estimar el número máximo de haplotipos presentes. Si el número de bloques en fases que validaban la variante era menor que los haplotipos máximos, el evento se consideraba heterocigótico (n = 6 y n = 7 cepas triploides y tetraploides, respectivamente). Las líneas horizontales en los diagramas de caja corresponden a la mediana, las bisagras inferior y superior corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil. C. Número de SV validados por cepa divididos por ploidía (n = 51, n = 76, n = 6 y n = 7 para cepas haploides, diploides, triploides y tetraploides, respectivamente. Las líneas horizontales en los diagramas de caja corresponden a la mediana, la menor y las bisagras superiores corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil.

Los puntos de interrupción de todos los SV dentro de cada "mejor" genoma se compararon con el archivo de anotación gff correspondiente. Luego, estos se compararon con la proporción de eventos de todo el genoma para calcular un enriquecimiento por genoma. Esto se hizo obteniendo las características asociadas al punto de interrupción (izquierda: n = 1776 CDS, n = 5 centrómero, n = 1743 LTR, n = 274 tRNA, n = 760 TY, n = 354 X_element y n = 498 Y_prime_element) y el elemento más cercano para puntos de interrupción intergénicos (derecha: n = 2041 CDS, n = 145 centrómero, n = 1784 LTR, n = 1291 tRNA, n = 748 TY, n = 427 X_element y n = 278 Y_prime_element). Las líneas horizontales en los diagramas de caja corresponden a la mediana, las bisagras inferior y superior corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil.

a. Número de los diferentes tipos de SV presentes en el conjunto de 51 aislados utilizados para estudiar la relación entre los SV y la variación de la expresión génica (Ins para inserciones, Del para deleciones, Inv para inversiones, Dup para duplicaciones, Transloc para translocaciones y Contr para contracciones). ). b. La comparación del nivel de expresión permitió probar el impacto del SV. Panel izquierdo, comparación de la presencia (+SV) o ausencia (−SV) de un evento de eliminación en la región reguladora del ORF YHR043C. Panel derecho, comparación de la presencia (+SV) o ausencia (−SV) de una duplicación del ORF YHR054C. Las líneas horizontales en los diagramas de caja corresponden a la mediana, las bisagras inferior y superior corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil.

Las líneas verticales en los diagramas de caja corresponden a la mediana, las bisagras inferior y superior corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil. Para cada una de las 142 cepas, el número de telómeros utilizados para derivar el diagrama de caja se indica en la Tabla complementaria 1. El gráfico insertado muestra la distribución de la longitud promedio de los telómeros por cepa para cada conjunto de datos. Los valores medianos están indicados por las barras transversales grises en cada gráfico de violín (para asambleas de novo n = 100 cepas, para asambleas públicas n = 24 cepas y para reensamblajes n = 18). Se indican los valores p de comparación de medias de Wilcoxon bilaterales.

a. Gráfico de dispersión que muestra la correlación positiva entre la longitud media de los telómeros y su varianza por cepa. El coeficiente de correlación de Pearson y su valor p asociado se calcularon utilizando el método stat_cor en R. La banda de error sombreada representa el intervalo de confianza del 95% del ajuste de regresión. Diagramas de caja que muestran la distribución de las longitudes de los telómeros por cepa dividida por b. ploidía, c. cigosidad y d. ecología. Los valores medianos están indicados por las barras transversales grises en cada gráfico de violín. Se indican los valores p de comparación de medias de Wilcoxon bilaterales (b, cyd).

a, d y g muestran el número de elementos centrales X, Ty5 e Y' que se encuentran en cada extremo del cromosoma en las 100 cepas, respectivamente. b, e y h. muestran las distribuciones de la longitud media de los telómeros en presencia o ausencia de los elementos subteloméricos correspondientes en todos los extremos de los cromosomas (n = 32 subtelómeros) y c, f e i en TEL03L (n = 32 subtelómeros). Los valores medianos están indicados por las barras transversales negras en cada gráfico de violín. Se indican los valores p de comparación media de Wilcoxon bilateral (b, c, e, f, h e i).

Se indican los valores p de comparación de medias de Wilcoxon bilaterales. El número de telómeros que se utiliza para derivar cada gráfico de violín se indica en la parte superior de cada gráfico individual.

El árbol filogenético de la izquierda es idéntico a la Fig. 1 y corresponde a un árbol basado en la alineación de secuencias de proteínas concatenadas de 1.612 ortólogos 1:1. Los símbolos verde, rojo, azul y amarillo indican los orígenes ecológicos. Los niveles de ploidía y cigosidad están simbolizados por las formas de los símbolos como en la Fig. 1.

a. Conservación de familias de genes de ARNt en 100 aislamientos. b. Ubicación cromosómica relativa de familias de genes de ADNt conservados, ganados y perdidos. Las líneas horizontales en los diagramas de caja corresponden a la mediana, las bisagras inferior y superior corresponden al primer y tercer cuartil y los bigotes se extienden hasta 1,5 veces el rango intercuartil. Las tres estrellas indican valores de P < 0,01 de una prueba de Wilcoxon bilateral (P = 3,707e-07 para compartido por todos versus ganado y P = 0,0001122 para ganancia versus pérdida) y ns significa no significativo (P = 0,4044 para compartido por todos vs perdido).

a. Gráficos de dispersión que muestran el tamaño del genoma de cada cepa, dividido por conjunto de datos, en función del número de elementos Y' (izquierda), elementos Ty (centro y elementos Y' + Ty (derecha). b. Número de secuencias TE por cepa en los 142 conjuntos de genomas haploides/colapsados. Todas las secuencias de las 5 familias Ty se agrupan por categoría. c. Número de elementos Ty completos por cepa en los 142 conjuntos de genomas haploides/colapsados. d. Distribución de los 126 sitios de inserción en los 142 conjuntos de genomas haploides/colapsados. 100 genomas haploides u homocigotos considerando los elementos Ty completos o todos los tipos de secuencias TE (completas, truncadas y LTR individuales). E. Diagrama de dispersión entre el número de LTR individuales por sitio de inserción y el número de cepas que comparten un sitio de inserción. El coeficiente de correlación de Pearson y su valor p de prueba t de dos colas asociado se calcularon utilizando el método stat_cor en R. f. Mapa de las inserciones de novo de elementos Ty completos en las 100 cepas homocigotas exploradas. El mapa muestra las 61 inserciones sitios en los que sólo se encuentran elementos completos y nunca soloLTR, lo que sugiere fuertemente que estos sitios corresponden a inserciones recientes. Las cepas están organizadas según el árbol filogenético nuclear (Fig. 1).

Notas complementarias 1 a 3, métodos complementarios e figuras complementarias. 1–15.

Tablas complementarias 1 a 17.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

O'Donnell, S., Yue, JX., Saada, OA et al. Los conjuntos de telómero a telómero de 142 cepas caracterizan el paisaje estructural del genoma de Saccharomyces cerevisiae. Nat Genet 55, 1390-1399 (2023). https://doi.org/10.1038/s41588-023-01459-y

Descargar cita

Recibido: 01 de noviembre de 2022

Aceptado: 26 de junio de 2023

Publicado: 31 de julio de 2023

Fecha de emisión: agosto de 2023

DOI: https://doi.org/10.1038/s41588-023-01459-y

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt