Evo 2: Tüm Yaşam Alanlarında Genom Modelleme ve Tasarımı İçin Biyolojik Temel Model
Özet
Evo 2, yaşamın tüm alanlarını (bakteriler, arkeler ve ökaryotlar) kapsayan, 9 trilyon DNA baz çifti üzerinde eğitilmiş devasa bir biyolojik temel modeldir. Tek nükleotid çözünürlüğünde ve 1 milyon tokenlik bir bağlam penceresine (context window) sahip olan model, genetik varyasyonların fonksiyonel etkilerini görev spesifik bir ince ayar (fine-tuning) gerektirmeden sıfır-atışlı (zero-shot) olarak tahmin edebilmektedir. Mekanistik yorumlanabilirlik analizleri, Evo 2'nin ekzon-intron sınırları ve transkripsiyon faktörü bağlanma bölgeleri gibi karmaşık biyolojik özellikleri öğrendiğini ortaya koymuştur. Model, mitokondriyal, prokaryotik ve ökaryotik sekansları genom ölçeğinde üretebilmekte ve çıkarım zamanı aramasıyla yönlendirildiğinde deneysel olarak doğrulanmış kromatin erişilebilirlik kalıpları tasarlayabilmektedir.
Model Mimarisi ve Eğitim Stratejisi
Evo 2, biyolojik sekans modellemede ölçek ve verimlilik sınırlarını zorlayan yenilikçi bir altyapı üzerine kurulmuştur.
Mimari Özellikler: StripedHyena 2
Evo 2, konvolüsyonel çoklu-hibrit bir mimari olan StripedHyena 2'yi kullanmaktadır. Bu mimari, üç farklı giriş bağımlı konvolüsyon operatörü ve dikkat (attention) mekanizmalarının bir kombinasyonuna dayanır.
Verimlilik: 40 milyar parametre ölçeğinde, 1 milyon bağlam uzunluğunda standart Transformer modellerine göre 3 kata kadar daha yüksek işlem hacmi sağlar.
Ölçeklenebilirlik: DNA üzerindeki kayıp ölçeklendirmesini (loss scaling) hem Transformer'lara hem de önceki nesil hibrit modellere göre iyileştirerek, aynı miktarda veriyle daha düşük tahmin hatası elde edilmesini sağlar.
Eğitim Verisi: OpenGenome2
Model, OpenGenome2 adı verilen, bakteri, arke, ökarya ve bakteriyofajlardan küratize edilmiş, toplamda 8,8 trilyon nükleotid içeren devasa bir veri setiyle eğitilmiştir. Biyogüvenlik nedenleriyle, ökaryotik konakçıları enfekte eden virüslerin sekansları eğitim verilerinden hariç tutulmuştur.
İki Aşamalı Eğitim Süreci
Ön Eğitim (Pretraining): 8.192 tokenlik kısa bağlam uzunluğuyla başlanmış ve fonksiyonel genetik öğeleri öğrenmek için genetik pencerelere odaklanılmıştır.
Orta Eğitim (Midtraining): Bağlam uzunluğu kademeli olarak 1 milyon tokene çıkarılmıştır. Bu aşama, uzun genomik mesafeler arasındaki ilişkilerin öğrenilmesini sağlamıştır. "Samanlıkta iğne" (needle-in-a-haystack) testleri, Evo 2'nin 1 milyon baz çifti içindeki spesifik bilgileri geri çağırabildiğini doğrulamıştır.
Model Sürümü | Parametre Sayısı | Tüketilen Token Sayısı |
Evo 2 7B | 7 Milyar | 2,4 Trilyon |
Evo 2 40B | 40 Milyar | 9,3 Trilyon |
Mutasyonel Etki ve Fonksiyonel Tahmin Yetenekleri
Evo 2, yaşamın merkezi dogmasının üç modalitesinde (DNA, RNA ve protein) evrimsel kısıtları öğrenerek sıfır-atışlı tahminler yapabilmektedir.
Genetik Kod Farkındalığı: Model, farklı organizmaların kullandığı farklı durdurma kodonlarını (standart kod, mikoplazma kodu ve siliat kodu) sekans bağlamına dayanarak ayırt edebilmektedir.
Ekzon-Intron Yapısı: Evo 2'nin gömmeleri (embeddings) üzerinde eğitilen hafif sınıflandırıcılar, %91 ile %99 arasında AUROC değerleriyle ekzonları nükleotid çözünürlüğünde tanımlayabilmektedir.
Gen Temelliliği: Bakteriyel, arkal ve faj genomlarında erken durdurma kodonu mutasyonlarının etkisini puanlayarak gen temelliliğini (essentiality) tahmin etmede yüksek başarı göstermektedir.
İnsan Varyant Etki Tahmini
Evo 2, klinik olarak önemli varyantların patojenitesini tahmin etmede denetimsiz modeller arasında lider konumlardadır:
Kodlamayan Bölgeler: İnsan genomundaki kodlamayan SNV'ler (tek nükleotid varyasyonları) için denetimsiz modeller arasında en üst sırada yer almaktadır.
Varyant Türleri: Ekleme, silme ve duplikasyon gibi SNV dışı varyantlarda mevcut tüm yöntemlerden daha iyi performans göstermektedir.
BRCA1 Analizi: Hem kodlayan hem de kodlamayan BRCA1 varyantlarında güçlü performans sergilemiş; model gömmeleri kullanılarak eğitilen denetimli bir sınıflandırıcı %0,95 AUROC değerine ulaşmıştır.
Mekanistik Yorumlanabilirlik
Modelin içsel temsillerini anlamak için Seyrek Oto-kodlayıcılar (Sparse Autoencoders - SAE) kullanılmıştır. Bu analizler, Evo 2'nin biyolojik etiketler olmadan karmaşık kavramları öğrendiğini göstermiştir:
Mobil Genetik Elemanlar: Model, prokaryotlardaki profaj bölgeleri ve CRISPR dizilerindeki faj türevli "spacer" sekanslarıyla ilişkili spesifik özellikler (features) geliştirmiştir.
Yapısal Özellikler: Protein düzeyinde α-helis ve β-tabaka gibi ikincil yapı imzalarıyla ilişkili özellikler tanımlanmıştır.
Düzenleyici Motifler: İnsan genomunda transkripsiyon faktörü bağlanma bölgeleriyle (örneğin FOXE1, SP2 motifleri) eşleşen özellikler bulunmuştur. Bu özellikler, yünlü mamut genomu gibi diğer türlere de genelleştirilebilmektedir.
Genom Ölçeğinde Üretim ve Tasarım
Evo 2, sadece analiz değil, aynı zamanda yeni biyolojik sekanslar oluşturma yeteneğine de sahiptir.
Otoregresif Üretim
Model, verilen bir genomik "prompt" (istem) üzerinden genom ölçeğinde diziler tamamlayabilmektedir:
M. genitalium: Yaklaşık 580 kb uzunluğunda, doğal proteinlere benzer ikincil yapı ve uzunluk dağılımına sahip diziler üretilmiştir.
S. cerevisiae (Maya): Ekzon-intron yapısı, t-RNA'lar ve promotörler içeren 330 kb'lık maya kromozomu parçaları oluşturulmuştur.
Mitokondriyal DNA: İnsan mitokondriyal DNA'sına benzer senteni (dizilim sırası) ve protein kompleksleri içeren 16 kb'lık sekanslar üretilmiştir.
Kromatin Erişilebilirliği Tasarımı
Evo 2, Enformer ve Borzoi gibi tahmin modelleriyle rehberli bir "ışın araması" (beam search) kullanılarak belirli kromatin erişilebilirlik kalıplarına sahip diziler tasarlamak için kullanılmıştır:
Deneysel Doğrulama: Fare embriyonik kök hücrelerinde (mESC) yapılan ATAC-seq deneyleri, tasarlanan dizilerin hedef kromatin kalıplarını %92-95 başarıyla (AUROC) sergilediğini doğrulamıştır.
Mors Alfabesi Deneyi: Model, genomik erişilebilirlik "tepeleri" ve "vadileri" aracılığıyla epigenom üzerinde "EVO2", "LO" ve "ARC" gibi Mors alfabesi mesajları yazacak şekilde yönlendirilmiştir.
Hücre Tipi Özgüllüğü: Hem HEK293T hem de K562 hücre hatları için hücre tipine özgü erişilebilirlik profilleri başarıyla tasarlanmıştır.
Güvenlik ve Açık Bilim Taahhüdü
Evo 2 projesi, sorumlu yapay zeka ve biyotasarım ilkelerine bağlı olarak yürütülmüştür:
Risk Azaltma: Ökaryotik virüs verilerinin dışlanmasıyla, modelin patojenik insan virüslerini tasarlama veya manipüle etme yeteneği kısıtlanmıştır. Kırmızı ekip (red teaming) testleri, modelin bu alandaki üretimlerinin etkisiz olduğunu göstermiştir.
Açık Kaynak: Model parametreleri (7B ve 40B), eğitim kodları, çıkarım kodları ve OpenGenome2 veri seti bilim dünyasıyla tam açık şekilde paylaşılmıştır.
Evo 2, biyolojinin farklı uzunluk ölçeklerini ortak bir temsil altında birleştirerek, gelecekte sağlık ve hastalık süreçlerindeki karmaşık fenotiplerin simüle edilmesine yönelik güçlü bir temel sunmaktadır.