Algorytm, który daje nadzieję. To jest rewolucja!

Nasi naukowcy stworzyli algorytm, który analizuje wirusy szybciej od superkomputerów. Badacze z UAM opracowali narzędzie do klasyfikacji wirusów, które radykalnie przyspiesza analizę danych genetycznych.Stworzony przez nich algorytm Vclust wykonuje czteroletnią pracę w zaledwie cztery godziny. Z uczelnianymi profesorami Andrzejem Zielezińskim i Jakubem Barylskim o algorytmicznej rewolucji rozmawia Krzysztof Smura 

 

Co leżało u podstaw programu? Co zdecydowało, że pochyliliście się nad Vclustem? Czy można powiedzieć, że było to „niezadowolenie” ze zbyt długo przebiegających programów badawczych? 

Prof. UAM Andrzej Zieleziński: Tak, można tak powiedzieć. Punktem wyjścia była rzeczywiście niecierpliwość – analizy wymagające tygodni czy miesięcy skutecznie blokowały badania. Drugim, równie ważnym problemem było to, że każde z istniejących narzędzi obliczało inne miary podobieństwa genomów i było zalecane do różnych zadań. Na przykład jedna metoda była rekomendowana przez Międzynarodowy Komitet Taksonomii Wirusów (ICTV) do klasyfikacji gatunków wirusów, a inna do grupowania genomów z badań środowiskowych. W praktyce oznaczało to, że do różnych analiz trzeba było instalować i uruchamiać kilka niezależnych programów, co było czasochłonne i skomplikowane. Vclust powstał po to, aby połączyć wszystkie te podejścia w jednym, spójnym narzędziu – szybkim, dokładnym i uniwersalnym. 

 

Dziś ilość danych biologicznych, zwłaszcza wirusowych, rośnie wykładniczo. Rocznie przybywa nam około miliona wirusów? Czy Vclust to recepta na ten chaos? 

Prof. UAM Jakub Barylski: Rzeczywiście, każdego roku poznajemy setki tysięcy, a nawet milion nowych sekwencji wirusowych. Na pierwszy rzut oka mogłoby się wydawać, że każdy taki nowo poznany genom oznacza odkrycie nowego wirusa, ale w praktyce bardzo często są to kolejne warianty genomów już znanych. I tu właśnie przydaje się Vclust. Program porównuje każdą nową sekwencję z ogromną bazą genomów wirusów opisanych wcześniej i pokazuje, czy mamy do czynienia z zupełnie nowym wirusem, czy raczej z odmianą wirusa, którego już znamy. Dzięki temu wprowadzamy porządek w zalewie danych i możemy szybciej zrozumieć rzeczywistą różnorodność wirusów. 

 

Z czego wynika ta niesamowita eksplozja danych badawczych, z którą mamy do czynienia na co dzień? 

JB: To przede wszystkim efekt rewolucji technologicznej w biologii molekularnej. Jeszcze kilkanaście lat temu odczytanie jednego genomu było ogromnym przedsięwzięciem, a dziś nowoczesne sekwenatory potrafią w krótkim czasie przeanalizować miliony fragmentów DNA z jednej próbki. Szczególnie ważna jest tutaj metagenomika, czyli badanie materiału genetycznego pobieranego bezpośrednio ze środowiska – na przykład z wody, gleby czy treści jelit. Każda taka próbka ujawnia tysiące, a czasem setki tysięcy genomów, z których większość nigdy wcześniej nie była opisana. Dzięki temu nasze zbiory danych rosną w tempie wykładniczym. To ogromne bogactwo informacji, ale jednocześnie wyzwanie – i właśnie dlatego potrzebujemy narzędzi takich jak Vclust, które pomagają ten materiał szybko i rzetelnie porządkować. 

 

Na czym polega zbawienny charakter programu? Na jakich naukowych polach możemy go wykorzystywać? 

AZ: Największą zaletą Vclust jest szybkość – analizy, które wcześniej wymagałyby tygodni lub miesięcy, teraz można wykonać w ciągu godzin, nawet przy bardzo dużych zestawach danych. Oczywiście istniejące programy mogłyby działać równie szybko, ale tylko pod warunkiem uruchomienia ich na superkomputerach, wykorzystujących zasoby obliczeniowe odpowiadające tysiącom komputerów. Niestety, nie każda placówka badawcza ma dostęp do takiej infrastruktury. Vclust jest dostępny dla wszystkich, ponieważ działa sprawnie nawet na standardowym komputerze biurowym. 

Jesteśmy przekonani, że nasz program znajdzie zastosowanie w systematyce i ekologii wirusów, w analizach wiromów (czyli całych zbiorowisk wirusów żyjących w danym organizmie), a także w monitoringu środowiska – zarówno przy poszukiwaniu nowych, potencjalnie groźnych patogenów, jak i wykrywaniu kolejnych wariantów znanych wirusów chorobotwórczych. 

 

Jak przebiega proces badawczy stosowany w programie? 

AZ: Przewaga programu Vclust polega na tym, że szybko „odsiewa” on pary wirusów, które na pewno nie są podobne, a dopiero potem precyzyjnie sprawdza tylko te warte uwagi i porządkuje je w grupy sekwencji spokrewnionych. Szczegółowo ten proces można podzielić na trzy główne etapy: 

  1. Wstępna selekcja sekwencji do porównania: Program oblicza wspólne krótkie fragmenty DNA, zwane k-merami, dla wszystkich par genomów wirusów. Na tej podstawie wybiera tylko te pary, które wykazują wystarczającą liczbę wspólnych k-merów – oznacza to, że tylko one mają szansę wykazać podobieństwo w dokładnym porównaniu. Dzięki temu nie trzeba porównywać każdej możliwej pary wirusów, co znacząco przyspiesza analizę.
  2. Dokładne porównanie: Wybrane pary genomów są porównywane za pomocą nowego i bardzo wydajnego algorytmu. Ten sprawdza, w jakim stopniu jedna sekwencja może być „składana” z fragmentów drugiej, co pozwala szybko i precyzyjnie określić stopień ich podobieństwa, nawet jeśli genom jest fragmentaryczny lub zawiera różne zmiany, takie jak insercje czy delecje.
  3. Tworzenie grup: Program grupuje sekwencje w klastry o wysokim podobieństwie, wybiera reprezentatywne warianty genomów i tworzy uporządkowaną strukturę danych. Można stosować wiele różnych metod klastrowania, zoptymalizowanych do pracy z milionami sekwencji w krótkim czasie. 

 

Wasz program odrobił w cztery godziny zadanie domowe, na które w normalnym trybie potrzebowalibyście około czterech lat. Czy to oznacza, że mamy do czynienia z przełomem, który będzie skutkował falą naukowych odkryć? 

JB: Oczywiście, samo narzędzie nie dokonuje odkryć. Mamy jednak nadzieję, że Vclust przyczyni się do przyspieszenia badań w wirusologii, umożliwiając łatwe odkrywanie nowych gatunków i relacji między nimi. Co ważne, dotyczy to także wirusów zagrażających zdrowiu ludzi. 

 

Porównanie „cztery godziny versus cztery lata” odnosi się do najbardziej dokładnego istniejącego programu popularnego w bioinformatyce, BLAST. Vclust zwraca równie dokładne wyniki, a przy tym wykonuje analizę w zaledwie cztery godziny. Istnieją też inne programy, które mogą wykonać to zadanie szybciej niż cztery lata, na przykład w kilka dni, ale ich wyniki są mniej dokładne niż BLAST. W tym kontekście Vclust łączy wysoką dokładność z wyjątkową szybkością. 

 

W czasie prowadzenia badań współpracowaliście z uczelniami w Jenie i Gliwicach. Jaki był podział zadań? 

AZ: Projekt powstał dzięki ścisłej współpracy naszego zespołu z Wydziału Biologii UAM w Poznaniu, Politechniki Śląskiej w Gliwicach oraz Uniwersytetu w Jenie. Każdy zespół brał udział w opracowaniu koncepcji i projektowaniu badań, przy czym główną rolę odegrały zespoły z Poznania i Gliwic. 

Koledzy z Gliwic to prawdziwi rewolwerowcy w tworzeniu superwydajnych programów – ich kod działa, niemal „dotykając metalu komputera” i pozwala analizować miliony genomów w czasie, który wcześniej byłby nie do pomyślenia. To oni opracowali i rozwinęli kluczowe moduły narzędzia Vclust, w tym do wstępnej selekcji genomowych sekwencji, dokładnego porównania oraz efektywnego klastrowania. 

Jakub z naszego zespołu wniósł do projektu perspektywę wirusologa – podsunął praktyczne rozwiązania i podpowiedział, jak uczynić program bardziej użytecznym dla badaczy. Z kolei ja nadałem całości kształt: zaprojektowałem przebieg badań i przetestowałem jakość uzyskiwanych wyników, a w końcu stworzyłem interfejs i serwis internetowy umożliwiający korzystanie z narzędzia Vclust w przeglądarce. 

Z kolei partnerzy z Uniwersytetu w Jenie dołożyli bogate doświadczenie w metagenomice i ekologii mikroorganizmów i pomogli nam wybadać potrzeby międzynarodowej społeczności naukowej. 

 

Co na wasze odkrycie koleżanki i koledzy z ICTV i VISTA? Były gratulacje? 

AZ: Nie znamy osobiście autorów programu VISTA, ale nasi koledzy z ICTV bardzo ucieszyli się z nowego narzędzia. Do tej pory rekomendowanym przez ICTV programem do wyznaczania gatunków wirusów był VIRIDIC – bardzo dokładny, ale wolny i ograniczony do analiz maksymalnie kilku tysięcy genomów. 

Prezentowałem Vclust na dużej konferencji dotyczącej bioinformatyki i metagenomiki wirusów, The International Virus Bioinformatics Meeting. Projekt spotkał się tam z dużym entuzjazmem, również wśród członków ICTV, którzy docenili jego szybkość, dokładność i możliwość pracy z ogromnymi zbiorami genomów wirusów

 

W jednej z wypowiedzi przeczytałem, że planujecie dodać więcej funkcji, a w przyszłości chcielibyście rozszerzyć Vclust również o możliwość analizy genomu bakterii. Proszę powiedzieć coś więcej na ten temat. 

AZ: Rzeczywiście, w najbliższym czasie planujemy rozszerzyć możliwości Vclusta o dodatkowe funkcje, które zwiększą jego wszechstronność. Obecnie narzędzie skupia się na analizie genomów wirusowych, ale podobne podejście może być bardzo przydatne także w przypadku genomów bakterii. Rozszerzenie na bakterie wiąże się z kilkoma wyzwaniami – ich genomy są większe i bardziej złożone niż wirusowe, co wymaga dodatkowej optymalizacji algorytmów pod kątem szybkości i pamięci. Planujemy także wdrożyć metody analizy sekwencji na poziomie aminokwasów, co pozwoli porównywać nie tylko DNA, ale także białka. Dzięki temu będzie można grupować sekwencje na wyższym poziomie ogólności, odkrywając większe jednostki taksonomiczne i zależności między różnymi gatunkami. 

 

Dzięki tym rozszerzeniom Vclust w przyszłości mógłby wspierać nie tylko wirusologów, ale także mikrobiologów i bioinformatyków zajmujących się dużymi zbiorami danych bakterii, ułatwiając badania nad różnorodnością mikrobiomu, epidemiologią i ewolucją mikroorganizmów. 

 

 Czytaj też: Prof. Piotr Klimaszyk. Żeby pracować trzeba żyć