23948sdkhjf

Ny och vassare mjukvara från CLC Bio

Danska CLC Bio har byggt ut sin mjukvaruplattform för genomisk analys med nytt stöd för både mikroarraybaserade och digitala genuttrycksmätningar samt extra snabba nya algoritmer för högprestandasekvenseringsdata. Dessutom finns en ny serverlösning för att effektivisera arbetet i forskningsorganisationer.
Genuttrycksanalys var tidigare inte del av CLC Bios mjukvaruplattform, men nu finns färdigdefinierade (och modifierbara) arbetsflöden för att arbeta med analoga (mikroarray-) eller digitala uttrycksdata och identifiera gener som regleras på olika sätt i olika biologiska sammanhang samt utföra viss annotation av dessa.

Med “digitala” genuttrycksdata menas här till exempel RNA-seq-data, som kan genereras genom att man djupsekvenserar mRNA ur ett helcellsextrakt med “next generation”-sekvenseringsteknik från till exempel Illumina/Solexa, ABI/SOLiD eller Roche/454.

- Digitala genuttrycksdata är alla typer av data där genuttrycket mäts i termer av antal fragment snarare än (som med mikroarrayer) en hybridiseringsintensitet, säger Roald Forsberg, som leder CLC Bios Scientific Software Solutions-grupp.

- I dagsläget innebär detta RNA-seq, men vi kommer snart även att lägga till stöd för andra taggbaserade metoder som SAGE och liknande.



Supersnabb sekvensmatchning mot referensgenom

Existerande delar av mjukvaruplattformen har också fått sig rejäla ansiktslyftningar. Verktygen för att utföra vad CLC Bio kallar “reference assembly”, dvs att matcha sekvenserade DNA-snuttar mot ett referensgenom, har gjorts mycket snabbare så att de nu, enligt CLC Bios white papers, utklassar motsvarande verktyg från bland annat Illumina.

Detta är ingen småsak givet den hårda konkurrensen – nya algoritmer för ändamålet publiceras i en strid ström. Roald Forsberg menar att det finns tre förklaringar till att CLC Bio, utöver att satsa mycket på användarvänlighet, även lyckats så bra med de “hårdare” aspekterna som algoritmutveckling:

- För det första satsar vi fokuserat på högprestandasekvenseringsmarknaden nu, och därför tillhör algoritmutvecklingen vår kärnverksamhet. Många av de publicerade open source-algoritmerna är delar av doktorsavhandlingar eller andra projekt som avslutas, varefter algoritmen aldrig uppdateras. Vi jobbar däremot hela tiden vidare med att förbättra våra algoritmer.

- Naturligtvis hjälper det att vi – om jag får skryta lite grann – råkar ha algoritmutvecklare av yppersta världsklass som anställda.

- Sedan har vi implementerat våra algoritmer på SIMD-processorer som utför effektiva vektoroperationer, vilket gör att parallelliserbara beräkningar som den här sortens sekvensmatchning kan köras mycket snabbare.

CLC Bio har också lagt till bioinformatiska verktyg för att klara av att arbeta med metoder från den yttersta framkanten, som “paired-end-sekvensering” (då man sekvenserar båda ändarna av samma DNA-fragment) och sequence assembly (rekonstruktion av originalsekvens) utifrån de längre sekvensfragment man kan få ur 454-maskiner och på senare tid också Solexa och SOLiD.



Server främjar samarbete i organisationer


En ytterligare nyhet från företaget är en serverlösning som ska knyta ihop och underlätta arbetet i organisationer. Servern, som primärt är till för högprestandasekvenseringsdata, kan styras via ett webbinterface eller via CLCs Workbench-mjukvara.

- Ett vanligt problem i forskningsorganisationer är ett ineffektivt bollande av data mellan biologerna i labbet och bioinformatikerna, säger Forsberg.

- Biologen kan inte köra kommandoradsverktygen som behövs för dataanalysen, utan skickar data till bioinformatikern som behärskar dessa verktyg men är trött på att utföra relativt triviala uppgifter istället för att ägna sig åt forskningsfrågor.

- När biologen får tillbaka data är de kanske inte i det önskade formatet och de skickas tillbaka till bioinformatikern för att analyseras med nya parameterinställningar, och så fortsätter det så.

CLC Bio har sedan en tid tillbaka haft en SDK (mjukvaruutvecklingsmiljö) till sin Workbench, så att bioinformatikerna kan skriva applikationer som biologerna sedan kan komma åt via Workbench-gränssnittet. Applikationerna kan på så sätt delas ut till hela organisationen samtidigt. Biologerna kan själva leka runt med olika sätt att analysera data, vilket minimerar frustrationen från alla håll. Nu har man dessutom lagt till en SDK för servern, vilket ytterligare förenklar distributionen av applikationer.

- På sikt kommer vi nog att porta alla våra applikationer till serverlösningen, säger Roald Forsberg.

Bildkälla: CLC Bio
Kommentera en artikel
Utvalda artiklar

Nyhetsbrev

Sänd till en kollega

0.062