جدول محتوا
توالی یابی کل RNA یا اصطلاحا RNA-seq یک تکنولوژی بسیار پیشرفته می باشد که در افزایش بینش محققان در ترانسکریپتوم سلول نقش به سزایی داشته است. ظهور این تکنولوژی را می توان در اواخر قرن بیستم و اویل قرن بیست و یکم دانست که تلاش هایی برای جایگزینی این روش با روش توالی یابی سنگر (توالی یابی نسل اول) صورت گرفت و بعد ها این تکنولوژی با عنوان توالی یابی نسل جدید (NGS) نامگذاری گردید. اساس روش توالی یابی نسل جدید مبتنی بر تقویت کلونی مولکول DNA است که در آن میلیارد ها قطعه مختلف DNA به طور موازی و به صورت هم زمان توالی یابی می شوند و حجم عظیمی از داده ها تولید می گردد. تنوع ویژگی های توالی یابی نسل جدید این امکان را ایجاد می کند که چندین پلت فرم در بازار وجود داشته باشند. از مهمترین تکنولوژی های توالی یابی RNA می توان به پلتفرم های Illumina/Solexa، Pacific Biosciences، Ion Torrent و Oxford Nanopore اشاره کرد. امروزه توالی یابی RNA به دو روش Bulk و single cell انجام می شود. در روش Bulk محتوای RNA سلول های مختلف یک بافت توالی یابی می شوند و بنابراین نمونه مورد بررسی وضعیت هتروژنی از نظر محتوای سلولی دارد. اما در روش single cell، ابتدا تک سلول ها از بافت و یا نمونه جدا می شوند و سپس محتوای RNA هر سلول توالی یابی می شود. به طور کلی توالی یابی RNA در چهار مرحله ی استخراج RNA، قطعه قطعه کردن DNA، اتصال آداپتور و تعیین جهت گیری رشته، مرحله تقویت و اتصال برچسب های مولکولی تقسیم کرد. از مهمترین کاربردهای توالی یابی RNA می توان به تعیین پروفایل بیان mRNA، بررسی بیان اختصاصی آلل، بررسی همجوشی ژنی و RNA های خارج سلولی، شناسایی RNA های غیر کد کننده و تشخیص پاتوژن های میکروبی اشاره کرد.
حجم وسیع داده های تولید شده از توالی یابی کل RNA، از طریق دیتابیس های مختلفی در اختیار محققان قرار می گیرد. از مهمترین دیتابیس ها که داده های RNA-seq را ذخیره می کنند می توان به GEO، SRA، TCGA و ArrayExpress اشاره کرد. فرآیند آنالیز داده های توالی یابی RNA در پنج فاز کنترل کیفی، هم ترازی و مونتاژ کردن خوانش های توالی یابی، کمی سازی فراوانی ترانسکریپت ها، فیلتر کردن و نرمال سازی داده ها و تعیین بیان ژن ها انجام می گیرد. در این مقاله آموزشی قصد داریم تا به تفصیل به موضوع توالی یابی کل RNA بپردازیم.
مقدمه
اصطلاح Central dogma بیانگر مسیر گردش اطلاعات ژنتیکی در سیستم های بیولوژیک است و اینگونه بیان می کند که “DNA مولکول RNA را می سازد و از RNA پروتئین ساخته می شود“. بیان نهایی این اطلاعات ژنتیکی که توسط عوامل محیطی دستخوش تغییر قرار می گیرد، فنوتیپ موجود زنده را مشخص می کند. رونویسی دسته ای از ژن ها به مولکول های RNA خاص، نه تنها هویت سلول را مشخص می کند، بلکه فعالیت های بیولوژیکی درون سلول را نیز تنظیم می کند. مولکول های RNA به عنوان مولکول های میانجی گر در بین ژن ها و پروتئین ها شناخته می شوند. این مولکول های RNA در مجموع به عنوان ترانسکریپتوم شناخته می شوند و برای تفسیر عناصر عملکردی ژنوم، درک رشد و تکامل موجودات، درک فرآیند های فیزیولوژیک سلول و مکانیسم بیماری ها ضروری هستند. ترانسکریپتوم از درجه پیچیدگی بالایی برخوردار است و انواع مختلفی از گونه های RNA کد کننده و غیر کد کننده (lncRNA) را در بر می گیرد.
مولکول RNA پیامبر (mRNA) بیشترین گونه RNA مورد مطالعه هستند، زیرا پروتئین ها را از طریق کد های ژنتیکی رمزگذاری می کنند. علاوه بر mRNA های کد کننده ی پروتئین، گروه های مختلف عملکردی دیگری از RNAهای غیر کد کننده (ncRNA) وجود دارند. در گذشته، بیشتر ncRNAهای شناخته شده RNAهایی بودند که در عملکرد های پایه سلولی نقش داشتند. این RNAها شامل: RNAهای ریبوزومی (rRNA) و RNAهای انتقالی (tRNA)؛ که در ترجمه mRNA دخیل هستند، RNAهای کوچک هسته ای (snRNA)؛ که در فرآیند پیرایش RNA نقش دارند، و snoRNAها؛ که در فرآیند ویرایش rRNA نقش ایفا می کنند، هستند. اخیرا کلاس های جدیدی از RNAها کشف شده اند که باعث افزایش تنوع در گروه ncRNAها می شوند. به عنوان مثال می توان به RNAهای کوچک غیر کد کننده که شامل میکرو RNAها (miRNA) و piRNAها اشاره کرد که هر دو آن ها در تنظیم بیان ژن در سطح پس از رونویسی دخالت دارند. یکی دیگر از کلاس مهم از ncRNAها، RNAهای طویل غیر کد کننده (lncRNA) هستند. به عنوان یک کلاس عملکردی، lncRNAها برای اولین بار طی توالی یابی مقیاس بزرگ کتابخانه های cDNA در موش شناخته شدند. تعداد بی شماری از عملکرد های مولکولی برای lncRNAها شناخته شده اند که از جمله آن به تغییر در وضعیت کروماتین، کنترل رونویسی و پردازش پس از رونویسی می توان اشاره کرد. روش RNA-seq یک روش بسیار قدرتمند برای بررسی و آنالیز انواع گونه های RNA ذکر شده می باشد.
روش RNA-seq یک تکنیک شگفت آور می باشد که به منظور بررسی و مقدار سنجی بیان ژن ها در درون و یا بین وضعیت های مختلف استفاده می شود. از بدو ابداع این روش در اوایل سال 2000 تاکنون، داده های به دست آمده از آزمایش های توالی یابی RNA نقش عظیمی در درک ما از مولکول های RNA و عملکرد آن ها در تکامل حیوانات و گیاهان، اهمیت بیان ژن های افتراقی در طول سلامت و بیماری و نحوه واکنش افراد به درمان های دارویی ایجاد کرده اند. در ادامه قصد داریم تا به طور مفصل به تکنیک توالی یابی RNA بپردازیم.
تاریخچه
چندین سال پیش از شروع تلاش ها برای توالی یابی مولکول DNA، در سال 1964، رابرت هولی اولین شخصی بود که یک مولکول RNA را توالی یابی کرد. وی یک tRNA اختصاصی آلانین، که 77 ریبونوکلئوتید طول داشت، را توالی یابی کرد. اقدامات هولی، دریچه ی جدیدی را برای توالی یابی RNAهای دیگر و همچنین مولکول DNA گشود. پاول بِرگ در سال 1972، فناوری جداسازی قطعات تعریف شده DNA (قطعاتی که توالی آن ها از قبل مشخص است) را توسعه داد. پیش از این، تنها نمونه های قابل دسترس برای توالی یابی از فاژ ها یا DNA ویروس ها بودند. همچنین، کشف بِرگ منجر به پیشرفت مهندسی ژنتیک نوین شد. در سال 1973، اولین توالی نوکلئوتیدی 24 جفت باز از 27 جفت باز DNA اپران lac منتشر شد. در سال 1977، فردریک سنگر ژنوم DNA باکتریوفاژ φX174 را به طور کامل توالی یابی کرد. او همچنین توالی یابی DNA به روش مهار کننده ی خاتمه دهنده زنجیره را توسعه داد. علاوه بر این، در سال 1977 والتر گیلبرت تعیین توالی DNA به روش تجزیه ی شیمیایی را ایجاد کرد. پاول برگ، فردریک سنگر و والتر گیلبرت جایزه ی نوبل شیمی را در سال 1980 دریافت کردند.
در سال 1984 دانشمندان شورای تحقیقات پزشکی، توالی DNA اپشتاین بار ویروس (EBV)، که 172.282 جفت باز طول داشت، را با استفاده از روش dideoxynucleotide/M13 به طور کامل توالی یابی کردند. در سال 1986، لروی هود در انستیتو تکنولوژی کالیفرنیا از اختراع اولین دستگاه توالی یاب نیمه خودکار خبر داد. این دستگاه روش آنزیمی خاتمه دهنده زنجیره سنگر را برای تجزیه و تحلیل DNA، به طور خودکار انجام می داد و به ابزاری اصلی در نقشه برداری و تعیین توالی مواد ژنتیکی (DNA و RNA) تبدیل شد. در سال 1987، Applied Biosystems اولین دستگاه توالی یاب تمام خودکار، مدل ABI370 را به بازار عرضه کرد. پیشرفت های مداوم در این فناوری ها منجر به افزایش توانایی توالی یابی پرسرعت گردید که برای تحقیقات علمی پیشرفته در پروژه هایی مانند نقشه برداری از ژنوم انسان بسیار حائز اهمیت بود. در سال 1990، پروژه بین المللی ژنوم انسان به طور رسمی آغاز شد و انتظار می رفت که این پروژه 15 سال به طول بیانجامد. کشور هایی از جمله ایالات متحده ی آمریکا، انگلستان، فرانسه، آلمان، چین، ژاپن و هند در این پروژه مشارکت داشتند. با توجه به همکاری های گسترده ی بین المللی و پیشرفت های عظیم در زمینه ژنومیک (به ویژه در تجزیه و تحلیل توالی)، و پیشرفت در زمینه ی فن آوری محاسبات، پیش نویس اولیه ی پروژه ژنوم انسان در سال 2000 به پایان رسید (این واقعه به صورت مشترک توسط بیل کلینتون رئیس جمهور وقت ایالات متحده و تونی بلر نخست وزیر انگلیس در تاریخ 26 ژوئن 2000 به طور رسمی اعلام گردید). یافته های اصلی پیش نویس و اساسا ژنوم کامل در آوریل سال 2003 یعنی دو سال زودتر از تاریخ پیش بینی شده اعلام شد (حدودا 3/3 میلیارد جفت باز و تقریبا 23.000 ژن).
در اواخر قرن بیستم و اوایل قرن بیست و یکم، تلاش هایی در جهت توسعه روش های جدید برای جایگزینی با روش خودکار سنگر (معروف به توالی یابی نسل اول) انجام شد. از روش های جدیدتر با عنوان توالی یابی نسل دوم یا توالی یابی نسل جدید (NGS) یاد می شود و استفاده از آن ها باعث تغییر در رویکرد های علمی در مطالعات پایه و کاربردی در بسیاری از رشته های علمی و بویژه در بسیاری از شاخه های حوزه زیستی شده است. از پیشرفت های مهمی که با ظهور توالی یابی نسل جدید ایجاد شده است می توان به تولید حجم عظیمی از داده ها (در مواردی بیش از یک میلیارد خوانش کوتاه در هر اجرا) و همچنین توانایی آن در ارائه سریع، ارزان و دقیق اطلاعات ژنوم اشاره کرد.
اساس روش توالی یابی RNA
توالی یابی نسل اول شامل دو روش می باشد، روش سنگر و روش ماکسام گیلبرت. اساس روش سنگر، استفاده از روش خاتمه زنجیره است. در ابتدا هر دو روش به طور برابری پذیرفته شده بودند، اما در ادامه روش سنگر (روش خاتمه زنجیره) برای توالی یابی بیشتر مورد استفاده گرفت. در روش خاتمه زنجیره، با اضافه شدن دی دئوکسی نوکلئوتید ها (ddNTP ها)، زنجیره ی در حال رشد خاتمه می یابد. سپس قطعات با طول متنوع از مولکول DNA بر روی ژل های اسلب سنتی، الکتروفورز می شوند و الگوی باند های به دست آمده به منظور توالی یابی استفاده می شود. پس از آن، دی دئوکسی نوکلئوتید های برچسب شده (tag) با مواد فلورسنت تحت تاثیر لیزر در طول موج های مختلف برانگیخته می شوند و با استفاده از پرتو های ساطع شده توالی یابی صورت می گیرد. این روش می تواند خوانش هایی با حداکثر طولی در محدوده ی 800 تا 1000 جفت باز ایجاد کند. در این روش، فقط یک قطعه می تواند در یک لوله موئینه توالی یابی شود، به این معنی که خروجی یک اجرای توالی یابی سنگر برابر با طول قطعه توالی یابی شده است.
به طور متقابل، اساس روش توالی یابی نسل جدید، مبتنی بر تقویت کلونی مولکول DNA است که در آن میلیارد ها قطعه مختلف DNA به صورت همزمان و به طور موازی توالی یابی می شوند و داده های عظیمی تولید می کنند. برای تعیین توالی کل ژنوم ارگانیسم، قطعه قطعه سازی تصادفی توالی ها در محدوده سایز خاصی انجام می شود و سپس قطعات به آداپتور های الیگونوکلئوتیدی، که مخصوص پلتفرم مورد استفاده هستند، متصل می شوند و به دنبال آن توالی یابی به صورت مستقل و موازی انجام می شود. توالی یابی موازی سرعت توالی یابی را به شدت افزایش می دهد. توالی یابی نسل جدید توانایی تولید حجم گسترده ای از داده ها را از یک بار اجرا، با هزینه کم، مدت زمان بسیار کوتاه و بدون نیاز به استراتژی کلونینگ قطعه (که عمدتا در روش های معمول استفاده می شود) دارا می باشد. همانطور که مشهود است تفاوت زیادی در هزینه تعیین توالی ژنوم در سال 2001 (100 میلیون دلار) در مقایسه با هزینه سال 2017 (کمتر از 100 دلار) وجود دارد. توالی پیش نویس ژنوم انسانی با کمک روش خودکار سنگر در سال 2000 منتشر شد که نتیجه ی 13 سال تلاش دقیق پروژه بین المللی ژنوم انسان بود و 7/2 میلیارد دلار هزینه داشت. امروزه با استفاده از توالی یابی نسل جدید می توان کل ژنوم انسان را در مدت زمانی اندک و با هزینه ی کمتر از 1000 دلار تعیین توالی کرد.
انواع پلتفرم های توالی یابی RNA
تنوع ویژگی های توالی یابی نسل جدید این امکان را ایجاد می کند که چندین پلت فرم در بازار وجود داشته باشند که برخی از آن ها مزایای بیشتری نسبت به سایرین داشته و برای اهداف خاصی کاربرد دارند. پلتفرم های موجود از نظر مکانیسم توالی یابی مولکول های RNA، صحت و دقت توالی یابی، زمان و هزینه ی توالی یابی با یکدیگر متفاوت اند. در ادامه به مهترین پلتفرم ها در زمینه ی توالی یابی RNA پرداخته می شود.
1- پلتفرم Illumina/Solexa
پلتفرم Illumina/Solexa از روش توالی یابی به وسیله ی سنتز (SBS) استفاده می کند. فرآیند توالی یابی در این پلتفرم شامل تقویت کلونال قطعات DNA متصل به آداپتور در سطح یک اسلاید شیشه ای می باشد. بازها با استفاده از استراتژی cyclic reversible termination (خاتمه برگشت پذیر حلقوی) خوانش می شوند. در این روش، رشته ی الگو به صورت تک نوکلئوتیدی و از طریق سیکل های متوالی اتصال باز، شستشو، تصویر برداری و برش توالی یابی می شود. در این استراتژی، O-azidomethyldNTP-3’ های دارای برچسب فلورسنت برای متوقف کردن واکنش پلیمراز استفاده می شوند. O-azidomethyldNTP-3’ باعث حذف بازهای متصل نشده از واکنش می شود و امکان تصویر برداری فلورسنت را برای تعیین نوکلئوتید اضافه شده ممکن می سازد. به دنبال اسکن کردن flow cell (اسلاید مخصوص توالی یابی) با دوربین شارژ همراه (CCD)، بخش فلورسنت و بلوک ‘3 حذف می شود. در تمامی مدل های امروزی Illumina نرخ خطا کمتر از 1% است و معمول ترین نوع خطا مربوط به خطای جانشینی است.
2- پلتفرم Pacific Biosciences
پلتفرم Pacific Biosciences از روش SMRT استفاده می کند. برای آماده سازی الگو برای توالی یابی، یک آداپتور تک رشته ای سنجاق سری به انتهای مولکول های DNA یا cDNA هضم شده متصل شده و یک الگوی دارای سرپوش (معروف به SMRT-bell) ایجاد می شود. با استفاده از یک پلی مراز جابجا کننده ی رشته، می توان مولکول DNA اصلی را چندین بار توالی یابی کرد و بنابراین دقت توالی یابی افزایش می یابد. از آنجاییکه در این پلتفرم از تکثیر کلونال ممانعت می شود بنابراین امکان توالی یابی DNA دست نخورده فراهم می شود. سنتز DNA در محفظه هایی در اندازه زپتولیتر ،که ZMW نامیده می شوند، صورت می گیرد. یک مولکول پلی مراز در کف هر یک از ZMW ها قرار داده شده است. فیزیک این محفظه ها نویز پس زمینه را کاهش می دهد، به طوری که نسخه های برچسب شده با فسفات از هر چهار نوع نوکلئوتید به طور همزمان می توانند در آن وجود داشته باشند. بنابراین، پلیمریزاسیون به طور مداوم اتفاق می افتد و توالی DNA را می توان در طول زمان از سیگنال های فلورسنت ضبط شده در یک ویدیو خوانش کرد.
3- پلتفرم Ion Torrent
پلتفرم Ion Torrent توالی یابی را به روش استفاده از تشخیص یون پروتون انجام می دهد. در این پلتفرم، از emulsion-PCR برای تقویت کلونال قطعات DNA متصل به آداپتور در سطح بید ها استفاده می شود. بید ها متعاقبا در میکروسل توزیع می شوند و مشابه پلتفرم پلتفرم Illumina/Solexa توالی یابی به وسیله سنتز (SBS) اتفاق می افتد. تعیین توالی در نیمه رساناهای Ion Torrent، بر اساس سنجش تغییر PH ناشی از آزادسازی یون هیدروژن در طی گسترش توالی DNA انجام می شود. این تغییرات PH توسط یک سنسور که در کف میکروسل واقع شده است شناسایی می شوند و به سیگنال ولتاژ تبدیل می شوند. سیگنال ولتاژ متناسب با تعداد باز های ادغام شده است. افزودن متوالی نوکلئوتیدهای منفرد در طول هر چرخه توالی به تفکیک بازها کمک می کند. علاوه بر این، از آنجاییکه Ion Torrent از اسکن نوری برای تشخیص نوکلئوتیدها در طی چرخه های توالی یابی استفاده نمی کند، این تفاوت به طور چشمگیری سرعت اجرای توالی یابی را افزایش می دهد و باعث کاهش هزینه ها می شود.
4- پلتفرم Oxford Nanopore
پلتفرم Oxford Nanopore توالی یابی را با استفاده از نانو منفذها انجام می دهد. توالی یابی به روش نانو منفذ می تواند انواع مختلفی داشته باشد، اما اساسا بر انتقال DNA یا نوکلئوتیدهای منفرد از طریق یک کانال کوچک متکی است. در فناوری کنونی این پلتفرم، cell flow از هزاران میکرو چاهک مستقل تشکیل شده است که هر کدام دارای یک دولایه ی مصنوعی سوراخ شده با نانو منفذ بیولوژیکی هستند. توالی یابی در این روش با اندازه گیری تغییرات مشخصه جریان الکتریکی که در اثر ورود بازها به منفذ ایجاد می شود و به وسیله ی یک موتور پروتئین مولکولی سنجیده می شود، انجام می شود. آماده سازی کتابخانه، شامل قطعه قطعه کردن DNA و متصل کردن آداپتور به آن ها می باشد. دقیقا مشابه روش SMRT (Pacific Biosciences)، آماده سازی کتابخانه را می توان با تقویت به وسیله PCR یا بدون آن انجام داد. اولین آداپتور با یک آنزیم حرکتی و به کمک اتصال مولکولی متصل می شود؛ در حالی که آداپتور دوم یک الیگونوکلئوتید سنجاق سری است که توسط پروتئین حرکتی دوم که به اصطلاح HP (hairpin) خوانده می شود متصل می شود. این مدل طراحی کتابخانه امکان توالی یابی هر دو رشته ی DNA از یک مولکول را فراهم می کند که باعث افزایش دقت فرآیند توالی یابی می شود.
انواع روش های توالی یابی RNA
به طور کلی بر اساس نمونه ی مورد بررسی، توالی یابی RNA را به دو روش bulk و single-cell می توان تقسیم بندی کرد. توالی یابی RNA از بافت ها یا سلول ها به روش bulk یعنی استفاده از نمونه هایی که انواع مختف سلولی در آن وجود داشته باشند انقلابی را در درک ما از زیست شناسی ایجاد کرده است. به دلیل اینکه سلول های مختلفی در نمونه های bulk وجود دارند، نمی توان محتوای RNA یک سلول خاص را به طور جداگانه بررسی کرد. روش single-cell به کاربران کمک می کند تا فراتر از روش bulk پیش بروند و توالی یابی RNA محقق را قادر می سازند تا به پرسش های زیستی بسیار متفاوتی پاسخ دهند. توالی یابی به روش single- cell (که در آن محتوای RNA یا DNA یک سلول به طور جداگانه بررسی می شود)، باعث شناخت انواع سلول هایی شده است که ناشناخته بودند. از مثال های بارز در این زمینه، کشف یونوسیت ها می باشد که می توانند در آسیب شناسی سیستیک فیبروزیس نقش داشته باشند. اگرچه توالی یابی RNA به روش bulk به عنوان ابزاری غالب و با ارزش در آینده باقی خواهد ماند اما روش های آزمایشگاهی و تجزیه و تحلیل توالی یابی single-cell، به سرعت در حال افزایش کسب مقبولیت در بین محققان می باشد. در روشی دیگر که به توالی یابی RNA فضایی مشهور است می توان محل مولکول های mRNA در یک سلول مشخص کرد. با به بلوغ رسیدن روش های توالی یابی RNA فضایی به احتمال زیاد این روش نیز به بخشی از مجموعه ابزار های معمول توالی یابی RNA خواهد شد. هر دو روش ذکر شده (توالی یابی RNA فضایی و single-cell) توانایی ما را در بررسی پیچیدگی های ارگانیسم های چند سلولی بهبود می بخشند و احتمالا در آینده هر دو روش در ترکیب با روش bulk مورد استفاده قرار خواهند گرفت.
توالی یابی به روش Bulk
در حالی که توالی یابی مستقیم مولکول های RNA امکان پذیر است، بیشتر آزمایش های توالی یابی RNA دستگاه هایی انجام می شوند که به دلیل بلوغ فنی در ابزار های تجاری، برای توالی یابی مولکول های DNA طراحی شده اند. بنابراین مرحله ی آماده سازی cDNA از RNA یک مرحله ی ضروری برای فرآیند توالی یابی RNA است. همانطور که برای تقویت و توالی یابی در یک پلتفرم خاص نیاز است، هر cDNA در کتابخانه ی توالی یابی RNA از یک درج cDNA با اندازه ی خاصی تشکیل شده است که با توالی آداپتور احاطه گردیده است. روش آماده سازی کتابخانه ی cDNA بسته به گونه ی RNA مورد بررسی متفاوت است. این گونه های RNA می توانند از نظر اندازه، توالی، ویژگی های ساختاری و فراوانی با یکدیگر متفاوت باشند. برای انجام توالی یابی به این روش سه مرحله کلی وجود دارد: 1- استخراج RNA ( به دو روش انتخاب رونوشت های دارای پلی A و حذف مولکول های rRNA از نمونه قابل انجام است) 2- قطعه قطعه کردن 3- اتصال DNA آداپتور ها و تعیین جهت گیری رشته 4- مرحله تقویت (amplification) و برچسب های (tag) مولکولی
روش های توالی یابی که در بخش توالی یابی Bulk توضیح داده شد، به طور کلی برای تعیین توالی RNA با کمتر از 1 نانوگرم کارایی ندارند.
1- استخراج RNA
به طور معمول استخراج مولکول های RNA به صورت سالم مشکل می باشد. گروهی از آنزیم ها که RNase نام دارند، دارای قابلیت تخریب مولکول های RNA هستند. این آنزیم در محیط (برای مثال بر روی دست یا سطوح) به فراوانی وجود دارند. حذف این آنزیم های RNase مشکل می باشد بنابراین استخراج RNA نیاز به برخورد محتاطانه با نمونه ها و استفاده از تکنیک های آسپتیک دارند. استخراج RNA به روش های دستی و یا با استفاده از کیت های استخراج RNA صورت می گیرد که امروزه استفاده از کیت متداول تر می باشد. بر اساس نوع RNAای که قرار است استخراج گردد از دو رویکرد مختلف می توان استفاده کرد. رویکرد اول انتخاب رونوشت های دارای پلی A و رویکرد دوم حذف مولکول های rRNA از نمونه می باشد که در ادامه به هر یک خواهیم پرداخت.
الف: انتخاب رونوشت های دارای دم پلی A
توالی یابی RNAهای دارای دم پلی A، رایج ترین شکل انجام توالی یابی RNA می باشد. در ارگانیسم های یوکاریوتی، بیشتر RNAهای کد کننده ی پروتئین (mRNA ها) و بسیاری از RNA های طویل غیر کد کننده (lncRNA ها با طول بیش از 200 نوکلئوتید) حاوی دم پلی A هستند. وجود دم پلی A شرایط را برای خالص سازی RNA های دارای پلی A (که تقریبا 1-5 درصد کل RNA سلول را تشکیل می دهد) از تمام محتوای RNA سلول تسهیل می کند. RNAهای پلی آدنیله را با استفاده از پرایمر oligo-dT برای انجام رونویسی معکوس (RT) می توان انتخاب کرد. زمانی که هر دو مرحله ی انتخاب پلی A و RT در یک مرحله ترکیب می شوند، روش های مبتنی بر استفاده از پرایمر oligo-dT می توانند باعث ایجاد گرایش (bias) در ناحیه ی ’3 شوند، به این معنی که تعداد خوانش ها (reads) در ناحیه ’3 رونوشت بسیار زیاد می شود. علاوه بر این، oligo-dT می تواند به توالی های غنی از A در میانه ی رونوشت متصل شود (پدیده ای که به نام آغازگر داخلی پلی A یا internal poly-A priming شناخته می شود) و منجر به RT مغرضانه شود. در مجموع، بجز در مواردی که مقدار RNA نمونه کم می باشد، خالص سازی به روش پلی A یک روش انتخابی برای RNA های دارای پلی A می باشد.
ب: حذف مولکول های rRNA از نمونه
اغلب هدف پژوهش ها توالی یابی RNA های غیر پلی آدنیله مثل mRNA های پروکاریوتی، mRNA های قطعه قطعه شده از بافت های تثبیت شده با فرمالین و جاسازی شده در پارافین (FFPE) و رونوشت های پلی A در سلول های یوکاریوتی می باشند. یک مسئله ی مهم در توالی یابی این RNA ها، نحوه از بین بردن RNA های ریبوزومی (rRNA) می باشد که بیشترین گونه RNA در سلول می باشند اما علاقه چندانی برای توالی یابی آن ها وجود ندارد. چندین روش برای حذف rRNA ها از محتوای RNA استخراج شده وجود دارد. یکی از روش های از بین بردن rRNA ها، استفاده از کاوشگر های (probe) اختصاصی است که می توانند به rRNAها هیبرید شوند. rRNAها یا cDNA آن ها با DNA های بیوتینیله یا کاوشگر اسید نوکلئیک قفل شده (LNA) هیبرید می شوند و به دنبال آن حذف بوسیله ی بیدهای استرپتاویدین انجام می شود. rRNAها با الیگوهای DNA آنتی سنس هدف قرار می گیرند و به وسیله ی RNase H هضم می شوند. این روش به عنوان تخریب هدایت شده بوسیله ی کاوشگر (PDD) نیز شناخته می شود. روش دیگر برای کاهش دادن rRNA از نمونه استفاده از پرایمرهای خاص، یعنی پرایمرهای نه چندان تصادفی (NSR) که در طی فرآیند RT به مولکول های RNA مورد هدف متصل می شوند می باشد، و بنابراین از رونویسی معکوس آن ها جلوگیری می کنند. با این حال، مانند سایر روش های هدف قرار دادن، این روش نیز تحت تاثیر اتصال غیر اختصاصی توالی های غیر هدف می باشد. پرایمر های NSR اغلب در گونه های پروکاریوتی که جداسازی پلی A مطرح نیست، استفاده می شود.
2– قطعه قطعه کردن DNA
پس از انتخاب رشته های دارای دم پلی A یا حذف مولکول های rRNA، مولکول های RNA معمولا تا یک محدوده اندازه ی مشخصی قطعه قطعه می شوند. این فرآیند به دلیل محدودیت اندازه اکثر پلتفرم های توالی یابی ضروری می باشد. می توان RNA را به استفاده از محلول های قلیایی، محلول های حاوی کاتیون های دو ظرفیتی از جمله ++Mg و ++Zn، و یا آنزیم هایی چون RNaseIII قطعه قطعه کرد. قطعه قطعه کردن به وسیله ی محلول های قلیایی و یا محلول های حاوی کاتیون های دو ظرفیتی معمولا در دماهای بالا و در محدوده ی 70 درجه سانتی گراد انجام می شود تا تاثیر ساختار فضایی RNA بر فرآیند قطعه قطعه شدن را کاهش دهد. با این وجود، قطعه قطعه کردن RNA به روش شیمیایی کاملا تصادفی نیست. به طور مشابه، استفاده از RNaseIII نیز می تواند مغرضانه باشد، زیرا ترجیح آنزیم به توالی RNA های دو رشته ای می باشد. بنابراین، قطعه قطعه کردن نابرابر می تواند یک منبع گرایش محسوب گردد که منجر به بیان افتراقی در نواحی خاص از RNA می شود.
به عنوان روش جایگزین، RNA دست نخورده می تواند رونویسی معکوس شود و cDNA ایجاد شده را می توان قطعه قطعه کرد. یک روش سنتی برای قطعه قطعه کردن cDNA، استفاده از برش صوتی یا سونیکیشن است که نسبت به قطعه قطعه کردن RNA کمتر قابلیت خودکارسازی دارد. همچنین می توان از آنزیم DNase برای قطعه قطعه کردن cDNA استفاده کرد. روش های جدید مبتنی بر استفاده از ترانسپوزون (به اصطلاح tagmentation نامیده می شوند) می توانند قطعه قطعه کردن cDNA و اتصال آداپتور را به صورت همزمان انجام دهند. در این روش ها، یک واریانت فعال از ترانسپوزاز Tn5 قطعه قطعه کردن DNA دو رشته ای و اتصال آداپتورهای الیگونوکلئوتیدی در دو انتهای رشته را با سرعت بالایی (حدود 5 دقیقه) میانجی گری می کند. البته این نکته حائز اهمیت است که استفاده از Tn5 و سایر روش های مبتنی بر آنزیم نیاز به تعیین دقیق نسبت آنزیم به DNA دارند. در نتیجه، در حال حاضر قطعه قطعه کردن RNA بیشترین روش مورد استفاده در تهیه کتابخانه توالی یابی RNAاست.
3– اتصال آداپتورها و تعیین جهت گیری رشته
در یک پروتکل استاندارد تهیه کتابخانه، مولکول های cDNA با سایز مطلوب، که از طریق رونویسی معکوس قطعات RNA تکه تکه شده با استفاده از پرایمر های هگزامر رندوم یا از طریق قطعه قطعه کردن cDNA دست نخورده ایجاد شده اند، قبل از فرآیند تقویت کلونال و تعیین توالی به آداپتور های DNA متصل می شوند. در عین سادگی یکی از معایب این روش این است که مشخص نمی کند کدام رشته DNA با رشته سِنس (Sense) از RNA مطابقت دارد. فقدان اختصاصیت رشته، شناسایی گونه های RNA آنتی سنس و گونه های جدید RNA را دشوار می کند و باعث اندازه گیری غیر دقیق RNA سنس می شود. روش های مختلفی برای دستیابی به جهت RNA در کتابخانه های cDNA ایجاد شده اند. یکی از این روش ها، شامل اتصال مستقیم آداپتور به انتهای ’3 و ’5 مولکول RNA است. این روش با حذف گروه فسفات از انتهای ’3 مولکول RNA قطعه قطعه شده و اضافه کردن یک فسفات به انتهای ’5 آغاز می شود. به دنبال این مرحله، پیوند های پی در پی از یک آداپتور ’3 که در ناحیه ’5 آدنیله است با استفاده از RNA لیگاز II کوتاه شده و اتصال یک آداپتور ’5 بوسیله ی RNA لیگاز I اتفاق می افتد. تفاوت در توالی آداپتور های ’3 و ’5، تفکیک پذیری رشته های RNA را حفظ می کند. در حالی که اجرای این روش ساده است، اما دچار گرایشات ناشی از تاثیر هر دو توالی انتهای ’3 و ’5 بر مراحل متصل شدن می شود. اخیرا این مشکل با استفاده از نوکلئوتید های تصادفی در انتهای چسبان هر آداپتور برطرف شده است.
4– مرحله تقویت و برچسب های مولکولی
با توجه به محدودیت تشخیص بسیاری از توالی یاب ها، کتابخانه های cDNA باید قبل از تعیین توالی تقویت شوند. با وجود اینکه طی فرآیند PCR تعداد کمی از سیکل های تقویت استفاده می شوند، تغییرات در اندازه و ترکیب cDNA می تواند منجر به تقویت نامتوازن شود. در حالی که بعضی cDNAها به صورت پلاتو تقویت می شوند، برخی دیگر به صورت تصاعدی تقویت می شوند. برای حل گرایش ایجاد شده، روش هایی برای حذف نسخه های تکراری PCR از نتایج توالی یابی ایجاد شده اند. در یکی از روش ها، با فرض قطعه قطعه بودن RNAها به صورت رندوم، خوانش های نهایی توالی یابی که دارای مختصات شروع و پایان یکسان هستند به عنوان تکرارهای PCR (از یک توالی) در نظر گرفته می شوند و ادغام می شوند. روش دیگر برای تشخیص محصولات PCR، استفاده از برچسب های مولکولی است که به عنوان شناسه های مولکولی منحصر به فرد (UMI) نیز شناخته می شوند. برچسب های مولکولی معمولا قبل از تقویت با PCR و در توالی آداپتور اضافه می شوند. انواع برچسب های مولکولی از نظر اندازه (تعداد بازها) و پیچیدگی متفاوت هستند. توالی های UMI، در اصل از توالی های مشخص شده و یا نوکلئوتید های رندوم تشکیل شده اند. ساخت توالی های مشخص شده به منظور ایجاد UMI به دلیل پیچیدگی های انتخاب توالی و تولید مشکل است. در طرف مقابل، به کارگیری توالی های تصادفی ساده می باشد و تنوع بالایی در بین برچسب های مولکولی ایجاد می کند. برچسب گذاری مولکولی به ویژه در شرایطی که RNA مورد نظر نادر است و تعداد زیادی چرخه PCR برای توالی یابی نیاز است حائز اهمیت می باشد.
توالی یابی به روش Single
توالی یابی از جمعیت های سلولی مختلف در یک نمونه، منجر به ایجاد پروفایل بیانی می شود که از سلول های مختلف میانگین گرفته شده است. یک نمونه ی bulk دارای جمعیت ها و زیر جمعیت های مختلفی سلولی است که با تجزیه و تحلیل مبتنی بر جمعیت ها قابل جدا سازی نیستند. علاوه بر این زمانی که توالی یابی در تجمعی از سلول ها انجام شود، الگو های هم بیانی بین ژن ها در یک سلول از بین می روند. بنابراین، درک بیان ژن در سطح تک سلولی برای بدست آوردن تصویر کاملی از تنظیم ژن در سلول ها مهم است. چالش های عمده در آنالیز های تک سلولی شامل جداسازی تک سلول ها، روش های حساس برای تهیه کتابخانه های cDNA با حجم کم RNA ورودی و استفاده از روش های محاسباتی متناسب با تجزیه و تحلیل تک سلول ها می باشد.
یک سلول منفرد از پستانداران تقریبا حاوی 5-15 پیکوگرم RNA است. بنابراین برای توالی یابی Single، نیاز به تقویت گونه های RNA یا DNA استخراج شده از سلول ها می باشد. برخی روش ها مثل روش CEL-Seq و MARS-Seq از توالی پروموتر T7 و الیگو dT در طی فرآیند رونویسی معکوس استفاده می کنند که امکان تقویت خطی RNA ورودی را با رونویسی در محیط آزمایشگاه فراهم می کند. سنتز cDNA رشته دوم با تعویض الگو در رونویسی معکوس و دنباله پلی A افزایش می یابد. البته این روش ها اطلاعات خاص هر رشته را فراهم نمی کنند، زیرا cDNA به صورت متوالی قطعه قطعه شده و به سری دوم آداپتورها متصل می شود.
به دلیل استفاده زیاد از فرآیند تقویت برای آماده سازی کتابخانه، برچسب های مولکولی برای شناسایی محصولات بیش از حد تقویت شده PCR در توالی یابی Single از اهمیت ویژه ای برخوردار هستند. علاوه براین، از بارکد هایی برای برچسب گذاری سلول ها نیز استفاده می شود که امکان تهیه همزمان کتابخانه از چندین سلول را فراهم می کند. با توجه به این نکات، اخیرا روش های آنالیز تک سلولی، از بید هایی که روی آن ها ساختار های الیگونوکلئوتیدی قرار دارند به منظور انتقال دادن بارکد به سلول ها و mRNA ها به طور همزمان استفاده کرده اند (CytoSeq) و یا در روش های دیگر، سلول هایی را که بارکد های مختلف دارند در قطرات آب به صورت جداگانه تفکیک کرده اند (Drop-seq و inDrop).
فن آوری های پیشرفته برای تعیین ترانسکریپتوم در درون سلول ها، با ارائه اطلاعات مکانی بیان RNA در حال توسعه هستند. در یک روش (روش TIVA)، از برچسب های بیوتین به سلول های موجود در بافت و به دنبال آن فعال کردن این برچسب ها بوسیله لیزر هایی که سلول های برچسب شده را هدف قرار می دهند استفاده می شود. لیزر قطعات پلی U را در سطح برچسب های بیوتینه فعال می کند و آن ها را قادر می سازد تا به مولکول های mRNA در سلول هدف متصل شوند.
کمپانی های ارائه دهنده پلتفرم های توالی یابی RNA
توالی یابی نسل جدید یکی از تکنیک هایی است که امروزه توجه بسیاری از محققان را به خود جلب کرده است و امروزه شاهد استفاده فراوان از این تکنیک در مطالعات زیستی مختلفی هستیم. تخمین زده می شود بزرگی مارکت توالی یابی بر اساس توالی یابی نسل جدید از عدد 1.7 میلیارد دلار در سال 2019 به عدد 4.2 میلیارد دلار در سال 2024 رشد یابد که نشان دهنده ی افزایش گرایش دانشمندان به سوی این تکنیک پرکاربرد می باشد. از مهمترین کمپانی ها در این زمینه به کمپانی های Illumina/Solexa، Ion Torrent، Pacific Bioscience و Oxford Nanopore می توان اشاره کرد. کمپانی Illumina/Solexa در سال 2006، از توالی یاب خود با نام Genome Analyzer II رونمایی کرد. در طی سال های متمادی، پیشرفت های فناوری Illumina باعث ایجاد پیشرفت چشمگیری در زمینه تولید و کاهش هزینه ها در زمینه ی توالی یابی شده است. در نتیجه، امروزه ماشین های Illumina بخش غالب بازار توالی یابی با توان بالا (High throughput sequencing یا HTS) را در دست دارند. در حال حاضر کمپانی Illumina مجموعه ای از توالی یاب ها (NextSeq 500، MiSeq و سری HiSeq) را با توان های عملیاتی و زمان اجرای متفاوت تولید می کند. MiSeq به عنوان یک توالی یاب سریع و شخصی طراحی شده است که زمان اجرای آن کمتر از 4 ساعت است و خروجی آن برای تعیین توالی های هدفمند و توالی یابی ژنوم های کوچک در نظر گرفته شده است. از طرف دیگر، HiSeq 2500 برای کاربری های با توان بالا مهندسی شده است و قادر است در زمان 6 روز بیش از 1 ترابایت خروجی داده تولید کند. مدل های جدید HiSeq 2500 را می توان در حالت سریع نیز اجرا کرد که البته مقرون به صرفه نیست، اما می تواند ژنوم انسانی 30X (30 برابر) در مدت 27 ساعت تولید کند. در سال 2014، کمپانی Illumina محصولات جدید NextSeq 500 و همچنین HiSeq X Ten را به بازار معرفی کرد. ماشین های Illumina خطای کمتر از 1% در زمینه ی توالی یابی دارند که باعث افزایش کاربری توالی یاب های این کمپانی شده است.
Life Technologies در سال 2010 فناوری توالی یابی نیمه هادی Ion Torrent را به صورت توالی یاب Ion PGM به بازار عرضه کرد. از نظر مفهومی، مراحل آماده سازی و تعیین توالی الگو در این ماشین مشابه پلتفرم Roche/454 Pyrosequencing است. Ion Torrent ماشین دوم خود را در سال 2012 و با نام Ion Portion به بازار عرضه کرد که خروجی بیشتری نسبت به PGM داشت (1 گیگابایت در برابر 10 گیگابایت). PGM بیشتر برای پروژه های توالی یابی هدفمند مناسب می باشد در حالی که Portion توانایی توالی یابی اگزوم و آنالیز ترانسکریپتوم کامل را دارا می باشد.
ماشین توالی یاب کمپانی Pacific Biosciences با نام RSII در سال 2010 به بازار ارائه شد. این ماشین برای توالی یابی از فناوری ZMWها استفاده می کند. خطای پلت فرم های مختلف این شرکت حدود 11% می باشد. تعیین توالی مبتنی بر نانو منفذها یک استراتژی تک مولکولی ابتکاری است که در سال های اخیر پیشرفت چشمگیری داشته است و کمپانی Oxford Nanopore توسعه دهنده این تکنولوژی می باشند. در سال 2014، Oxford Nanopore اولین دستگاه تجاری خود را با نام MinIon را به بازار عرضه کرد که این توالی یاب مشابه یک USB قابل حمل بود. با یک بار اجرای 18 ساعته، این دستگاه بیش از 90 مگابایت بر ثانیه داده از حدود 16.000 خوانش تولید می شود. مشابه سایر روش های تعیین توالی تک مولکولی، میزان خطا در این روش نیز زیاد است.
آنالیز داده های توالی یابی RNA
فرآیند آنالیز داده های توالی یابی RNA در پنج فاز زیر انجام میگیرد.
- 1-کنترل کیفی
- 2- هم ترازی و مونتاژ کردن خوانش های توالی یابی
- 3-کمی سازی فراوانی ترانسکریپت ها
- 4-فیلتر کردن و نرمال سازی داده ها
- 5-تعیین بیان ژن ها
در ادامه به هر یک از این بخش ها پرداخته خواهد شد.
1- فاز اول: کنترل کیفی
از آنجا که توالی یابی RNA یک فرآیند پیچیده و چند مرحله ای، شامل تهیه نمونه، قطعه قطعه کردن توالی ها، خالص سازی، تقویت و توالی یابی می باشد، بنابراین شناسایی و تعیین کمیت همه گونه های RNA از توالی قرائت شده ساده نیست. به همین دلیل، توالی یابی RNA بررسی کیفیت خوانش ها نه تنها مرحله اول از فرآیند آنالیز داده های توالی یابی RNAمی باشد، بلکه یک مرحله بسیار مهم پیش از مرحله ی آنالیز نتایج می باشد. غالبا برای کسب اطمینان از بدست آوردن نتایج نهایی منسجم فیلتر کردن داده ها، از بین بردن توالی ها یا آداپتور های بی کیفیت، حذف آلودگی ها و توالی های بیش از حد بیان شده ضروری است. مجموعه ای از ابزارها به منظور انجام فرآیند کنترل کیفیت و به نمایش درآوردن گرافیکی کیفیت خوانش ها در دسترس هستند. از بهترین ابزار ها در این زمینه می توان به نرم افزارهای FastQC و HTQC اشاره کرد. اخیرا ابزار هایی با انعطاف پذیری بیشتر برای پیش پردازش نتایج توسعه یافته اند. Trimmomatic ابزاری است که برای حذف آداپتورها و نیز اسکن و اصلاح بازهای خوانش شده با امتیاز کیفیت پایین و باز های N با کیفیت پایین، به منظور افزایش کیفیت خوانش ها طراحی شده است. پیش از هم ترازی با ژنوم مرجع، داده های توالی یابی RNA می توانند تحت پیش پردازش بیشتری قرار گیرند، تا انتظارات را در مرحله هم ترازی بهتر برآورده سازند. ابزارهای مختلفی به این منظور طراحی شده اند که یکی از آن ها BBMerge از پکیج BBMap می باشد که خوانش های جفت شده را براساس همپوشانی ها ادغام می کند تا خوانش های طولانی تری ایجاد شوند.
2– فاز دوم: هم ترازی و مونتاژ کردن خوانش های توالی یابی
زمانی که فرآیند توالی یابی و کنترل کیفیت به پایان رسید، روند آنالیز داده های خام آغاز می شود. داده خام حاصل از خوانش های توالی یابی معمولا با فرمت fastq به پژوهشگر ارایه می شود. اولین گام در محله پردازش (processing) این داده ها، هم تراز کردن خوانش های خام با ترانسکریپتوم مرجع (یا یک ژنوم حاشیه نویسی شده) و تبدیل آن به یک یا چند مختصات ژنومی متناظر می باشد. این فرآیند معمولا با استفاده از الگوریتم های هم ترازی از قبیل TopHat، STAR و HISAT2، انجام می شود. به دلیل اینکه cDNA توالی یابی شده از RNA مشتق شده است (که دارای اگزون ها می باشد)، زمانی که بوسیله ی این ابزار ها با ژنوم مرجع مقایسه می شود (که شامل اینترون ها و اگزون ها است)، همترازی صورت می گیرد اما باعث ایجاد شکاف در خوانش ها می شود.
اگر هیچ حاشیه نویسی ژنومی با کیفیت بالا که حاوی مرزهای مشخص اگزون ها باشد وجود نداشته باشد، یا اگر بخواهید خوانش ها را به جای ژن ها، با رونوشت ها (ترانسکریپت) هم تراز کنید، هم تراز کردن خوانش ها باید با یک مرحله ی مونتاژ ترانسکریپتوم همراه باشد. ابزارهای مونتاژ مانند StringTie و SOAPdenovo-Trans از شکاف های مشخص شده در تراز ها برای بدست آوردن مرزهای اگزونی و نواحی احتمالی پیرایش استفاده می کنند. این ابزارهای جدید مونتاژ کردن، خصوصا زمانی کاربرد دارند که حاشیه نویسی ژنوم مرجع وجود نداشته یا ناقص باشد، و یا ترانسکریپ های نابجا (برای مثال در بافت های توموری) مد نظر باشند. با تمامی این توصیفات، مونتاژ کردن کامل و از نو ترانسکریپتوم از داده های توالی یابی RNA، معمولا برای مشخص کردن ژن های افتراقی (DEG) لازم نیست. اخیرا ابزارهای هم ترازی مثل Kallisto، Sailfish و Salmon طراحی شده اند که از نظر محاسباتی بسیار موثرتر از سایر ابزارها هستند و خوانش های توالی یابی را به طور مستقیم با ترانسکریپت ها مرتبط می کنند. این ابزارها عملکرد خوبی را در شناسایی ترانسکریپت هایی که فراوانی زیادی دارند (و همچنین ترانسکریپت های طویل تر) از خود نشان داده اند، در حالی که در تعیین ترانسکریپت هایی که مقدار کمی دارند و یا کوتاه هستند، دقت پایینی دارند.
3– فاز سوم: کمی سازی فراوانی ترانسکریپت ها
پس از این که محل خوانش ها در سطح ژنومیک و یا ترانسکریپتومیک مشخص شد، مرحله ی بعد در فرآیند آنالیز به این ترتیب است که آن ها را به ژن ها و ترانسکریپت های مربوطه اختصاص دهیم تا اندازه فراوانی آن ها را مشخص کنیم. مطالعات مختلفی نشان داده اند که روش مورد استفاده برای مرحله ی کمی سازی، بیشترین تاثیر را بر نتایج نهایی آنالیز خواهد داشت و حتی اثر آن بیشتر از انتخاب ابزارهای هم ترازی می باشد. کمی سازی فراوانی خوانش ها برای هر ژن منفرد (یعنی تمام ایزوفرم های رونویسی شده برای یک ژن)، به معنی شمارش خوانش های توالی است که با ژن شناخته شده همپوشانی دارند. در این فرآیند از حاشیه نویسی ترانسکریپتوم استفاده می شود. با این حال، اختصاص دادن خوانش ها به ایزوفرم های خاص با استفاده از خوانش های کوتاه به یک مرحله ی تخمین زدن نیاز دارد، زیرا بسیاری از خوانش ها مناطق اتصال اگزونی را پوشش نمی دهند و بنابراین نمی توان به طور قطعی آن ها را به یک ایزوفرم خاص اختصاص داد. حتی در مواردی که فقط میزان تغییر بیان در سطح ژنی مورد بررسی قرار می گیرد، تفاوت کمّی در ایزوفرم ها، ممکن است در رابطه با ژن هایی که بیان اولیه خود را بین ایزوفرم های با طول مختلف تقسیم می کنند، منجر به نتایج دقیق تر شود. برای مثال، اگر ایزوفرم اولیه در یک گروه نمونه دارای نیمی از طول آن در گروه نمونه دیگر باشد، اما با نرخ دو برابر بیان شود، صرفا کمی سازی مبتنی بر ژن قادر به تشخیص بیان افتراقی این ویژگی نخواهد بود.
معمول ترین ابزارهای مورد استفاده برای کمی سازی شامل RSEM، CuffLinks، MMSeq و HTSeq هستند. ابزارهای مبتنی بر شمارش خوانش ها مثل HTSeq، بسیاری از خوانش های تراز شده، از جمله مواردی را که چند نگاشت هستند و یا با چند فیچر همپوشانی دارند، را به طور کلی از بین می برند. در نتیجه ترانسکریپت های همولوگ و یا همپوشان ممکن است از ادامه آنالیز ها حذف شوند. RSEM با استفاده از حداکثر انتظار، ایزوفرم های جدید هر ترنسکریپت را تشخیص می دهد. در حالی که روش های هم ترازی بدون مرجع مانند Kallisto، این خوانش ها را در تخمین فراوانی ترانسکریپت خود قرار می دهد که می تواند باعث ایجاد گرایش در نتایج شود. نتایج کمی سازی معمولا به صورت یک ماتریس بیان که هر سطر آن مربوط به یک ویژگی (ژن یا ترانسکریپت) و هر ستون آن مربوط به یک نمونه است و مقادیر آن تعداد واقعی خوانش ها و یا فراوانی تخمینی را نشان می دهند، نشان داده می شوند.
4– فاز چهارم: فیلتر کردن و نرمال سازی داده ها
به طور معمول، تعداد کمی از ژن ها یا ترانسکریپت ها فیلتر و نرمال سازی می شوند تا تفاوت های ناشی از عمق خوانش در هر نمونه، الگوهای بیان و تفاوت های تکنیکال تا حد ممکن پیش از مرحله تعیین تغییر بیان ژن ها برطرف شوند. نشان داده شده است که فیلتر کردن برای حذف ژن ها یا ترانسکریپت هایی که به طور یکنواخت میزان خوانش کمی دارند (برای مثل یک ژن در چند نمونه بیان پایینی داشته باشد) می تواند به بهبود تشخیص ژن های تغییر بیان یافته واقعی کمک کند. روش های نرمال سازی ماتریس بیان می توانند پیچیده تر از مرحله فیلتر کردن باشند. تغییرات مستقیم بر داده ها می توانند مقادیر فراوانی را تنظیم کنند تا تفاوت های موجود در محتوای GC و عمق خوانش را برطرف کنند. از روش های اولیه ای که برای اینکار استفاده می شدند، مانند RPKM، امروزه کارایی خود را از دست داده اند و با روش هایی جایگزین شده اند که تفاوت های ظریف بین نمونه ها را اصلاح می کنند مثل نرمال سازی چهارک یا نرمال سازی میانه انتخاب روش های نرمال سازی می تواند تاثیر عمده ای بر نتایج نهایی و نتیجه گیری های زیستی داشته باشد. بیشتر روش های نرمال سازی محاسباتی بر دو فرض اصلی متکی هستند: اول اینکه سطح بیان بیشتر ژن ها در گروه های تکراری یکسان است و دوم، گروه های مختلف نمونه تفاوت معنی داری در سطح کلی mRNA نشان نمی دهند. زمانی که این دو اصل اولیه صحیح نباشند، باید تصمیم گرفت که 1- آیا نیازی به انجام نرمال سازی داده ها وجود دارد 2- و همچنین به چه روشی باید آن را انجام داد. برای مثال، اگر گروهی از ژن ها در گروه اول نمونه ها بیان بالایی داشته باشند، در حالی که همان ژن ها به علاوه دسته دیگری از ژن ها در گروه دوم بیان بالا داشته باشند، نرمال سازی ساده برای عمق خوانش ها در شرایطی که همان تعداد خوانش توالی در تعداد بیشتری از ژن های بیان شده در گروه دوم نمونه ها توزیع شده است، کفایت نمی کند. فرآیندهای نرمال سازی مثل روش TMM می توانند این مشکلات را جبران کنند. تعیین مناسب بودن روش نرمال سازی انتخاب شده می تواند دشوار باشد. یک گزینه پیشنهادی این است که با چندین روش تجزیه و تحلیل انجام شود و سپس نتایج مقایسه شوند. اگر نتایج نهایی بسیار حساس به روش نرمال سازی باشند، برای تعیین منشاء اختلافات باید آنالیزهای بیشتری بر داده ها انجام گیرد.
5– فاز پنجم: مدل های تعیین بیان ژن
زمانی که پردازش ها بر روی خوانش توالی ها در ماتریس بیان انجام شد، می توان تعیین کرد که کدام ترانسکریپت ها یا ژن ها بین گروه های مورد مطالعه تغییر بیان داشته اند. ابزارهای متعددی برای تحقق این هدف استفاده می شوند؛ برخی از آن ها سطح بیان ژن ها و برخی دیگر سطح بیان ترانسکریپت ها را تخمین می زنند. ابزار هایی که در سطح ژن (و نه ترانسکریپت) عمل می کنند، بر تعداد خوانش های هم تراز شده متکی هستند و از مدل های خطی کلی استفاده می کنند که ارزیابی آزمایش های پیچیده را مقدور می سازد. از مهمترین این ابزار ها به DESeq2، edgeR و limma–voom می توان اشاره کرد که از نظر محاسباتی بسیار کارآمد هستند و نتایج قابل مقایسه ای را ارائه می دهند. از ابزارهایی که تغییر بیان ایزوفرم ها را بررسی می کنند می توان به CuffDiff، MMSEQ و Ballgown اشاره کرد که به قدرت محاسباتی بیشتری احتیاج دارند و در نتایج حاصل شده شان نیز متفاوت تر هستند. باید توجه کرد که انتخاب های انجام شده قبل از بکارگیری این ابزارهای تعیین ژن های افتراقی، مثل ابزارهای هم ترازی، کمی سازی، فیلتر کردن و نرمال سازی تاثیر بیشتری در واریانس کلی نتایج نهایی خواهد داشت.
پایگاه های داده و ذخیره سازی داده های توالی یابی RNA
با افزایش روز افزون مطالعات در زمینه ی توالی یابی RNA، حجم وسیعی از داده تولید می شود که نیاز به ذخیره سازی و سازماندهی دارند تا محققان بتوانند با استفاده از کامپیوتر شخصی خود به راحتی به آن ها دسترسی یابند. این داده ها در قالب پایگاه های داده ذخیره می شوند که از مشهورترین آن ها به SRA، GEO، TCGA، ENA و ArrayExpress می توان اشاره کرد که در ادامه به هریک پرداخته می شود.
SRA یک منبع بایگانی عمومی بین المللی برای داده های NGS می باشد که تحت نظارت INSDC تاسیس شده است. داده های ثبت شده SRA توسط مرکز ملی اطلاعات بیوتکنولوژی (NCBI)، انستیتو بیوانفورماتیک اروپا (EBI) و بانک داده های DNA ژاپن (DDBJ) اداره می شوند. هدف INSDC حفظ داده های توالی یابی عمومی و فراهم کردن دسترسی آزاد و بدون محدودیت دائم به این داده ها است. ارسال داده های دسترسی مجاز، مانند نمونه های انسان که تحت توافق نامه های اخلاقی تعیین توالی شده اند، باید از طریق dbGAP در NCBI و یا EGA در EBI انجام شود. داده های ارسالی به dbGAP یا EGA جزء بخش عمومی SRA محسوب نمی شوند. با این حال، فراداده های 69 سطح بالا از طریق SRA در دسترس قرار می گیرند.
اطلس ژنوم سرطان (TCGA) یک پروژه مشترک بین موسسه ملی سرطان (NCI) و موسسه ملی تحقیقات انسانی (NHGRI) می باشد. پروژه TCGA به عنوان یک طرح آزمایشی در سال 2006 با سه نوع سرطان ریه، تخمدان و گلیوبلاستوما آغاز شد. در دهه ی اخیر TCGA، داده های بیش از 11.000 کیس از 33 نوع تومور مختلف جمع آوری کرده است و یک مجموعه دیتاست گسترده را ایجاد کرده است که تغییرات مولکولی در سرطان را توصیف می کند. جمع آوری نمونه بافت و تولید داده به ترتیب در سال های 2013 و 2016 به پایان رسید. دیتاست های TCGA به حدی غنی است که محققان را قادر ساخته است تا تغییرات ژنومی و مولکولی خاصی را که در سرطان اتفاق می افتد فهرست بندی کنند، طبقه بندی معنا دار تری از انواع سرطان و زیر گروه ها را تعریف کنند و حتی به سوالاتی که در ابتدای پروژه تصور نمی شدند، مانند استخراج داده ها برای کشف ویروس های جدید و سایر عوامل میکروبی، پاسخ دهند. مقالات نشانگر TCGA به عنوان منابع اضافی برای درک ویژگی های مولکولی این سرطان ها مورد استفاده قرار می گیرند.
ENA یک بستر باز و پشتیبانی شده برای مدیریت، اشتراک گذاری، یکپارچه سازی، بایگانی و انتشار داده های توالی یابی می باشد. ENA شامل منابع جامع داده های جهانی است که خروجی داده های توالی یابی را در دامنه عمومی حفظ می کند و مجموعه گسترده ای از ابزارها و خدمات را برای پشتیبانی از داده های توالی یابی شامل می شود.
GEO یک از معروف ترین پایگاه های داده در زمینه ی توالی یابی می باشد که در سال 2000 توسط NCBI (مرکز ملی اطلاعات زیست فناوری آمریکا) تاسیس گردیده است تا بدون هیچ محدودیتی و بدون نیاز به ثبت نام در سیستم، اجازه دسترسی رایگان به داده های ذخیره شده را به کاربران در سراسر جهان بدهد. در تاریخ نوشتن این متن، این پایگاه داده محتوی داده های 4,402,599 نمونه بررسی شده است که حدودا 2,275,246 نمونه آن، نمونه های انسانی می باشند. این داده ها دارای مضامین مختلف زیستی مثل بیماری، متابولیسم، تکامل، سم شناسی، ایمنی، محیط زیست، تراریخته و … می باشند. داده های ارائه شده توسط ارسال کنندگان با سه موجودیت متفاوت یعنی پلتفرم (platform)، مجموعه داده (dataset) و dataseries در GEO ذخیره می شوند. پلتفرم به روش های مختلف توالی یابی اشاره دارد که مواردی مانند توالی یابی RNA، توالی یابی کل ژنوم، توالی یابی کل اگزوم و … را شامل می شود. هر پلتفرم با واژه GPL و یک عدد عدد 5 رقمی تشکیل شده است. مثلا GPL18573 مربوط دستگاه توالی یابی Illumina NextSeq-500 می باشد. مجموعه داده در واقع به مجموعه ای ساختارمند از داده های مختلف اشاره دارد که از اِلِمان های مختلفی تشکیل شده اند ولی به طور واحد، دسته بندی و آنالیز می شوند. هر پروژه توالی یابی ممکن است داده های یک یا تعداد بیشتری نمونه را شامل شود که در مجموع تحت عنوان یک dataseries به پایگاه داده GEO معرفی می شود. بنابراین، dataseries برای هر پروژه منحصر به فرد بوده و با ذخیره آن، به راحتی می توان در پایگاه داده GEO به اطلاعات پروژه دسترسی یافت. این کد از سه حرف GSE و یک عدد چندرقمی تشکیل شده است.
ArrayExpress یکی دیگر از پایگاه های داده ی عمومی برای ذخیره سازی داده های میکرواری و توالی یابی است که توسط موسسه ی بیوانفورماتیک اروپا (EBI) در سال 2002 تاسیس شده است و می توان آن را نسخه ی اروپایی GEO در نظر گرفت. بالاترین سطح طبقه بندی داده در ArrayExpress، آزمایش نامگذاری شده است. یک آزمایش معمولا چندین روش سنجش مربوط به یک مطالعه یا نشریه را گروه بندی می کند. همچنین هر آزمایش شامل فراداده هایی می باشد که اطلاعات نمونه های زیستی، پروسه ی انجام آزمایش و فایل داده های آزمایش را در بر می گیرند. در تاریخ نوشتن این متن، 74,319 آزمایش مختلف در این پایگاه داده ذخیره شده اند.
کاربردهای توالی یابی
تکنولوژی توالی یابی با توان بالا امروزه به طور گسترده ای در بیولوژی مورد استفاده قرار می گیرد. توالی یابی RNA یکی از متد های توالی یابی نسل بعد می باشد به منظور تعیین پروفایل ترانسکریپتوم استفاده می شود. این روش با توالی یابی عمیق از cDNA به محققان این امکان را می دهد تا مقدار RNA در مقیاس ژنوم اندازه گیری کنند و دیدگاه ما را در رابطه با پیچیدگی های ترانسکریپتوم تغییر دهند. امروزه بهبود و توسعه روش های توالی یابی RNA باعث افزایش کاربرد های آن در علم بیولوژی گردیده است. از مهمترین کاربردهای این روش می توان به تعیین پروفایل بیان mRNA، بررسی بیان اختصاصی آلل ها (ASE)، بررسی همجوشی ژنی، بررسی RNAهای خارج سلولی، شناسایی RNAهای غیر کد کننده و شناسایی پاتوژن ها از طریق RNA اشاره کرد که در ادامه به هریک از آن ها می پردازیم.
1- تعیین پروفایل بیان mRNA
آزمایشات مبتنی بر سنجش چند mRNA، به طور افزاینده در مدیریت بالینی بیماری ها گنجانده می شوند. این روش ها از پلتفرم های مختلف تکنولوژی برای اندازه گیری پنل های چند ژنی مختلف استفاده می کنند و کاربرد بالینی گسترده ای دارند. به عنوان مثال، در سرطان پستان، دستورالعمل های جدید بالینی استفاده از آزمایشات سنجش پیش آگهی مبتنی بر mRNA چند ژنی را برای کمک به تصمیمات درمانی، به همراه فاکتورهای پاتولوژی بالینی حمایت می کنند.
AlloMap یک آزمایش خون غیر تهاجمی مبتنی بر بیان ژن است که به منظور مدیریت مراقبت بالینی در گیرندگان پیوند قلب استفاده می شود. این تست نمره ای را بصورت کمی به منظور تعیین خطر پس زدن بافت بر اساس سنجش 20 ژن ارائه می دهد. به عنوان مثال، یک مجموعه از این ژن ها به فعال شدن سیستم ایمنی و فرآیند های سیگنالینگ مرتبط هستند. پتانسیل استفاده از توالی یابی RNA در بیماری های مرتبط با سیستم ایمنی به سرعت در حال گسترش است و توانایی هدف گیری و تعیین توالی سریع گیرنده های لنفوسیت های T و B بیماران با استفاده از تکنیک هایی چون Adaptive Biotechnologies و ImmunoSeq در مسیر آغازین بلوغ می باشد. این استراتژی ها امکان بررسی بیماری های مرتبط با سیستم ایمنی بدن و پاسخ به ایمونوتراپی را به روش های جدید را مشخص می کنند.
2- بیان اختصاصی آلل
بیان اختصاصی آلل به ویژگی بیان ترجیحی آلل والدین در زاده هیبرید که ناشی از تغییرات در سطح توالی های تنظیمی ژنوم والدین می باشد گفته می شود. بیان اختصاصی آلل (ASE) می تواند از طریق مکانیسم های متعددی چون نقش گذاری ژنومی، غیر فعال سازی کروموزوم X و رونویسی آلل اختصاصی ایجاد شود. در چند مورد، ASE با استعداد ابتلا به بیماری همراه است. ارزیابی ASE در داده های توالی یابی RNA می تواند درک ما را از تغییرات تنظیمی و کمک به تفسیر عملکردی واریانت های ژنتیکی افزایش دهد. کاربرد های اولیه ASE-توالی یابی RNA بر نواحی از ژنوم که به تغییر در سطح بیان ترانسکریپت کمک می کنند تمرکز دارد و افراد نیجریه ای را از پروژه HapMap بررسی می کند. توالی یابی RNA از رده های لنفوبلاستوئید مشتق شده از این افراد، همراه با ژنوتیپ مربوطه از پروژه HapMap، منجر به شناسایی بیش از 1.000 ژن می شود که تنوع آن ها بر سطح ترانسکریپت یا پیرایش اثر می گذارد و هم خوانی بالایی بین پلی مورفیسم های واقع در نزدیک ژن ها و ASE را نشان می دهد. اخیرا، به عنوان قسمتی از برنامه ی GTEx ، توالی یابی RNA بر روی طیف وسیعی از نمونه های از بافتی از صد ها اهدا کننده پس از مرگ انجام می شود تا تاثیر تنوع ژنتیکی بر بیان ژن ها بررسی شود. با تجزیه و تحلیل ASE در داده های آزمایشی GTEx، اثرات جهش های کوتاه کننده بر NMTD مشخص گردیده است. این نشان دهنده ی استفاده از توالی یابی RNA و آنالیز های ASE برای کمک به تفسیر کاربردی از واریانت های ژنتیکی در سطح DNA می باشد.
3- همجوشی ژنی
همجوشی ژنی به معنای اتصال بخش هایی از دو ژن متفاوت به یکدیگر و تولید یک ژن جدید (که به اصطلاح به آن ژن همجوشی شده و یا fusion gene گفته می شود) می باشد. ژن همجوشی شده و پروتئین همجوشی شده که از آن ژن تولید می شود ممکن است در آزمایشگاه و یا به صورت غیر طبیعی در بدن ساخته شوند. این فرآیند زمانی رخ می دهد که بخشی از DNA یک کروموزوم جدا شده و به کروموزوم دیگری متصل می شود. همجوشی ژن های سرطان زا به دلیل نقش پاتوژنیک آن ها در سرطان به خوبی شناخته شده اند. در برخی موارد، همجوشی های مکرر ژنی با زیرگروه های خاص تومور در ارتباط هستند و اجازه می دهند از وقوع هم جوشی برای اهداف تشخیصی استفاده شود. در سال های اخیر، با معرفی تکنولوژی توالی یابی RNA تشخیص بالینی همجوشی ژنی فراتر از سنجش های تشخیصی همجوشی تک ژن ها رفته است، که امکان ارزیابی جامع تری از همجوشی های ژنی بالقوه را ایجاد می کند. به عنوان مثال، روش FoundationOne Heme از توالی یابی RNA و توالی یابی ژنومی به منظور تشخیص همجوشی های ژنی متداول در سرطان های خون و سارکوم ها استفاده می کند. تاکنون گزارش پاسخ های بالینی بیمارانی که بر اساس تشخیص همجوشی ژنی به این روش تحت درمان قرار گرفته اند مطلوب بوده است که نشان دهنده ی قدرت تشخیصی این روش می باشد. در آینده توالی یابی RNA می تواند مجموعه ی همجوشی های ژنی قابل تشخیص را افزایش دهد و علاوه بر تشخیص همجوشی های شناخته شده، تشخیص محصولات همجوشی با شرکای همجوشی شناخته نشده (بخش هایی که از اتصال آن ها ژن جدید ساخته می شود و شناخته شده نیستند) را ممکن سازد. تلاش هایی برای فهرست بندی همجوشی های ژنی شناخته شده در انواع تومورهای مختلف در حال انجام است.
4- بررسی RNAهای خارج سلولی
بررسی RNAهای خارج سلولی (exRNAها) در مایعات زیستی به منظور نظارت بر بیماری، یک حیطه تحقیقاتی به سرعت در حال رشد در زمینه تشخیص است. exRNAها از تمام سلول ها در بدن آزاد شده و از طریق وزیکول های ترشحی به خارج از سلول راه می یابد. به این ترتیب، exRNAها با پروتئین های متصل شونده به RNA (RBPs) ارتباط داشته و لیپوپروتئین ها را از تخریب محافظت می کند. اندازه گیری RNAهای خارج سلولی به عنوان یک روش غیر تهاجمی برای نظارت بر بیماری ها مطرح می باشد زیرا مایعات زیستی در دسترس تر از بافت ها می باشند و برای نمونه گیری های مکرر بلند مدت مناسب تر هستند. برای مثال، شرکت هایی مانند Exosome Diagnostics در حال ساخت تست های تشخیصی مبتنی بر exRNA برای نظارت بر همجوشی های ژنی (EML4-ALK) و جهش ها (EGFR T790M) از نمونه های پلاسما هستند.
5- شناسایی RNAهای غیر کد کننده
فراتر از کمی سازی mRNAها، توالی یابی RNA بررسی گونه های مختلفی از RNAها شامل RNAهای غیر کد کننده طویل (IncRNA ها) و گونه های کوتاه RNA از جمله miRNAها و piRNAها را ممکن ساخته است. به دلیل ثبات و نقش تنظیمی آن ها در سلامت و بیماری، miRNAها به عنوان مارکر تشخیصی بالقوه برای بیماری ها مورد بررسی قرار گرفته اند. بررسی این RNA با استفاده از توالی یابی smallRNA امکان پذیر است.
6- تشخیص پاتوژن ها بر اساس RNA
در حال حاضر برای تشخیص RNA ویروس هایی که از نظر بالینی حائز اهمیت هستند ( نظیر HIV، Ebola، West Nile، Dengue، Influenza، SARS، MERS و …) از آزمایشات qRT-PCR استفاده می گردد. در آینده ای نزدیک بسیاری از این ویروس ها به احتمال زیاد با استفاده از روش های پیشرو مثل توالی یابی RNA بررسی خواهند شد. برای مثال در زمینه ی بهداشت عمومی، توالی یابی RNA برای ردیابی منشاء و الگوهای انتقال ویروس Ebola در طی شیوع 2014 در آفریقای غربی مورد استفاده قرار گرفته است. با این حال، هنوز qRT-PCR سنجش گلد استاندارد برای تشخیص عوامل بیماری زا ویروسی می باشد و هنوز توالی یابی RNA نتوانسته است به جایگاهی فراتر از آن دست یابد.