بیوانفورماتیک و سیستم بیولوژی آوینه » فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

شرح فصل و نکات ویژه: در این فصل به مفاهیم پایه‌ای و کاربردی در رابطه با انواع هم‌ردیفی‌ها می‌پردازیم. هم‌ردیفی یا الایمنت کردن دو یا چند توالی با اهداف مختلفی در بیوانفورماتیک انجام می‌شود. یکی از چالش‌های بسیار مهم در بیوانفورماتیک هم‌ردیفی توالی‌ها می‌باشد. انواع BLAST و کاربردهای آن در این فصل شرح داده می‌شوند. 114-فصل ششم برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621 بررسي و مقايسه توالي‌هاي[…]

شرح فصل و نکات ویژه:

در این فصل به مفاهیم پایه‌ای و کاربردی در رابطه با انواع هم‌ردیفی‌ها می‌پردازیم.
هم‌ردیفی یا الایمنت کردن دو یا چند توالی با اهداف مختلفی در بیوانفورماتیک انجام می‌شود.
یکی از چالش‌های بسیار مهم در بیوانفورماتیک هم‌ردیفی توالی‌ها می‌باشد.
انواع BLAST و کاربردهای آن در این فصل شرح داده می‌شوند.

114-فصل ششم

برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621

بررسي و مقايسه توالي‌هاي ژنتيكي يا توالي‌هاي پروتئيني كمك فراواني به فرضيه تكامل می‌كند. به عنوان مثال، می‌توان با استفاده از نرم افزار BLAST توالي يك ژن خاص را با ميليون‌ها توالي ژني موجود مقايسه كرد و از اين طريق پي به نياي ژنتيكي بسياري از ژن‌ها برد. بيوانفورماتيك ابزارهاي زيادي براي مطالعه بسياري از سؤالات مربوط به حوزه بيولوژي مانند پي‌بردن به شباهت دو ژن خاص با عملكردهاي مشابه، در اختيار محققين قرار داده است كه عبارتند از تعداد زيادي پايگاه‌ داده‌ي با ارزش كه حاوي اطلاعات ژن‌ها و پروتئين‌هاي بيان شده هستند كه از بافت‌ها مشتق شده‌اند و نيز نرم افزارهايي براي تحليل اين توالي‌ها، امروزه ميليون‌ها گونه زنده وجود دارد كه می‌توان آن‌ها را در سه شاخه اصلي باكتري‌ها، آرکی‌ها و يوكاريوت‌ها گروه بندي كرد. پايگاه داده‌هاي مربوط به توالي‌هاي مولكولي هم اكنون توالي‌هاي DNAي بيش از يكصد هزار ارگانيزم مختلف را نگهداري می‌كنند. ژنوم چند صد ارگانيزم به صورت كامل تعيين توالي شده كه از طريق اين پايگاه‌هاي داده‌ي نوكلئوتيدي در دسترس است. و حال تجزیه و تحلیل این داده‌ها و مقایسه آن‌ها با یکدیگر و همچنین گاهی جست‌وجوی یک توالی در یک بانک یک چالش بزرگ برای کاربر می‌باشد.

1-6 همولوژی و تشابه

تشخیص رابطه تکاملی بین توالی‌ها به مشخص کردن فعالیت توالی‌های ناشناخته کمک می‌کند. انطباق توالی‌ها را می‌توان به عنوان اساس پیشگویی ساختار و عملکرد توالی‌های ناشناخته مورد استفاده قرار داد. وقتی دو توالی از یک منشا تکاملی مشترک ناشی شده باشند گفته می‌شود که رابطه “همولوگ” و یا “همولوژی” دارند. اصطلاح مرتبط اما متفاوت دیگر “تشابه” است که درصد باقیمانده‌های انطباق یافته ای که از نظر خواص فیزیکو شیمیایی مثل اندازه، بار و آبگریزی مشابه هستند را نشان می‌دهد. همولوژی توالی استنتاج و یا نتیجه گیری درباره داشتن یک رابطه اجدادی مشترک است که از مقایسه تشابه، وقتی که دو توالی شباهت بالایی را نشان می‌دهند، به دست می آید. از طرف دیگر تشابه یک نتیجه مستقیم از مشاهده انطباق توالی‌ها است. به طور کلی اگر سطح تشابه دو توالی به اندازه کافی بالا باشد می‌توان رابطه اجدادی مشترک را نتیجه گیری کرد.

اگر دو توالی در طول کاملشان با هم انطباق داده شوند و 100 باقیمانده داشته و یکسانی 30درصد نشان دهند می‌توان با اطمینان زیاد به عنوان همولوگ نزدیک در نظر گرفت که به این مقدار “ناحیه امن” اطلاق می‌شود. اگر یکسانی بین 20 تا 30 درصد باشد تعیین رابطه هومولوژی با قطعیت کم‌تری امکان دارد که به این مقدار “ناحیه سایه روشن” اطلاق می‌شود. در یکسانی کم‌تر از 20درصد جایی که اکثر توالی‌های غیر مرتبط قرار دارند، رابطه هومولوزی را نمی‌توان با اطمینان تعریف کرد و بنابراین “ناحیه تاریک” در نظر گرفته می‌شود. باید تاکید کرد که مقدار درصد یکسانی یک راهنمای تجربی برای تعیین هومولوژی فراهم می‌کند.

نکته: هومولوژی یک رابطه دوطرفه است، اما تشابه یک خاصیت قابل اندازه گیری و قابل تعیین می‌باشد.

تشابه توالی در برار یکسانی توالی:

تشابه توالی و یکسانی توالی برای توالی‌های نوکلئوتیدی هم معنی هستند. برای توالی‌های پروتئینی این دو اصطلاح بسیار متفاوتند. در انطباق توالی پروتئینی، یکسانی توالی به درصد اسیدهای آمینه یکسان بین دو توالی انطباق یافته اطلاق می‌شود. تشابه به درصد اسیدهای آمینه انطباق یافته ای که ویژگی‌های فیزیکوشیمیایی مشابه داشته و می‌توانند به سادگی با یکدیگر جایگزین شوند اطلاق می‌شود.

فرمول محاسبه درصد تشابه:

در این فرمول S درصد تشابه توالی، LS تعداد باقیمانده‌های انطباق یافته با خواص مشابه، La و Lb طول کلی هرکدام از توالی‌ها است.

فرمول محاسبه درصد یکسانی:

در فرمول فوق Li تعداد باقی مانده‌های یکسان انطباق یافته است.

115-هم ردیفی توالی ها

ارتولوگ، پارالوگ، گزنولوگ:

ارتولوگ، همولوگ‌هایی هستند که به وسیله ی فرایند گونه‌زایی به وجود آمده اند. در واقع آن‌ها دارای ژن‌هایی حاصل از یک جد مشترک هستند، که عملکرد مشابهی دارند.
پارالوگ، همولوگ‌هایی هستند که به وسیله مضاعف شدن ژن به وجود آمده اند. آن‌ها از یک ژن اجدادی مشترک که در یک موجود مضاعف و سپس منشعب شده به وجود آمده‌اند ممکن است از نظر عملکردی متفاوت از هم‌دیگر عمل کنند.
گزنولوگ‌ها، همولوگ‌های حاصل از انتقال افقی ژن بین دو موجود می‌باشند.

تکامل همگرا و واگرا

تکامل همگرا: تکاملی که در دو گونه ی متفاوت یک سری شباهت‌های فنوتیپی(ظاهری) می‌بینیم که می‌تواند دلایل محیطی و یا دلایل دیگری داشته باشد، مانند وال‌ها که شباهت زیادی به ماهی‌ها دارند.
تکامل واگرا: تکاملی که در آن جاندارانی که از لحاظ ژنتیکی به هم نزدیک هستند، تفاوت ظاهری داشته باشند. برای مثال تعدادی از موجودات به جای هموگلوبین از هموسیانین که دارای مس می‌باشد استفاده می‌کنند.

کدهای اسید نوکلئیک و اسیدآمینه‌ها

پیش از شروع بحث هم‌ردیفی‌ها لازم است با کدهای مربوط با توالی اسید نوکلئیک و اسیدآمینه‌ها آشنا شوید. جدول 1-6 کدهای مربوط به اسید نوکلئیک‌ها را نمایش می‌دهدهمانطور که در جدول میبینید کدهای دیگری نیز به غیر از چهار کد اصلی در این جدول وجود دارند و کاربرد این کدها زمانی می‌باشد که یک توالی اسیدآمینه را می‌خواهیم به توالی اسید نوکلئیک ترجمه کنیم. هر اسیدآمینه یک نام و یک نماد سه حرفی و یک کد یک حرفی دارد، همچنین کد‌های مختلف DNA می‌تواند اسیدآمینه‌های مشترکی را کد کنند که درتصویر 1-6 نمایی از زیر کدهای سه حرفی مربوط به اسیدآمینه‌ها نمایش داده شده است.

جدول 1-6: کدهای مربوط به اسید نوکلئیک‌ها.

تصویر 1-6: کدهای سه حرفی اسید‌های آمینه. همانطور که در تصویر مشاهده می‌کنید نوکلئوتیدهای سوم متغیرترین کدها در هر اسیدآمینه هستند.

116-فصل ششم

2-6 ابزارهای مقایسه ژنوم‌ها

یکی از ابزاهای مقایسه ژنوم BLAST می‌باشد، همان طور كه در بخش‌های بعدی خواهید دید براي مقايسه دو توالي (هم‌رديفي دوگانه) به كار مي‌رود، MUMer نیز براي مقايسه دو ژنوم بكار مي‌رود. این الگوریتم توسط گروه دکتر استیون سالزبرگ نوشته شده است و از طریق پایگاه TIGR آزدانه قابل دسترسی است. MUM توالی است که تنها یکبار در هر دو ژنوم حضور می یابد و بخشی از توالی ژنومی دیگر نیست. Mismathها همواره در کنار این توالی‌ها وجود دارند.

تصویر 2-6: نمایی از هم‌ردیفی دو توالی.

MUMها براساس موقعیت شان در ژنوم A مرتب می شوند. سپس جهت MUMها در ژنوم B و نحوه matching آن با ژنوم A درنظر گرفته می‌شود. با استفاده از یک الگوریتم مناسب موقعیت بلندترین MUM در نظر گرفته می‌شود و هم‌ردیفی گلوبال روی آن‌ها انجام می‌شود.

تصویر 3-6: نمایش هم‌ردیفی MUMها.

در الگوریتم MUMer فرض بر این است که توالی‌های دو موجود به یکدیگر نزدیک بوده به همین دلیل مقایسه میلیون‌ها باز به سرعت قابل انجام است. خروجي‌هاي این برنامه عبارتنداز: هم‌ردیفی کلیه بازهای موجود در دو توالی، مشخص کردن بخش‌های کاملا یکسان و متفاوت در ژنوم‌ها، مشخص کردن موقعیت SNP‌ها، تداخل‌های بزرگ، تکرارهای معنی دار، معکوس شدگی‌ها و Tandem repeatها. مراحل اجرای الگوریتم MUMer برای مقایسه دو ژنوم به این صورت است که ابتدا هم‌ردیفی هر دو ژنوم و مشخص کردن بخش‌های کاملا match صورت میگیرد و در مرحله بعد مشخص کردن gapها و سپس SNPها مشخص می‌شوند.

3-6 پایگاه‌های مقایسه‌ای ژنوم‌ها

به علت اين که پايگاه‌های مقایسه‌ای ژنوم در حال توسعه بوده و در عين حال حاوي اطلاعات بسيار زيادي هستند به معرفي كوتاه تعدادي از آن‌ها در اينجا بسنده مي‌كنيم.

117-هم ردیفی توالی ها

COG: رده بندی فیلوژنتیکی پروتئین‌های رمز شونده در ژنوم موجودات مختلف در اين پايگاه يافت مي‌شود. آدرس دسترسی به این پایگاه به آدرس www.ncbi.nlm.nih.gov/COG می‌باشد و با استفاده از نام پروتئین و یا متن این پایگاه را مورد جست‌وجو قرار دهید.

Genome analysis: مقایسه دوتایی توالي‌هاي ژنوم‌ها با استفاده از نرم افزار BLASTZ براي جست‌وجوي همولوگ‌های پروتئینی را انجام مي‌دهد. آدرس دسترسی به این پایگاه www.ncbi.nlm.nih.gov/sutils/geneplot.cgi می‌باشد کاربر با مراجعه به این پایگاه می‌تواند در جعبه‌های جست‌وجو نام دو موجودی را که مورد مقایسه هستند را وارد کند.

تصویر 4-6: نمایی از یک مقایسه دوتایی توالی‌های کامل ژنوم دو موجود.

Ensembl: يكي از بهترين پايگاه‌ها براي به دست آوردن اطلاعات مقايسه‌اي بين ژنوم‌ها به طور گرافيكي است. پس از رجوع به اين پايگاه به آدرسwww.ensembl.org به اطلاعات ارگانیسم مورد نظر خود وارد شويد و می‌توانید با کلیک روی گزینه View Syntenic regions، مقایسه‌ای میان کروموزوم‌های ارگانیسم موجود با سایر ارگانیسم‌هایی که می‌توانید انتخاب کنید انجام دهید.

118-فصل ششم

تصویر 5-6: هم‌ردیفی کروموزوم 10 انسان با کروموزوم‌های موش. همانطور که مشاهده می‌کنید 9 عدد از کروموزوم‌های موش با کروموزوم 10 انسان به صورت بخشی هم پوشانی دارند.

UCSC: به طور مشابهي مي‌توان تصاوير گرافيكي از مقايسه بين كروموزومي (syntenic) دو موجود را در پايگاه UCSC داشت. پس از ورود به به ادرس genome.ucsc.edu به اطلاعات موجود مورد نظر خود وارد شويد. سپس در قسمت Comparative Genomics انتخاب‌هاي خود را صورت دهيد. سپس روي دكمه Refersh كليك كنيد. گرافيك مقايسه‌اي ظاهر مي‌شود.

4-6 مقایسه دو توالي

در دهه 80، يک محقق هيچ برنامه رايانه‌اي براي اين که بتواند بين تعدادي توالي مشابه توالي را به توالي خود پيدا کند نداشت. بنابراين زبده ترين دانشمندان ان روزگار نيز مجبور بودند اين کار را به صورت دستي انجام دهند. به طور مثال، اگر قرار بود از بين سه توالي زير مشابه ترين توالي را به توالي خود انتخاب می‌کرد. بايد تک تک توالي‌ها را با توالي الگو مقايسه مي‌کرد و ميزان شباهت‌ها را در هر مقايسه به دست می‌آورد. امروزه به اين هم‌رديفي دوگانه (Pairwise Alignment) مي‌گويند.

119-هم ردیفی توالی ها

ساده‌ترين راه براي مقايسه کردن دو توالي اين است که هر بار دو توالي را در زير هم قرار دهيم و يک به يک بازها را با هم مقايسه کنيم تا شبيه ترين توالي را پيدا کنيم (شكل‌هاي A تا D در تصویر 6-6). ولي سوالي که پيش مي‌آيد اين است که چگونه و با چه معياري دو توالي مشابه تر را انتخاب مي‌کنيم؟ در اين جاست که بحث امتيازدهي (Scoring) مطرح مي‌شود. به عنوان مثال، ساده ترين نوع امتياز دهي اين گونه می‌تواند باشد که اگر دو بازي که زير هم قرار می‌گيرند يکسان باشند، امتياز یک و اگر همسان نباشند، امتياز صفر داده شود. با اين روش مي‌توان مشابه ترين توالي و درجه شباهت ساير توالي‌ها را با توالي الگو به دست آورد. حال می‌توانیم توالی‌های داده شده را با توالی الگو با همین روش هم‌ردیفی دوگانه ‌کنیم. به نظر می‌رسد مورد C که امتیاز 9 گرفته است، همسانی بیش‌تری با توالی ما دارد.

تصویر 6-6: نمایش امتیاز هم‌ردیفی سه توالی متفاوت (سطرهای پایین) با یک توالی یکسان (سطرهای بالا).

در هم‌ردیفی دوگانه سوال این است که دو توالی چقدر به هم شبیه هستند. زمانی که ما برای تعیین میزان همسانی از امتیاز دهی و عدد استفاده می‌کنیم. در واقع از روشهای ریاضی برای حل مسئله ی زیستی استفاده می‌کنیم. از آنجایی که در دنیای زیست شناسی پارامترهای دخیل بسیار زیاد و در بسیاری از موارد ناشناخته هستند، بنابراین برای حل مسئله‌های زیستی با استفاده از الگوریتمهای ریاضی و رایانه‌ای، همواره با مشکل عدم تطبیق کامل مدل ریاضی با واقعیت زیستی روبرو هستیم. تفاوت راه حل‌ها و الگوریتم‌ها با هم در این است که جواب کدام یک به واقعیت زیستی که مشاهده می‌شود نزدیک‌تر است و آن را بهتر توجیه می‌کند.

اما همانطور كه در تصویر 7-6 ديده مي‌شود، اين دو توالي را به طريق ديگري هم مي‌توان همرديف كرد. لذا سوالاتي هنوز باقي است مانند آن كه آيا هم‌رديفي ديگري ممكن است؟ كدام هم‌رديفي بهتر است؟ هم‌رديفي بهتر يعني چه؟ كدام هم‌رديفي گوياي اتفاقات زيستي است؟ آيا در هم‌رديفي‌ها روندهاي تكاملي قابل رديابي است؟ تا چه حد؟ و چگونه مي‌توان هم‌رديفي‌ها در اين راستا به كار گرفت؟

اين‌ها سوالات عميقي است كه پايه‌هاي اساسي داده‌پردازي زيستي را تشكيل مي‌دهند. در اين فصل سعي بر آن است كه اصول هم‌رديفي تا اندازه‌اي آموزش داده شود تا به توان از آن براي جست‌وجوي توالي‌هاي مشابه و قضاوت در مورد ميزان مشابهت و درك مفهوم خانواده‌هاي ژني و پروتئيني استفاده نمود.

همان‌طور که دیدید با قرار دادن توالی‌ها در زیر یکدیگر و امتیازدهی به این نتیجه رسیدیم که هم‌ردیفی C شبیه‌ترین هم‌ردیفی می‌باشد. اما اگر به هم‌ردیفی E توجه کنیم، می‌بینیم که اگر ما در توالی 1 یک گپ ایجاد کنیم بازهم امتیاز 9 برای هم‌ردیفی به دست می‌آید که این یک نقص به حساب می‌آید و با این روش نمی‌توانیم به بهترین هم‌ردیفی اطمینان کامل داشته باشیم. پژوهشگران برای حل مشکلات موجود در هم‌ردیفی روش‌های مختلفی را پیشنهاد دادند که یکی از آن‌ها روش Dotplot می‌باشد.

120-فصل ششم

تصویر 7-6: ایجاد یک گپ (هم‌ردیفی E) می‌تواند نحوه محاسبه امتیاز را تغییر دهد.

1-4-6 روش Dot plot

محققین به عنوان راهي براي شناسايي تمامي هم‌رديفي‌هاي ممكن، روشي گرافيکي به نام دات پلات (dot plot ) را ایجاد کردند. در اين روش دو توالي به صورت عمود بر هم روي محور x‌ها و y‌ها در يک صفحه قرار داده می‌شوند و در هر نقطه اي که شبيه هم باشند عدد يك قرار داده می‌شود. اگر دو توالي کاملا شبيه باشند در نهايت، از رسم نقاط يک خط اوريب بدون شکستگي را می‌توان از ابتدای سمت چپ بالای صفحه به انتهاي سمت راست پایین صفحه رسم کرد. هم‌رديفي در واقع مشخص کردن رابطه ي بين نوکلئوتيد‌هاي يک توالي با توالي ديگر است. اگر دو توالي در تصویر 7-6 را به صورت دات پلات در آوريم جدول زير به دست خواهد آمد. اگر دور بيش از دو عدد 1 به دنبال هم خط بكشيم، منظره زیر ظاهر خواهد شد. حال براساس اين خطوط اريب مي‌توان كليه هم‌رديفي‌هاي دو گانه را استخراج كرده و به صورت خطي نوشت.

تصویر 8-6: نمایش روشDot plo .

در اکثر نمودارهای نقطه‌ای نقاط در همه جای ماتریس پراکنده است که تشخیص انطباق صحیح را مشکل می‌سازد. برای کاهش نویزها باید از تکنیک فیلتر کردن استفاده کرد، برای مثال می‌توان یک رشته را با خودش انطباق داد تا نویزها مشخص شود.

مقايسه‌ هم‌رديفي‌ها

121-هم ردیفی توالی ها

در مثال‌هاي پیشین روش امتياز دهي صفر ويك را می‌توان يک نوع الگوريتم به حساب آورد که براساس آن هم‌رديفي با بالاترين امتياز را به عنوان بهترين هم‌رديفي انتخاب كرديم. ولي در عمل مي‌توان هم‌رديفي‌هايي را مثال زد كه با وجود امتياز مساوي يا حتي بالاتر صحيح نبوده و با دانسته‌هاي قبلي تطبيق نمي‌كنند. بنابراين تلاش زيادي براي طراحي و بكارگيري الگوريتم‌هايي دقيق‌تر صورت مي‌گيرد كه تا هر چه بيشتر دربرگيرنده واقعيات زيستي و اصول حاكم بر حيات باشد.

به طور مثال، در هم‌رديفي توالي‌هاي نوكلئوتيدي مي‌توان بين امتيازات جايگزيني‌هاي از نوع جانشيني (Substitution) و انتقال (Transition) تفاوت قائل شد. زيرا با توجه به ساختمان دو رشته‌ايDNA احتمال جايگزيني بازهاي پوريني با هم و باز‌هاي پيريميديني با هم بيشتر است. در حالي که الگوريتم قبلي تفاوتي را بين اين دو حالت قائل نبود. بنابراين جواب‌هايي هم که با الگوريتم قبلي به دست آمد کم‌تر به واقعيت نزديک است. اين مشكل در توالي‌هاي پروتئيني به طور جدي‌تري مطرح است. در اين توالي‌ها همه جايگزيني‌ها اشكال ساختاري و عملكردي زيادي ايجاد نمي‌كنند. به عبارت ديگر، برخي اسيد آمينه‌ها خواص فيزيكوشيميايي مشابهي دارند و مي‌توانند با حداقل تغيير خواص جايگزين يكديگر شوند (تصویر 9-6).

تصویر 9-6: خواص فیزیکو شیمیایی اسیدهای آمینه.

نکته‌ي ديگر اين است که در هم‌رديفي‌هاي تصویر 6-6 فرض برابر بودن طول توالي‌هاست. در حالي که در تکامل توالي‌ها هم پديده ي اضافه شدن را داريم و هم پديده حذف اتفاق مي‌افتد. بنابراين انتظار می‌رود در بسياري از موارد دو توالي را با هم مقايسه ‌کنيم كه داراي طول يکساني نباشند. جمع‌بندي اين مقدمات نشان مي‌دهد مي‌توان با كمي‌نمودن (امتيازدهي) نتايج هم‌رديفي آن‌ها را باهم مقايسه نمود. البته براي كمي نمودن هم‌رديفي‌ها حداقل دو نوع امتياز دهي را بايستي منظور كرد.

امتياز دهي جايگزيني‌ها
امتياز دهي حذف و اضافه شدن توالي‌ها

به اين ترتيب، امتياز هر هم‌رديفي جمع جبري كليه امتيازات جايگزيني‌ها و حذف يا اضافه‌ها خواهد بود.

2-4-6 امتیازدهی جايگزيني‌ها

با درك اين كه روش صفر ويك كفايت نمي‌‌كند و جايگزيني نوكلئوتيدها يا اسيد آمينه‌ها با يكديگر امتياز منفي يا مثبت مساوي ندارند. متخصصين امر در پي تهيه جداول امتيازدهي جايگزيني‌ها (Subtitution Scoring Matrices ) بوده‌اند. به‌طوري كه تا حد امكان واقعيت‌هاي زيستي را منعكس نمايد. براي توالي‌هاي نوكلئوتيدي كار چندان دشوار نيست زيرا

122-فصل ششم

هر گونه جايگزيني منجر به جهش مي‌شود كه اثر آن در رمزدهي پروتئين‌ها ممكن است مشاهده شود. يعني در اين مولكول‌ها بحث ساختار و عمل چندان مطرح نيست. البته با توجه به ساختمان دو رشته‌ايDNA متخصصين تكامل زيستي بين جانشيني نوكلئوتيد پورين و پيريميدين و انتقال از پورين به پيريميدين يا بالعكس تفاوت قائلند. جدول زير نمونه‌اي از جداول امتيازدهي براي هم‌رديفي دو توالي نوكلئوتيدي را نشان مي‌دهد. در اين جدول به طور ساده‌اي كليه همساني‌ها امتياز +۵ و براي غير جفت شدگي امتياز -۴ در نظر گرفته شده است.

تصویر 10-6: ماتریس امتیازدهی DNA.

در تهيه جداول امتيازات جايگزيني توالي‌هاي پروتئيني خواص فيزيكوشيميايي اسيد‌هاي آمينه و تاثير جايگزيني آن‌ها در ساختار و عمل پروتئين‌ها مطرح است. در گذشته، پژوهشگران به گروه‌بندي اسيدهاي آمينه براساس خواص آن‌ها (تصویر 9-6) مراجعه كرده و ميزان مشابهت را به صورت توصيفي (و نه عددي) بيان مي‌كردند. در دو دهه اخير روش‌هاي تهيه جداول امتيازدهي جايگزيني مبتني بر داده‌هاي موجود در طبيعت بوده است. با فرض بر اين كه اگر دو اسيد آمينه داراي خواص فيزيكوشيميايي مشابهي هستند بايستي در طول تكامل جايگزيني آن‌ها تحمل شده باشد، پژوهشگران نسبت به جمع‌اوري توالي‌ها، هم‌ردیفي آن‌ها با هم و محاسبه فراواني جايگزيني‌ها در بين پروتئين‌هاي هم‌خانواده اقدام نمودند. ماتریس‌های نمره‌دهی اسیدآمینه‌ها ماتریسهای 20 در 20 هستند که طراحی شده اند تا انعکاسی از شانس جایگزینی اسیدآمینه باشند.

یک نوع ماتریس براساس قابلیت جایگزینی کدهای ژنتیکی یا خواص اسیدآمینه است و دیگری از مطالعات تجربی جایگزینی اسیدهای آمینه حاصل شده است. نگرش اول دقت کم‌تری دارد و ماتریسهای تجربی به واقعیت نزدیکترند. در اولين تلاش، با هم‌رديفي ۱۵۷۲ توالي پروتئيني در ۷۱ درخت از ۳۴ خانواده پروتيئني گروه‌بندي شدند. سپس فراواني جايگزيني يك اسيدآمينه با اسيد آمينه ديگر در فرمول زير بكار گرفته شد:

PAMn= nlog Probability of one substitution/Probablity of occurring by chance*100

در اين فرمول يك واحد PAM (Point Accepted Mutation) معادل تغيير ۱ در يك توالي صدتايي از اسيدآمينه‌هاست. داده‌هاي حاصل در جدول PAM ثبت مي‌شود. از آنجا كه در طول تكامل ممكن است اسيدآمينه در يك موقعيت چندين بار جايگزين شود، جدول حاصل را چندين بار در خود ضرب مي‌كنند. به طور مثال، براي تهيه جدول PAM250 آن را 250 بار در خودش ضرب مي‌كنند (جدول 2-6).

123-هم ردیفی توالی ها

جدول 2-6: ماتریس PAM250.

بعد‌ها جداول ديگري تدوين شدند كه از يك نوع اصول پيروي مي‌كردند. با اين تفاوت كه فراواني جايگزيني‌ها تنها در مناطق حفاظت شده(Conserved Blocks) براي ساختن جدول وارد محاسبه مي‌شدند. در آن هنگام، ۲۰۰۰ بلوك از ۵۰۰ خانواده پروتئيني در نظر گرفته شد. به طور مشابهي،‌ فرمول زير بكار ‌رفت:

BLOSUM%=log Probability of substitution in block/Probablity of occurring by chance

اين جداول را BLOSUM ناميدند كه از اصطلاحBlock Substitution Matrix برگرفته شده است. شماره جدول به نوع بلوك مورد استفاده براي محاسبه فراواني و احتمال وقوع جايگزيني بستگي دارد. مثلا BLOSUM62 يعني اين جدول برمبناي فراواني جايگزيني‌ها در بلوك‌هاي حاوي توالي‌هاي با همساني ۶۲ درصد يا بيشتر تشكيل شده است (جدول 3-6).

جدول 3-6: ماتریس BLOSUM62.

124-فصل ششم

در PAM خانواده‌هایی که از نظر تکامل ارتباط مشخصی دارند را مورد بررسی قرار می‌دهند و تغییرات را در 100 اسیدآمینه براساس زمان تکامل بررسی می‌کنند. اما در BLOSUM در Block پروتئین‌هایی که به نحوی به هم مربوطند را مورد بررسی قرار می‌دهند. دیگر نگران زمان تکامل لازم برای موتاسیون نیستند. ماتریس‌ها PAM، به استثنای PAM1 از یک مدل تکاملی مشتق شده‌اند. در حالی که ماتریس‌های BLOSUM براساس مشاهده‌ کاملا مستقیم قرار دارند. بنابراین ماتریس‌های BLOSUM ممکن است معنای تکامل کم‌تری از PAM داشته باشد. ماتریس‌های BLOSUM برای جست‌وجوی پایگاه داده‌ها و پیدا کردن دمین‌ها در پروتئین‌ها مناسب‌ترند. جدول زیر نمایش می‌دهد که هرچه PAM بزرگتر و هرچه BLOSUM کوچک‌تر باشد رابطه تکاملی دورتری را نمایش می‌دهد.

تصویر11-6:نمایش رابطه کوچک یا بزرگ بودن ماتریس با نمایش رابطه تکاملی.

سنجش تجربی نشان داده است که ماتریس BLOSUM کارایی بهتری از PAM بر حسب دقت انطباق محلی دارد. این مسئله به احتمال زیاد بدین دلیل است که ماتریس‌های BLOSUM از مجموعه داده‌های بزرگ‌تری از آن‌چه که برای ساخت ماتریس‌های PAM استفاده شده به دست آمده است. برای جبران این نقص در سیستم PAM، ماتریس‌های جدیدتری با استفاده از همان نگرش براساس مجموعه داده‌های بیش‌تر طراحی شده‌اند که Gonnet و Johness- Jaylor- thornton را نام برد. امتیاز مثبت در ماتریس BLOSUM بیانگر این است که دو اسیدآمینه‌ای که در حالت طبیعی جایگزین همدیگر می‌شوند، بیش‌تر از حالت شانسی است و برعکس علامت‌سنجی بیان‌گر این است که دو اسیدآمینه‌ای که در حالت طبیعی جایگزین همدیگر می‌شوند، کم‌تر از حالت شانسی است. به عبارت ساده‌تر، جایگزین‌هایی که با فراوانی زیاد اتفاق می‌افتند، امتیاز مثبت و جایگزینی‌هایی که با فراوانی‌ زیاد اتفاق می‌افتند، امتیاز مثبت و جایگزین‌هایی که با فراوانی اتفاق می‌افتند، امتیاز منفی خواهند داشت.

جدول 5-6: کاربرد ماتریس‌های متفاوت.

125-هم ردیفی توالی ها

همانطور که ذکر شد در تهيه جداول امتيازات جايگزيني توالي‌هاي پروتئيني خواص فيزيكوشيميايي اسيد‌هاي آمينه و تاثير جايگزيني آن‌ها در ساختار و عمل پروتئين‌ها مطرح است که این مفهوم در شکل زیر آمده است.

تصویر12-6: نمایش خواص فيزيكوشيميايي اسيد‌هاي آمينه در ماتریسBLOSUM62.

ماتریس‌های PAM با افزایش واگرایی توالی‌ها، با برون‌یابی PAM1 از طریق ضرب ماتریس‌ها به‌دست می‌آید. برای مثال PAM80 با هشتاد بار ضرب ماتریس PAM1 به‌دست می‌آید. یک واحد PAM به‌عنوان یک درصد تغییرات اسیدآمینه یا یک جهش در یکصد باقی‌مانده تعریف می‌شود. افزایش عدد PAM با افزایش واحد PAM و بنابراین فاصله تکاملی توالی‌های پروتئین‌ ارتباط دارد.

برای مثال PAM250، که متناظر با 20درصد یکسانی اسیدهای آمینه است، نشان‌دهنده 250 جهش در 100 اسیدآمینه است. بنابراین ماتریس PAM250 به‌طور معمول برای توالی‌های بسیار واگرا استفاده می‌شود. به این ترتیب، ماتریس‌های PAM با شماره کوچک‌تر برای انطباق دادن توالی‌های نزدیک به‌ هم مناسب‌ترند. برعکس سیستم عددگذاری PAM، هر چه عدد BLOSUM کم‌تر باشد، توالی‌های واگراتری حضور دارند.

126-فصل ششم

3-4-6 امتيازدهي حذف و اضافه نمودن توالي‌ها

ممکن است جهش به صورت اضافه شدن يا حذفي توالي باشد. بروز اين جهش‌ها در توالي‌ها باعث تفاوت در طول توالي‌ها می‌شود. بنابراين، زماني که می‌خواهيم دو توالي را در حالت بهينه همرديف کنيم، نيازمند استفاده از فواصل هستيم. اين فواصل بايستي به طريقي در محاسبه امتياز يك هم‌رديفي لحاظ شوند.

تصویر 13-6: نمایش ایجاد گپ به منظورهم‌ردیفی.

اين که فواصل را در هم‌رديفي چگونه محاسبه کنيم يکي از مبهم‌ترين مساله‌ها در هم‌رديفي توالي‌ها است. به طور معمول، جريمه‌هايي را که براي فواصل در نظر می‌گيرند به صورت محلي اعمال می‌شود. يعني جريمه استفاده از هر فاصله مستقل از فواصل ديگري است که ممکن است در جاهاي ديگري از هم‌رديفي اتفاق بيافتد. در همه برنامه‌ها، براي فواصل دو نوع امتياز منفي در نظر گرفته مي‌شود.

Gap opening penalty (GOP) جريمه باز کردن توالي:

در طبيعت، هر اضافه نمودن توالي مستلزم صرف انرژي بوده و مورد انتخاب طبيعي قرار خواهد گرفت. بنابراين در الگوريتم‌ها براي هم‌رديفي بهينه توالي‌ها امتياز منفي نسبتاً بزرگي (مثلا 11-) براي ايجاد فاصله در نظر گرفته مي‌شود.

Gap extension penalty جريمه بسط يک فاصله (GEP):

از اين جريمه براي ورود نوكلئوتيد يا اسيدآمينه در محلي که قبلا فاصله ايجاد شده است، استفاده می‌شود. ميزان اين جريمه از GOP کم‌تر فرض می‌شود ولي در تعداد آن‌ها ضرب مي‌شود (مثلا 1- ضربدر تعداد). زيرا از ديد زيستي جايي از توالي که شكافته شده است، استعداد ورود يك يا چند نوكلئوتيد را دارد.

4-4-6 انواع هم‌رديفي:

هم‌رديفي‌ها به دو شيوه قابل تقسيم‌بندي هستند:

الف- از نظر تعداد توالي:

هم‌رديفي دوگانه(Pairwise Alignment): هم‌رديفي تنها دو توالي با يكديگر در طول كامل آن‌ها يا يك ناحيه خاص

هم‌رديفي چندگانه (Multiple Alignment): هم‌رديفي سه يا چند توالي كه از هم‌رديفي‌هاي دو گانه هر جفت آن‌ها نتيجه مي‌شود

ب- از نظر طول‌

هم‌رديفي محلي (Local Alignment): يافتن و هم‌رديفي بهترين محل‌هاي جور شدن دو توالي.

هم‌رديفي كامل (Global Alignment): يافتن و هم‌رديفي جورشدگي بين طول كامل دو يا چند توالي.

به طور خلاصه، اصول مطرح شده در صفحات قبل در تمامي انواع فوق استفاده مي‌شوند. مثلا هم‌رديفي‌هاي چندگانه از جمع اطلاعات مربوط به كليه هم‌رديفي‌هاي دوگانه ممكن بين جفت توالي به دست مي‌آيد. از آنجا كه بيان جزئيات بيشتر باعث دور شدن از مباحث اصلي اين درس مي‌شود، در قسمت بعد تنها به آموزش برنامه جست‌وجوي توالي‌ها در بانك‌هاي اطلاعاتي مي‌پردازيم كه بر مبناي هم‌رديفي محلي دوگانه است.

5-4-6 جست‌وجوی یک توالی:

127-هم ردیفی توالی ها

جست‌وجوي بانك‌هاي اطلاعات توالي‌ها با يك توالي بر مبناي الگوریتم‌های نوشته شده برای هم‌ردیفی دوگانه صورت مي‌گيرد. جدول زير مجموعه‌اي از روش‌هاي هم‌رديفي‌هاي دو گانه رانشان مي‌دهد.

اكنون، در بيش‌تر پايگاه‌ها از روشBLAST ياBasic Local Alignment Search Tools استفاده مي‌شود كه در آن سرعت و دقت با هم در نظر گرفته مي‌شود. BLAST نام یک نرم‌افزار کاربردی در علوم سلولی و مولکولی و ژنتیک است که مخفف واژگان Basic Local Alignment Search Tool یا ابزار پایه‌ای برای جست‌وجوی هم‌ردیفی‌های موضعی است. این ابزار قسمتی از مجموعه اطلاعات کیفی مرکز ملی اطلاعات زیست فناوری است. با این نرم افزار می‌توان توالی اسیدهای آمینه در پروتئین‌ها یا توالی نوکلئوتیدها در DNA را با هم مقایسه کرد. این نرم افزار به پژوهشگر اجازه می‌دهد تا یک توالی را با توالی دیگر یا توالی که در بانک اطلاعاتی وجود دارد، مقایسه کند. شناسایی توالی‌های موجود در بانک اطلاعاتی که بیش‌ترین شباهت را با توالی مورد نظر دارد از دیگر قابلیت‌های این نرم افزار است. بر حسب نوع توالی انواع مختلفی از BLAST امکان‌پذیر است. مثلا اگر یک یک ژن ناشناخته در موش که قبلا اطلاعاتی از آن در اختیار نبوده، باید بررسی شود، یک پژوهشگر ترجیح می‌دهد این توالی را با ژنوم انسان بلاست کند. این نرم‌افزار در NIH (موسسه ملی بهداشت آمریکا) طراحی شد. BLAST یکی از پرکاربردترین نرم‌افزارها در بیوانفورماتیک است که با سرعت مطلوب مقایسه مورد نظر را انجام می‌دهد. سرعت زمانی اهمیت خود را نشان می‌دهد که با ژنوم کامل روبرو باشیم. پیش از طراحی این نرم افزار مقایسه توالی‌ها بسیار وقت‌گیر بود به دلیل این‌که BLAST مربوط به یکی از بنیادی‌ترین مسائل بیوانفورماتیک است و سرعت خوبی دارد، یکی از پرکاربردترین نرم‌افزارهای بیوانفورماتیک به حساب می‌آید. سرعت، مخصوصا در کاربردهای واقعی روی پایگاه‌های داده‌ی بزرگ ژنوم امری حیاتی است.

BLAST از نظر زمانی کارآمدتر از FASTA است، زیرا الگوهای مهم‌تر در دنباله را مورد جست‌وجو قرار می‌دهد. لازم به ذکر است معیارهای BLAST سخت‌گیرانه‌تر از FASTA است.پیش از ارائه الگوریتم‌های سریعی مثل BLAST و FASTA جست‌وجو در پایگاه‌های داده‌ی بزرگ برای دنباله‌های پروتئین یا نوکلئیک با استفاده از الگوریتم‌های انطباق کامل مثل Smith-Waterman بسیار زمان‌گیر بود. الگوریتم “اسمیت واترمن” برای انجام دادن یک هم‌ترازسازی توالی محلی به کار گرفته می‌شود و برای مشخص کردن مناطق مشابه بین دو توالی اسید نوکلئیک یا پروتئین استفاده می‌شود. به جای در نظر گرفتن تمام توالی این الگوریتم سعی می‌کند که با در نظر گرفتن بخش‌های مختلف با همه‌ی طول‌های ممکن میزان شباهت را بهینه کند.

این الگوریتم برای اولین بار توسط تمپل اسمیت و مایکل واترمن در سال ۱۹۸۱ ارائه شد؛ که مانند الگوریتم نیدلمن- وانچ با یک‌سری تفاوت‌ها یک الگوریتم برنامه‌ریزی پویا می‌باشد. این الگوریتم دارای این خصوصیت است که بر حسب سیستم امتیازدهی (شامل ماتریس جایگزینی و جریمه پرش) که استفاده می‌شود تضمین می‌کند که به جواب بهینه برسد. تفاوتی که با الگوریتم نیدلمن- وانچ دارد این است که در ماتریس جای‌گذاری آن مقادیر منفی با صفر جایگزین می‌شوند. عمل برگشت به عقب در این الگوریتم از خانه‌ای که مقدار بیشنه را دارد شروع شده و به خانه‌ای که مقدار صفر دارد ختم می‌شود؛ که این مسیر بیشترین امتیاز هم‌ترازسازی محلی را دارد.

تصویر 14-16: مدل Smith-Waterman

128-فصل ششم

6-4-6 BLAST

آنچه در برنامه BLAST انجام می‌شود پيدا کردن جفت قطعاتي مشابهي از توالي است که امتياز هم‌رديفي آن‌ها از يک حد آستانه مشخصي بالاتر باشد. اين قطعات (HSPs (high-scoring segment pairs ناميده می‌شوند. براي اين كار برنامه BLAST از روش Dynamic Programming استفاده مي‌كند. در این روش براي حل يك مشكل بزرگ، آن را به چند مشكل كوچك تجزيه مي‌كنند. پس از يافتن پاسخ مناسب مشكلات كوچك، آن‌ها را كنار هم چيده و راهي براي پاسخ به مشكل بزرگ پيدا مي‌كنند. با توجه به طول بلند توالي‌ها و امكان جايگزيني و حذف و اضافه در آنها، جست‌وجوي يك توالي در بين ميليون‌ها ركورد در بانك‌هاي اطلاعاتي نيازمند عمليات سنگيني است كه از عهده ابررايانه‌هاي امروزي خارج است. در برنامه BLAST از روش dynamic programming براي برون رفت از اين معضل استفاده شده است.

سه مرحله اصلي در الگوريتم BLAST وجود دارد که به شرح زير هستند:

برنامه BLAST توالی مورد نظر (Query ) را به قطعاتی با طول كوتاه يا كلمه (word ) هم‌پوشان تبدیل می‌کند. معمولا اندازه كلمات برای توالی‌های آمینو اسیدی 3 و برای توالی‌های نوکلئوتیدی 11 تنظیم شده است. بنابراين اگر طول توالی را L فرض کنیم، به تعداد L–w+1 قطعه در هر جست‌وجو تولید می‌شود. سپس از بین این كلمات آنهایي انتخاب می شوند که در يك هم‌رديفي دوگانه با توالي الگو دارای امتیاز بالايی از يك حد تعيين شده هستند (مانند LSS در تصویر 15-6). قابل ذکر است که امتیازدهی‌ براساس جداول PAM250 یا BLOSUM62 صورت می گیرد که توسط کاربر قابل تغییر است.

برای هر کدام از جفت توالي‌‌هاي يافت شده با امتياز بالا (HSP ) هم‌ردیفی توالي از دو طرف كلمه ادامه پیدا می‌کند تا جایی که هم‌ردیفی جدیدی از امتیاز حد آستانه تعيين شده‌اي كم‌تر نشود. سپس اضافات توالي يافت شده حذف و هم‌رديفي حاصل براي كاربر ارسال مي‌شود.

1-6-4-6 انواع BLAST

بنا به نوع توالي مورد نظر و نوع پايگاه مورد جست‌وجو، برنامه‌هاي BLAST طراحي شده‌اند كه در زير توضيح داده مي‌شوند. البته براي هريك از اين برنامه‌ها نيز زيربرنامه‌هايي كه در آن تنظيمات بهينه شده است معرفي شده‌اند.

BLASTN

در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی نوکلئوتیدی است و جست‌وجو در پایگاه توالی‌های نوکلئوتیدی انچام می‌شود. نتیجه جست‌وجو جفت توالی‌های نوکلئوتیدی مشابه است که براساس شاخص‌های آماری میزان شباهت و یکسانی آن‌ها نشان داده می‌شود.

BLASTP

129-هم ردیفی توالی ها

در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی پروتئینی است و جست‌وجو در پایگاه توالی‌های پروتئینی انچام می‌شود. نتیجه جست‌وجو توالی‌های پروئینی مشابه با توالی الگو است که براساس شاخص‌های آماری میزان شباهت و یکسانی آن‌ها با توالی الگو نشان داده می‌شود.

BLASTX

در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی نوکلئوتیدی است که در 6 قالب خواندني (ORF) ترجمه شده و به صورت توالی پروتئینی در پایگاه توالی‌های پروتئینی جست‌وجو می‌شود. نتیجه جست‌وجو توالی‌های مشابه با توالی الگو است که براساس آن می‌توانیم به توالی جدید خود قالب خواندني و عملکرد نسبت بدهیم.

tBLASTN

در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی پروتئینی است و جست‌وجو در پایگاه توالی‌های نوکلئوتیدی انچام می‌شود که در 6 قالب خواندني ترجمه شده است. نتیجه جست‌وجو توالی‌های مشابه با توالی مورد تقاضاست که براساس آن می‌توانیم برای توالی پروتئینی خود توالی‌های رمز کننده ی آن را شناسایی کنیم.

tBLASTX

در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی نوکلئوتیدی است که در 6 قالب خواندني به پروتئین ترجمه می‌شود ودر پایگاه توالی‌های نوکلئوتیدی که آن نیز در 6 قالب خواندني به پروتئین ترجمه می‌شود مورد جست‌وجو قرار می‌گیرد. این نوع جست‌وجو بويژه در مطالعات EST به کار می رود.

به طور معمول در کارهای پژوهشی محقق دارای یک توالی اولیه هست که می خواهد توالی‌های مشابه آن را از طریق جست‌وجوی در بانك‌هاي اطلاعاتي به دست آورد. توالی که قصد بررسی آن را داریم پس از دریافت از بانک‌های اطلاعاتی وارد نرم افزار BLAST می‌کنیم. نرم افزار BLAST توسط سرویس دهنده‌های مختلفی در دسترس است که یکی از اصلی‌ترین سرویس دهنده‌ها در سایت NCBI در دسترس می‌باشد و همانطور که در تصویر 18-6 میبینید یک جایگاه ویژه برای وارد کردن توالی دارد. در تصویر 18-6 هشت قسمت علامت گذاری شده است که به منظور تنظیم پارامترهای مختلف مورد استفاده قرار می‌گیرند. این تصویر مربوط به BLAST نوکلئوتید می‌باشد و به علت شباهت آن به BLAST پروتئین‌ فقط یک تصویر نمایش داده شده است اما در هر قسمت که تفاوت‌هایی با BLAST پروتئین وجود داشته باشد توضیح داده می‌شود.

130-فصل ششم

تصویر 18-6: بخش‌های مختلف نرم افزار BLAST.

جایگاه 1: در این بخش توالی مورد نظر با فرمت FASTAو یا در صورت دانستن شماره دسترسی آن را وارد می‌کنیم.

جایگاه 2: در این بخش می‌توانیم فقط قسمتی از توالی را مشخص کنیم که قصد داریم مورد بررسی قرار بگیرید. اگر می‌خواهیم کل توالی که در کادر قبلی وارد کردیم مورد بررسی قرار بگیرید نیاز نیست اینجا اعدادی را مشخص کنیم.

جایگاه 3: اگر توالی را در جایی از کامپیوترمان ذخیره کرده باشیم می‌توانیم در این قسمت آپلود کنیم. همچنین می‌توانیم در قسمت job title به جست‌وجوی خود نام و توضیح کوچکی را اختصاص بدهیم.

جایگاه 4: این بخش مربوط به نوع پایگاه داده است که میخواهیم توالی ما در آن جست‌وجو شود. به صورت پیش‌فرض کلیه پایگاه‌های مشابه با nr (nonredundent) مورد هدف است.

جایگاه 5: این بخش مربوط به انتخاب نوع ارگانیسم مورد نظر ما است که گزینه‌ای اختیاری است و در صورتی که ما در موجود خاصی فقط بخواهیم جست‌وجو شود از این بخش باید استفاده شود.

جایگاه 6: این بخش مربوط به جست‌وجوی توالی ما در entrez است که اختیاری می‌باشد و می‌توانیم جست‌وجو در مورد توالی خود را با کلید واژه محدود کنیم.

جایگاه 7: در این بخش نوع الگوریتم BLAST را مشخص می‌کنیم. الگوریتم‌های دیگر دارای کاربردهای دیگر می‌باشد. در جایگاه 7 اگر تنظیم پارامترهای BLAST نوکلئوتید را انجام می‌دهید یکی از موارد زیر را می‌توانید انتخاب کنید.

Optimize forSomewhat similar sequences (blastn)

Optimize forHighly similar sequences (megablast)

Optimize forMore dissimilar sequences (discontiguous megablast)

اگر در جایگاه 7 تنظیم پارامترهای BLAST پروتئین را انجام می‌دهید یکی از موارد زیر را می‌توانید انتخاب کنید

blastp (protein-protein BLAST)

PSI-BLAST (Position-Specific Iterated BLAST)

PHI-BLAST (Pattern Hit Initiated BLAST)

DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST)

جایگاه 8: در انتهای صفحه با کلیک بر روی گزینه BLAST جست‌وجو آغاز می‌شود و بعد از لحظاتی صفحه بروز می‌شود تا نتایج جست‌وجو نمایش داده شود.

131-هم ردیفی توالی ها

PSI-BLAST (Position-Specific Iterated BLAST)

از این نوع BLAST برای یافتن رابطه‌های دور یک پروتئین استفاده می‌شود. در این برنامه ابتدا یک لیست از پروتئین‌ها با رابطه نزدیک ساخته می‌شود و سپس این پروتئین به یک پروفایل سکانس کلی تبدیل می‌شود که حاوی خلاصه خصوصیات مهم در این دنباله‌ها می‌باشد. سپس جست‌وجو براساس این پروفایل در مقابل پایگاه داده پروتئینی انجام می‌گیرد و متعاقبا یک گروه بزرگ پروتئین پیدا می‌شود. این گروه بزرگ‌تر پروتئینی سپس برای ایجاد پروفایل دیگری به کار می‌رود و این روند در جهت یافتن پروتئین‌هایی که رابطه بسیار دوری با پروتئین مورد نظر دارند، ادامه می‌یابد. در نتیجه PSI-BLAST به عنوان حساس‌ترین برنامه BLAST در جهت یافتن فاصله‌های دور در ارتباطات تکاملی کاربرد دارد.

PHI-BLAST (Pattern Hit Initiated BLAST)

جست‌وجو را برای توالی‌هایی که به طور قابل توجهی مشابه به هر دو توالی مورد نظر ورودی (query) و الگو (Pattern) انجام می‌دهد. به عبارت دیگر در PHI-BLAST جست‌وجو براساس ترکیبی از تطبیق الگو (pattern matching) و تطبیق موضعی (local alignment) انجام می‌شود. در نتیجه با اطلاع از الگوی پروتئینی مربوط به توالی مورد نظر، برنامه PHI-BLAST برای توالی مورد نظر به کار می‌رود.

تنظیم پارامترهای پیشرفته BLAST

در ناحیه زیر جایگاه 8 در تصویر 18-6 پارامترهایی به منظور تنظیمات پیشرفته وجود دارند که در تصویر 19-6 مشخص شده‌اند و در ادامه به شرح این جایگاه‌ها می‌پردازیم.

جایگاه 9: با کلیک بر روی گزینه Algorithm parameters قسمت تنظیمات پارامترهای پیشرفته باز می‌شود و کاربر می‌تواند پارامترهای عمومی، امتیازدهی و فیلترگزاری را انجام دهد.

جایگاه 10: در این بخش می‌توان تعداد توالی‌های نمایشی در یک صفحه، پارامترهای مربوط به توالی‌های کوتاه، میزان آستانه. اندازه کلمات مورد جست‌وجو توسط BLAST تنظیم کرد.

در زمان تنظیم پارامترهای پیشرفته BLAST نوکلئوتید به شما اجازه می‌دهد Word size 16 و تا 256 نوکلئوتیدی را انتخاب کنید ولی در زمان تنظیم پارامترهای پیشرفته BLAST پروتئین در این قسمت به شما اجازه می‌دهد Word size 2 یا 3 و حتی 6 اسیدآمینه‌ای را انتخاب کنید و همچنین در BLAST پروتئین امکان انتخاب ماتریس‌های PAM و BLOSUM مختلف را دارید. لازم به‌ذکر است در BLAST پروتئین ماتریکس BLOSUM62 به‌صورت پیش‌فرض انتخاب شده است و کاربر می‌تواند براساس نوع جست‌وجوی خود این مقدار را تغییر دهد.

جایگاه 11: این قسمت برای تنظیم پارامترهای امتیاز دهی طراحی شده است. نوع ماتریس امتیازدهی، جریمه فواصل و فرض‌های مربوط به نحوه اعمال ماتریس‌های امتیازی را می‌توان به صورت دستی تنظیم کرد.

جایگاه 12: در این بخش می‌توان الگوریتم را برای در نظر نگرفتن نواحی از توالی‌ها که ارزش تکاملی ندارند و یا دارای اشکال و ابهام هستند تنظیم کرد. با انتخاب فیلتر مربوطه بخش‌های مورد نظر از توالی در جست‌وجو لحاظ نمی‌شوند.

132-فصل ششم

تصویر 19-6: بخش‌های مختلف نرم افزار BLAST، قسمت پارامترهای الگوریتم.

بعد از وارد کردن توالی در جایگاه مربوطه و انتخاب پارامترهای مورد نظر، زمانی که BLAST را اجرا می‌کنیم صفحه ای باز می‌شود که اطلاعات مختصری را در مورد توالی ما می‌دهد و اعلام می‌کند که جست‌وجوی ما در حال انجام است و نتایج بعد از چند ثانیه نشان داده خواهند شد. در صورت شلوغ بودن سرور سایت اعلام می‌کند که جست‌وجوی خود را در زمانی دیگر دوباره انجام دهیم. صفحه‌ی نتایج شامل چهار بخش است:

بخش اول: شامل توضیحاتی در مورد در مورد الگوریتم BLAST و نویسندگان این الگوریتم و ویرایش‌هایی است که در گذشته و حال مورد استفاده هستند. در این بخش جست‌وجوی ما دارای یک ID است که در صورت لزوم (مثلا بروز مشكل و درخواست كمك از مدير پايگاه) می‌توانیم با اینID به جست‌وجوی خود در NCBI دسترسی داشته باشیم. این بخش توضیحاتی در مورد پایگاه داده ای که ما برای جست‌وجوی خود انتخاب کرده ایم نیز می دهد.

تصویر 20-6: قسمت اول نتایج BLAST.

بخش دوم: این صفحه نمایشی گرافیکی از نتایج BLAST است به طوری که 100 توالی اولی که در جست‌وجوی BLAST به دست آمده اند به صورت خطوط رنگی نشان داده می شوند هر توالی براساس میزان شباهت خود دارای یک طیف رنگی است. کلید رمز رنگ‌ها براساس امتياز هم‌رديفي در بالای آن آمده است. هر چه قدر جور شدن توالي يافت شده با توالي در حال جست‌وجو بیش‌تر باشد با رنگ قرمز و هر چه کم‌تر باشد با رنگ‌های رو به مشکی نمایش داده می‌شود. بنابراین در این قسمت در یک نگاه کلی می‌توانیم میزان شباهت را مشاهده کنیم.

133-هم ردیفی توالی ها

تصویر 21-6: قسمت دوم نتایج BLAST.

بخش سوم: در بخش سوم شماره دسترسي (شماره 1) و نام (شماره 2) توالی‌های بدست آمده فهرست شده‌اند. روبروي هر توالی دو عدد هست که اولین عدد امتياز هم‌رديفي دوگانه (شماره 3) توالي يافت شده و توالي در حال جست‌وجو است که كليه اطلاعات بعدي براساس آن‌ها مرتب می‌شوند. دومین شاخص، ارزش مورد انتظار يا E-value (شماره 4) است. (شماره‌های 1 تا 4 در تصویر 22-6 علامت گذاری شده اند)

تصویر 22-6: قسمت سوم نتایج BLAST. (توضیحات در متن).

134-قصل ششم

تعریف شاخص E-value به صورت ساده این است که “چه قدر احتمال دارد که توالی جفت شده با توالی الگوی ما به طور تصادفی جفت شده باشد و هیچ رابطه ی معني‌داري بین آن‌ها وجود نداشته باشد “اين احتمال از رابطه زير به دست مي‌آيد:

طبيعي است که اگر E-Value هر چه به صفر نزديک‌تر باشد اطمينان ما به نتيجه بدست آمده بيشتر می‌شود. نتايج BLAST براساس اين دو شاخص مرتب مي‌شوند و بنابراين توالي‌هايي که در اوایل ليست هستند، توالي‌هايي هستند که اطمينان ما در شباهت آن‌ها به توالي الگوي مورد نظرمان بيش‌تر است. بنابراین E-Value نمی‌تواند مقداری دقیقاً مساوی صفر بگیرد اما می‌تواند مقدار بزرگ‌تر از 10 داشته باشد همچنین مقدار E-Value به طول توالی بستگی دارد.

بخش چهارم: جزئیات هم‌ردیفی تک توالی‌ها با توالی الگوی ما آورده شده است که شامل اطلاعاتی در مورد Score هم‌ردیفی میزان شباهت دو توالی و تعداد جایگاه‌های جفت شده و تعداد فواصل استفاده شده و … است. بخشی از دو توالی که هم ردیف شده‌اند در زیر این توضیحات می‌آید که می‌توان به راحتی مناطق مشترک بین دو توالی را مشاهده کرد (تصویر 23-6).

تصویر 23-6: قسمت چهارم نتایج BLAST.

2-6-4-6 سایر کاربردهای BLAST

135_هم ردیفی توالی ها

کاربرد اصلی BLAST یافتن تشابهات است و فرض ما این است که توالیهای مشابه اغلب از یک توالی اجدادی یکسان مشتق می‌شوند یعنی اگر توالی‌ها مشابه باشند احتمالا دودمان مشترکی دارند و ساختار یکسان و عملکرد زیستی یکسانی دارند. BLAST توسط ارائه دهندگان متفاوتی در دسترس می‌باشد که یکی از معروف‌ترین آن‌ها NCBI می‌باشد. مثلا ما می‌توانیم BLASTP را در NCBI و هم در EMBnet استفاده کنیم و البته چون بانک‌ها با هم متفاوت هستند حتما نتایج تاحدودی با هم متفاوت خواهند بود.

NCBI در کنار ارائه BLAST که پیش‌تر شرح داده شده برای کارهای دیگری هم که نیاز به پیدا کردن توالی می‌باشد ابزارهای متفاوتی را ارائه می‌دهد. مثلا cdart BLAST برای پیدا کردن یک توالی خاص در یک پروتئین کاربرد دارد و همچنین GEO BLAST در رابطه با بیان ژن‌ها به ما کمک می‌کند. با کمک IgBLAST توالی‌های ایمونوگلبولین را می‌توان بررسی کرد و انواع دیگری BLAST توسطNCBI در دسترس است که در زیر مشاهده می‌کنید:

Make specific primers with Primer-BLAST
Cluster multiple sequences together with their database neighbors using MOLE-BLAST
Find conserved domains in your sequence (cds)
Find sequences with similarconserved domain architecture (cdart)
Search sequences that have gene expression profiles(GEO)
Searchimmunoglobulins and T cell receptor sequences (IgBLAST)
Screen sequence for vector contamination(vecscreen)
Aligntwo (or more) sequences using BLAST (bl2seq)
Searchprotein or nucleotide targets in PubChem BioAssay
SearchSRA by experiment
Constraint Based Protein Multiple Alignment Tool
Needleman-Wunsch Global Sequence Alignment Tool
SearchRefSeqGene
Searchtrace archives
Search bacterial and fungal rRNA sequences with Targeted Loci BLAST

طراحی پرایمر

Primer BLAST یک ابزار آنلاین می‌باشد که توسط NCBI در دسترس است و به محققین برای طراحی پرایمر یاری می‌رساند. کاربر می‌تواند توالی خود را به نرم‌افزار ارائه دهد تا نرم‌افزار یک سری پرایمر مفید پیشنهاد دهد و یا حتی می‌توان پرایمری را که توسط ابزار دیگری طراحی کردیم با Primer BLAST مورد بررسی قرار دهیم تا میزان اختصاصیت پرایمر را بررسی کند.

برای طراحی پرایمر ابتدا باید توالی ژن مورد نظر را از بانک توالی‌ها به دست آورد. با توجه به هدف پژوهشی مورد نظر باید محدوده‌ای از توالی را که قرار است تکثیر شود را تعیین کرد و سپس اقدام به طراحی پرایمر نمود. در طراحی پرایمر باید به معیارهای مختلف از قبیل طول پرایمر، درصد GC، دمای (annealing) TM و اختصاصی بودن انتهای توجه داشت. طراحی پرایمر خوب سبب موفقیت در PCR و برعکس طراحی نادرست پرایمر می‌تواند منجر به تولید کم، و یا عدم تولید محصول مطلوب، تولید محصولات غیراختصاصی و یا تشکیل دایمر پرایمر شود که با تولید محصول اصلی رقابت کرده و سبب کارکرد نامطلوب PCR می‌شود. امروزه نرم‌افزارهای مختلفی وجود دارند که طراحی پرایمر را انجام می‌دهند، اما محقق باید بررسی نهایی را انجام دهد و به نکات خاصی توجه داشته باشد که برخی از این نکات در زیر آورده شده‌اند:

1- طول پرایمر: به طور معمول طول پرایمرها باید 30-18 نوکلئوتید باشد. برای جلوگیری از اتصالات غیراختصاصی پرایمر، طول پرایمر باید حداقل 18 نوکلئوتید باشد. اندازه 22-18 نوکلئوتید، مطلوب‌ترین اندازه برای پرایمر است. هم‌چنین باید از توالی‌های بلند نوکلئوتیدی به تعداد چهار نوکلئوتید یا بیش‌تر خودداری شود.

2- دمای Tm: بهترین دمای Tm حدوداً بین 50 تا 60 درجه است. محاسبه حدود تقریبی دمای واسرشتی از فرمول Wallace، Tm=2(A+T)+4(G+C) قابل استفاده می‌باشد (محاسبه عموما برای 30-18 نوکلئوتید قابل اعتماد است). اختلاف Tm بین پرایمرهای رفت و برگشتی باید حداقل باشد بهتر است که این اختلاف کم‌تر از 5/2 درجه باشد.

3- درصد GC: محتوای GC پرایمرها باید بین 40 تا 60 درصد باشد تا اختصاصیت اتصال آن به ناحیه مورد نظر حفظ شود. بهتر است اختلاف درصد GC پرایمرهای رفت و برگشتی از 5% بیش‌تر نباشد.

4- انتهای و توالی: بهتر است در انتهای پرایمر یکی از نوکلئوتیدهای A یا T قرار گیرد. ولی مطلوب آن است که پرایمر در انتهای خودداری C و یا G باشد تا اتصال محکمی را با DNA الگو برقرار کند. با توجه به اهمیت انتهای، نباید این ناحیه از پرایمر در تشکیل ساختارهای ثانویه مانند سنجاق سر و یا دایمر شرکت کند.

5- بهتر است نوکلئوتیدهای A, T, G, C توزیع یکسانی داشته باشند.

6- برای بررسی تشکیل نشدن Hairpin‌ها می‌توان از نرم‌افزارهای مختلف کمک گرفت.

136-فصل ششم

7- برای بررسی تشکیل نشدن dimerها می‌توان از نرم‌افزارهای مختلف کمک گرفت.

8- برای بررسی تشکیل نشدن loop می‌توان از نرم‌افزارهای مختلف کمک گرفت.

9- : معمولا وقتی خیلی منفی باشد GC زیاد است.

10- برای اطمینان از این که پرایمر طراحی شده قادر به شناسایی دیگر توالی‌های DNA به غیر از ژن هدف نیست، پرایمرها را با برنامه Primer BLAST آنالیز می‌شوند.

7-4-6 FASTA

بسته نرم‌افزاری فست‌ ای که هم‌اکنون مورد استفاده قرار می‌گیرد شامل برنامه‌هایی برای جست‌جوی پروتئین- پروتئین،
DNA-DNA، پروتئین– DNA ترجمه شده (همراه با تغییرات محتوا) و جست‌وجوی پپتیدهای آرایش یافته و آرایش نیافته می‌‌باشد. نسخه‌های نهایی فست ای شامل الگوریتم‌های جست‌وجوی ویژه‌ای می‌باشد که جهت تصحیح خطاهای تغییر محتوا، هنگام بررسی توالی داده پروتئین با نوکلئوتید، مورد استفاده قرار می‌گیرد. علاوه بر این جهت افزایش سرعت روش‌های جست‌وجوی اکتشافی (heurisitic search) بسته نرم‌افزاری فست ای مجهز به (SSEARCh) ابزاری برای بهینه‌سازی الگورتیم اسمیت واترمن می‌باشد. بیش‌ترین تمرکز این بسته نرم‌افزاری بر روی صحت آمار مشابه می‌باشد، بنابراین زیست‌شناسان به‌راحتی می‌توانند در مورد این‌که یک هم‌ترازی به‌صورت اتفاقی حاصل شده و یا ممکن است به واسطه همولوژی باشد، اظهار نظر نمایند. فست‌ ای یک توالی نوکلئوتید یا یک رشته آمینو اسید را به‌عنوان ورودی دریافت کرده و به کمک هم‌ترازسازی محلی توالی داده‌ی ورودی و توالی‌هایی که در پایگاه داده هستند، تشابهات توالی‌های متعلق به پایگاه‌ داده‌های یکسان را پیدا کند. برنامه فست ای از یک روش Heuristic بسیار گسترده پیروی می‌نماید که سرعت اجرای برنامه را بسیار ارتقاء داده است. روش کار بدین صورت است که برنامه ابتدا یک الگو برای شناخت کلمات در نظر می‌گیرد سپس بر اساس طول جمله، کلمات متناظر با هم را تفکیک می‌نماید سپس کلماتی را که دارای بیش‌ترین احتمال تناظر هستند را قبل از اجرای بیش‌تر یک جست‌وجوی بهینه‌سازی زمان‌گیر با استفاده از الگوریتم Smith- Waterman علامت می‌زند. در مرحله آخر جست‌وجو از الگورتیم اسمیت واترمن جهت محاسبه‌ی امتیاز بهینه برای هم‌ترازسازی (Alignment) استفاده می‌شود.

5-6 مقایسه چند تایی توالی‌ها (Multiple sequence alignment)

مقایسه چند تایی توالی‌هاکه MSA نیز نامی‌ده می‌شود شکل گسترده ای از مقایسه است که در آن چند توالی به دست آمده با تشابه‌های مناسب با یکدیگر جور میشوند. تحت چنین شرایطی، اغلب نیاز است که تعداد زیادی از مقایسه دوگانه را به یک مقایسه منفرد تبدیل نماییم به گونه ای که موقعیت‌هایی که از لحاظ تکاملی با هم معادلند در طول تمام توالی‌ها با هم جور شوند. مقایسه چند تایی توالی‌ها اجازه می‌دهد تا بتوانیم الگوهای محافظت شده توالی‌ها را در اعضای یک خانواده ارزیابی نماییم. به علاوه این ابزار برای اقدامات اولیه جهت آنالیز فیلوژنتیک خانواده‌ها و پیش بینی ساختار دوم و سوم پروتئین ضروری است.

از لحاظ تئوری امکان استفاده از برنامه‌های دینامیک برای مقایسه چندین توالی وجود دارداما به علت این که با افزایش تعداد توالی‌ها زمان محاسبه بسیار کند می‌شود به همین خاطر برای یک مجموعه بیش‌تر از ده توالی از روش‌های دینامیک استفاده نمی‌کنند و راهکارهای هورستیک استفاده می‌شود. جور شدن چند تایی توالی‌ها براساس یک تابع نمره دهی خاص صورت می‌پذیرد. این تابع از تکنیک مجموعه جفت‌ها یا SP استفاده می‌کند به طوری که مجموع نمرات تمامی جفت‌های ممکن در مقایسه چند تایی توالی‌ها براساس یک ماتریکس نمره دهی خاص می‌باشد.

1-5-6 الگوریتم‌های هورستیک(Heurestic algorithms)

در علوم کامپیوتر، هوش مصنوعی و بهینه‌سازی، الگوریتم جست‌وجوی کاشف یا هیوریستیک، روشی برای حل مسائلی است که راه‌های کلاسیک حل آن‌ها بسیار کند می‌باشند و یا راه حل تقریبی برای مسائلی است که راه‌های کلاسیک نمی‌توانند برای آن‌ها جواب دقیقی پیدا کنند. بیش‌تر مسائل پیچیده نیازمند ارزیابی تعداد انبوهی از حالت‌های ممکن برای تعیین یک جواب دقیق می‌باشند. زمان لازم برای یافتن یک جواب دقیق اغلب بیش‌تر از یک طول عمر است. هیوریستیک‌ها با استفاده از روش‌های نیازمند ارزیابی‌های کم‌تر و ارائه جواب‌هایی در محدودیت‌های زمانی قابل قبول دارای نقشی اثر بخش در حل چنین مسائلی خواهند بود.

این الگوریتم در سه گروه قرار می‌گیرد: 1. مقایسه تکراری (لوپ) 2. مقایسه مبتنی بر بلوک 3. مقایسه پیش‌رونده (progressive)

1-1-5-6 مقایسه تکراری (لوپ)

راهکار مکرر براساس این ایده است که اگر جواب‌های زیر سطح بهینه را به طور مکرر تغییر دهیم می‌توان به یک جواب بهینه دست یافت. این روند با یک مقایسه با کیفیت پایین شروع میگردد و سپس این مقایسه را به طور مکرر تکرار می‌نماید تا پاسخ بهبود یابد و این کار را تا زمانی انجام می‌دهد که دیگر افزایش بهبودی در نتیجه دیده نشود. PRRN برنامه تحت وب است که از استراتژی تکرار برای مقایسه استفاده می‌کند. این روش مقایسه چند تایی را از طریق دو مجموعه تکراری انجام می‌دهد: تکرار داخلی و تکرار خارجی.

137-هم ردیفی توالی ها

2-1-5-6 مقایسه مبتنی بر بلوک یا توالی‌های حفاظت شده محدود

استراتژی‌های مقایسه شدیدا مبتنی بر مقایسه کامل توالی‌ها هستند و ممکن است قادر نباشند که دمین‌ها و موتیف‌های محافظت شده را از بین توالی‌های شدیدا واگرا و با طول متفاوت تشخیص دهند. برای این چنین توالی‌های واگرا که تنها با هم تشابه منطقه ای دارند بایستی از یک روش مقایسه موضعی استفاده نمود. استراتژی یک بلوک از مقایسه بدون شکاف که در بین تمام توالی‌ها مشترک است منشا می‌گیرد.

DIALIGN2 یک برنامه تحت وب است که برای یافتن تشابهات موضعی طراحی شده است. این روش از جریمه شکاف استفاده نمی‌کند بنابراین برای توالی‌های بزرگ حساسیت ندارد. این روش هر توالی را به قطعات کوچک‌تری شکسته و تمام مقایسات دو به دو ممکن را بین این قطعات انجام می‌دهد.

3-1-5-6 هم‌ردیفی پیش‌رونده

هم‌ردیفی‌های چندگانه برای آنالیز فیلوژنتیکی مفید هستند، همچنین اگر روابط فیلوژنتیک در یک مجموعه توالی شناخته شود، این اطلاعات می‌تواند برای ایجاد یک هم‌ردیفی چندگانه به کار رود. در واقع، این روابط دو جانبه به عنوان اساس یک روش ایجاد هم‌ردیفی چندگانه‌ی اولیه که به طور هم‌زمان درخت فیلوژنتیکی و هم‌ردیفی را ایجاد می‌کند، به کار رفته است. یک راه کوتاه‌تر، ایجاد یک درخت تقریبی از توالی‌ها و به کار بردن آن برای ایجاد یک هم‌ردیفی چندگانه است؛ سرعت بالا و سادگی بسیار در این روش، آن را برای کارهای معمولی بسیار جذاب کرده است. یک درخت را می‌توان به سرعت با ایجاد همه‌ی هم‌ردیفی‌های دو به دوی ممکن میان همه‌ی توالی‌ها و محاسبه‌ی یک فاصله (یعنی نسبت ریشه‌هایی که بین دو توالی متفاوت ‌اند) در هر مورد رسم کرد. چنین فاصله‌هایی برای ایجاد درختی با یکی از روش‌های فاصله‌ای رایج مانند روش NJ به کار می‌رود. برای نمونه، درختان NJ را می‌توان به سرعت برای چند صد توالی به کار برد. بعد از آن، هم‌ردیفی به تدریج با ترتیب شاخه‌بندی در درخت شکل می‌گیرد. نخست، دو توالی بسیار مشابه با استفاده از برنامه‌ریزی پویا، GPها و ماتریس وزنی هم‌ردیف می‌شوند. برای هم‌ردیفی بعدی، دو توالی به عنوان یک توالی (یا یک Subalignment) تلقی می‌شوند به طوری که هر گپ ایجاد شده میان دو توالی نمی‌تواند تغییر کند. دوباره، دو تا از شبیه‌ترین توالی‌ها یا گروه‌های هم‌ردیف شده با هم‌دیگر هم‌ردیف می‌شوند. دو توالی هم‌ردیف نشده یا دو Subalignment می‌توانند هم‌ردیف شوند یا یک توالی می‌تواند به یک Subalignment اضافه شود که بستگی به این دارد که کدام شبیه‌ترند. این فرآیند تا زمانی که همه توالی‌ها هم‌ردیف شوند، ادامه می‌یابد. تا زمانی که درخت اولیه ایجاد شود، هم‌ردیفی چندگانه می‌تواند با تنها N-1 هم‌ردیفی جداگانه برای N توالی انجام شود. این فرآیند به اندازه‌ای سریع است که اجازه‌ی هم‌ردیفی صدها توالی را می‌دهد.

1-3-1-5-6 Clustal

رایج‌ترین نرم‌افزار مورد استفاده برای هم‌ردیفی پیش رونده Clustalw و Clustax است. این برنامه‌ها به صورت رایگان در دسترس می‌باشند. این برنامه‌ها را می‌توان با استفاده از سرور اینترنتی در مکان‌های مختلفی به کار برد. Clustalw می‌تواند یک سری از توالی‌های ورودی را بگیرد و به طور خودکار کل فرآیند هم‌ردیفی پیشرفته را انجام دهد. توالی‌ها در جفت‌هایی برای ایجاد ماتریس فاصله مرتب می‌شوند که می‌تواند برای ایجاد درخت ساده‌ی اولیه از توالی‌ها به کار رود. این درخت راهنما در یک فایل ذخیره می‌شود و با استفاده از روش NJ درخت بدون ریشه را ایجاد می‌کند که برای راهنمایی در هم‌ردیفی چندگانه استفاده می‌شود. نهایتا هم‌ردیفی چندتایی با استفاده از روش‌های پیشرفته که قبلا توضیح داده شد، طراحی می‌شود. Clustalw ویژگی‌های خاصی دارد که به ایجاد هم‌ردیف‌های دقیق‌تر کمک می‌کند. نخست، توالی‌ها براساس میزان شباهت به سایر توالی‌ها وزن داده می‌شوند (که به وسیله‌ی درخت راهنما مشخص می‌شود). این کار مفید است زیرا گروه‌های بزرگ توالی‌های مشابه از غلبه‌ی یک هم‌ردیفی جلوگیری می‌کند. دوم این که ماتریس وزنی مورد استفاده برای هم‌ردیفی‌های پروتئینی بسته به میزان شباهت دو توالی بعدی یا مجموعه‌ی توالی‌ها متفاوت است. یک ماتریس وزنی برای توالی‌های بسیار مشابه به کار می‌رود که امتیاز بالایی به ریشه‌های یکسان وامتیازات کمی به سایر موارد می‌دهد. برای توالی‌های با شباهت کم‌تر، عکس این موضوع صحیح است؛ لازم است تا امتیازات بالایی به مطابقت اسیدآمینه‌های حفاظت شده داده شود و امتیاز کم‌تر به آن‌ها که یکسان هستند. Clustalw مجموعه‌ای از چهار ماتریس انتخاب شده از مجموعه‌های BLOSUM یا PAM را به کار می‌برد. هنگام هم‌ردیفی؛ برنامه تلاش می‌کند تا GPهای متنوع در یک حالت اختصاصی توالی (یا اختصاصی موقعیت) بدهد که کمک می‌کند تا توالی‌های با طول‌های مختلف و شباهت‌های مختلف هم‌ردیف شوند. GPهای اختصاصی موقعیت، برای متمرکز کردن گپ‌ها در حلقه‌های میان عناصر ساختار ثانویه به کار می‌روند که یا به صورت دستی یا به صورت خودکار انجام می‌شود. در هر مرحله، در موقعیت‌های دارای ریشه‌های آبدوست یا در موقعیت‌هایی که در آنجا گپ‌های زیادی است، GPها کم می‌شوند. هم‌چنین GPها نزدیک برخی ریشه‌ها مانند گلیسین که به‌طور تجربی نزدیک گپ‌ها شناخته شده، کاهش می‌یابد. GPها در مجاورت گپ‌های موجود و ریشه‌های خاصی افزایش می‌یابد. این مولفه‌ و مولفه‌های دیگر قبل از هر هم‌ردیفی توسط کاربر قابل تنظیم هستند.

138-فصل ششم

مجاورت گپ‌های موجود و ریشه‌های خاصی افزایش می‌یابد. این مولفه‌ و مولفه‌های دیگر قبل از هر هم‌ردیفی توسط کاربر قابل تنظیم هستند.

Dbclustal یک الگوریتم جست‌وجوی بانک اطلاعاتی مبتنی بر clustal برای توالی‌های پروتئینی است که از خصوصیت هر دو مقایسه بخش‌هایی از توالی و مقایسه کامل توالی‌ها استفاده می‌نماید. PRALINE نیز یک برنامه مقایسه پیشرفته تحت وب است که در این برنامه ابتدا پروفایلی برای هر توالی با استفاده از ابزار PSIBLAST ایجاد میگردد. پروفایل‌های پیش فرض شده سپس برای مقایسه چند تایی استفاده می‌گردند. در این روش مقایسه‌ها به طور متوالی افزایش میابند.

معرفی Clustalw

یکی از برنامه‌های تحت وب معروف برای هم تراز کردن چندگانه توالی‌ها است که از طریق EBI در دسترس می‌باشد. دو گونه‌ی مختلف از این برنامه موجود است به نام‌های ClustalW که واسط کاربر متنی دارد و ClustalX که دارای واسط کاربر گرافیکی است و دارای نسخه‌های قابل اجرا در سیستم‌ عامل‌های ویندوز، لینوکس و مکینتاش است. در الگوریتم کلاستال برای هم تراز کردن چند توالی با هم سه گام اصلی وجود دارد:

انجام هم تراز کردن جفتی
ساخت یک درخت فیلوژنتیک
استفاده از درخت فیلوژنتیک برای هم تراز کردن چندگانه توالی‌ها

با انتخاب گزینه‌ی “Do Complete Alignment” همه‌ی این مراحل به طور خودکار انجام می‌شوند. گزینه‌های دیگر شامل “Do Alignment from guide tree” و “Produce guide tree only” می‌باشد. کاربران می‌توانند هم تراز کردن توالی‌ها را با تنظیمات پیش فرض انجام دهند؛ هرچند معمولا با تغییر دادن تنظیمات با پارامترهای خاص خود نتیجه‌ی بهتری بدست می‌آید. این پارامترها، جریمه‌ی گشایش فاصله و جریمه‌ی گسترش فاصله می‌باشند.

تصویر 24-6: نمایی از نرم افزار Clustalw.

نرم افزار داراي يك باكس مي‌باشد كه بايد توالي‌هاي نوكلوئيدي یا توالی اسید آمینه را با فرمت خاص در آن قرار داد كه فرمت خاص آن طبق قانون زير است

139-هم ردیفی توالی ها

توالي‌ها را براساس فرمت FASTA وارد باكس نرم افزار می‌کنیم و سپس با كليك بر روي گزينه Submit نرم‌افزار شروع به alignment كردن sequenceها می‌کند. این نرم افزار توالی‌ها را با یکدیگر مقایسه می‌کند و بیش‌ترین شباهت را اعلام می‌کند

تصویر 25-6: یک نمونه نتیجه از نرم افزار Clustalw.

2-3-1-5-6 معرفی T-Coffee

T-Coffee از Clustalw کندتر است اما هم‌ردیفی دقیق‌تری را ایجاد می‌کند (هنگام آزمون با BaliBase) که به دقت برنامه‌های DIALING یا PRRP است. این افزایش دقت در مشکل‌ترین آزمون‌ها و در تمام شاهدهای BaliBase مشاهده می‌شود. این روش براساس یافتن هم‌ردیفی چندگانه‌ای است که بیش‌ترین سازگاری را با یک مجموعه از هم‌ردیفی‌های دوتایی میان توالی‌ها داشته باشد. هم‌ردیفی‌های دو به دو را می‌توان از ترکیب منابع به دست آورد مانند برنامه‌های هم‌ردیفی مختلف یا انواعی از داده‌هایی که حاوی ساختارهای روی هم قرار گرفته و هم‌ردیفی توالی است. این‌ها برای یافتن جفت‌های هم‌ردیف از ریشه‌های موجود در مجموعه‌ی داده‌های اولیه استفاده می‌شوند که بیش‌ترین همانندی را در طول هم‌ردیف‌های مختلف داشته باشند. پس این اطلاعات، برای جمع‌آوری داده‌ها روی ریشه‌های بسیار مشابه به هم‌ردیفی توالی‌ها استفاده می‌شود. مرحله‌ی آخر، اضافه کردن هم‌ردیف چندگانه با استفاده از هم‌ردیفی پیشرفته معمولی است که سریع و ساده است و به پارامتر دیگری مانند GPها یا ماتریس وزنی نیاز ندارد. معایبT-Coffee در برابرClustalw زمان زیاد مورد نیاز رایانه برای هم‌ردیفی است. ظرفیت آن برای وارد کردن تنها 50 توالی است که در طول زمان در نرم‌افزارهای جدیدتر افزایش می‌یابد. ابزاری تحت عنوان 3D-Coffee وجود دارد که مدلی اختصاصی از T-Coffee

140-فصل ششم

2-5-6 الگوی مخفی مارکوف

یک روش جذاب برای هم‌ردیفی “الگوی مخفی مارکوف” (HMM) است که براساس احتمال جایگزینی ریشه‌ها و وارد شدن یا حذف گپ‌ها است. نشان داده شده که HMM در شرایط متنوع زیست‌شناسی مولکولی محاسباتی مفید است؛ مانند جست‌وجوی اینترون و اگزون‌ها یا پیش‌بینی پروموترها در توالی‌های DNA. هم‌چنین، HMM برای خلاصه کردن اطلاعات متنوع در هم‌ردیفی موجود از توالی‌ها و پیش‌بینی این که توالی جدید متعلق به چه خانواده‌ای است، مفید می‌باشد. برخی بسته‌های نرم‌افزاری تولید HMM و یافتن هم‌ردیفی توالی‌های نامرتب را با هم انجام می‌دهند. این روش‌ها دقیق نیستند؛ با وجود این، پیشرفت‌هایی شکل گرفته و اکنون روش SAM مربوط به Hughey و Krogh (1996) از نظر دقت قابل مقایسه با Clustalw است هر چند به آن اندازه آسان و سریع نیست.

3-5-6 توالی‌های نوکلئوتیدی در برابر توالی‌های آمینواسیدی

شاید توالی‌های نوکلئوتیدی رمز کننده باشند یا نباشند. در موارد دیگر، ممکن است آن‌ها رمز کننده‌ی انواع RNAی کاتالتیک یا ساختاری باشند اما بیش‌تر آن‌ها رمزکننده‌ی پروتئین هستند. در مورد ژن‌های رمز‌کننده‌ی پروتئین، هم‌ردیفی را می‌توان براساس توالی نوکلئوتیدی یا اسیدآمینه‌ای انجام داد. شاید این انتخاب تحت تأثیر نوع آنالیز بعد از هم‌ردیفی باشد؛ برای نمونه، شاید دگرگونی‌های خاموش در توالی‌های بسیار مشابه بررسی شود. در این مورد، آنالیز هم‌ردیفی آمینواسیدی مفید نیست زیرا اختلاف کمی میان توالی وجود خواهد داشت. بالعکس، اگر توالی‌ها دور از هم باشند، آنالیز را می‌توان هم با اختلاف آمینواسیدی و هم نوکلئوتیدی انجام داد. صرف نظر از مطلوب بودن آنالیز نهایی، هم‌ردیفی توالی آمینواسیدی آسان‌تر و واضح‌تر از هم‌ردیفی‌های نوکلئوتیدی است که در مورد جست‌وجوی پایگاه اطلاعات توالی‌ها چنین است؛ علاوه بر این دلایلی که بحث شد، بیش‌تر برنامه‌های هم‌ردیفی یک کدون را به عنوان یک واحد توالی نمی‌شناسند که آن‌ها را هنگام هم‌ردیفی جدا کنند. این موضوع برای هم‌ردیفی دو توالی معین و برنامه‌های جست‌وجوی پایگاه داده‌ها درست نیست اما در مورد بیش‌تر برنامه‌های هم‌ردیفی چندگانه درست است. یک روش متداول، انجام هم‌ردیفی در سطح اسیدآمینه و استفاده از آن برای ایجاد یک هم‌ردیفی توالی نوکلئوتیدی متناظر است که سپس می‌تواند به طور معمول آنالیز شود. برنامه‌های کامپیوتری مختلفی برای این کار در دسترس هستند مانند PROTAL2DNA یا DAMBE.

اگر توالی‌ها، رمزکننده‌ی پروتئین نباشد پس هم‌ردیفی نوکلئوتیدی تنها راه است. اگر توالی، رمزکننده‌ی RNAی ساختاری باشد (ماننده RNAی زیرواحد کوچک ریبوزوم یا rRNA SSU)، هم‌ردیفی با عملکرد ساختار اولیه و ثانویه، حداقل در بخشی از طول آن‌ها، محدود می‌شود. معمولا بخش‌هایی با همانندی واضح نوکلئوتیدی وجود دارد که میان بخش‌هایی که سریع‌تر دگرگون می‌شوند، قرار گرفته‌اند؛ کارایی نرم‌افزار بستگی به چنین شرایطی دارد. بیش‌تر برنامه‌های رایج برای rRNA، هم‌ردیفی بخش‌های اصلی بزرگی که میان فواصل زیاد فیلوژنتیکی حفاظت شده‌اند را مدیریت می‌کنند. با این حال، این قطعات اصلی هم‌ردیف شده با قطعات بسیار متغیر، پراکنده شده‌اند؛ بیش‌تر برنامه‌ها با این قطعات مشکل دارند. شاید در نظر گرفتن ساختار ثانویه، با استفاده از یک ویرایشگر اختصاصی RNA بتواند کمک کند اما هنوز هم پیدا کردن یک هم‌ردیفی واضح مشکل است. حذف این نواحی در آنالیز بعدی باید به طور جدی در نظر گرفته شود. اگر هم‌ردیفی اختیاری باشد، آنالیز بعدی ضروری نیست. خوشبختانه، قطعات حفاظت شده‌ی تقریبا واضحی در هم‌ردیفی وجود دارد تا برای انجام آنالیز فیلوژنتیکی استفاده شود.

پس در توالی‌های نوکلئوتیدی که رمزکننده نیستند (مانند SINES یا اینترون‌ها)، هنگامی که توالی‌ها بیش از سطح مشخصی از هم دور باشند، ممکن است هم‌ردیفی مشکل باشد. توالی‌هایی که محدودیت زیادی ندارند، می‌توانند حذف و اضافه و جایگزینی‌ها را در همه‌ی موقعیت‌ها جمع کنند؛ این قطعات غیر قابل هم‌ردیفی هستند. اگر توالی‌ها تکرارهای کوچک داشته باشند، هیچ راه حل الگوریتمی وجود ندارد و به خصوص این حالت بسیار مشکل است. حتی اگر تا حدی هم‌ردیفی مطلوبی با استفاده از یک امتیاز هم‌ردیفی یا پارسمیونی به دست آید، دلیلی برای این که این هم‌ردیفی از نظر زیستی پاسخگو باشد، وجود ندارد. چنین امتیازاتی براساس فرضیه‌های اختیاری درباره‌ی جزئیات فرآیند تکاملی در توالی‌ها است. حتی اگر جزئیات فرضیه‌ها توجیه‌پذیر باشد، هم‌ردیفی به قدری مبهم است که شبیه توالی‌هایی است که در آن‌ها هم‌ردیفی غیر قابل دستیبای است. اگر یک هم‌ردیفی با یک هم‌ردیفی دیگر تایید نشود، باید با احتیاط با آن رفتار کرد.

141-هم ردیفی توالی ها

6-6 مروری بر ابزارهای تجزیه‌ و تحلیل توالی‌های نوکلئوتیدی:

BLAST: از این برنامه‌ برای مقایسه‌ی توالی DNA و پروتئین با توالی‌های دیگر در همه‌ی پایگاه‌های اطلاعاتی استفاده می‌شود. اکنون این برنامه به صورت مختلفی شامل BLAST، PHI-BLAST و PSI-BLAST ارایه شده است. BLAST به عنوان یکی از ابزارهای هم‌ردیفی توالی‌های DNA و پروتئین در این فصل به طور کامل توضیح داده شده است.

PCR الکترونیکی: این ابزار اجازه‌ی جست‌وجوی STSها (به عنوان نشانه یا راهنما^[1] در انواع مختلفی از نقشه‌های ژنومی) در توالی DNA مورد نظر را می‌دهد. منبع UniSTS حاوی تمام اطلاعات در زمینه‌ی نشان‌گر STS از قبیل توالی آغازگر، طول محصول، اطلاعات نقشه و اسامی دیگر آن است.

Entrez Gene: دامنه وسیعی از اطلاعات درباره‌ی ژن‌ها و موجودات را در بر دارد. این اطلاعات شامل نتایج تجزیه و تحلیل‌هایی است که روی داده‌های توالی صورت گرفته است. مقدار و نوع اطلاعات ارائه شده وابسته به این است که چه اطلاعاتی راجع به یک ژن و یا موجود مشخص در دسترس است و می‌تواند شامل 1) خلاصه گرافیکی محتوی ژنومی، ساختار اگزون/ اینترون، 2) تصویر گرافیکی توالی mRNA، 3) انتولوژی ژنی و اطلاعات مربوط به فنوتیپ، 4) داده‌های توالی پروتئینی و دمین‌های حفظ شده، 5) پایگاه‌های اطلاعات مربوط به جهش باشد.

Model Maker: امکان ایجاد توالی mRNA از روی توالی ژنوم را فراهم می‌کند. در حقیقت با کمک این ابزار را می‌توان برای ساخت یک مدل ژنی دل‌خواه و یا ویرایش مدل از راه انتخاب یا حذف اگزون‌های مورد نظر بهره جست.

ORF Finder: این برنامه ORFهای ممکنه در یک توالی DNA را به وسیله‌ی قرار دادن کدون‌های شروع و پایان مشخص می‌نماید. هم‌چنین توالی آمینواسیدی استنباط شده را می‌توان با استفاده از ابزار BLAST در NCBI بررسی کرد.

SAGEmap: ابزاری برای انجام آزمون‌های آماری برای تجزیه و تحلیل‌های مختلف داده‌های SAGE^[2] می‌باشد. با وارد کردن یک توالی تقاضا در منبع SAGEmap، می‌توان فهمید که آیا قطعات SAGE در توالی وجود دارد یا خیر.

Spidey: هم‌ردیفی یک و یا بیش از یک توالی mRNA را با یک توالی ژنومی فراهم می‌کند. این برنامه هم‌چنین ساختار اگزون/ اینترون را تعیین خواهد کرد.

Splign: برای محاسبه‌ی هم‌ردیفی‌های cDNA با DNA ژنومی براساس یک نوع ویژه از الگورتیم نیدلمن و وانچ به همراه ابزار BLAST عمل می‌کند.

Vec Screen: ابزاری برای شناسایی قطعات یک توالی اسید نوکلئیکی (که ممکن است حاصل یک حامل، لینکر یا سازگارساز باشد)، قبل از تجزیه توالی است.

Viral Genotyping Tool: یک برنامه مبتنی بر شبکه است، که ژنوتیپ توالی‌های نوکلئوتیدی ویروس‌های نوترکیب و غیرنوترکیب را مشخص می‌کند. این برنامه با کمک BLAST مقایسه‌ی یک توالی ورودی را با مجموعه‌ای از توالی منبع (با ژنوتیپ‌های شناخته شده) انجام می‌دهد. ژنوتیپ‌های منبع از قبل برای پاتوژن ویروس شامل HIV-1، هپاتیت C و هپاتیت B و هم‌چنین پولوویروس‌ها^[3] مشخص و در دسترس هستند.

[1] Landmark

[2] Serial Analysis of Gene Expression

[3] Poliovirus

» فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

114-فصل ششم

برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621

115-هم ردیفی توالی ها

116-فصل ششم

117-هم ردیفی توالی ها

118-فصل ششم

119-هم ردیفی توالی ها

120-فصل ششم

مقايسه‌ هم‌رديفي‌ها

121-هم ردیفی توالی ها

122-فصل ششم

123-هم ردیفی توالی ها

124-فصل ششم

125-هم ردیفی توالی ها

126-فصل ششم

127-هم ردیفی توالی ها

128-فصل ششم

129-هم ردیفی توالی ها

130-فصل ششم

131-هم ردیفی توالی ها

132-فصل ششم

133-هم ردیفی توالی ها

134-قصل ششم

135_هم ردیفی توالی ها

طراحی پرایمر

136-فصل ششم

137-هم ردیفی توالی ها

138-فصل ششم

139-هم ردیفی توالی ها

140-فصل ششم

141-هم ردیفی توالی ها

بابک باباعباسی

مطالب مرتبط

مطالب بیشتر»

حفاظت شده: پاسخنامه فصل ششم-متابولومیکس کتاب تست بیوانفورماتیک

سوالات فصل ششم-متابولومیکس کتاب تست بیوانفورماتیک

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

پر بیننده ترین

کتاب درک الگوریتم؛ راهنمای تصویری برای برنامه‌نو یس‌ها و افراد کنجکاو دانلود

دانلود رایگان کتاب بیوانفورماتیک سلولی و مولکولی بابک باباعباسی

شروعی دوباره

فصل ششم-هم‌ردیفی توالی‌ها کتاب بیونفورماتیک سلولی و مولکولی

بیوانفورماتیک سلولی و مولکولی کتاب بیونفورماتیک سلولی و مولکولی

فصل دوازدهم-پیشگویی ساختار دوم و سوم پروتئین کتاب بیونفورماتیک سلولی و مولکولی

سیستم بیولوژی یا بیوانفورماتیک مسئله این است؟!

مقایسه زبان python و R برای کار در حوزره علم داده

مدل سازی پویا در زیست شناسی سامانه گرا (Dynamic Modelling in Systems Biology)

فصل سوم-پایگاه‌های اطلاعات اولیه توالی‌های اسید نوکلئیک کتاب بیونفورماتیک سلولی و مولکولی

آخرین مطالب

کارشناسی ارشد بیوانفورماتیک پزشکی

دانلود رایگان کتاب “کاربرد شبکه ها در بیوانفورماتیک” دکتر محی الدین جعفری

“بیوانفورماتیک دان” بودن یا “بیوانفورماتیک کار” بودن مسئله این است!!!

مقاله کامل در زمینه زیست شناسی شبکه ها 2024

معرفی نسخه اول نشریه علمی تخصصی بیوانفورماتیک در حوزه زیست تحقیقاتی

نسخه جدید کتاب بانک سوالات کنکور دکتری درس بیوانفورماتیک برای وزارت بهداشت و علوم چاپ شد تا سال 1403

ارزش بازار خدمات بیوانفورماتیک در سال 2024 بالغ بر 16.36 میلیارد دلار برآورد شده است و پیش‌بینی می‌شود تا سال 2029 به 23.97 میلیارد دلار برسد.

3: ساختار دادها در R

2: شرط ها و حلقه ها در R

1: مقدمه و شروع برنامه نویسی با R

دیدگاهتان را بنویسید لغو پاسخ