- 745
- 2023/04/26 - 10:54
- 289 بازدید
شرح فصل و نکات ویژه: در این فصل به مفاهیم پایهای و کاربردی در رابطه با انواع همردیفیها میپردازیم. همردیفی یا الایمنت کردن دو یا چند توالی با اهداف مختلفی در بیوانفورماتیک انجام میشود. یکی از چالشهای بسیار مهم در بیوانفورماتیک همردیفی توالیها میباشد. انواع BLAST و کاربردهای آن در این فصل شرح داده میشوند. 114-فصل ششم برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621 بررسي و مقايسه تواليهاي[…]
شرح فصل و نکات ویژه:
- در این فصل به مفاهیم پایهای و کاربردی در رابطه با انواع همردیفیها میپردازیم.
- همردیفی یا الایمنت کردن دو یا چند توالی با اهداف مختلفی در بیوانفورماتیک انجام میشود.
- یکی از چالشهای بسیار مهم در بیوانفورماتیک همردیفی توالیها میباشد.
- انواع BLAST و کاربردهای آن در این فصل شرح داده میشوند.
114-فصل ششم
برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621
بررسي و مقايسه تواليهاي ژنتيكي يا تواليهاي پروتئيني كمك فراواني به فرضيه تكامل میكند. به عنوان مثال، میتوان با استفاده از نرم افزار BLAST توالي يك ژن خاص را با ميليونها توالي ژني موجود مقايسه كرد و از اين طريق پي به نياي ژنتيكي بسياري از ژنها برد. بيوانفورماتيك ابزارهاي زيادي براي مطالعه بسياري از سؤالات مربوط به حوزه بيولوژي مانند پيبردن به شباهت دو ژن خاص با عملكردهاي مشابه، در اختيار محققين قرار داده است كه عبارتند از تعداد زيادي پايگاه دادهي با ارزش كه حاوي اطلاعات ژنها و پروتئينهاي بيان شده هستند كه از بافتها مشتق شدهاند و نيز نرم افزارهايي براي تحليل اين تواليها، امروزه ميليونها گونه زنده وجود دارد كه میتوان آنها را در سه شاخه اصلي باكتريها، آرکیها و يوكاريوتها گروه بندي كرد. پايگاه دادههاي مربوط به تواليهاي مولكولي هم اكنون تواليهاي DNAي بيش از يكصد هزار ارگانيزم مختلف را نگهداري میكنند. ژنوم چند صد ارگانيزم به صورت كامل تعيين توالي شده كه از طريق اين پايگاههاي دادهي نوكلئوتيدي در دسترس است. و حال تجزیه و تحلیل این دادهها و مقایسه آنها با یکدیگر و همچنین گاهی جستوجوی یک توالی در یک بانک یک چالش بزرگ برای کاربر میباشد.
1-6 همولوژی و تشابه
تشخیص رابطه تکاملی بین توالیها به مشخص کردن فعالیت توالیهای ناشناخته کمک میکند. انطباق توالیها را میتوان به عنوان اساس پیشگویی ساختار و عملکرد توالیهای ناشناخته مورد استفاده قرار داد. وقتی دو توالی از یک منشا تکاملی مشترک ناشی شده باشند گفته میشود که رابطه “همولوگ” و یا “همولوژی” دارند. اصطلاح مرتبط اما متفاوت دیگر “تشابه” است که درصد باقیماندههای انطباق یافته ای که از نظر خواص فیزیکو شیمیایی مثل اندازه، بار و آبگریزی مشابه هستند را نشان میدهد. همولوژی توالی استنتاج و یا نتیجه گیری درباره داشتن یک رابطه اجدادی مشترک است که از مقایسه تشابه، وقتی که دو توالی شباهت بالایی را نشان میدهند، به دست می آید. از طرف دیگر تشابه یک نتیجه مستقیم از مشاهده انطباق توالیها است. به طور کلی اگر سطح تشابه دو توالی به اندازه کافی بالا باشد میتوان رابطه اجدادی مشترک را نتیجه گیری کرد.
اگر دو توالی در طول کاملشان با هم انطباق داده شوند و 100 باقیمانده داشته و یکسانی 30درصد نشان دهند میتوان با اطمینان زیاد به عنوان همولوگ نزدیک در نظر گرفت که به این مقدار “ناحیه امن” اطلاق میشود. اگر یکسانی بین 20 تا 30 درصد باشد تعیین رابطه هومولوژی با قطعیت کمتری امکان دارد که به این مقدار “ناحیه سایه روشن” اطلاق میشود. در یکسانی کمتر از 20درصد جایی که اکثر توالیهای غیر مرتبط قرار دارند، رابطه هومولوزی را نمیتوان با اطمینان تعریف کرد و بنابراین “ناحیه تاریک” در نظر گرفته میشود. باید تاکید کرد که مقدار درصد یکسانی یک راهنمای تجربی برای تعیین هومولوژی فراهم میکند.
نکته: هومولوژی یک رابطه دوطرفه است، اما تشابه یک خاصیت قابل اندازه گیری و قابل تعیین میباشد.
تشابه توالی در برار یکسانی توالی:
تشابه توالی و یکسانی توالی برای توالیهای نوکلئوتیدی هم معنی هستند. برای توالیهای پروتئینی این دو اصطلاح بسیار متفاوتند. در انطباق توالی پروتئینی، یکسانی توالی به درصد اسیدهای آمینه یکسان بین دو توالی انطباق یافته اطلاق میشود. تشابه به درصد اسیدهای آمینه انطباق یافته ای که ویژگیهای فیزیکوشیمیایی مشابه داشته و میتوانند به سادگی با یکدیگر جایگزین شوند اطلاق میشود.
فرمول محاسبه درصد تشابه:
در این فرمول S درصد تشابه توالی، LS تعداد باقیماندههای انطباق یافته با خواص مشابه، La و Lb طول کلی هرکدام از توالیها است.
فرمول محاسبه درصد یکسانی:
در فرمول فوق Li تعداد باقی ماندههای یکسان انطباق یافته است.
115-هم ردیفی توالی ها
ارتولوگ، پارالوگ، گزنولوگ:
- ارتولوگ، همولوگهایی هستند که به وسیله ی فرایند گونهزایی به وجود آمده اند. در واقع آنها دارای ژنهایی حاصل از یک جد مشترک هستند، که عملکرد مشابهی دارند.
- پارالوگ، همولوگهایی هستند که به وسیله مضاعف شدن ژن به وجود آمده اند. آنها از یک ژن اجدادی مشترک که در یک موجود مضاعف و سپس منشعب شده به وجود آمدهاند ممکن است از نظر عملکردی متفاوت از همدیگر عمل کنند.
- گزنولوگها، همولوگهای حاصل از انتقال افقی ژن بین دو موجود میباشند.
تکامل همگرا و واگرا
- تکامل همگرا: تکاملی که در دو گونه ی متفاوت یک سری شباهتهای فنوتیپی(ظاهری) میبینیم که میتواند دلایل محیطی و یا دلایل دیگری داشته باشد، مانند والها که شباهت زیادی به ماهیها دارند.
- تکامل واگرا: تکاملی که در آن جاندارانی که از لحاظ ژنتیکی به هم نزدیک هستند، تفاوت ظاهری داشته باشند. برای مثال تعدادی از موجودات به جای هموگلوبین از هموسیانین که دارای مس میباشد استفاده میکنند.
کدهای اسید نوکلئیک و اسیدآمینهها
پیش از شروع بحث همردیفیها لازم است با کدهای مربوط با توالی اسید نوکلئیک و اسیدآمینهها آشنا شوید. جدول 1-6 کدهای مربوط به اسید نوکلئیکها را نمایش میدهدهمانطور که در جدول میبینید کدهای دیگری نیز به غیر از چهار کد اصلی در این جدول وجود دارند و کاربرد این کدها زمانی میباشد که یک توالی اسیدآمینه را میخواهیم به توالی اسید نوکلئیک ترجمه کنیم. هر اسیدآمینه یک نام و یک نماد سه حرفی و یک کد یک حرفی دارد، همچنین کدهای مختلف DNA میتواند اسیدآمینههای مشترکی را کد کنند که درتصویر 1-6 نمایی از زیر کدهای سه حرفی مربوط به اسیدآمینهها نمایش داده شده است.
جدول 1-6: کدهای مربوط به اسید نوکلئیکها.
تصویر 1-6: کدهای سه حرفی اسیدهای آمینه. همانطور که در تصویر مشاهده میکنید نوکلئوتیدهای سوم متغیرترین کدها در هر اسیدآمینه هستند.
116-فصل ششم
2-6 ابزارهای مقایسه ژنومها
یکی از ابزاهای مقایسه ژنوم BLAST میباشد، همان طور كه در بخشهای بعدی خواهید دید براي مقايسه دو توالي (همرديفي دوگانه) به كار ميرود، MUMer نیز براي مقايسه دو ژنوم بكار ميرود. این الگوریتم توسط گروه دکتر استیون سالزبرگ نوشته شده است و از طریق پایگاه TIGR آزدانه قابل دسترسی است. MUM توالی است که تنها یکبار در هر دو ژنوم حضور می یابد و بخشی از توالی ژنومی دیگر نیست. Mismathها همواره در کنار این توالیها وجود دارند.
تصویر 2-6: نمایی از همردیفی دو توالی.
MUMها براساس موقعیت شان در ژنوم A مرتب می شوند. سپس جهت MUMها در ژنوم B و نحوه matching آن با ژنوم A درنظر گرفته میشود. با استفاده از یک الگوریتم مناسب موقعیت بلندترین MUM در نظر گرفته میشود و همردیفی گلوبال روی آنها انجام میشود.
تصویر 3-6: نمایش همردیفی MUMها.
در الگوریتم MUMer فرض بر این است که توالیهای دو موجود به یکدیگر نزدیک بوده به همین دلیل مقایسه میلیونها باز به سرعت قابل انجام است. خروجيهاي این برنامه عبارتنداز: همردیفی کلیه بازهای موجود در دو توالی، مشخص کردن بخشهای کاملا یکسان و متفاوت در ژنومها، مشخص کردن موقعیت SNPها، تداخلهای بزرگ، تکرارهای معنی دار، معکوس شدگیها و Tandem repeatها. مراحل اجرای الگوریتم MUMer برای مقایسه دو ژنوم به این صورت است که ابتدا همردیفی هر دو ژنوم و مشخص کردن بخشهای کاملا match صورت میگیرد و در مرحله بعد مشخص کردن gapها و سپس SNPها مشخص میشوند.
3-6 پایگاههای مقایسهای ژنومها
به علت اين که پايگاههای مقایسهای ژنوم در حال توسعه بوده و در عين حال حاوي اطلاعات بسيار زيادي هستند به معرفي كوتاه تعدادي از آنها در اينجا بسنده ميكنيم.
117-هم ردیفی توالی ها
COG: رده بندی فیلوژنتیکی پروتئینهای رمز شونده در ژنوم موجودات مختلف در اين پايگاه يافت ميشود. آدرس دسترسی به این پایگاه به آدرس www.ncbi.nlm.nih.gov/COG میباشد و با استفاده از نام پروتئین و یا متن این پایگاه را مورد جستوجو قرار دهید.
Genome analysis: مقایسه دوتایی تواليهاي ژنومها با استفاده از نرم افزار BLASTZ براي جستوجوي همولوگهای پروتئینی را انجام ميدهد. آدرس دسترسی به این پایگاه www.ncbi.nlm.nih.gov/sutils/geneplot.cgi میباشد کاربر با مراجعه به این پایگاه میتواند در جعبههای جستوجو نام دو موجودی را که مورد مقایسه هستند را وارد کند.
تصویر 4-6: نمایی از یک مقایسه دوتایی توالیهای کامل ژنوم دو موجود.
Ensembl: يكي از بهترين پايگاهها براي به دست آوردن اطلاعات مقايسهاي بين ژنومها به طور گرافيكي است. پس از رجوع به اين پايگاه به آدرسwww.ensembl.org به اطلاعات ارگانیسم مورد نظر خود وارد شويد و میتوانید با کلیک روی گزینه View Syntenic regions، مقایسهای میان کروموزومهای ارگانیسم موجود با سایر ارگانیسمهایی که میتوانید انتخاب کنید انجام دهید.
118-فصل ششم
تصویر 5-6: همردیفی کروموزوم 10 انسان با کروموزومهای موش. همانطور که مشاهده میکنید 9 عدد از کروموزومهای موش با کروموزوم 10 انسان به صورت بخشی هم پوشانی دارند.
UCSC: به طور مشابهي ميتوان تصاوير گرافيكي از مقايسه بين كروموزومي (syntenic) دو موجود را در پايگاه UCSC داشت. پس از ورود به به ادرس genome.ucsc.edu به اطلاعات موجود مورد نظر خود وارد شويد. سپس در قسمت Comparative Genomics انتخابهاي خود را صورت دهيد. سپس روي دكمه Refersh كليك كنيد. گرافيك مقايسهاي ظاهر ميشود.
4-6 مقایسه دو توالي
در دهه 80، يک محقق هيچ برنامه رايانهاي براي اين که بتواند بين تعدادي توالي مشابه توالي را به توالي خود پيدا کند نداشت. بنابراين زبده ترين دانشمندان ان روزگار نيز مجبور بودند اين کار را به صورت دستي انجام دهند. به طور مثال، اگر قرار بود از بين سه توالي زير مشابه ترين توالي را به توالي خود انتخاب میکرد. بايد تک تک تواليها را با توالي الگو مقايسه ميکرد و ميزان شباهتها را در هر مقايسه به دست میآورد. امروزه به اين همرديفي دوگانه (Pairwise Alignment) ميگويند.
119-هم ردیفی توالی ها
سادهترين راه براي مقايسه کردن دو توالي اين است که هر بار دو توالي را در زير هم قرار دهيم و يک به يک بازها را با هم مقايسه کنيم تا شبيه ترين توالي را پيدا کنيم (شكلهاي A تا D در تصویر 6-6). ولي سوالي که پيش ميآيد اين است که چگونه و با چه معياري دو توالي مشابه تر را انتخاب ميکنيم؟ در اين جاست که بحث امتيازدهي (Scoring) مطرح ميشود. به عنوان مثال، ساده ترين نوع امتياز دهي اين گونه میتواند باشد که اگر دو بازي که زير هم قرار میگيرند يکسان باشند، امتياز یک و اگر همسان نباشند، امتياز صفر داده شود. با اين روش ميتوان مشابه ترين توالي و درجه شباهت ساير تواليها را با توالي الگو به دست آورد. حال میتوانیم توالیهای داده شده را با توالی الگو با همین روش همردیفی دوگانه کنیم. به نظر میرسد مورد C که امتیاز 9 گرفته است، همسانی بیشتری با توالی ما دارد.
تصویر 6-6: نمایش امتیاز همردیفی سه توالی متفاوت (سطرهای پایین) با یک توالی یکسان (سطرهای بالا).
در همردیفی دوگانه سوال این است که دو توالی چقدر به هم شبیه هستند. زمانی که ما برای تعیین میزان همسانی از امتیاز دهی و عدد استفاده میکنیم. در واقع از روشهای ریاضی برای حل مسئله ی زیستی استفاده میکنیم. از آنجایی که در دنیای زیست شناسی پارامترهای دخیل بسیار زیاد و در بسیاری از موارد ناشناخته هستند، بنابراین برای حل مسئلههای زیستی با استفاده از الگوریتمهای ریاضی و رایانهای، همواره با مشکل عدم تطبیق کامل مدل ریاضی با واقعیت زیستی روبرو هستیم. تفاوت راه حلها و الگوریتمها با هم در این است که جواب کدام یک به واقعیت زیستی که مشاهده میشود نزدیکتر است و آن را بهتر توجیه میکند.
اما همانطور كه در تصویر 7-6 ديده ميشود، اين دو توالي را به طريق ديگري هم ميتوان همرديف كرد. لذا سوالاتي هنوز باقي است مانند آن كه آيا همرديفي ديگري ممكن است؟ كدام همرديفي بهتر است؟ همرديفي بهتر يعني چه؟ كدام همرديفي گوياي اتفاقات زيستي است؟ آيا در همرديفيها روندهاي تكاملي قابل رديابي است؟ تا چه حد؟ و چگونه ميتوان همرديفيها در اين راستا به كار گرفت؟
اينها سوالات عميقي است كه پايههاي اساسي دادهپردازي زيستي را تشكيل ميدهند. در اين فصل سعي بر آن است كه اصول همرديفي تا اندازهاي آموزش داده شود تا به توان از آن براي جستوجوي تواليهاي مشابه و قضاوت در مورد ميزان مشابهت و درك مفهوم خانوادههاي ژني و پروتئيني استفاده نمود.
همانطور که دیدید با قرار دادن توالیها در زیر یکدیگر و امتیازدهی به این نتیجه رسیدیم که همردیفی C شبیهترین همردیفی میباشد. اما اگر به همردیفی E توجه کنیم، میبینیم که اگر ما در توالی 1 یک گپ ایجاد کنیم بازهم امتیاز 9 برای همردیفی به دست میآید که این یک نقص به حساب میآید و با این روش نمیتوانیم به بهترین همردیفی اطمینان کامل داشته باشیم. پژوهشگران برای حل مشکلات موجود در همردیفی روشهای مختلفی را پیشنهاد دادند که یکی از آنها روش Dotplot میباشد.
120-فصل ششم
تصویر 7-6: ایجاد یک گپ (همردیفی E) میتواند نحوه محاسبه امتیاز را تغییر دهد.
1-4-6 روش Dot plot
محققین به عنوان راهي براي شناسايي تمامي همرديفيهاي ممكن، روشي گرافيکي به نام دات پلات (dot plot ) را ایجاد کردند. در اين روش دو توالي به صورت عمود بر هم روي محور xها و yها در يک صفحه قرار داده میشوند و در هر نقطه اي که شبيه هم باشند عدد يك قرار داده میشود. اگر دو توالي کاملا شبيه باشند در نهايت، از رسم نقاط يک خط اوريب بدون شکستگي را میتوان از ابتدای سمت چپ بالای صفحه به انتهاي سمت راست پایین صفحه رسم کرد. همرديفي در واقع مشخص کردن رابطه ي بين نوکلئوتيدهاي يک توالي با توالي ديگر است. اگر دو توالي در تصویر 7-6 را به صورت دات پلات در آوريم جدول زير به دست خواهد آمد. اگر دور بيش از دو عدد 1 به دنبال هم خط بكشيم، منظره زیر ظاهر خواهد شد. حال براساس اين خطوط اريب ميتوان كليه همرديفيهاي دو گانه را استخراج كرده و به صورت خطي نوشت.
تصویر 8-6: نمایش روشDot plo .
در اکثر نمودارهای نقطهای نقاط در همه جای ماتریس پراکنده است که تشخیص انطباق صحیح را مشکل میسازد. برای کاهش نویزها باید از تکنیک فیلتر کردن استفاده کرد، برای مثال میتوان یک رشته را با خودش انطباق داد تا نویزها مشخص شود.
مقايسه همرديفيها
121-هم ردیفی توالی ها
در مثالهاي پیشین روش امتياز دهي صفر ويك را میتوان يک نوع الگوريتم به حساب آورد که براساس آن همرديفي با بالاترين امتياز را به عنوان بهترين همرديفي انتخاب كرديم. ولي در عمل ميتوان همرديفيهايي را مثال زد كه با وجود امتياز مساوي يا حتي بالاتر صحيح نبوده و با دانستههاي قبلي تطبيق نميكنند. بنابراين تلاش زيادي براي طراحي و بكارگيري الگوريتمهايي دقيقتر صورت ميگيرد كه تا هر چه بيشتر دربرگيرنده واقعيات زيستي و اصول حاكم بر حيات باشد.
به طور مثال، در همرديفي تواليهاي نوكلئوتيدي ميتوان بين امتيازات جايگزينيهاي از نوع جانشيني (Substitution) و انتقال (Transition) تفاوت قائل شد. زيرا با توجه به ساختمان دو رشتهايDNA احتمال جايگزيني بازهاي پوريني با هم و بازهاي پيريميديني با هم بيشتر است. در حالي که الگوريتم قبلي تفاوتي را بين اين دو حالت قائل نبود. بنابراين جوابهايي هم که با الگوريتم قبلي به دست آمد کمتر به واقعيت نزديک است. اين مشكل در تواليهاي پروتئيني به طور جديتري مطرح است. در اين تواليها همه جايگزينيها اشكال ساختاري و عملكردي زيادي ايجاد نميكنند. به عبارت ديگر، برخي اسيد آمينهها خواص فيزيكوشيميايي مشابهي دارند و ميتوانند با حداقل تغيير خواص جايگزين يكديگر شوند (تصویر 9-6).
تصویر 9-6: خواص فیزیکو شیمیایی اسیدهای آمینه.
نکتهي ديگر اين است که در همرديفيهاي تصویر 6-6 فرض برابر بودن طول تواليهاست. در حالي که در تکامل تواليها هم پديده ي اضافه شدن را داريم و هم پديده حذف اتفاق ميافتد. بنابراين انتظار میرود در بسياري از موارد دو توالي را با هم مقايسه کنيم كه داراي طول يکساني نباشند. جمعبندي اين مقدمات نشان ميدهد ميتوان با كمينمودن (امتيازدهي) نتايج همرديفي آنها را باهم مقايسه نمود. البته براي كمي نمودن همرديفيها حداقل دو نوع امتياز دهي را بايستي منظور كرد.
- امتياز دهي جايگزينيها
- امتياز دهي حذف و اضافه شدن تواليها
به اين ترتيب، امتياز هر همرديفي جمع جبري كليه امتيازات جايگزينيها و حذف يا اضافهها خواهد بود.
2-4-6 امتیازدهی جايگزينيها
با درك اين كه روش صفر ويك كفايت نميكند و جايگزيني نوكلئوتيدها يا اسيد آمينهها با يكديگر امتياز منفي يا مثبت مساوي ندارند. متخصصين امر در پي تهيه جداول امتيازدهي جايگزينيها (Subtitution Scoring Matrices ) بودهاند. بهطوري كه تا حد امكان واقعيتهاي زيستي را منعكس نمايد. براي تواليهاي نوكلئوتيدي كار چندان دشوار نيست زيرا
122-فصل ششم
هر گونه جايگزيني منجر به جهش ميشود كه اثر آن در رمزدهي پروتئينها ممكن است مشاهده شود. يعني در اين مولكولها بحث ساختار و عمل چندان مطرح نيست. البته با توجه به ساختمان دو رشتهايDNA متخصصين تكامل زيستي بين جانشيني نوكلئوتيد پورين و پيريميدين و انتقال از پورين به پيريميدين يا بالعكس تفاوت قائلند. جدول زير نمونهاي از جداول امتيازدهي براي همرديفي دو توالي نوكلئوتيدي را نشان ميدهد. در اين جدول به طور سادهاي كليه همسانيها امتياز +۵ و براي غير جفت شدگي امتياز -۴ در نظر گرفته شده است.
تصویر 10-6: ماتریس امتیازدهی DNA.
در تهيه جداول امتيازات جايگزيني تواليهاي پروتئيني خواص فيزيكوشيميايي اسيدهاي آمينه و تاثير جايگزيني آنها در ساختار و عمل پروتئينها مطرح است. در گذشته، پژوهشگران به گروهبندي اسيدهاي آمينه براساس خواص آنها (تصویر 9-6) مراجعه كرده و ميزان مشابهت را به صورت توصيفي (و نه عددي) بيان ميكردند. در دو دهه اخير روشهاي تهيه جداول امتيازدهي جايگزيني مبتني بر دادههاي موجود در طبيعت بوده است. با فرض بر اين كه اگر دو اسيد آمينه داراي خواص فيزيكوشيميايي مشابهي هستند بايستي در طول تكامل جايگزيني آنها تحمل شده باشد، پژوهشگران نسبت به جمعاوري تواليها، همردیفي آنها با هم و محاسبه فراواني جايگزينيها در بين پروتئينهاي همخانواده اقدام نمودند. ماتریسهای نمرهدهی اسیدآمینهها ماتریسهای 20 در 20 هستند که طراحی شده اند تا انعکاسی از شانس جایگزینی اسیدآمینه باشند.
یک نوع ماتریس براساس قابلیت جایگزینی کدهای ژنتیکی یا خواص اسیدآمینه است و دیگری از مطالعات تجربی جایگزینی اسیدهای آمینه حاصل شده است. نگرش اول دقت کمتری دارد و ماتریسهای تجربی به واقعیت نزدیکترند. در اولين تلاش، با همرديفي ۱۵۷۲ توالي پروتئيني در ۷۱ درخت از ۳۴ خانواده پروتيئني گروهبندي شدند. سپس فراواني جايگزيني يك اسيدآمينه با اسيد آمينه ديگر در فرمول زير بكار گرفته شد:
PAMn= nlog Probability of one substitution/Probablity of occurring by chance*100
در اين فرمول يك واحد PAM (Point Accepted Mutation) معادل تغيير ۱ در يك توالي صدتايي از اسيدآمينههاست. دادههاي حاصل در جدول PAM ثبت ميشود. از آنجا كه در طول تكامل ممكن است اسيدآمينه در يك موقعيت چندين بار جايگزين شود، جدول حاصل را چندين بار در خود ضرب ميكنند. به طور مثال، براي تهيه جدول PAM250 آن را 250 بار در خودش ضرب ميكنند (جدول 2-6).
123-هم ردیفی توالی ها
جدول 2-6: ماتریس PAM250.
بعدها جداول ديگري تدوين شدند كه از يك نوع اصول پيروي ميكردند. با اين تفاوت كه فراواني جايگزينيها تنها در مناطق حفاظت شده(Conserved Blocks) براي ساختن جدول وارد محاسبه ميشدند. در آن هنگام، ۲۰۰۰ بلوك از ۵۰۰ خانواده پروتئيني در نظر گرفته شد. به طور مشابهي، فرمول زير بكار رفت:
BLOSUM%=log Probability of substitution in block/Probablity of occurring by chance
اين جداول را BLOSUM ناميدند كه از اصطلاحBlock Substitution Matrix برگرفته شده است. شماره جدول به نوع بلوك مورد استفاده براي محاسبه فراواني و احتمال وقوع جايگزيني بستگي دارد. مثلا BLOSUM62 يعني اين جدول برمبناي فراواني جايگزينيها در بلوكهاي حاوي تواليهاي با همساني ۶۲ درصد يا بيشتر تشكيل شده است (جدول 3-6).
جدول 3-6: ماتریس BLOSUM62.
124-فصل ششم
در PAM خانوادههایی که از نظر تکامل ارتباط مشخصی دارند را مورد بررسی قرار میدهند و تغییرات را در 100 اسیدآمینه براساس زمان تکامل بررسی میکنند. اما در BLOSUM در Block پروتئینهایی که به نحوی به هم مربوطند را مورد بررسی قرار میدهند. دیگر نگران زمان تکامل لازم برای موتاسیون نیستند. ماتریسها PAM، به استثنای PAM1 از یک مدل تکاملی مشتق شدهاند. در حالی که ماتریسهای BLOSUM براساس مشاهده کاملا مستقیم قرار دارند. بنابراین ماتریسهای BLOSUM ممکن است معنای تکامل کمتری از PAM داشته باشد. ماتریسهای BLOSUM برای جستوجوی پایگاه دادهها و پیدا کردن دمینها در پروتئینها مناسبترند. جدول زیر نمایش میدهد که هرچه PAM بزرگتر و هرچه BLOSUM کوچکتر باشد رابطه تکاملی دورتری را نمایش میدهد.
تصویر11-6:نمایش رابطه کوچک یا بزرگ بودن ماتریس با نمایش رابطه تکاملی.
سنجش تجربی نشان داده است که ماتریس BLOSUM کارایی بهتری از PAM بر حسب دقت انطباق محلی دارد. این مسئله به احتمال زیاد بدین دلیل است که ماتریسهای BLOSUM از مجموعه دادههای بزرگتری از آنچه که برای ساخت ماتریسهای PAM استفاده شده به دست آمده است. برای جبران این نقص در سیستم PAM، ماتریسهای جدیدتری با استفاده از همان نگرش براساس مجموعه دادههای بیشتر طراحی شدهاند که Gonnet و Johness- Jaylor- thornton را نام برد. امتیاز مثبت در ماتریس BLOSUM بیانگر این است که دو اسیدآمینهای که در حالت طبیعی جایگزین همدیگر میشوند، بیشتر از حالت شانسی است و برعکس علامتسنجی بیانگر این است که دو اسیدآمینهای که در حالت طبیعی جایگزین همدیگر میشوند، کمتر از حالت شانسی است. به عبارت سادهتر، جایگزینهایی که با فراوانی زیاد اتفاق میافتند، امتیاز مثبت و جایگزینیهایی که با فراوانی زیاد اتفاق میافتند، امتیاز مثبت و جایگزینهایی که با فراوانی اتفاق میافتند، امتیاز منفی خواهند داشت.
جدول 5-6: کاربرد ماتریسهای متفاوت.
125-هم ردیفی توالی ها
همانطور که ذکر شد در تهيه جداول امتيازات جايگزيني تواليهاي پروتئيني خواص فيزيكوشيميايي اسيدهاي آمينه و تاثير جايگزيني آنها در ساختار و عمل پروتئينها مطرح است که این مفهوم در شکل زیر آمده است.
تصویر12-6: نمایش خواص فيزيكوشيميايي اسيدهاي آمينه در ماتریسBLOSUM62.
ماتریسهای PAM با افزایش واگرایی توالیها، با برونیابی PAM1 از طریق ضرب ماتریسها بهدست میآید. برای مثال PAM80 با هشتاد بار ضرب ماتریس PAM1 بهدست میآید. یک واحد PAM بهعنوان یک درصد تغییرات اسیدآمینه یا یک جهش در یکصد باقیمانده تعریف میشود. افزایش عدد PAM با افزایش واحد PAM و بنابراین فاصله تکاملی توالیهای پروتئین ارتباط دارد.
برای مثال PAM250، که متناظر با 20درصد یکسانی اسیدهای آمینه است، نشاندهنده 250 جهش در 100 اسیدآمینه است. بنابراین ماتریس PAM250 بهطور معمول برای توالیهای بسیار واگرا استفاده میشود. به این ترتیب، ماتریسهای PAM با شماره کوچکتر برای انطباق دادن توالیهای نزدیک به هم مناسبترند. برعکس سیستم عددگذاری PAM، هر چه عدد BLOSUM کمتر باشد، توالیهای واگراتری حضور دارند.
126-فصل ششم
3-4-6 امتيازدهي حذف و اضافه نمودن تواليها
ممکن است جهش به صورت اضافه شدن يا حذفي توالي باشد. بروز اين جهشها در تواليها باعث تفاوت در طول تواليها میشود. بنابراين، زماني که میخواهيم دو توالي را در حالت بهينه همرديف کنيم، نيازمند استفاده از فواصل هستيم. اين فواصل بايستي به طريقي در محاسبه امتياز يك همرديفي لحاظ شوند.
تصویر 13-6: نمایش ایجاد گپ به منظورهمردیفی.
اين که فواصل را در همرديفي چگونه محاسبه کنيم يکي از مبهمترين مسالهها در همرديفي تواليها است. به طور معمول، جريمههايي را که براي فواصل در نظر میگيرند به صورت محلي اعمال میشود. يعني جريمه استفاده از هر فاصله مستقل از فواصل ديگري است که ممکن است در جاهاي ديگري از همرديفي اتفاق بيافتد. در همه برنامهها، براي فواصل دو نوع امتياز منفي در نظر گرفته ميشود.
Gap opening penalty (GOP) جريمه باز کردن توالي:
در طبيعت، هر اضافه نمودن توالي مستلزم صرف انرژي بوده و مورد انتخاب طبيعي قرار خواهد گرفت. بنابراين در الگوريتمها براي همرديفي بهينه تواليها امتياز منفي نسبتاً بزرگي (مثلا 11-) براي ايجاد فاصله در نظر گرفته ميشود.
Gap extension penalty جريمه بسط يک فاصله (GEP):
از اين جريمه براي ورود نوكلئوتيد يا اسيدآمينه در محلي که قبلا فاصله ايجاد شده است، استفاده میشود. ميزان اين جريمه از GOP کمتر فرض میشود ولي در تعداد آنها ضرب ميشود (مثلا 1- ضربدر تعداد). زيرا از ديد زيستي جايي از توالي که شكافته شده است، استعداد ورود يك يا چند نوكلئوتيد را دارد.
4-4-6 انواع همرديفي:
همرديفيها به دو شيوه قابل تقسيمبندي هستند:
الف- از نظر تعداد توالي:
همرديفي دوگانه(Pairwise Alignment): همرديفي تنها دو توالي با يكديگر در طول كامل آنها يا يك ناحيه خاص
همرديفي چندگانه (Multiple Alignment): همرديفي سه يا چند توالي كه از همرديفيهاي دو گانه هر جفت آنها نتيجه ميشود
ب- از نظر طول
همرديفي محلي (Local Alignment): يافتن و همرديفي بهترين محلهاي جور شدن دو توالي.
همرديفي كامل (Global Alignment): يافتن و همرديفي جورشدگي بين طول كامل دو يا چند توالي.
به طور خلاصه، اصول مطرح شده در صفحات قبل در تمامي انواع فوق استفاده ميشوند. مثلا همرديفيهاي چندگانه از جمع اطلاعات مربوط به كليه همرديفيهاي دوگانه ممكن بين جفت توالي به دست ميآيد. از آنجا كه بيان جزئيات بيشتر باعث دور شدن از مباحث اصلي اين درس ميشود، در قسمت بعد تنها به آموزش برنامه جستوجوي تواليها در بانكهاي اطلاعاتي ميپردازيم كه بر مبناي همرديفي محلي دوگانه است.
5-4-6 جستوجوی یک توالی:
127-هم ردیفی توالی ها
جستوجوي بانكهاي اطلاعات تواليها با يك توالي بر مبناي الگوریتمهای نوشته شده برای همردیفی دوگانه صورت ميگيرد. جدول زير مجموعهاي از روشهاي همرديفيهاي دو گانه رانشان ميدهد.
اكنون، در بيشتر پايگاهها از روشBLAST ياBasic Local Alignment Search Tools استفاده ميشود كه در آن سرعت و دقت با هم در نظر گرفته ميشود. BLAST نام یک نرمافزار کاربردی در علوم سلولی و مولکولی و ژنتیک است که مخفف واژگان Basic Local Alignment Search Tool یا ابزار پایهای برای جستوجوی همردیفیهای موضعی است. این ابزار قسمتی از مجموعه اطلاعات کیفی مرکز ملی اطلاعات زیست فناوری است. با این نرم افزار میتوان توالی اسیدهای آمینه در پروتئینها یا توالی نوکلئوتیدها در DNA را با هم مقایسه کرد. این نرم افزار به پژوهشگر اجازه میدهد تا یک توالی را با توالی دیگر یا توالی که در بانک اطلاعاتی وجود دارد، مقایسه کند. شناسایی توالیهای موجود در بانک اطلاعاتی که بیشترین شباهت را با توالی مورد نظر دارد از دیگر قابلیتهای این نرم افزار است. بر حسب نوع توالی انواع مختلفی از BLAST امکانپذیر است. مثلا اگر یک یک ژن ناشناخته در موش که قبلا اطلاعاتی از آن در اختیار نبوده، باید بررسی شود، یک پژوهشگر ترجیح میدهد این توالی را با ژنوم انسان بلاست کند. این نرمافزار در NIH (موسسه ملی بهداشت آمریکا) طراحی شد. BLAST یکی از پرکاربردترین نرمافزارها در بیوانفورماتیک است که با سرعت مطلوب مقایسه مورد نظر را انجام میدهد. سرعت زمانی اهمیت خود را نشان میدهد که با ژنوم کامل روبرو باشیم. پیش از طراحی این نرم افزار مقایسه توالیها بسیار وقتگیر بود به دلیل اینکه BLAST مربوط به یکی از بنیادیترین مسائل بیوانفورماتیک است و سرعت خوبی دارد، یکی از پرکاربردترین نرمافزارهای بیوانفورماتیک به حساب میآید. سرعت، مخصوصا در کاربردهای واقعی روی پایگاههای دادهی بزرگ ژنوم امری حیاتی است.
BLAST از نظر زمانی کارآمدتر از FASTA است، زیرا الگوهای مهمتر در دنباله را مورد جستوجو قرار میدهد. لازم به ذکر است معیارهای BLAST سختگیرانهتر از FASTA است.پیش از ارائه الگوریتمهای سریعی مثل BLAST و FASTA جستوجو در پایگاههای دادهی بزرگ برای دنبالههای پروتئین یا نوکلئیک با استفاده از الگوریتمهای انطباق کامل مثل Smith-Waterman بسیار زمانگیر بود. الگوریتم “اسمیت واترمن” برای انجام دادن یک همترازسازی توالی محلی به کار گرفته میشود و برای مشخص کردن مناطق مشابه بین دو توالی اسید نوکلئیک یا پروتئین استفاده میشود. به جای در نظر گرفتن تمام توالی این الگوریتم سعی میکند که با در نظر گرفتن بخشهای مختلف با همهی طولهای ممکن میزان شباهت را بهینه کند.
این الگوریتم برای اولین بار توسط تمپل اسمیت و مایکل واترمن در سال ۱۹۸۱ ارائه شد؛ که مانند الگوریتم نیدلمن- وانچ با یکسری تفاوتها یک الگوریتم برنامهریزی پویا میباشد. این الگوریتم دارای این خصوصیت است که بر حسب سیستم امتیازدهی (شامل ماتریس جایگزینی و جریمه پرش) که استفاده میشود تضمین میکند که به جواب بهینه برسد. تفاوتی که با الگوریتم نیدلمن- وانچ دارد این است که در ماتریس جایگذاری آن مقادیر منفی با صفر جایگزین میشوند. عمل برگشت به عقب در این الگوریتم از خانهای که مقدار بیشنه را دارد شروع شده و به خانهای که مقدار صفر دارد ختم میشود؛ که این مسیر بیشترین امتیاز همترازسازی محلی را دارد.
تصویر 14-16: مدل Smith-Waterman
128-فصل ششم
6-4-6 BLAST
آنچه در برنامه BLAST انجام میشود پيدا کردن جفت قطعاتي مشابهي از توالي است که امتياز همرديفي آنها از يک حد آستانه مشخصي بالاتر باشد. اين قطعات (HSPs (high-scoring segment pairs ناميده میشوند. براي اين كار برنامه BLAST از روش Dynamic Programming استفاده ميكند. در این روش براي حل يك مشكل بزرگ، آن را به چند مشكل كوچك تجزيه ميكنند. پس از يافتن پاسخ مناسب مشكلات كوچك، آنها را كنار هم چيده و راهي براي پاسخ به مشكل بزرگ پيدا ميكنند. با توجه به طول بلند تواليها و امكان جايگزيني و حذف و اضافه در آنها، جستوجوي يك توالي در بين ميليونها ركورد در بانكهاي اطلاعاتي نيازمند عمليات سنگيني است كه از عهده ابررايانههاي امروزي خارج است. در برنامه BLAST از روش dynamic programming براي برون رفت از اين معضل استفاده شده است.
سه مرحله اصلي در الگوريتم BLAST وجود دارد که به شرح زير هستند:
برنامه BLAST توالی مورد نظر (Query ) را به قطعاتی با طول كوتاه يا كلمه (word ) همپوشان تبدیل میکند. معمولا اندازه كلمات برای توالیهای آمینو اسیدی 3 و برای توالیهای نوکلئوتیدی 11 تنظیم شده است. بنابراين اگر طول توالی را L فرض کنیم، به تعداد L–w+1 قطعه در هر جستوجو تولید میشود. سپس از بین این كلمات آنهایي انتخاب می شوند که در يك همرديفي دوگانه با توالي الگو دارای امتیاز بالايی از يك حد تعيين شده هستند (مانند LSS در تصویر 15-6). قابل ذکر است که امتیازدهی براساس جداول PAM250 یا BLOSUM62 صورت می گیرد که توسط کاربر قابل تغییر است.
برای هر کدام از جفت تواليهاي يافت شده با امتياز بالا (HSP ) همردیفی توالي از دو طرف كلمه ادامه پیدا میکند تا جایی که همردیفی جدیدی از امتیاز حد آستانه تعيين شدهاي كمتر نشود. سپس اضافات توالي يافت شده حذف و همرديفي حاصل براي كاربر ارسال ميشود.
1-6-4-6 انواع BLAST
بنا به نوع توالي مورد نظر و نوع پايگاه مورد جستوجو، برنامههاي BLAST طراحي شدهاند كه در زير توضيح داده ميشوند. البته براي هريك از اين برنامهها نيز زيربرنامههايي كه در آن تنظيمات بهينه شده است معرفي شدهاند.
BLASTN
در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی نوکلئوتیدی است و جستوجو در پایگاه توالیهای نوکلئوتیدی انچام میشود. نتیجه جستوجو جفت توالیهای نوکلئوتیدی مشابه است که براساس شاخصهای آماری میزان شباهت و یکسانی آنها نشان داده میشود.
BLASTP
129-هم ردیفی توالی ها
در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی پروتئینی است و جستوجو در پایگاه توالیهای پروتئینی انچام میشود. نتیجه جستوجو توالیهای پروئینی مشابه با توالی الگو است که براساس شاخصهای آماری میزان شباهت و یکسانی آنها با توالی الگو نشان داده میشود.
BLASTX
در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی نوکلئوتیدی است که در 6 قالب خواندني (ORF) ترجمه شده و به صورت توالی پروتئینی در پایگاه توالیهای پروتئینی جستوجو میشود. نتیجه جستوجو توالیهای مشابه با توالی الگو است که براساس آن میتوانیم به توالی جدید خود قالب خواندني و عملکرد نسبت بدهیم.
tBLASTN
در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی پروتئینی است و جستوجو در پایگاه توالیهای نوکلئوتیدی انچام میشود که در 6 قالب خواندني ترجمه شده است. نتیجه جستوجو توالیهای مشابه با توالی مورد تقاضاست که براساس آن میتوانیم برای توالی پروتئینی خود توالیهای رمز کننده ی آن را شناسایی کنیم.
tBLASTX
در این نوع BLAST، توالی مورد تقاضای نرم افزار توالی نوکلئوتیدی است که در 6 قالب خواندني به پروتئین ترجمه میشود ودر پایگاه توالیهای نوکلئوتیدی که آن نیز در 6 قالب خواندني به پروتئین ترجمه میشود مورد جستوجو قرار میگیرد. این نوع جستوجو بويژه در مطالعات EST به کار می رود.
به طور معمول در کارهای پژوهشی محقق دارای یک توالی اولیه هست که می خواهد توالیهای مشابه آن را از طریق جستوجوی در بانكهاي اطلاعاتي به دست آورد. توالی که قصد بررسی آن را داریم پس از دریافت از بانکهای اطلاعاتی وارد نرم افزار BLAST میکنیم. نرم افزار BLAST توسط سرویس دهندههای مختلفی در دسترس است که یکی از اصلیترین سرویس دهندهها در سایت NCBI در دسترس میباشد و همانطور که در تصویر 18-6 میبینید یک جایگاه ویژه برای وارد کردن توالی دارد. در تصویر 18-6 هشت قسمت علامت گذاری شده است که به منظور تنظیم پارامترهای مختلف مورد استفاده قرار میگیرند. این تصویر مربوط به BLAST نوکلئوتید میباشد و به علت شباهت آن به BLAST پروتئین فقط یک تصویر نمایش داده شده است اما در هر قسمت که تفاوتهایی با BLAST پروتئین وجود داشته باشد توضیح داده میشود.
130-فصل ششم
تصویر 18-6: بخشهای مختلف نرم افزار BLAST.
جایگاه 1: در این بخش توالی مورد نظر با فرمت FASTAو یا در صورت دانستن شماره دسترسی آن را وارد میکنیم.
جایگاه 2: در این بخش میتوانیم فقط قسمتی از توالی را مشخص کنیم که قصد داریم مورد بررسی قرار بگیرید. اگر میخواهیم کل توالی که در کادر قبلی وارد کردیم مورد بررسی قرار بگیرید نیاز نیست اینجا اعدادی را مشخص کنیم.
جایگاه 3: اگر توالی را در جایی از کامپیوترمان ذخیره کرده باشیم میتوانیم در این قسمت آپلود کنیم. همچنین میتوانیم در قسمت job title به جستوجوی خود نام و توضیح کوچکی را اختصاص بدهیم.
جایگاه 4: این بخش مربوط به نوع پایگاه داده است که میخواهیم توالی ما در آن جستوجو شود. به صورت پیشفرض کلیه پایگاههای مشابه با nr (nonredundent) مورد هدف است.
جایگاه 5: این بخش مربوط به انتخاب نوع ارگانیسم مورد نظر ما است که گزینهای اختیاری است و در صورتی که ما در موجود خاصی فقط بخواهیم جستوجو شود از این بخش باید استفاده شود.
جایگاه 6: این بخش مربوط به جستوجوی توالی ما در entrez است که اختیاری میباشد و میتوانیم جستوجو در مورد توالی خود را با کلید واژه محدود کنیم.
جایگاه 7: در این بخش نوع الگوریتم BLAST را مشخص میکنیم. الگوریتمهای دیگر دارای کاربردهای دیگر میباشد. در جایگاه 7 اگر تنظیم پارامترهای BLAST نوکلئوتید را انجام میدهید یکی از موارد زیر را میتوانید انتخاب کنید.
Optimize forSomewhat similar sequences (blastn)
Optimize forHighly similar sequences (megablast)
Optimize forMore dissimilar sequences (discontiguous megablast)
اگر در جایگاه 7 تنظیم پارامترهای BLAST پروتئین را انجام میدهید یکی از موارد زیر را میتوانید انتخاب کنید
blastp (protein-protein BLAST)
PSI-BLAST (Position-Specific Iterated BLAST)
PHI-BLAST (Pattern Hit Initiated BLAST)
DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST)
جایگاه 8: در انتهای صفحه با کلیک بر روی گزینه BLAST جستوجو آغاز میشود و بعد از لحظاتی صفحه بروز میشود تا نتایج جستوجو نمایش داده شود.
131-هم ردیفی توالی ها
PSI-BLAST (Position-Specific Iterated BLAST)
از این نوع BLAST برای یافتن رابطههای دور یک پروتئین استفاده میشود. در این برنامه ابتدا یک لیست از پروتئینها با رابطه نزدیک ساخته میشود و سپس این پروتئین به یک پروفایل سکانس کلی تبدیل میشود که حاوی خلاصه خصوصیات مهم در این دنبالهها میباشد. سپس جستوجو براساس این پروفایل در مقابل پایگاه داده پروتئینی انجام میگیرد و متعاقبا یک گروه بزرگ پروتئین پیدا میشود. این گروه بزرگتر پروتئینی سپس برای ایجاد پروفایل دیگری به کار میرود و این روند در جهت یافتن پروتئینهایی که رابطه بسیار دوری با پروتئین مورد نظر دارند، ادامه مییابد. در نتیجه PSI-BLAST به عنوان حساسترین برنامه BLAST در جهت یافتن فاصلههای دور در ارتباطات تکاملی کاربرد دارد.
PHI-BLAST (Pattern Hit Initiated BLAST)
جستوجو را برای توالیهایی که به طور قابل توجهی مشابه به هر دو توالی مورد نظر ورودی (query) و الگو (Pattern) انجام میدهد. به عبارت دیگر در PHI-BLAST جستوجو براساس ترکیبی از تطبیق الگو (pattern matching) و تطبیق موضعی (local alignment) انجام میشود. در نتیجه با اطلاع از الگوی پروتئینی مربوط به توالی مورد نظر، برنامه PHI-BLAST برای توالی مورد نظر به کار میرود.
تنظیم پارامترهای پیشرفته BLAST
در ناحیه زیر جایگاه 8 در تصویر 18-6 پارامترهایی به منظور تنظیمات پیشرفته وجود دارند که در تصویر 19-6 مشخص شدهاند و در ادامه به شرح این جایگاهها میپردازیم.
جایگاه 9: با کلیک بر روی گزینه Algorithm parameters قسمت تنظیمات پارامترهای پیشرفته باز میشود و کاربر میتواند پارامترهای عمومی، امتیازدهی و فیلترگزاری را انجام دهد.
جایگاه 10: در این بخش میتوان تعداد توالیهای نمایشی در یک صفحه، پارامترهای مربوط به توالیهای کوتاه، میزان آستانه. اندازه کلمات مورد جستوجو توسط BLAST تنظیم کرد.
در زمان تنظیم پارامترهای پیشرفته BLAST نوکلئوتید به شما اجازه میدهد Word size 16 و تا 256 نوکلئوتیدی را انتخاب کنید ولی در زمان تنظیم پارامترهای پیشرفته BLAST پروتئین در این قسمت به شما اجازه میدهد Word size 2 یا 3 و حتی 6 اسیدآمینهای را انتخاب کنید و همچنین در BLAST پروتئین امکان انتخاب ماتریسهای PAM و BLOSUM مختلف را دارید. لازم بهذکر است در BLAST پروتئین ماتریکس BLOSUM62 بهصورت پیشفرض انتخاب شده است و کاربر میتواند براساس نوع جستوجوی خود این مقدار را تغییر دهد.
جایگاه 11: این قسمت برای تنظیم پارامترهای امتیاز دهی طراحی شده است. نوع ماتریس امتیازدهی، جریمه فواصل و فرضهای مربوط به نحوه اعمال ماتریسهای امتیازی را میتوان به صورت دستی تنظیم کرد.
جایگاه 12: در این بخش میتوان الگوریتم را برای در نظر نگرفتن نواحی از توالیها که ارزش تکاملی ندارند و یا دارای اشکال و ابهام هستند تنظیم کرد. با انتخاب فیلتر مربوطه بخشهای مورد نظر از توالی در جستوجو لحاظ نمیشوند.
132-فصل ششم
تصویر 19-6: بخشهای مختلف نرم افزار BLAST، قسمت پارامترهای الگوریتم.
بعد از وارد کردن توالی در جایگاه مربوطه و انتخاب پارامترهای مورد نظر، زمانی که BLAST را اجرا میکنیم صفحه ای باز میشود که اطلاعات مختصری را در مورد توالی ما میدهد و اعلام میکند که جستوجوی ما در حال انجام است و نتایج بعد از چند ثانیه نشان داده خواهند شد. در صورت شلوغ بودن سرور سایت اعلام میکند که جستوجوی خود را در زمانی دیگر دوباره انجام دهیم. صفحهی نتایج شامل چهار بخش است:
بخش اول: شامل توضیحاتی در مورد در مورد الگوریتم BLAST و نویسندگان این الگوریتم و ویرایشهایی است که در گذشته و حال مورد استفاده هستند. در این بخش جستوجوی ما دارای یک ID است که در صورت لزوم (مثلا بروز مشكل و درخواست كمك از مدير پايگاه) میتوانیم با اینID به جستوجوی خود در NCBI دسترسی داشته باشیم. این بخش توضیحاتی در مورد پایگاه داده ای که ما برای جستوجوی خود انتخاب کرده ایم نیز می دهد.
تصویر 20-6: قسمت اول نتایج BLAST.
بخش دوم: این صفحه نمایشی گرافیکی از نتایج BLAST است به طوری که 100 توالی اولی که در جستوجوی BLAST به دست آمده اند به صورت خطوط رنگی نشان داده می شوند هر توالی براساس میزان شباهت خود دارای یک طیف رنگی است. کلید رمز رنگها براساس امتياز همرديفي در بالای آن آمده است. هر چه قدر جور شدن توالي يافت شده با توالي در حال جستوجو بیشتر باشد با رنگ قرمز و هر چه کمتر باشد با رنگهای رو به مشکی نمایش داده میشود. بنابراین در این قسمت در یک نگاه کلی میتوانیم میزان شباهت را مشاهده کنیم.
133-هم ردیفی توالی ها
تصویر 21-6: قسمت دوم نتایج BLAST.
بخش سوم: در بخش سوم شماره دسترسي (شماره 1) و نام (شماره 2) توالیهای بدست آمده فهرست شدهاند. روبروي هر توالی دو عدد هست که اولین عدد امتياز همرديفي دوگانه (شماره 3) توالي يافت شده و توالي در حال جستوجو است که كليه اطلاعات بعدي براساس آنها مرتب میشوند. دومین شاخص، ارزش مورد انتظار يا E-value (شماره 4) است. (شمارههای 1 تا 4 در تصویر 22-6 علامت گذاری شده اند)
تصویر 22-6: قسمت سوم نتایج BLAST. (توضیحات در متن).
134-قصل ششم
تعریف شاخص E-value به صورت ساده این است که “چه قدر احتمال دارد که توالی جفت شده با توالی الگوی ما به طور تصادفی جفت شده باشد و هیچ رابطه ی معنيداري بین آنها وجود نداشته باشد “اين احتمال از رابطه زير به دست ميآيد:
طبيعي است که اگر E-Value هر چه به صفر نزديکتر باشد اطمينان ما به نتيجه بدست آمده بيشتر میشود. نتايج BLAST براساس اين دو شاخص مرتب ميشوند و بنابراين تواليهايي که در اوایل ليست هستند، تواليهايي هستند که اطمينان ما در شباهت آنها به توالي الگوي مورد نظرمان بيشتر است. بنابراین E-Value نمیتواند مقداری دقیقاً مساوی صفر بگیرد اما میتواند مقدار بزرگتر از 10 داشته باشد همچنین مقدار E-Value به طول توالی بستگی دارد.
بخش چهارم: جزئیات همردیفی تک توالیها با توالی الگوی ما آورده شده است که شامل اطلاعاتی در مورد Score همردیفی میزان شباهت دو توالی و تعداد جایگاههای جفت شده و تعداد فواصل استفاده شده و … است. بخشی از دو توالی که هم ردیف شدهاند در زیر این توضیحات میآید که میتوان به راحتی مناطق مشترک بین دو توالی را مشاهده کرد (تصویر 23-6).
تصویر 23-6: قسمت چهارم نتایج BLAST.
2-6-4-6 سایر کاربردهای BLAST
135_هم ردیفی توالی ها
کاربرد اصلی BLAST یافتن تشابهات است و فرض ما این است که توالیهای مشابه اغلب از یک توالی اجدادی یکسان مشتق میشوند یعنی اگر توالیها مشابه باشند احتمالا دودمان مشترکی دارند و ساختار یکسان و عملکرد زیستی یکسانی دارند. BLAST توسط ارائه دهندگان متفاوتی در دسترس میباشد که یکی از معروفترین آنها NCBI میباشد. مثلا ما میتوانیم BLASTP را در NCBI و هم در EMBnet استفاده کنیم و البته چون بانکها با هم متفاوت هستند حتما نتایج تاحدودی با هم متفاوت خواهند بود.
NCBI در کنار ارائه BLAST که پیشتر شرح داده شده برای کارهای دیگری هم که نیاز به پیدا کردن توالی میباشد ابزارهای متفاوتی را ارائه میدهد. مثلا cdart BLAST برای پیدا کردن یک توالی خاص در یک پروتئین کاربرد دارد و همچنین GEO BLAST در رابطه با بیان ژنها به ما کمک میکند. با کمک IgBLAST توالیهای ایمونوگلبولین را میتوان بررسی کرد و انواع دیگری BLAST توسطNCBI در دسترس است که در زیر مشاهده میکنید:
- Make specific primers with Primer-BLAST
- Cluster multiple sequences together with their database neighbors using MOLE-BLAST
- Find conserved domains in your sequence (cds)
- Find sequences with similarconserved domain architecture (cdart)
- Search sequences that have gene expression profiles(GEO)
- Searchimmunoglobulins and T cell receptor sequences (IgBLAST)
- Screen sequence for vector contamination(vecscreen)
- Aligntwo (or more) sequences using BLAST (bl2seq)
- Searchprotein or nucleotide targets in PubChem BioAssay
- SearchSRA by experiment
- Constraint Based Protein Multiple Alignment Tool
- Needleman-Wunsch Global Sequence Alignment Tool
- SearchRefSeqGene
- Searchtrace archives
- Search bacterial and fungal rRNA sequences with Targeted Loci BLAST
طراحی پرایمر
Primer BLAST یک ابزار آنلاین میباشد که توسط NCBI در دسترس است و به محققین برای طراحی پرایمر یاری میرساند. کاربر میتواند توالی خود را به نرمافزار ارائه دهد تا نرمافزار یک سری پرایمر مفید پیشنهاد دهد و یا حتی میتوان پرایمری را که توسط ابزار دیگری طراحی کردیم با Primer BLAST مورد بررسی قرار دهیم تا میزان اختصاصیت پرایمر را بررسی کند.
برای طراحی پرایمر ابتدا باید توالی ژن مورد نظر را از بانک توالیها به دست آورد. با توجه به هدف پژوهشی مورد نظر باید محدودهای از توالی را که قرار است تکثیر شود را تعیین کرد و سپس اقدام به طراحی پرایمر نمود. در طراحی پرایمر باید به معیارهای مختلف از قبیل طول پرایمر، درصد GC، دمای (annealing) TM و اختصاصی بودن انتهای توجه داشت. طراحی پرایمر خوب سبب موفقیت در PCR و برعکس طراحی نادرست پرایمر میتواند منجر به تولید کم، و یا عدم تولید محصول مطلوب، تولید محصولات غیراختصاصی و یا تشکیل دایمر پرایمر شود که با تولید محصول اصلی رقابت کرده و سبب کارکرد نامطلوب PCR میشود. امروزه نرمافزارهای مختلفی وجود دارند که طراحی پرایمر را انجام میدهند، اما محقق باید بررسی نهایی را انجام دهد و به نکات خاصی توجه داشته باشد که برخی از این نکات در زیر آورده شدهاند:
1- طول پرایمر: به طور معمول طول پرایمرها باید 30-18 نوکلئوتید باشد. برای جلوگیری از اتصالات غیراختصاصی پرایمر، طول پرایمر باید حداقل 18 نوکلئوتید باشد. اندازه 22-18 نوکلئوتید، مطلوبترین اندازه برای پرایمر است. همچنین باید از توالیهای بلند نوکلئوتیدی به تعداد چهار نوکلئوتید یا بیشتر خودداری شود.
2- دمای Tm: بهترین دمای Tm حدوداً بین 50 تا 60 درجه است. محاسبه حدود تقریبی دمای واسرشتی از فرمول Wallace، Tm=2(A+T)+4(G+C) قابل استفاده میباشد (محاسبه عموما برای 30-18 نوکلئوتید قابل اعتماد است). اختلاف Tm بین پرایمرهای رفت و برگشتی باید حداقل باشد بهتر است که این اختلاف کمتر از 5/2 درجه باشد.
3- درصد GC: محتوای GC پرایمرها باید بین 40 تا 60 درصد باشد تا اختصاصیت اتصال آن به ناحیه مورد نظر حفظ شود. بهتر است اختلاف درصد GC پرایمرهای رفت و برگشتی از 5% بیشتر نباشد.
4- انتهای و توالی: بهتر است در انتهای پرایمر یکی از نوکلئوتیدهای A یا T قرار گیرد. ولی مطلوب آن است که پرایمر در انتهای خودداری C و یا G باشد تا اتصال محکمی را با DNA الگو برقرار کند. با توجه به اهمیت انتهای، نباید این ناحیه از پرایمر در تشکیل ساختارهای ثانویه مانند سنجاق سر و یا دایمر شرکت کند.
5- بهتر است نوکلئوتیدهای A, T, G, C توزیع یکسانی داشته باشند.
6- برای بررسی تشکیل نشدن Hairpinها میتوان از نرمافزارهای مختلف کمک گرفت.
136-فصل ششم
7- برای بررسی تشکیل نشدن dimerها میتوان از نرمافزارهای مختلف کمک گرفت.
8- برای بررسی تشکیل نشدن loop میتوان از نرمافزارهای مختلف کمک گرفت.
9- : معمولا وقتی خیلی منفی باشد GC زیاد است.
10- برای اطمینان از این که پرایمر طراحی شده قادر به شناسایی دیگر توالیهای DNA به غیر از ژن هدف نیست، پرایمرها را با برنامه Primer BLAST آنالیز میشوند.
7-4-6 FASTA
بسته نرمافزاری فست ای که هماکنون مورد استفاده قرار میگیرد شامل برنامههایی برای جستجوی پروتئین- پروتئین،
DNA-DNA، پروتئین– DNA ترجمه شده (همراه با تغییرات محتوا) و جستوجوی پپتیدهای آرایش یافته و آرایش نیافته میباشد. نسخههای نهایی فست ای شامل الگوریتمهای جستوجوی ویژهای میباشد که جهت تصحیح خطاهای تغییر محتوا، هنگام بررسی توالی داده پروتئین با نوکلئوتید، مورد استفاده قرار میگیرد. علاوه بر این جهت افزایش سرعت روشهای جستوجوی اکتشافی (heurisitic search) بسته نرمافزاری فست ای مجهز به (SSEARCh) ابزاری برای بهینهسازی الگورتیم اسمیت واترمن میباشد. بیشترین تمرکز این بسته نرمافزاری بر روی صحت آمار مشابه میباشد، بنابراین زیستشناسان بهراحتی میتوانند در مورد اینکه یک همترازی بهصورت اتفاقی حاصل شده و یا ممکن است به واسطه همولوژی باشد، اظهار نظر نمایند. فست ای یک توالی نوکلئوتید یا یک رشته آمینو اسید را بهعنوان ورودی دریافت کرده و به کمک همترازسازی محلی توالی دادهی ورودی و توالیهایی که در پایگاه داده هستند، تشابهات توالیهای متعلق به پایگاه دادههای یکسان را پیدا کند. برنامه فست ای از یک روش Heuristic بسیار گسترده پیروی مینماید که سرعت اجرای برنامه را بسیار ارتقاء داده است. روش کار بدین صورت است که برنامه ابتدا یک الگو برای شناخت کلمات در نظر میگیرد سپس بر اساس طول جمله، کلمات متناظر با هم را تفکیک مینماید سپس کلماتی را که دارای بیشترین احتمال تناظر هستند را قبل از اجرای بیشتر یک جستوجوی بهینهسازی زمانگیر با استفاده از الگوریتم Smith- Waterman علامت میزند. در مرحله آخر جستوجو از الگورتیم اسمیت واترمن جهت محاسبهی امتیاز بهینه برای همترازسازی (Alignment) استفاده میشود.
5-6 مقایسه چند تایی توالیها (Multiple sequence alignment)
مقایسه چند تایی توالیهاکه MSA نیز نامیده میشود شکل گسترده ای از مقایسه است که در آن چند توالی به دست آمده با تشابههای مناسب با یکدیگر جور میشوند. تحت چنین شرایطی، اغلب نیاز است که تعداد زیادی از مقایسه دوگانه را به یک مقایسه منفرد تبدیل نماییم به گونه ای که موقعیتهایی که از لحاظ تکاملی با هم معادلند در طول تمام توالیها با هم جور شوند. مقایسه چند تایی توالیها اجازه میدهد تا بتوانیم الگوهای محافظت شده توالیها را در اعضای یک خانواده ارزیابی نماییم. به علاوه این ابزار برای اقدامات اولیه جهت آنالیز فیلوژنتیک خانوادهها و پیش بینی ساختار دوم و سوم پروتئین ضروری است.
از لحاظ تئوری امکان استفاده از برنامههای دینامیک برای مقایسه چندین توالی وجود دارداما به علت این که با افزایش تعداد توالیها زمان محاسبه بسیار کند میشود به همین خاطر برای یک مجموعه بیشتر از ده توالی از روشهای دینامیک استفاده نمیکنند و راهکارهای هورستیک استفاده میشود. جور شدن چند تایی توالیها براساس یک تابع نمره دهی خاص صورت میپذیرد. این تابع از تکنیک مجموعه جفتها یا SP استفاده میکند به طوری که مجموع نمرات تمامی جفتهای ممکن در مقایسه چند تایی توالیها براساس یک ماتریکس نمره دهی خاص میباشد.
1-5-6 الگوریتمهای هورستیک(Heurestic algorithms)
در علوم کامپیوتر، هوش مصنوعی و بهینهسازی، الگوریتم جستوجوی کاشف یا هیوریستیک، روشی برای حل مسائلی است که راههای کلاسیک حل آنها بسیار کند میباشند و یا راه حل تقریبی برای مسائلی است که راههای کلاسیک نمیتوانند برای آنها جواب دقیقی پیدا کنند. بیشتر مسائل پیچیده نیازمند ارزیابی تعداد انبوهی از حالتهای ممکن برای تعیین یک جواب دقیق میباشند. زمان لازم برای یافتن یک جواب دقیق اغلب بیشتر از یک طول عمر است. هیوریستیکها با استفاده از روشهای نیازمند ارزیابیهای کمتر و ارائه جوابهایی در محدودیتهای زمانی قابل قبول دارای نقشی اثر بخش در حل چنین مسائلی خواهند بود.
این الگوریتم در سه گروه قرار میگیرد: 1. مقایسه تکراری (لوپ) 2. مقایسه مبتنی بر بلوک 3. مقایسه پیشرونده (progressive)
1-1-5-6 مقایسه تکراری (لوپ)
راهکار مکرر براساس این ایده است که اگر جوابهای زیر سطح بهینه را به طور مکرر تغییر دهیم میتوان به یک جواب بهینه دست یافت. این روند با یک مقایسه با کیفیت پایین شروع میگردد و سپس این مقایسه را به طور مکرر تکرار مینماید تا پاسخ بهبود یابد و این کار را تا زمانی انجام میدهد که دیگر افزایش بهبودی در نتیجه دیده نشود. PRRN برنامه تحت وب است که از استراتژی تکرار برای مقایسه استفاده میکند. این روش مقایسه چند تایی را از طریق دو مجموعه تکراری انجام میدهد: تکرار داخلی و تکرار خارجی.
137-هم ردیفی توالی ها
2-1-5-6 مقایسه مبتنی بر بلوک یا توالیهای حفاظت شده محدود
استراتژیهای مقایسه شدیدا مبتنی بر مقایسه کامل توالیها هستند و ممکن است قادر نباشند که دمینها و موتیفهای محافظت شده را از بین توالیهای شدیدا واگرا و با طول متفاوت تشخیص دهند. برای این چنین توالیهای واگرا که تنها با هم تشابه منطقه ای دارند بایستی از یک روش مقایسه موضعی استفاده نمود. استراتژی یک بلوک از مقایسه بدون شکاف که در بین تمام توالیها مشترک است منشا میگیرد.
DIALIGN2 یک برنامه تحت وب است که برای یافتن تشابهات موضعی طراحی شده است. این روش از جریمه شکاف استفاده نمیکند بنابراین برای توالیهای بزرگ حساسیت ندارد. این روش هر توالی را به قطعات کوچکتری شکسته و تمام مقایسات دو به دو ممکن را بین این قطعات انجام میدهد.
3-1-5-6 همردیفی پیشرونده
همردیفیهای چندگانه برای آنالیز فیلوژنتیکی مفید هستند، همچنین اگر روابط فیلوژنتیک در یک مجموعه توالی شناخته شود، این اطلاعات میتواند برای ایجاد یک همردیفی چندگانه به کار رود. در واقع، این روابط دو جانبه به عنوان اساس یک روش ایجاد همردیفی چندگانهی اولیه که به طور همزمان درخت فیلوژنتیکی و همردیفی را ایجاد میکند، به کار رفته است. یک راه کوتاهتر، ایجاد یک درخت تقریبی از توالیها و به کار بردن آن برای ایجاد یک همردیفی چندگانه است؛ سرعت بالا و سادگی بسیار در این روش، آن را برای کارهای معمولی بسیار جذاب کرده است. یک درخت را میتوان به سرعت با ایجاد همهی همردیفیهای دو به دوی ممکن میان همهی توالیها و محاسبهی یک فاصله (یعنی نسبت ریشههایی که بین دو توالی متفاوت اند) در هر مورد رسم کرد. چنین فاصلههایی برای ایجاد درختی با یکی از روشهای فاصلهای رایج مانند روش NJ به کار میرود. برای نمونه، درختان NJ را میتوان به سرعت برای چند صد توالی به کار برد. بعد از آن، همردیفی به تدریج با ترتیب شاخهبندی در درخت شکل میگیرد. نخست، دو توالی بسیار مشابه با استفاده از برنامهریزی پویا، GPها و ماتریس وزنی همردیف میشوند. برای همردیفی بعدی، دو توالی به عنوان یک توالی (یا یک Subalignment) تلقی میشوند به طوری که هر گپ ایجاد شده میان دو توالی نمیتواند تغییر کند. دوباره، دو تا از شبیهترین توالیها یا گروههای همردیف شده با همدیگر همردیف میشوند. دو توالی همردیف نشده یا دو Subalignment میتوانند همردیف شوند یا یک توالی میتواند به یک Subalignment اضافه شود که بستگی به این دارد که کدام شبیهترند. این فرآیند تا زمانی که همه توالیها همردیف شوند، ادامه مییابد. تا زمانی که درخت اولیه ایجاد شود، همردیفی چندگانه میتواند با تنها N-1 همردیفی جداگانه برای N توالی انجام شود. این فرآیند به اندازهای سریع است که اجازهی همردیفی صدها توالی را میدهد.
1-3-1-5-6 Clustal
رایجترین نرمافزار مورد استفاده برای همردیفی پیش رونده Clustalw و Clustax است. این برنامهها به صورت رایگان در دسترس میباشند. این برنامهها را میتوان با استفاده از سرور اینترنتی در مکانهای مختلفی به کار برد. Clustalw میتواند یک سری از توالیهای ورودی را بگیرد و به طور خودکار کل فرآیند همردیفی پیشرفته را انجام دهد. توالیها در جفتهایی برای ایجاد ماتریس فاصله مرتب میشوند که میتواند برای ایجاد درخت سادهی اولیه از توالیها به کار رود. این درخت راهنما در یک فایل ذخیره میشود و با استفاده از روش NJ درخت بدون ریشه را ایجاد میکند که برای راهنمایی در همردیفی چندگانه استفاده میشود. نهایتا همردیفی چندتایی با استفاده از روشهای پیشرفته که قبلا توضیح داده شد، طراحی میشود. Clustalw ویژگیهای خاصی دارد که به ایجاد همردیفهای دقیقتر کمک میکند. نخست، توالیها براساس میزان شباهت به سایر توالیها وزن داده میشوند (که به وسیلهی درخت راهنما مشخص میشود). این کار مفید است زیرا گروههای بزرگ توالیهای مشابه از غلبهی یک همردیفی جلوگیری میکند. دوم این که ماتریس وزنی مورد استفاده برای همردیفیهای پروتئینی بسته به میزان شباهت دو توالی بعدی یا مجموعهی توالیها متفاوت است. یک ماتریس وزنی برای توالیهای بسیار مشابه به کار میرود که امتیاز بالایی به ریشههای یکسان وامتیازات کمی به سایر موارد میدهد. برای توالیهای با شباهت کمتر، عکس این موضوع صحیح است؛ لازم است تا امتیازات بالایی به مطابقت اسیدآمینههای حفاظت شده داده شود و امتیاز کمتر به آنها که یکسان هستند. Clustalw مجموعهای از چهار ماتریس انتخاب شده از مجموعههای BLOSUM یا PAM را به کار میبرد. هنگام همردیفی؛ برنامه تلاش میکند تا GPهای متنوع در یک حالت اختصاصی توالی (یا اختصاصی موقعیت) بدهد که کمک میکند تا توالیهای با طولهای مختلف و شباهتهای مختلف همردیف شوند. GPهای اختصاصی موقعیت، برای متمرکز کردن گپها در حلقههای میان عناصر ساختار ثانویه به کار میروند که یا به صورت دستی یا به صورت خودکار انجام میشود. در هر مرحله، در موقعیتهای دارای ریشههای آبدوست یا در موقعیتهایی که در آنجا گپهای زیادی است، GPها کم میشوند. همچنین GPها نزدیک برخی ریشهها مانند گلیسین که بهطور تجربی نزدیک گپها شناخته شده، کاهش مییابد. GPها در مجاورت گپهای موجود و ریشههای خاصی افزایش مییابد. این مولفه و مولفههای دیگر قبل از هر همردیفی توسط کاربر قابل تنظیم هستند.
138-فصل ششم
مجاورت گپهای موجود و ریشههای خاصی افزایش مییابد. این مولفه و مولفههای دیگر قبل از هر همردیفی توسط کاربر قابل تنظیم هستند.
Dbclustal یک الگوریتم جستوجوی بانک اطلاعاتی مبتنی بر clustal برای توالیهای پروتئینی است که از خصوصیت هر دو مقایسه بخشهایی از توالی و مقایسه کامل توالیها استفاده مینماید. PRALINE نیز یک برنامه مقایسه پیشرفته تحت وب است که در این برنامه ابتدا پروفایلی برای هر توالی با استفاده از ابزار PSIBLAST ایجاد میگردد. پروفایلهای پیش فرض شده سپس برای مقایسه چند تایی استفاده میگردند. در این روش مقایسهها به طور متوالی افزایش میابند.
معرفی Clustalw
یکی از برنامههای تحت وب معروف برای هم تراز کردن چندگانه توالیها است که از طریق EBI در دسترس میباشد. دو گونهی مختلف از این برنامه موجود است به نامهای ClustalW که واسط کاربر متنی دارد و ClustalX که دارای واسط کاربر گرافیکی است و دارای نسخههای قابل اجرا در سیستم عاملهای ویندوز، لینوکس و مکینتاش است. در الگوریتم کلاستال برای هم تراز کردن چند توالی با هم سه گام اصلی وجود دارد:
- انجام هم تراز کردن جفتی
- ساخت یک درخت فیلوژنتیک
- استفاده از درخت فیلوژنتیک برای هم تراز کردن چندگانه توالیها
با انتخاب گزینهی “Do Complete Alignment” همهی این مراحل به طور خودکار انجام میشوند. گزینههای دیگر شامل “Do Alignment from guide tree” و “Produce guide tree only” میباشد. کاربران میتوانند هم تراز کردن توالیها را با تنظیمات پیش فرض انجام دهند؛ هرچند معمولا با تغییر دادن تنظیمات با پارامترهای خاص خود نتیجهی بهتری بدست میآید. این پارامترها، جریمهی گشایش فاصله و جریمهی گسترش فاصله میباشند.
تصویر 24-6: نمایی از نرم افزار Clustalw.
نرم افزار داراي يك باكس ميباشد كه بايد تواليهاي نوكلوئيدي یا توالی اسید آمینه را با فرمت خاص در آن قرار داد كه فرمت خاص آن طبق قانون زير است
139-هم ردیفی توالی ها
تواليها را براساس فرمت FASTA وارد باكس نرم افزار میکنیم و سپس با كليك بر روي گزينه Submit نرمافزار شروع به alignment كردن sequenceها میکند. این نرم افزار توالیها را با یکدیگر مقایسه میکند و بیشترین شباهت را اعلام میکند
تصویر 25-6: یک نمونه نتیجه از نرم افزار Clustalw.
2-3-1-5-6 معرفی T-Coffee
T-Coffee از Clustalw کندتر است اما همردیفی دقیقتری را ایجاد میکند (هنگام آزمون با BaliBase) که به دقت برنامههای DIALING یا PRRP است. این افزایش دقت در مشکلترین آزمونها و در تمام شاهدهای BaliBase مشاهده میشود. این روش براساس یافتن همردیفی چندگانهای است که بیشترین سازگاری را با یک مجموعه از همردیفیهای دوتایی میان توالیها داشته باشد. همردیفیهای دو به دو را میتوان از ترکیب منابع به دست آورد مانند برنامههای همردیفی مختلف یا انواعی از دادههایی که حاوی ساختارهای روی هم قرار گرفته و همردیفی توالی است. اینها برای یافتن جفتهای همردیف از ریشههای موجود در مجموعهی دادههای اولیه استفاده میشوند که بیشترین همانندی را در طول همردیفهای مختلف داشته باشند. پس این اطلاعات، برای جمعآوری دادهها روی ریشههای بسیار مشابه به همردیفی توالیها استفاده میشود. مرحلهی آخر، اضافه کردن همردیف چندگانه با استفاده از همردیفی پیشرفته معمولی است که سریع و ساده است و به پارامتر دیگری مانند GPها یا ماتریس وزنی نیاز ندارد. معایبT-Coffee در برابرClustalw زمان زیاد مورد نیاز رایانه برای همردیفی است. ظرفیت آن برای وارد کردن تنها 50 توالی است که در طول زمان در نرمافزارهای جدیدتر افزایش مییابد. ابزاری تحت عنوان 3D-Coffee وجود دارد که مدلی اختصاصی از T-Coffee
140-فصل ششم
T-Coffee از Clustalw کندتر است اما همردیفی دقیقتری را ایجاد میکند (هنگام آزمون با BaliBase) که به دقت برنامههای DIALING یا PRRP است. این افزایش دقت در مشکلترین آزمونها و در تمام شاهدهای BaliBase مشاهده میشود. این روش براساس یافتن همردیفی چندگانهای است که بیشترین سازگاری را با یک مجموعه از همردیفیهای دوتایی میان توالیها داشته باشد. همردیفیهای دو به دو را میتوان از ترکیب منابع به دست آورد مانند برنامههای همردیفی مختلف یا انواعی از دادههایی که حاوی ساختارهای روی هم قرار گرفته و همردیفی توالی است. اینها برای یافتن جفتهای همردیف از ریشههای موجود در مجموعهی دادههای اولیه استفاده میشوند که بیشترین همانندی را در طول همردیفهای مختلف داشته باشند. پس این اطلاعات، برای جمعآوری دادهها روی ریشههای بسیار مشابه به همردیفی توالیها استفاده میشود. مرحلهی آخر، اضافه کردن همردیف چندگانه با استفاده از همردیفی پیشرفته معمولی است که سریع و ساده است و به پارامتر دیگری مانند GPها یا ماتریس وزنی نیاز ندارد. معایبT-Coffee در برابرClustalw زمان زیاد مورد نیاز رایانه برای همردیفی است. ظرفیت آن برای وارد کردن تنها 50 توالی است که در طول زمان در نرمافزارهای جدیدتر افزایش مییابد. ابزاری تحت عنوان 3D-Coffee وجود دارد که مدلی اختصاصی از T-Coffee میباشد که براساس اطلاعات ساختاری عمل میکند. همچنین ابزار دیگر تحت عنوان Expresso نیز وجود دارد که از روش همترازی چندگانه مبتنی بر ساختار استفاده میکند و کاربر فقط توالی مورد نظر خود را وارد میکند و نرمافزار توسط BLAST هومولوگهای مناسب برای توالی مورد نظر کاربر را از بانک PDB پیدا میکند. همچون SAP و Fugc که از روش همترازی چندگانه براساس ساختار استفاده میکنند در اینجا نیز این هومولوگهای بهدست آمده از PDB براساس ساختار تحت همردیفی چندگانه قرار میگیرند.
2-5-6 الگوی مخفی مارکوف
یک روش جذاب برای همردیفی “الگوی مخفی مارکوف” (HMM) است که براساس احتمال جایگزینی ریشهها و وارد شدن یا حذف گپها است. نشان داده شده که HMM در شرایط متنوع زیستشناسی مولکولی محاسباتی مفید است؛ مانند جستوجوی اینترون و اگزونها یا پیشبینی پروموترها در توالیهای DNA. همچنین، HMM برای خلاصه کردن اطلاعات متنوع در همردیفی موجود از توالیها و پیشبینی این که توالی جدید متعلق به چه خانوادهای است، مفید میباشد. برخی بستههای نرمافزاری تولید HMM و یافتن همردیفی توالیهای نامرتب را با هم انجام میدهند. این روشها دقیق نیستند؛ با وجود این، پیشرفتهایی شکل گرفته و اکنون روش SAM مربوط به Hughey و Krogh (1996) از نظر دقت قابل مقایسه با Clustalw است هر چند به آن اندازه آسان و سریع نیست.
3-5-6 توالیهای نوکلئوتیدی در برابر توالیهای آمینواسیدی
شاید توالیهای نوکلئوتیدی رمز کننده باشند یا نباشند. در موارد دیگر، ممکن است آنها رمز کنندهی انواع RNAی کاتالتیک یا ساختاری باشند اما بیشتر آنها رمزکنندهی پروتئین هستند. در مورد ژنهای رمزکنندهی پروتئین، همردیفی را میتوان براساس توالی نوکلئوتیدی یا اسیدآمینهای انجام داد. شاید این انتخاب تحت تأثیر نوع آنالیز بعد از همردیفی باشد؛ برای نمونه، شاید دگرگونیهای خاموش در توالیهای بسیار مشابه بررسی شود. در این مورد، آنالیز همردیفی آمینواسیدی مفید نیست زیرا اختلاف کمی میان توالی وجود خواهد داشت. بالعکس، اگر توالیها دور از هم باشند، آنالیز را میتوان هم با اختلاف آمینواسیدی و هم نوکلئوتیدی انجام داد. صرف نظر از مطلوب بودن آنالیز نهایی، همردیفی توالی آمینواسیدی آسانتر و واضحتر از همردیفیهای نوکلئوتیدی است که در مورد جستوجوی پایگاه اطلاعات توالیها چنین است؛ علاوه بر این دلایلی که بحث شد، بیشتر برنامههای همردیفی یک کدون را به عنوان یک واحد توالی نمیشناسند که آنها را هنگام همردیفی جدا کنند. این موضوع برای همردیفی دو توالی معین و برنامههای جستوجوی پایگاه دادهها درست نیست اما در مورد بیشتر برنامههای همردیفی چندگانه درست است. یک روش متداول، انجام همردیفی در سطح اسیدآمینه و استفاده از آن برای ایجاد یک همردیفی توالی نوکلئوتیدی متناظر است که سپس میتواند به طور معمول آنالیز شود. برنامههای کامپیوتری مختلفی برای این کار در دسترس هستند مانند PROTAL2DNA یا DAMBE.
اگر توالیها، رمزکنندهی پروتئین نباشد پس همردیفی نوکلئوتیدی تنها راه است. اگر توالی، رمزکنندهی RNAی ساختاری باشد (ماننده RNAی زیرواحد کوچک ریبوزوم یا rRNA SSU)، همردیفی با عملکرد ساختار اولیه و ثانویه، حداقل در بخشی از طول آنها، محدود میشود. معمولا بخشهایی با همانندی واضح نوکلئوتیدی وجود دارد که میان بخشهایی که سریعتر دگرگون میشوند، قرار گرفتهاند؛ کارایی نرمافزار بستگی به چنین شرایطی دارد. بیشتر برنامههای رایج برای rRNA، همردیفی بخشهای اصلی بزرگی که میان فواصل زیاد فیلوژنتیکی حفاظت شدهاند را مدیریت میکنند. با این حال، این قطعات اصلی همردیف شده با قطعات بسیار متغیر، پراکنده شدهاند؛ بیشتر برنامهها با این قطعات مشکل دارند. شاید در نظر گرفتن ساختار ثانویه، با استفاده از یک ویرایشگر اختصاصی RNA بتواند کمک کند اما هنوز هم پیدا کردن یک همردیفی واضح مشکل است. حذف این نواحی در آنالیز بعدی باید به طور جدی در نظر گرفته شود. اگر همردیفی اختیاری باشد، آنالیز بعدی ضروری نیست. خوشبختانه، قطعات حفاظت شدهی تقریبا واضحی در همردیفی وجود دارد تا برای انجام آنالیز فیلوژنتیکی استفاده شود.
پس در توالیهای نوکلئوتیدی که رمزکننده نیستند (مانند SINES یا اینترونها)، هنگامی که توالیها بیش از سطح مشخصی از هم دور باشند، ممکن است همردیفی مشکل باشد. توالیهایی که محدودیت زیادی ندارند، میتوانند حذف و اضافه و جایگزینیها را در همهی موقعیتها جمع کنند؛ این قطعات غیر قابل همردیفی هستند. اگر توالیها تکرارهای کوچک داشته باشند، هیچ راه حل الگوریتمی وجود ندارد و به خصوص این حالت بسیار مشکل است. حتی اگر تا حدی همردیفی مطلوبی با استفاده از یک امتیاز همردیفی یا پارسمیونی به دست آید، دلیلی برای این که این همردیفی از نظر زیستی پاسخگو باشد، وجود ندارد. چنین امتیازاتی براساس فرضیههای اختیاری دربارهی جزئیات فرآیند تکاملی در توالیها است. حتی اگر جزئیات فرضیهها توجیهپذیر باشد، همردیفی به قدری مبهم است که شبیه توالیهایی است که در آنها همردیفی غیر قابل دستیبای است. اگر یک همردیفی با یک همردیفی دیگر تایید نشود، باید با احتیاط با آن رفتار کرد.
141-هم ردیفی توالی ها
6-6 مروری بر ابزارهای تجزیه و تحلیل توالیهای نوکلئوتیدی:
BLAST: از این برنامه برای مقایسهی توالی DNA و پروتئین با توالیهای دیگر در همهی پایگاههای اطلاعاتی استفاده میشود. اکنون این برنامه به صورت مختلفی شامل BLAST، PHI-BLAST و PSI-BLAST ارایه شده است. BLAST به عنوان یکی از ابزارهای همردیفی توالیهای DNA و پروتئین در این فصل به طور کامل توضیح داده شده است.
PCR الکترونیکی: این ابزار اجازهی جستوجوی STSها (به عنوان نشانه یا راهنما[1] در انواع مختلفی از نقشههای ژنومی) در توالی DNA مورد نظر را میدهد. منبع UniSTS حاوی تمام اطلاعات در زمینهی نشانگر STS از قبیل توالی آغازگر، طول محصول، اطلاعات نقشه و اسامی دیگر آن است.
Entrez Gene: دامنه وسیعی از اطلاعات دربارهی ژنها و موجودات را در بر دارد. این اطلاعات شامل نتایج تجزیه و تحلیلهایی است که روی دادههای توالی صورت گرفته است. مقدار و نوع اطلاعات ارائه شده وابسته به این است که چه اطلاعاتی راجع به یک ژن و یا موجود مشخص در دسترس است و میتواند شامل 1) خلاصه گرافیکی محتوی ژنومی، ساختار اگزون/ اینترون، 2) تصویر گرافیکی توالی mRNA، 3) انتولوژی ژنی و اطلاعات مربوط به فنوتیپ، 4) دادههای توالی پروتئینی و دمینهای حفظ شده، 5) پایگاههای اطلاعات مربوط به جهش باشد.
Model Maker: امکان ایجاد توالی mRNA از روی توالی ژنوم را فراهم میکند. در حقیقت با کمک این ابزار را میتوان برای ساخت یک مدل ژنی دلخواه و یا ویرایش مدل از راه انتخاب یا حذف اگزونهای مورد نظر بهره جست.
ORF Finder: این برنامه ORFهای ممکنه در یک توالی DNA را به وسیلهی قرار دادن کدونهای شروع و پایان مشخص مینماید. همچنین توالی آمینواسیدی استنباط شده را میتوان با استفاده از ابزار BLAST در NCBI بررسی کرد.
SAGEmap: ابزاری برای انجام آزمونهای آماری برای تجزیه و تحلیلهای مختلف دادههای SAGE[2] میباشد. با وارد کردن یک توالی تقاضا در منبع SAGEmap، میتوان فهمید که آیا قطعات SAGE در توالی وجود دارد یا خیر.
Spidey: همردیفی یک و یا بیش از یک توالی mRNA را با یک توالی ژنومی فراهم میکند. این برنامه همچنین ساختار اگزون/ اینترون را تعیین خواهد کرد.
Splign: برای محاسبهی همردیفیهای cDNA با DNA ژنومی براساس یک نوع ویژه از الگورتیم نیدلمن و وانچ به همراه ابزار BLAST عمل میکند.
Vec Screen: ابزاری برای شناسایی قطعات یک توالی اسید نوکلئیکی (که ممکن است حاصل یک حامل، لینکر یا سازگارساز باشد)، قبل از تجزیه توالی است.
Viral Genotyping Tool: یک برنامه مبتنی بر شبکه است، که ژنوتیپ توالیهای نوکلئوتیدی ویروسهای نوترکیب و غیرنوترکیب را مشخص میکند. این برنامه با کمک BLAST مقایسهی یک توالی ورودی را با مجموعهای از توالی منبع (با ژنوتیپهای شناخته شده) انجام میدهد. ژنوتیپهای منبع از قبل برای پاتوژن ویروس شامل HIV-1، هپاتیت C و هپاتیت B و همچنین پولوویروسها[3] مشخص و در دسترس هستند.
[1] Landmark
[2] Serial Analysis of Gene Expression
[3] Poliovirus