- 793
- 2023/04/27 - 02:14
- 126 بازدید
شرح فصل و نکات ویژه: در این فصل به مبحث کلاسیفیکشن دمینهای پروتئینی و کلاسبندی پروتئینها میپردازیم. بانکهای اطلاعاتی ثانویه از اطلاعات بانکهای اطلاعاتی اولیه استفاده میکنند. کلاسیفیکیشن دمینهای پروتئین مبحث جذاب و پرکاربردی میباشد. در پروژههای ژنوم به منظور تجزیه و تحلیلدادههای NGS از مباحث این فصل استفاده میشود. 145-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی) برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621 براساس تعریف عمومی دمین[…]
شرح فصل و نکات ویژه:
- در این فصل به مبحث کلاسیفیکشن دمینهای پروتئینی و کلاسبندی پروتئینها میپردازیم.
- بانکهای اطلاعاتی ثانویه از اطلاعات بانکهای اطلاعاتی اولیه استفاده میکنند.
- کلاسیفیکیشن دمینهای پروتئین مبحث جذاب و پرکاربردی میباشد.
- در پروژههای ژنوم به منظور تجزیه و تحلیلدادههای NGS از مباحث این فصل استفاده میشود.
145-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621
براساس تعریف عمومی دمین بخشی از پروتئین است که وقتی از پروتئین جدا شود شکل خود را حفظ میکند. دمین الگوی توالی حفاظت شده است که به صورت یک واحد ساختاری و عملکردی مستقل تعریف میشود. معمولا دمینها بلندتر از موتیفها هستند و دارای بیش از 40 رزیدو و حد اکثر 700 رزیدو، با طول متوسط 100 رزیدو هستند. دمین ممکن است در محدوده خود حاوی موتیف و یا بدون موتیف باشد. موتیف اغلب به جایگاه ساختاری متمایز مربوط بوده که کار خاصی را انجام میدهد. موتیفها کوتاه هستند و مربوط به عملکردهای متمایز پروتئین و یا DNA است. معمولا موتیفها را به دو دسته sequence motif و structural motif تقسیم میکنند. N-glycosylation site motif یک نمونه sequence motif میباشد و همچنین از معروفترین structural motifها میتوان به موتیف انگشت – روی و یا زیپ لوسین اشاره کرد.در زیست شناسی مولکولی نوعی موتیف به نام SLiMs نام برده میشود که مخفف Short Linear Motifs میباشد و در اینترکشن بین پروتئینها نقش دارد.
پروتئینها به طور متوسط از دو یا سه دمین تشکیل شدهاند. یک دمین ممکن است با دیگر پروتئینها تداخل کند و ممکن است به یونی مانند کلسیم و یا روی متصل شود یا دارای یک جایگاه فعال باشد. داشتن یک دمین کاتالیزوری همراه با یک دمین اتصالی و یک دمین تنظیمی در پروتئینها معمول است. دمینها آنقدر در زیست شناسی مهم هستند که زیست شناسان از زمانهای دور کوشش کردهاند مجموعههای جامع ای از آنها بسازند. با توجه به این که تعریف مشخص و واضح یک دمین دشوار است و متخصصان به ندرت با یکدیگر در این باره توافق دارند همپوشانی زیادی بین چند مجموعه (پایگاه) عمده دمینهای موجود امروزی وجود دارد که در جدول زیر به آنها اشاره شده است.
جدول 1-7: تعدادی از پایگاههای اصلی دمینهای پروتئینی
دمینها به دليل اهميت عملكردي و ساختماني در طي تكامل حفاظت ميشوند. به عبارت ديگر، جهش در اين تواليها كشنده است و در صورت اتفاق جهشهای تصادفي در این توالیها، موجود حامل آن جهشها حذف شده و بنابراین در زمان کنونی وجود ندارند. این گونه توالیها، توالیهای حفاظت شده Conserved sequences نامیده میشوند. در مقابل، تنها موجوداتی ماندهاند که حامل جهشهای قابل تحمل هستند. در یک همردیفی چندگانه، این مفهوم به خوبی نشان داده میشود.
اگر به طريقي تواليهاي مهم براي ساختمان و عملکرد اعضاي يک خانواده را شناسايي كنيم، ميتوانيم آن تواليها را معياري براي تشخيص اعضاي آن خانواده پروتئيني به كار برده و عملكرد احتمالي پروتئين مجهول را پيشگويي كنيم. اساس اين كار، همردیفی چندگانه (Multiple Alignment ) تواليهاي شناخته شده و پيدا كردن تواليهاي مشترك بين آنهاست. در عمل كار بدين سادگي نيست. زيرا در خلال همان تواليهاي مهم، يك يا هر دوي اسيد آمينه كه با سوبسترا و يا ليگاند خود واكنش ميكند اهميت ويژه دارند. علاوه بر آن، به طرق مختلفي ميتوان ميزان حفاظت شدن يك توالي در موجودات مختلف را نشان داد. اين موضوع، سبب وضع الگوریتمها و به تبع آن تهیه نرمافزارهاي متفاوتي براي استخراج تواليهاي حفاظت شده (Conserved sequence ) يا تواليهاي مشترك (Consensus sequence) گرديده است. كه به ترتيب پيچيدگي و قابليت اعتماد تشريح شدهاند.
در ادامه مبحث این فصل یک توالی اسید آمینه را در چند بانک مختلف وارد میکنیم تا دمینهای موجود در این توالی برای ما مشخص شود. این بانکها و ابزارها با الگوریتمهای مختلف کار میکنند که در ادامه فصل به شرح آنها خواهیم پرداخت. با توجه به جدولی که در ابتدای فصل مشاهده کردید هرکدام از این بانکها اطلاعات متفاوتی از دمینها دارندو همچنین الگوریتمهای متفاوتی را به کار میگیرند که باعث میشود نتایج متفاوتی به دست بیاید. یک محقق باید برای به دست آوردن یک نتیجه قابل اعتماد توالی خود را در تمام این بانکها مورد بررسی قرار دهد. در جدول 2-7 به صورت خلاصه منابع اولیه و الگوریتم تعدادی از بانکهای مهم معرفی شدهاند.
146-فصل هفتم
1-7 مدلها و ابزارهای مقایسه توالیها:
یکی از کاربردهای انطباق چندگانه توالی در توالیهای مرتبط در یک پایگاه داده، ساخت ماتریسهای نمره دهی اختصاصی جایگاه یا PSSM، پروفایلها و مدل مارکوف مخفی (HMM) است. اینها مدلهای آماری هستند که منعکس کننده اطلاعاتی راجع به بسامد اسیدهای آمینه یا نوکلئوتیدها در یک انطباق چند گانه میباشند. از جمله ابزارهای مقایسه توالیها استفاده از ماتریکسهای HMM و PSSM است.در این مدلها توالی مشترک دقیقا توالی منفرد نیست و هدف از ایجاد این مدلها آن است که اجازه دهیم جورشدگی نسبی با توالی مورد نظر ایجاد گردد به طوری که اینها بتوانند جهت یافتن اعضای دورتر خانواده، مورد استفاده قرار گرفته و باعث افزایش حساسیت جستوجویهای بانک اطلاعاتی گردد.
1-1-7 PSSM
PSSMs (Position-specific scoring matrix) جدولی است که حاوی اطلاعات احتمالی آمینو اسیدها و نوکلئوتیدها در هر موقعیت از یک مقایسه توالی چند تایی بدون شکاف است. در چنین جدولی ستونها نشان دهنده موقعیت ریشهها و ردیفها اسامی ریشهها و یا بالعکس میباشد (تصویر 1-7). برای ایجاد یک ماتریکس در ابتدا فراوانی هر ریشه در هر موقعیت در مقایسه چند توالی محاسبه میگردد. سپس با تقسیم کردن فراوانی هر ریشه بر تعداد کل ریشهها، نرمالسازی میگردند به طوری که نمرات مستقل از موقعیت و طول میباشند. مقادیر سپس با لگاریتمگیری بر پایه 2 به مقادیر احتمال تبدیل میگردند. با این روش،مقادیر ماتریکس به نمرات Log odds ریشههایی که در موقعیت واقع شدهاند تبدیل میگردد. در این ماتریکس،نمره مثبت بیانگر جور شدن ریشههای همانند یا مشابه است و نمره منفی بیانگر جور شدن توالی غیر محافظت شده است.
مدل میتواند به عنوان یک توالی منفرد برای جستوجو ی بانک اطلاعاتی و یا برای آزمودن اینکه یک توالی تا چه حد در یک گروه جور میشود به کار رود. برای مثال توالی جدید AACTCG تا چه حدی در ماتریکس تصویر 2-7 جور میشود؟ برای پاسخ به این سوال مقادیر احتمال توالی در موقعیتهای مورد نظر ماتریکس میتوانند با همدیگر جمع شوند (تصویر 2-7). نمره جور شدگی کل برای توالی 6.33 است. چون مقادیر ماتریکس به لگاریتم در پایه 2 تبدیل شده اند لذا توالی با احتمال 2 به توان 6.33 و یا 80 برابر بیشتر از حالت تصادفی در ماتریکس جای میگیرد. در نتیجه توالی جدید میتواند با اطمینان بالایی به عنوان یک عضو از خانواده توالی طبقه بندی شود.
2-1-7 پروفایلها
پروفایل، یک PSSM است که اطلاعات جریمه را با ملاحظه حذفها و اضافات برای یک خانواده در نظر میگیرد.
147-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
3-1-7 PSI-BLAST
پروفایلها میتوانند جهت یافتن هومولوگهای توالی واگرا استفاده گردند. به هر حال، ایجاد یک پروفایل از مقایسه چند تایی و محاسبه نمرات برای جور کردن توالیها از یک بانک اطلاعاتی بزرگ نیاز به تجربه زیادی دارد.PSI-BLAST برنامه ای برای ایجاد پروفایلها و استفاده از آنها برای جستوجوی خودگار در بانک اطلاعاتی است که به وسیله NCBI به وجود آمده است.
PSI-BLAST پروفایلهایی را میسازد و جستوجوی بانک اطلاعاتی را با یک مدل تکراری انجام میدهد. ویژگی اصلی این روش این است که پروفایلها به صورت خودکار تولید میشوند و در مرحله پیشرونده بهتر میشوند. برنامه در هر تکرار برای افزایش حساسیت از یک الگوی وزندهی استفاده میکند از اعمال دیگر این برنامه برای افزایش حساسیت استفاده از رقم کاذب برای وزن دادن به ریشههای مشاهده شده است تا پروفایل اعضای بیشتری را بپذیرد.
بهینه سازی پارامترهای پروفایل، PSI-BLAST را به یک ابزار جستوجوی بسیار حساس تبدیل میکند تا بتوانیم مشابهتهای ضعیفتر بین توالیها را کشف کنیم. حساسیت بالای PSI-BLAST با ایجاد مثبت کاذب در فرایند تولید خود به خودی پروفایل سبب کاهش اختصاصیت میگردد. به طور معمول سه تا پنج تکرار در PSI-BLAST کافی است تا بتوانیم دورترین هومولوگ را در سطح توالی بیابیم.
148-فصل هفتم
تصویر 3-7: PSI-BLAST.یک فرایند تکراری جهت یافتن هومولوگهای دورتر.
ابزار PSI-BLAST در ابتدا از یک توالی پروتئینی جستوجو شونده منفرد جهت انجام یک جستوجوی BLASTP معمولی استفاده مینماید تا توالی مشابه اولیه را تولید نماید. سپس توالیهای با نمره بالا برای ایجاد یک جدول ماتریکس چند تایی یا پروفایل استفاده میگردد. پروفایل سپس در مرحله دوم جستوجو برای تشخیص اعضای بیشتری از یک خانواده مشابه که ممکن است با پروفایل جور گردند به کار میرود. زمانی که توالیهای جدیدی مشخص شدند اینها با مقایسه چند تایی قبلی تلفیق میگردند تا پروفایل جدیدی را ایجاد نمایند، که سپس در چرخههای بعدی بانک اطلاعاتی استفاده میگردند. این فرایند میتواند تا زمانی که دیگر هیچ توالی جدیدی پیدا نشود ادامه پیدا کند. Reverse PSI-BLAST بانک اطلاعتی شامل پروفایلهایی است که جستوجوی آن معکوس با PSI-BLAST است.یعنی این عملیات جستوجو در مقابل پروفایلهای ساخته شده از
PSI-BLAST انجام میگیرد.
4-1-7 مدل مارکوف
یک ابزار مناسب برای تعیین جور شدگی بین یک توالی و یک پروفایل، استفاده از HMM است. مدل مارکوف یا زنجیره مارکوف توالی رخدادهایی را توصیف مینماید که یکی پس از دیگری در یک زنجیره اتفاق می افتد. هر رخداد احتمال رخداد بعدی را تعیین مینماید (تصویر 4-7). توالیهای بیولوژیک که به صورت رشته هستند را میتوان زنجیره مارکوف در نظر گرفت که هر حرف نماینده یک مرحله است که با مقدار احتمال گذار به یکدیگر متصل شده اند. مدل مارکوف درجه صفر احتمال مرحله کنونی را مستقل از مرحله قبل توصیف مینماید. مدل مارکوف درجه اول احتمال مرحله کنونی را که به وسیله مرحله قبل توصیف شده است را توصیف مینماید. مدل مارکوف درجه دوم موقعیتی را که در آن احتمال مرحله کنونی به وسیله دو مرحله قبل تعیین میگردد را توصیف مینماید که این بستگی به تکرارهای سه تایی دارد.
149-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر 4-7:یک HMM ساده برای توالی DNA با مقادیر احتمال گذار و نشر. هر دو مقادیر احتمال محاسبه احتمال کل یک مسیر خاص در مدل استفاده میگردند.
5-1-7 مدلهایدن مارکوف
در مدل مارکوف تمام مراحل در یک توالی خطی انجام پذیر هستند. برخی فاکتورهای مشاهده نشده قادرند محاسبات مرحله گذار را تحت تاثیر قرار دهند. برای دخالت دادن این فاکتورها در محاسبات به مدلهای پیچیده تری چون HMM نیاز است. یک HMM شامل دو یا تعداد بیشتری زنجیره مارکوف است که در آن تنها یک زنجیره حاوی مراحل مشاهده شده و زنجیرههای دیگر از مراحل مشاهده نشده (مخفی) که نتیجه مرحله مشاهده شده را تحت تاثیر قرار میدهند تشکیل شده است.
در HMM همچون یک زنجیره مارکوف، احتمالی که از یک مرحله به مرحله بعد به دست میآید را احتمال گذار مینامند. هر مرحله ممکن است حاوی تعدادی عناصر باشد. برای توالیهای نوکلئوتیدی چهار عنصر و برای توالیهای آمینو اسیدی 20 عنصر وجود دارد.مقدار احتمال مربوط به هر عنصر در هر مرحله را احتمال نشر می نامند. برای محاسبه احتمال کلی یک مسیر احتمال گذار و نشر تمام مراحل مخفی و مشاهده شده را به حساب میآورند (شکل 5-7). برای این که یک مسیر بهینه را در HMM برای یک توالی مورد نظر با بالاترین احتمال بیابیم نیاز است که یک ماتریکس با مقادیر احتمال برای هر مرحله در موقعیت هر کدام از ریشهها ایجاد گردد. چندین الگوریتم برای تعیین مسیر با بالاترین احتمال برای این ماتریکس وجود دارد یکی از این الگوریتمها، الگوریتم Viterbi است که با مدلی مشابه با برنامه ریزی دینامیک در مقایسه توالی کار میکند.
شکل 5-7: ساختار معمولی HMM: لوزیها بیانگر مراحل جورشدگی و دایرهها مراحل اضافه شدگی میباشند. مراحل نیز از طریق فلشهایی که مقادیر احتمال گذار هستند به هم متصل میگردند (مراحل اضافه شدگی بیانگر اضافه شدن ریشهها در مدل است بعلاوه یک مرحله شروع و پایان نیز وجود دارد.در مدل، هر مسیر شامل توالی خاصی با حذفها و اضافاتی هستند).
150-فصل هفتم
2-7 پایگاههایی با مدل توالي توافقي:
در همردیفی چندگانه تواليهاي پروتئيني و يا نوكلئوتيدي، مناطقي يافت ميشوند كه تواليهايی در موجودات مختلف به خوبي حفاظت شده و تغيير كمتري كردهاند. به مثال زير توجه فرماييد:
تصویر 6-7: اساس همردیفی با مدل توالی توافقی.
در همردیفی تصویر 6-7 منطقهاي از تواليهاي با تغيير كمتر ديده مي شود كه توالي توافقي بين ۵ توالي مزبور در قسمت Consensus Seq آورده شده است. پايگاه ProDom بر اساس اين گونه تواليهاي توافقي تشكيل شده است.
پايگاه ProDom
این پایگاه اطلاعات خانوادههای پروتئینی را که بر اساس اطلاعات توالی توافقی که به صورت اتوماتیک با استفاده از همردیفی چند گانه با الگوریتم PSI-BLAST به دست میایند را دارا میباشد که لزوما عملکرد شناخته شده ای ندارند. این همردیفی چندگانه به وسیله توالیهای موجود در پایگاههای اولیه پروتئینی SWISS-PROT و TrEMBL انجام میشود. این پایگاه برای بررسی نحوه آرایش موتيفهای خانوادههای پروتئینی پیچیده و کمک به بررسی مشابهت در Modular proteinها مفید می باشد.
جستوجو در ProDom
برای جستوجو در این پایگاه وارد لینک prodom.prabi.fr شوید،در این صفحه بر اساس نوع جستوجو می توانید بانک مربوطه را که در تصویر زیر نیز به ترتیبThe whole database، Complete genome وStructural genomics آمده است را انتخاب کنید.
تصویر 7-7: نمایی از صفحه اصلی پایگاه ProDom.
برای جستوجوی ساده در این پایگاه مورد اول (the whole database ) را انتخاب کنید. در صفحه مربوط به این نوع جستوجو به دو طریق با استفاده از توالی پروتئینی و نیز کلید واژه و شماره دسترسی موتيف مورد نظر می توانید جستوجو را انجام دهید. برای مثال اگر بخواهیم موتيفهاي موجود در يك توالی پروتئینی را یافته و به این ترتیب عمل پروتئین مورد جستوجو و نام آن را بیابیم، باید توالی را در باکس مربوطه کپی کنید و کلید submit query را انتخاب کنید.
151-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
پروتئین مورد جستوجو و نام آن را بیابیم، باید توالی را در باکس مربوطه کپی کنید و کلید submit query را انتخاب کنید.
تصویر 8-7: تنظیمات و محل قرار دادن توالی اسید آمینهها در پایگاه ProDom.
در تصویر فوق سه قسمت مشخص شده اند که به ترتیب از بالا به پایین مربوط به مشخص کردن نوع برنامه جستوجو، مشخص کردن روش یافتن دمین و در پایین تصویر محل قرار دادن توالی مشخص شده است.
پس از وارد کردن توالی و درخواست جستوجو برای یافتن دمین و یا موتيفهای توالی صفحه زیر در نتیجه جستوجو مشاهده می شودکه نمایشی از دمینهای موجود در توالی میباشد که با کلیک بر روی هر کدام از قسمتها اطلاعات مربوط به آن دمین یا موتیف را نمایش میدهد.
تصویر 9-7: نتیجه جستوجوی دمین در پایگاه ProDom.
در ادامه صفحه، دمینهای موجود در توالی با شماره دسترسی و موقعیت آنها در توالي نمایش داده میشوند.
152-فصل هفتم
تصویر 10-7: دسترسی به اطلاعات و آنالیز دمینهای یافته شده توسط ProDom.
اگر روي Submit Query در جلوي هر موتيف یا دمین كليك كنيد، اطلاعات مربوط به آن جایگاه توالي مورد نظر نشان داده مي شود. به طور مثال، همردیفی تواليهاي مشابه و توالي مورد نظر در محدوده جایگاه ويا درخت فيلوژني نیز نمایان خواهد شد. این پایگاه اطلاعات متنوعی را در اختیار قرار میدهد که میتوان با کلیک روی قسمتهای مختلف اطلاعات بیشتری را به دست آورد. همانطور که در تصویرهای قبل دیدید این پایگاه چندین دمین برای توالیها پیشنهاد داد که با کلیک روی یکی از آنها اطلاعات آن را توانستیم ببینیم و متوجه شدیم در سمت راست توالی ما (طبق قسمتی که پایگاه نمایش داده بود) یک دمین MAP/ERK Kinase وجود دارد. و حال این توالی را در سایر پایگاهها نیز مورد بررسی قرار خواهیم داد.
در ادامه صفحه موتيفها و دمینهای موجود در ساختمان سوم پروتئین براساس دو برنامه Swiss-Model و Geno3D پیدا میشوند و در نتیجه جستوجو نمایش داده میشوند.
تصویر 11-7: دسترسی به ساختار سوم دمین در پایگاه ProDom.
در قسمت فوق اگر روي Submit Query در جلوي هر موتيف كليك كنيد صفحه ای باز میشود که با دادن آدرس ایمیل به نرم افزار ساختار سه بعدی آن قسمت را برایتان ارسال میکند.
153-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
3-7 پایگاههایی با مدل تواليهاي الگو:
بديهي است اگر بخواهيم به تواليهاي توافقي که پیش تر توضیح داده شد تكيه كنيم و به عنوان معيار تشخيص خانواده ژني و يا ساختمان و عمل خاص به كار بريم، بسياري از تواليهاي مربوط را شناسايي خواهيم كرد. به طور مثال، توالي توافقي زير همردیفی مناسبي با توالي ۲ (seq 2 ) نشان نميدهد و در جستوجوي تواليهاي موتيف موجود در يك توالي مجهول نتيجه منفي مجازي(False negative ) خواهيم داشت.
تصویر 12-7: اساس همردیفی با مدل توالیهای الگو.
يك راه حل استفاده ازتواليهاي الگو به جاي توالي توافقي است. به توالي الگوي زير كه بر مبناي مثال فوق تهيه شده است توجه فرماييد:
[AS] –D-[TVL]-G-X4-{PG}-C
در اين توالي، در موقعيت 1 ميتوان آلانين (A ) و يا سرين (S ) داشت، در موقعيت 2 آسپاريك اسيد (D )، در موقعيت 5 تا 8 هر اسيد آمينه (X ) و در موقعيت 9 هر اسيد آمينه بجز پرولین (P ) يا گلاسين (G) ميتواند باشد. اين روش، اساس كار پايگاه اطلاعات PROSITE Patterns بوده است.
تواليهاي پروفايل (Profiles)
استفاده از تواليهاي الگو نيز ميتواند مستعد اشتباه باشد. زيرا اگر توالي الگو خيلي كوتاه، و متغير باشد، تواليهاي غيرمربوط نيز به عنوان يك توالي خاص شناسايي ميشوند كه اصطلاحا False Positives ناميده ميشوند. اگر هم توالي ثابت و يا طولاني به عنوان الگو در نظر گرفته شود، ممكن است از يك توالي با ويژگيهاي ساختماني و عملكردي خاص غفلت شود كه اصطلاحا False Negative ناميده ميشود. در مثال فوق، نميتوان بين توالي SDVGQPRSEC و ADLGAVFALC تفاوتي قائل شد.
PROSITE اولین پایگاه اطلاعات دمینهای خانوادههای پروتئینی است و به صورت همزمان با ارائه تواليهاي الگو، ركوردهاي پروفايل را تعريف نمود. در اين پروفايلها فراواني حضور يك اسيد آمينه در يك موقعيت به علاوه خصوصيات بيوشيميايي و بيوفيزيكي هر اسيد آمينه و حفاظت تكاملي آن مبناي محاسبه امتياز براي حضور اسيد آمينههاي مختلف در آن موقعيت قرارميگيرد. اطلاعات الگوها اساسا از مقالات منتشر شده می باشد. برای جستوجو در بانک اطلاعاتی PROSITE از جور شدن قطعی استفاده میکند. به علاوه بانک اطلاعاتی پروفایلهایی را ایجاد مینماید تا برخی الگوها را برای موتیفها ارائه نماید. نقص الگوهای این پایگاه این است که برخی از الگوها آنقدر کوتاه هستند که اختصاصیتی در مورد آنها دیده نمیشود و موارد منفی کاذب دیده میشود.
154-فصل هفتم
تصویر 13-7:پایگاه PROSITE.
براي ورود به اين پايگاه به آدرس http://www.expasy.ch/PROSITE مراجعه كنيد. در صفحه جستوجو نحوه دسترسي به اطلاعات موجود در اين پايگاه با استفاده از كليد واژه شماره دسترسي تواليهاي الگو و پروفايلها گنجانده شده است. ابزارهاي جستوجو در اين جايگاه نيز در تصویر 13-7 قابل مشاهده است.
برای جستوجو در این پایگاه توالي در باكس مربوطه كپي شده و نرم افزار Scan PROSITE براي يافتن تواليهاي الگو و پروفايلها اسكن استفاده مي شود. در اين باكس علاوه بر توالي ميتوان شماره دسترسي و يا شماره معرفي يك پروتئين در پايگاه UniProtKB (Swiss-Prot or TrEMBL) را نيز مورد جستوجو قرار داد. ابزارهاي جستوجوي ديگر مانند، PRATT (بدست آوردن توالی الگو از توالیهای پروتئینی مورد نظر) و MyDomain image creator (ایجاد یک شکل مناسب برای موتيفهای موجود در توالی مورد نظر) نيز وجود دارد. توالی با مشخصات زیر را توسط این پایگاه مورد بررسی قرار دادیم:
P00533|EGFR_HUMAN Epidermal growth factor receptor Homo sapiens
شما نیز میتوانید برای کار کردن با این پایگاه یک توالی پروتئینی را انتخاب کنید و تمام مراحل را چه در این پایگاه و یا هر پایگاه دیگر که شرح داده میشود مورد استفاده قرار بدهید. توالی که ما مورد بررسی قرار دادیم به آدرس www.uniprot.org/uniprot/P00533 قابل دسترس میباشد، میتوانید وارد این صفحه بشوید و توالی پروتئین را با فرمت FASTA دریافت کنید.
در صفحه نتايج، تعداد دمینهای يافت شده از نوع توالي الگو يا پروفايل مشاهده مي شوند. در مثال تصویر 14-7، یک پروفایل و دو توالی الگو مشخص شده است، بنابراین توجه داشته باشید همانطورکه در تصویر مشخص شده است الگو بخشی از پروفایل است. با کلیک بر روی پروفایل یافت شده اطلاعات دمین را مشاهده میکنیم. در ادامه صفحه اطلاعات بیشتر در رابطه با پروفایلها و الگوهای یافت شده ارائه میشود.
155-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر 14-7: نتیجه جستوجو در پایگاه PROSITE.
با کلیک بر روی هر کدام از پروفایلها ویا توالیهای الگو صفحه ای باز میشود و قطعه نمایش داده شده را شرح میدهد. PROSITE روی هم رفته خطای بیش از 20 درصد داشته و باید در مورد نتایج تطبیق و یا عدم تطبیق PROSITE با احتیاط برخورد شود. Enotif یک پایگاه داده موتیف است و از انطباق چندگانه توالیهای دو پایگاه PRINT وBlocks که مجموعه انطباقهای بسیار بزرگتری در مقایسه با PROSITE دارند، استفاده میکند و در نتیجه این پایگاه منفی کاذب کمتری تولید میکند.
4-7 پایگاههایی با مدلهاي ماركوف نهفته:
در سالهاي اخير روشي خودكار براي يافتن تواليهاي مشترك بين اعضاي خانوادههاي پروتئيني و استفاده از آنها ابداع شده است. اين روش بر مبناي احتمال اتفاق افتادن اسيدهاي آمينه در يك بلوك توالي حفاظت شده است كه پس از همردیفی چندگانه شناسايي و محاسبه ميشود. در اين آناليز، پروفايل تبديل به فلوچارتي از احتمال جايگزيني تواليها در هر موقعيت و همچنين احتمال حذف يا اضافه شدن تواليها ميشود. در واقع، مزيت اين روش در استفاده از احتمال حذف و اضافه شدن توالي از طريق محاسبه احتمال انتقال (transition ) در هر موقعيت است. در عمل، ضمن خودكار شدن، سرعت جستوجو و آناليز تا حد زيادي افزايش مييابد. استفاده از نرم افزارهاي HMMER منجر به ايجاد پايگاههاي اطلاعاتي متعددي شده است كه Pfam و SMART از جمله بهترين پايگاهها ميباشند.
پايگاههاي ثانويه Pfam و SMART:
پايگاه Pfam حاوي اطلاعات مربوط به مدلهاي خانواده پروتئيني به طور عام است. ولي پايگاه SMART حاوي مدلهاي مربوط به خانوادههاي پروتئيني كه درانتقال سيگنال، تنظيم ابزار ژنها و تنظيم فعاليت فاكتورهاي رونويسي اختصاص دارد.
جستوجو در پایگاه اطلاعاتی Pfam
پایگاه دادهای است که از انطباق دمینهای پروتئینی موجود در پایگاههای داده SwissProt و TrEMBL بوجود آمده است. هر موتیف یا دمین با پروفایل HMMی که از طریق انطباق تعدادی از پروتئینهای همولوگ حفاظت شده تولید شده است نمایش داده میشود. برای جستوجو در این پایگاه به آدرس http://pfam.sanger.ac.uk وارد شوید و sequence search را انتخاب کنید. توالی پروتئینی مورد جستوجو را در باکس مربوطه کپی کنید. امکان جستوجو بر اساس کلید واژه نیز در این پایگاه وجو دارد.
156-فصل هفتم
تصویر 15-7: پایگاه Pfam.
در صفحه نتیجه جستوجو (تصویر 16-7) در پایگاه Pfam موارد زير نشان داده ميشود:
موتيفها و دمینهای پروتئین مورد جستوجو نمایش داده میشود و همچنین نام دومین، منطقه موتيف در توالی،HMM ، امتیاز همردیفی، Evalue هر همردیفی و روش همردیفی global) یا( local نمایش داده میشود. اگر روی هر کدام از دمینهای یافته شده کلیک کنید در صفحه ای با فرمت ”ویکی” آن دمین خاص شرح داده میشود.
تصویر 16-7: نتیجه جستوجو در پایگاه Pfam.
جستوجو در پایگاه اطلاعاتی SMART
به طور مشابهي مي توان با رجوع به آدرس http://smart.embl-heidelberg.de/smart/ به جستوجوي مدلهاي درون توالي مورد نظر در پايگاه SMART پرداخت.SMART حاوی پروفایلهای HMM است که از مقایسه دومینهای پروتئینی و به طور دستی ایجاد شده است. مقایسه در بانک اطلاعاتی بر اساس ساختار سوم در صورتی که موجود باشد و یا بر اساس پروفایلهای PSI-BLAST ساخته میشوند.
157-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر 17-7: پایگاه SMART.
SMART حاوی پروفایلهای HMMی است که از انطباقهای دمین پروتئینها بدست آمده و به صورت دستی، ساخته شدهاند. انطباق در این پایگاه داده بر اساس ساختارهای سوم موجود یا پروفایلهای PSI-BLAST انجام میپذیرد. قبل از ساخت HMM انطباقها بررسی شده و توسط افراد مفسر صحیح میشوند. عملکرد پروتئین به صورت دستی تصحیح میگردد. بنابراین احتمالا کیفیت این پایگاه داده به دلیل تفسیرهای عملکردی گسترده تر در مقایسه با Pfam بیشتر است.
نمونه ای از نتيجه جستوجو براي اثر انگشتها در پايگاه SMART:
جستوجوی توالی در این پایگاه داده یک خروجی گرافیکی از دمینها را با اطلاعات تفسیر شده مناسب بسته به محل سلول، جایگاه عملکردی، ابر خانواده و ساختار سوم تولید میکند (تصویر 18-7).
تصویر 18-7 نتیجه جستوجو در پایگاه SMART.
با جستوجو در این پایگاه همانطور که میبینید یک دمین ترنسمنبرین یافت شد.
158-فصل هفتم
تصویر 19-7: نمایش اطلاعات بیشتر با کلیک روی دمین یافت شده.
با توجه به این که توالی مورد بررسی یک توالی شناخته شده میباشد و مطالعات زیادی روی آن انجام شده این پایگاه سایر پروتئینهایی را که با پروتئین مورد نظر ما اینترکشن دارند را به صورت یک شبکه برهمکنش به نمایش میگذارد.
تصویر 20-7: شبکه برهمکنش پروتئینها.
5-7 پایگاههایی با مدل ماتريكس امتيازي بر اساس موقعيت (PSSM)
ماتريكس امتيازي بر مبناي موقعيت يا PSSM شكل ديگري از پروفايل است كه در آن بجاي توالي يك موتيف، احتمال وقوع يا فراواني هر آمينو اسيد در هرموقعيت به شكل ماتريكس آورده ميشود. دادههاي اين ماتريكس از يك همردیفی چندگانه به دست ميآيد.
پایگاه اطلاعاتی CDD
پايگاه Conserved Domain Database يا CDDدر واقع حاوي همان اطلاعات پايگاه Pfam به اضافه اطلاعاتي است كه توسط كارمندان NCBI از اطلاعات تسليم شده به آن مركز استخراج ميشود. نكته اين است كه پس از جستوجو در CDD و مشاهده نتايج آن ميتوان با استفاده از نرمافزار CDART اقدام به نمايش گرافيكي پروتئينهاي شناخته شده واجد مدل مورد نظر نمود. بدين وسيله مقايسه پروتئينهاي واجد يك موتيف از نوع PSSM و موتيفهاي مجاور آنها را فراهم ميآيد. به عبارت ديگر، ميتوان فهميد كه چه پروتئينهايي واجد يك توالي حفاظت شده هستند و معمولا چه تواليهاي حفاظت شده ديگر در مجاورت آنها ديده ميشود. به اين ترتيب پروتئينهايي با عملكردهاي متفاوت كه داراي توالي حفاظت شده مشابه هستند شناسايي ميشوند.
جستوجو در پایگاه اطلاعاتی CDD
برای جستوجو در این پایگاه به آدرس زیر مراجعه کنید و توالی مورد نظر خود را به منظور جستوجو در کادری که در صفحه موجود میباشد وارد کند (تصویر 21-7).
http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
159-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر 21-7: پایگاه CDD.
نمونهاي از صفحه نتيجه جستوجو در پايگاه CDD در تصویر 22-7 آمده است و مشاهده میکنید که دمینهای حفاظت شده در توالیهایی که کاربر مورد جستوجو قرار داده است را به همراه توضیحات نمایش میدهد.
تصویر 22-7: نتیجه جستوجو در پایگاه CDD.
پس از کلیک بر روی گزینه Search for similar domain architectures که در تصویر 22-7 مشخص شده است نرم افزار CDART شروع به کار میکند و پروتئینهایی که واجد دمین یافت شده توسط CDD هستند را به نمایش میگذارد که یک نمونه رکورد CDART را در تصویر 23-7 میتوانید مشاهده کنید.
160-فصل هفتم
تصویر 23-7: نمایش دادهای بخش CDART در پایگاه CDD.
6-7 پایگاههایی با مدلهای بلوكهاي توالي (Blocks) و اثر انگشتها (Fingerprint)
با افزايش حجم اطلاعات مربوط به ژنها و پروتئينها، يافتن تواليهاي مشترك بين اعضاي خانوادههاي ژني ممكنتر ميشود. به طوري كه امروزه براي هر خانواده ژني معمولا تواليهاي مشترك متعددی را ميتوان تعيين نمود و آنها را به عنوان مشخصههاي آن خانواده تحت عنوان بلوكهاي چندگانه (Multiple Blocks )، اثر انگشت (Fingerprint) و يا امضا (Signature) به كار برد. پايگاه Blocks گردآورنده مجموعه تواليهاي كوتاه حفاظت شده خانوادههاي پروتئيني است. اطلاعات مفيدي همچون امتياز و E-value مربوط به جفت شدن بلوك با توالي مورد جستوجو کاربر، تعداد بلوكهاي يك خانواده پروتئيني با توالي مورد جستوجو، نحوه قرار گرفتن بلوكها درخانواده پروتئين، و همچنین حداقل و حداكثر فاصلههاي مشاهده شده بين بلوکها در ساير اعضاي خانواده پروتئيني نمايش داده ميشوند. اين اطلاعات مقايسهاي ميتواند تا حد زيادي راهنماي پژوهشگر براي تشخيص شباهت يا عدم شباهت توالي مورد نظر وي با خانوادههاي پروتئيني يافت شده باشد. پايگاه PRINTS نيز مشابه پايگاه Blocks است با اين تفاوت كه به جاي روش امتيازدهي بر مبناي جايگزيني اسيدهايامينه، از فراواني يك اسيد آمينه در هر موقعيت استفاده ميكند.
جستوجو در پایگاه Blocks:
در این پایگاه توالی پروتئینی و یا نوکلئوتیدی بر علیه بلوکهای پروتئینی موجود مورد جستوجو قرار می گیرد. بلوکهای محافظت شده در یک توالی را با ورود به جایگاه http://blocks.fhcrc.org و استفاده از برنامه Block searcher یافت میشوند. بعلاوه با استفاده از برنامه Block maker می توانید برای یک توالی بلوک ایجاد کنید.
161-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
تصویر 24-7: پایگاه Blocks.
اگر روی برنامه Block searcher کلیک کنیم صفحهای باز می شود که می توان توالی مورد نظر خود را اعم از پروتئین یا توالی نوکلئوتیدی وارد کنیم. همانطور که در تصویر 24-7 مشاهده میکنید متاسفانه این بانک به فعالیت خود ادامه نداده و یک پیغام برای کاربران به این شرح قرار داده است که این پایگاه مدت زیادی است که آپدیت نشده است و پایگاه Interpro را به کاربران پیشنهاد داده است. InterPro نرم افزاری است که توسط EBI ایجاد و نگه داری میشود و نرم افزاری مفیدی در رابطه با کلاسیفیکیشن توالیهای پروتئینی میباشدکه در ادامه آن را شرح خواهیم داد.
جستوجو در پایگاه Prints:
برای ورود به این پایگاه میتوان از آدرس اینترنتی زیر استفاده کرد:
http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS
در این صفحه به منظور جستوجوی fingerprintهای موجود در توالی پروتئینی کاربر میتواند وارد قسمت FPscan شود.
162-فصل هفتم
تصویر 25-7:پایگاه Prints.
همانطورکه در تصویر (26-7) میبینید پس از وارد کردن توالی مورد جستوجو در باکس مربوطه و کلیک کردن روی دكمه submit query جستوجو انجام میشود.
تصویر 26-7: نرم افزار FPScan پایگاه Prints.
163-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
نتیجه جستوجو به نحوی که در تصویر 27-7 نمایش داده شده است به کاربر ارائه میشود. این شکل نشان میدهد که توالی مورد جستوجوی ما دارای دو اثر انگشت مربوط به خانواده Zincfinger است. در جدول زیر همچنین امتیاز جستوجو و نیز طول و توالی هر اثر انگشت مشاهده می شود. با کلیک روی قسمتی که در تصویر 27-7 مشخص شده است شرحی در رابطه با عملکرد دمین یافت شده نمایان میشود.
تصویر 27-7: نتیجه جستوجو توسط نرم افزار FPScan پایگاه Prints.
7-7 جستوجوي همزمان در پايگاههاي اطلاعاتي ثانويه پروتئيني
با وجودي كه توصيه اكيد بر جستوجوی كليه پايگاهها براي به دست آوردن اطلاعات در مورد بخشهاي ساختماني و عملكردي يك پروتئين است، تلاش ميشود تا امكان جستوجوي همزمان فراهم آيد. CDART برنامه جستوجوی دمین است که نتایج حاصل از SMART، Pfam، RPS-BLAST را با هم ترکیب میکند. ساختار دمین بدست آمده در توالی مورد بررسی میتواند به صورت گرافیکی در کنار سایر توالیهای مرتبط نمایش داده شود.همانند IntrPro، CDART جانشینی برای جستوجوهای جداگانه در پایگاه داده نیست، چرا که بسیاری از ویژگیهای خاصی که در SMART و Pfam یافت میشود را از دست میدهد.
در دهه اخير پايگاهي به نام IntrPro ايجاد شده است كه با جمعآوري اطلاعات از پايگاههاي Pfam، PROSITE، PRINTS،SMART، ProDom و… اقدام به تهيه ركوردهايي از جمعبندي اين اطلاعات نموده است. دراين ركوردها تواليهاي مشترك مربوط به ابرخانوادهها، خانوادهها و زيرخانوادهها نشان داده ميشود. لذا چنانچه از اين پايگاه براي جستوجوي تواليهاي حفاظت شده استفاده شود، اطلاعات ارزشمندي ازموقعيتهاي يافت شده و طبقهبندي خانوادههاي پروتئيني مربوط و همچنين منبع اطلاعاتي مفیدی دريافت ميشود.
جستوجو در پایگاه اطلاعاتی InterPro
برای جستوجو در این پایگاه به آدرس http://www.ebi.ac.uk/Tools/InterProScan وارد شوید. نرم افزار Interproscan به منظور اسکن توالی پروتئینی به منظور یافتن مناطق فعال پروتئین مورد استفاده قرار می گیرد.
164-فصل هفتم
تصویر 28-7:پایگاه InterPro.
در نتیجه جستوجوی این پایگاه، نمایی از مناطق مشترك موجود در پروتئین با شماره دسترسی و لینک با پایگاههای دیگر پروتئینی مربوط وجود دارد. به علاوه، شماره دسترسی مربوط به پایگاه InterPro نیز قابل دسترسی است.
تصویر 29-7: نتیجه جستوجو در پایگاه InterPro.
8-7 موقعيتيابي پروتئينها در سلول
در سلول يوكاريوتي، پروتئينها پس از ترجمه، دستهبندي شده و به جايگاه مربوطه انتقال مييابند. اطلاعات آزمايشگاهي نشان ميدهند دستهبنديها و هدفگيريها با ساختمانهاي اوليه (توالي) و يا ساختمانهاي ثانويه موجود در پروتئينها مربوط ميباشند. لذا محققين سعي در تهيه نرمافزارهايي داشته اند كه بتوانند ساختارهاي اوليه و ثانوي تعيين
165-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
كننده براي موقعيت پروتئينها در سلولها را شناسايي كنند. مجموعهاي از اين گونه برنامهها در پايگاهایی مثل PSORT و TargetP قرار دارند كه هر يك با روشي خاص اقدام به انجام محاسبات تحليلي مينمايد تا كاربر بتواند محل استقرار پروتئين در سلول را با تقريبي معين پيشگويي كند. مجموعه برنامههاي موجود در پايگاه PSORT به سه دسته كلي تقسيمبندي ميشوند.
PSORT براي تواليهاي باكتريايي و گياهي.
PSORT II براي تواليهاي جانوري و مخمري.
iPSORT براي شناسايي سيگنالهاي دستهبندي در ناحيه N-terminal.
WoLF PSORT شاخهاي از PSORT II محسوب ميشود كه علاوه بر استفاده از موتيفهاي توالي و تکیه بر خواص فیزیکو شیمیایی و بار الکتریکی بخشهایی از پروتئین، از جستوجو بر اساس شباهت نیز براي تعیین مکان پروتئین بهره میگیرد.
براي استفاده از اين نرمافزارها كافي است، فرم مربوط را تكميل نموده و توالي خود را تسليم نمائيد. برای ورود به این پایگاه پروتئینی به آدرس http://psort.nibb.ac.jp وارد شوید. در اولین صفحه این پایگاه محتویات و نرم افزارهای جستوجوی موجود در این پایگاه بر اساس نوع موجود زنده قابل دسترسی می باشد.
تصویر 30-7:پایگاه PSORT.
با کلیک بر روی لینک PSORT Prediction و انجام جستوجو نتیجه نمایش داده میشود و احتمال وجود پروتئین در اندامکهای مختلف ارائه میشود.
166-فصل هفتم
با توجه به تصویر 31-7 این نتیجه نشان میدهد که پروتئین مورد نظر ما به احتمال 60 درصد یک پروتئین غشا گذر است.
9-7 پایگاه داده خانواده پروتئین
بانکهای اطلاعتی قبلی که در این فصل شرح داده شدهاند پروتئینها را بر اساس حضور موتیفها و دومینها طبقهبندی مینمایند. راه دیگر برای طبقهبندی پروتئینها مقایسه طول تقریبا کامل پروتئینها می باشد که از ارزش آماری در مقایسه توالیها یا ارتباطات بین گونهها بهرهمند میشوند. این روش دستهبندی نیازمند طبقهبندی پروتئینها براساس شباهتهای کلی توالی پروتئینی است. معیار خوشهبندی، شامل نمرههای آماری در انطباق توالی یا روابط ارتولوگی میباشد. پایگاههای داده خانواده پروتئین مشتق شده از این روش وابسته به حضور الگوی توالی خاصی نبوده و بنابراین جامعترند اما ابهام بیشتری دارند. این بانکها اختصاصیت بالاتری اما حساسیت کمتری دارند. بانک COG و بانکProtoNet دو بانکی هستند که پروتئینها بر اساس فلوژنتیک در آنها ذخیره شدهاند.
COG پایگاه داده خانواده پروتئین براساس طبقهبندی فیلوژنی است و از طریق مقایسه توالیهای پروتئینی 43 ژنوم کامل توالییابی شده که عمدتاً مربوط به پروکاریوتها بوده ساخته شده است و 30 دودمان فیلوژنی را نمایش میدهد. از طریق مقایسه کامل همه ژنومها، پروتئینهای ارتولوگ 3 دودمان مشترک یا بیشتر تعیین و با هم به عنوان گروههای ارتولوگ خوشهبندی میشوند. هر گروه باید حداقل یک نماینده از آرکیها، باکتریها و یوکاریوتها داشته باشد. ارتولوگها زمانی در یک خوشه قرار میگیرند که ملاک بودن در بهترین پاسخ در جستوجوهای BLAST میان ژنومها را به صورت دوطرفه برآورده کنند.
از آنجایی که پروتئینهای ارتولوگ که توسط 3 دودمان یا بیشتر به اشتراک گذاشته میشوند، به عنوان سناریوی تکاملی عمودی در نظر گرفته میشوند، اگر عملکرد یکی از اعضاء شناخته شده باشد، عملکرد سایر اعضاء نیز قابل تعیین است. به شکل مشابه، تعیین عملکرد یک توالی مورد بررسی اگر دارای تشابه معناداری در تطبیق با هریک از اعضاء خوشه باشد، امکانپذیر خواهد بود. هماکنون 4873 خوشه در پایگاه داده COG وجود دارد که از ارگانیسمهای تکسلولی منشاء گرفتهاند. وجه مشترک جستوجوی توالی در پایگاه COG برنامه COGnitor است که براساس BLAST شکافدار عمل میکند. قسمت یوکاریوتی برنامه هماکنون در دسترس است که به نام KOG شناخته میشود.
ProtoNet پایگاه دادهای از خوشههای پروتئینی هومولوگ مشابه COG است. توالیهای پروتئینی ارتولوگ در پایگاه داده SWISSPROT براساس مقایسههای دوتایی توالی میان همه جفت پروتئینهای ممکن، با استفاده از BLAST خوشهبندی میشوند. ارتباط پروتئینها به وسیلهی E-valueهای به دست آمده از انطباق BLAST تعیین میشود. این پایگاه سطوح متفاوتی از تشابه پروتئینی تولید کرده و گروههای پروتئینی را به صورت سلسله مراتبی سامان میدهد. توالیهای بسیار نزدیک و مرتبط در پایینترین سطح خوشهها گروهبندی میشوند در حالی که گروههای پروتئینی دورتر در بالاترین سطح خوشهها قرار میگیرند. با اتصال این خوشهها، ساختار درختی از دستههای عملکردی به وجود میآید. توالی
167-بانکهای اطلاعاتی ثانویه (کلاسیفیکیشن دمینهای پروتئینی)
پروتئینی مورد بررسی را میتوان به منظور تعیین خوشه و تفسیر عملکرد به سرور فرستاد. پایگاه داده اطلاعات هستیشناختی ژن را در رابطه با خوشه پروتئینی در هر سطح (فصل شانزدهم را ببینید) و همچنین کلمات کلیدی را از دمینها در Inter Pro برای پیشگویی عملکرد را فراهم میکند.
10-7 کشف موتیفها در توالیهای تطابق نیافته
برای یک مجموعه از توالیهای بسیار مرتبط موتیفهای مشترک رایج میتوانند با استفاده از روشهای مبتنی بر مقایسه چند توالی (MSA) تعیین شوند. به هر حال اغلب توالیهای با ارتباط دور ولی با موتیف مشترک،به آسانی نمیتوانند مقایسه گردند. برای پیدا کردن موتیفهای ظریف الگوریتمهای پیچیده تری مانند EM و نمونهگیری Gibbs استفاده میشوند.
روش EM
روش EM میتواند جهت یافتن موتیفهای مخفی با استفاده از روشی که تا حدودی متفاوت با پروفایلها و PSSM است به کار رود. این روش ابتدا یک تطابق تصادفی انجام داده و یک Trial PSSM ایجاد میکند. Trial PSSM سپس به طور منفرد برای مقایسه هر توالی به کار میرود. نمرات log odds حاصل از PSSM در هر مرحله تکرار تغییر مییابد تا مقایسه ماتریکس را برای هر توالی به حداکثر برساند. در طول تکرارها الگوی توالی برای موتیفهای محافظت شده به تدریج در PSSM استفاده میگردد. از مشکلات روش EM این است که اگر نمرات به جایی برسند که روند افزایشی آن به یکباره کاهش یابد روند به طور دائمی متوقف میشود. به این مشکل Local optimum میگویند. برنامه MEME از این الگوریتم استفاده میکند.
روش Gibbs
همانند روش EM، الگوریتمهای نمونه گیری گیبس یک مقایسه فرضی اولیه برای تشکیل Trial PSSM با همه سکانسها بجز یک مورد انجام میدهند. ماتریکس سپس با سکانس فوق مقایسه و نمرات ماتریکس منظم سازی میشوند.این روند به دفعات تکرار میشود تا بهبود بیشتری در نمرات ماتریکس اتفاق نیفتد. بعد از تعدادی تکرار محتمل ترین الگو میتواند در یک PSSM نهایی جایگزین شود.برنامه Gibbs sampler برنامه ای است که از راهکار نمونه گیری Gibbs برای جستوجوی قطعات کوتاه و نسبتا محافظت شده بدون شکاف در توالی پروتئینی یا DNA استفاده میکند.
11-7 مروری بر برخی از بانکهای اطلاعاتی ثانویه
پایگاههای اطلاعاتی متعددی با پروتئینهای گروهبندی شده به خانوادهها یا زیرخانوادهها وجود دارد که از پیش همردیف شدهاند. همردیفی با استفاده از الگوریتمهای مختلف ایجاد میشود و بنابراین حاوی همردیفهایی با طولهای مختلف و تعداد پروتئینهای متفاوت است. مهمترین آنها به شرح زیرند:
Blocks: حاوی همردیفی موضعی بدون گپ است که از توالیهای پروتئینی در SWISS-PROT به اضافهی SP-TrEMBL تشکیل شده است و در مرکز تحقیقات سرطان Fred Hutchinson (سیاتل، واشنگتن) نگهداری میشود.
Blocks+: بانک اطلاعات غیرتکراری، Blocks به اضافهی PRINTS به اضافهی پروتئینهای گروهبندی شده به عنوان خانوادههای همسان (ProDom + Pfarm + Domo) که با نرمافزار Block Maker همردیف شدهاند.
DOMO (بانک اطلاعاتی دمینهای پروتئینی): پایگاهی از اطلات خانوادههای دمینهای همسان. موضوع اصلی آن تامین اطلاعات دربارهی پروتئینهای مشابه، خانوادههای عملکردی آنها، تجزیهی دمین، همردیفی چند توالی، باقیماندههای حفاظت شده و درخت تکاملی است.
PRINTS (پایگاه اطلاعات اثر انگشت موتیفهای پروتئینی): حاوی همردیفی موضعی بدون گپ است و از توالیهای پروتئینی در SWISS-PROT + SP-TrEMBL و با استفاده از بستهی نرمافزاری ADPS تشکیل شده و با همردیفی به اصطلاح بذرپاشی دستی (handmade seed) شروع میشود و به دنبال آن با جستوجوی پایگاههای تکراری ادامه مییابد. PRINT توسط دانشگاه منچستر (انگلستان) حمایت میشود.
168-فصل هفتم
ProDom: حاوی همردیفی موضعی با گپ است که از توالیهای پروتئینی در SWISS-PROT + SP-TrEMBL و با استفاده از PSI-BIAST تشکیل میشود. بخشی با همردیفی بذری از Pfam-A شروع میشود و در INRA (موسسهی فرانسوی تحقیقات کشاورزی؛ تولوز، فرانسه) با همکاری مرکز Sanger (هینگستون، انگلستان) حمایت میشود.
Pfam: حاوی همردیفی موضعی با گپ است و از توالیهای پروتئینی در SWISS-PROT + SP-TrEMBL تشکیل شده و در مرکز Sanger نگهداری میشود.
HSSP (همسانی حاصل از ساختار ثانویهی پروتئینها): حاوی همردیفی کلی و با جستوجوی پروتئینها از PDB (با ساختار سهبعدی شناخته شده) در برابر SWISS-PROT + SP-TrEMBL و با استفاده از BLAST تشکیل شده که با انتخاب توالیهای مشابه مطابق معیار Schneider-Sander و همردیفی با نرمافزار MaxHom انجام میشود و در EMBL-EBI نگهداری میشود.
FSSP (پروتئینهای مشابه از نظر ساختار حاصل از تاخوردگی): حاوی همردیفی کلی پروتئینهای PDB که با نرمافزار مقایسهی ساختار Dali ایجاد شده و در EMBL-EBI نگهداری میشود.
Web Logo برنامه ای تعاملی برای تولید لوگوهای توالی است. انطباق چندگانه توالی یا موتیف را غالبا به شکل گرافیکی که لوگو نامیده میشود نمایش میدهند. همانطور که در تصویر زیر میبینید در هر جایگاه شامل حروف روی هم است که نماینده باقیماندههای اسیدآمینه در ستون خاصی از انطباق چندگانه است.
تصویر 32-7: یک نمونه لوگوی توالی حاصل انطباق چند گانه توالیها.