- 645
- 2023/04/26 - 02:56
- 115 بازدید
شرح فصل و نکات ویژه: * در این فصل با بانکهای اطلاعاتی اولیه که عموما حاوی دادههای آزمایشگاهی شامل توالیهای اسید نوکلئیک میباشند آشنا میشوید. * در این فصل به بانکهای حاوی توالی اسید نوکلئیک میپردازیم و در فصل بعدی به بانکهایی که دادههای اسیدآمینه را ارائه میدهند خواهیم پرداخت. * به بانکهایی که در این فصل معرفی شدهاند مراجعه کنید و در آنها جستوجو انجام دهید. 53-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک برای دریافت نسخه[…]
شرح فصل و نکات ویژه:
* در این فصل با بانکهای اطلاعاتی اولیه که عموما حاوی دادههای آزمایشگاهی شامل توالیهای اسید نوکلئیک میباشند آشنا میشوید.
* در این فصل به بانکهای حاوی توالی اسید نوکلئیک میپردازیم و در فصل بعدی به بانکهایی که دادههای اسیدآمینه را ارائه میدهند خواهیم پرداخت.
* به بانکهایی که در این فصل معرفی شدهاند مراجعه کنید و در آنها جستوجو انجام دهید.
53-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
برای دریافت نسخه چاپی و به روز کتاب با انتشارات دکتر خلیلی تماس بگیرید. 02166568621
يكي از كاربردهاي بيوانفورماتيك تحليل دادهها جهت پيبردن به معماي تكامل هستي است. حل اين معما در ميلياردها نوكلئوتيد درون ژنوم موجودات زنده نهفته است. مشهورترين كاربرد بيوانفورماتيك در تحليل تواليهاست. تواليهاي DNA مربوط به ارگانيزمهاي مختلف جهت دستيابي سريع و مقايسه آنها با يكديگر، در پايگاههاي داده ذخيره ميشوند. پروژه ژنوم انسان كه از سال 1990 تا سال 2003 به طول انجاميد نمونهاي از تحليل تواليهاست. در اين پروژه با استفاده از كامپيوترهاي بزرگ و روشهاي مختلف به دست آوردن تواليها، همه ژنوم انسان تعيين توالي گرديد و درون يك پايگاه داده قرار گرفت. با كامل شدن نقشه ژنوم انسان، بيوانفورماتيك در تحقيقات سرطان به اميد رسيدن به يك درمان موفق و نهايي بسيار با اهميت شده است.
پايگاههاي داده به دو دسته اصلي و فرعي تقسيم ميشوند. نتايج تجربي حاصل از تحقيقات علمي مانند تواليهاي نوكلئوتيدي يك ژن خاص، كه در يك آزمايش تجربي به دست آمده است درون پايگاههاي دادهي اصلي قرار ميگيرند. اين دادهها خام و بدون تحليل هستند. نمونهاي از اين نوع پايگاهها GenBank است كه تواليهاي نوكلئوتيدي را نگهداري ميكند. اين پايگاه توسط NCBI مديريت ميشود. جدول 2-1 در فصل اول تعدادی از مهمترین پایگاههای بیوانفورماتیک را معرفی کرده است، یک ستون به نام Pri در این جدول پایگاههای اطلاعاتی اولیه را مشخص کرده است.
1-3 پایگاه دادهی توالی نوکلئوتیدی
در 1982 پایگاه دادهی GenBank در آزمایشگاه ملی لوسآلاموس و پایگاه داده EMBL در آزمایشگاه زیستمولکولی اروپا بهطوری رسمی کار خود را شروع کردند. بانک دادهی DNA ژاپن DDBJ در سال 1984 به آنها پیوست. در سال 1992 GenBank نقش خود را به NCBI واگذار کرد و فعالیت EMBL در 1994 به موسسه EBI منتقل شد.
– با آشکار شدن پروژههای ژنوم، پایگاههای داده نقش جدیدی برعهده گرفتند که کمک به کارهای آزمایشگاهی در حال اجرا بود.
– ساماندهی دادهها در پایگاههای داده ژنوم به جای اینکه کتابشناختی باشد، زیستشناختی است.
– درواقع پایگاههای داده ژنوم نشاندهندهی ساختارهای ژنوم با وضوح مختلف و کارکردهای ژنوم در سطوح مختلف است.
– نقشهای که بالاترین وضوح ساختار ژنوم را نشان میدهد، همان توالی نوکلئوتیدی ژنوم کامل است.
– در بسیاری از پایگاههای داده ژنوم، ژنها براساس سلسله مراتب عملکردیشان طبقهبندی شدهاند.
2-3 NCBI
در نوامبر 1988 بخش جديدي به كتابخانه پزشكي ملي آمريكا (NLM) افزوده شد تا روشهاي كامپيوتري پردازش اطلاعات جهت هدايت تحقيقات Biomedical ايجاد شود. اين بخش مهم، مركز ملي اطلاعات بيوتكنولوژي يا NCBI نام گرفت. كتابخانه ملي پزشكي آمريكا در سازمان ملي بهداشت آمريكا (NIH) قرار گرفته است. تجربههاي موفق اين كتابخانه در ايجاد و نگهداري پايگاههاي داده در زمينه Biomedical و به عنوان بخشي از NIH باعث ايجاد يك برنامه تحقيقاتي در زمينه بيولوژي مولكولي كامپيوتري، شده است. امروزه NCBI به عنوان بزرگترين مركز تحقيقات Biomedical در دنيا شناخته شده است. انستيتوي NCBI جهت رسيدن به اهداف خود فعاليت هاي زير را دنبال ميكند:
- هدايت تحقيقاتي در زمينه مسايل اصولي Biomedical در سطح مولكولي با بهرهگيري از روش هاي رياضي و كامپيوتري.
- همكاري با انستيتوهاي ديگر NIH، دانشگاهها، صنعت و ديگر سازمانهاي دولتي.
- ايجاد ارتباط هاي علمي به وسيله برگزار كردن همايشها، كارگاههاي آموزشي و سلسله سخنرانيها.
- برنامه هاي تحصيلاتي براي دانشجويان در زمينه هاي بيولوژي كامپيوتري.
- توسعه و انتشار نرم افزارها و پايگاههاي داده مختلف.
سازمان NIH علاوهبر كتابخانه NLM از 27 انستيتو و مركز تحقيقاتي ديگر تشكيل شده است که از جمله اين انستيتوها ميتوان به موارد زیر اشاره کرد:
- انستيتوي ملي سرطان
- انستيتوي ملي تحقيقات ژنوم انسان
- انستيتوي ملي ديابت و بيماري هاي كليه و گوارش
- انستيتوي ملي كودكان
1-2-3 موتور جستوجوي Entrez
يكي از پر استفادهترين ابزارهاي جستوجوي اطلاعات بيولوژي، موتور جستوجوي Entrez است كه NCBI آن را ايجاد كرده است. اين موتور جستوجو قادر است بهطور همزمان، بانكهاي اطلاعاتي PubMed، تواليهاي نوكلئوتيدي (GenBank)، تواليهاي پروتئيني (protein)، ساختمان پروتئينها (Structure)، ژنوم كامل انسان و بعضي حيوانات، تاكسونومي، پايگاه داده بيماريهاي ژنتيكي (OMIM) و بسياري موارد ديگر را جستوجو كند.
54-فصل سوم
موتور جستوجوي Entrez از ارتباط تنگاتنگ ركوردها در بانكهاي مختلف استفاده ميكند تا اطلاعات بيولوژي در مورد يك موضوع خاص را از پايگاه دادههاي مختلف بازيابي كرده و در اختيار كاربر قرار دهد. بنابراين Entrez يك پايگاه داده نيست بلكه يك سيستم يكپارچه بازيابي اطلاعات است. محققين ميتوانند از اين موتور جستوجو بخواهند همه بانك هاي اطلاعاتي را همزمان جستوجو نمايد يا اين كه جستوجوي خود را محدود به بانك اطلاعاتي خاصي نمايند. در اين فصل نحوه استفاده از اين موتور جستوجو را براي شما شرح ميدهيم. جهت استفاده از اين موتور جستوجو، وب سايت NCBI را با آدرس www.ncbi.nlm.nih.gov باز كنيد. صفحه اصلي اين سايت به صورت زير است: (تصویر 1-3).
تصویر1-3: تصویری از پایگاه NCBI.
در بالا و سمت چپ اين صفحه اينترنتي، لوگوي سايت NCBI را مشاهده مي كنيد. در سمت راست اين لوگو دو جعبه وجود دارد که اولی مخصوص انتخاب پايگاه داده و دومی برای وارد كردن كلمات يا عبارت جستوجو است. بخش اول که به صورت یک منوی کشویی میباشد ليست پايگاههاي اطلاعاتي NCBI را در اختيار شما قرار ميدهد. گزينه All Databases به صورت پيش فرض براي شما انتخاب گرديده است تا همه بانكهاي اطلاعاتي را جستوجو نمايد. با كليك بر روي فلش رو به پايين اين منو آن را باز نماييد. بانكهاي مهمي چون PubMed، Protein، Structrue و Books را در اين منو مطابق تصویر 1-3 مشاهده مينماييد. در صورتي كه بخواهيد بانك خاصي را به تنهايي جستوجو نماييد بر روي نام آن بانك كليك کنید.
برای جستوجوي همزمان در همه بانكها به وسيله موتور جستوجو Entrez با انتخاب گزينه All Database از منوي كشويي و تایپ موضوع جستوجو و کلیک بر روی گزینه Search به صفحه جدید وارد میشوید که در اين صفحه نام پايگاههاي دادهاي كه موتور جستوجوي Enterz بهصورت همزمان همه آنها را جستوجو کرده است، به چشم ميخورد (تصویر 2-3). در کنار نام هر بانک عددی درج شده است که نشان دهنده موارد یافت شده از موضوع جستوجو در آن بانک میباشد.
55-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
تصویر 2-3: نتیجه جستجوی موتور Entrez در تمام بانکهای پایگاه NCBI
2-2-3 جستوجو در يك بانك اطلاعاتي خاص
علاوه بر جستوجوي همزمان همه بانكها ميتوان يك بانك اطلاعاتي خاص را مورد جستوجو قرار داد. در صفحه اصلي NCBI از منوي كشويي بالای صفحه، بانك اطلاعاتي مورد نظر خود را انتخاب، و سپس عبارت جستوجوي خود را در كادر روبروی آن تايپ كنيد و بر روي دكمه Search كليك نماييد.برخی از مهمترین بانکهای اطلاعاتی که در NCBI در دسترس هستند را در این فصل به صورت کامل شرح خواهیم داد. و كمي در مورد تكنيكهاي جستوجو صحبت خواهيم كرد. اين تكنيكها به شما كمك خواهند كرد تا جستوجوهاي موفقتري داشته باشيد. لازم به ذكر است كه اين عبارات و تكنيكهاي ارايه شده تنها در مورد اين موتور جستوجو كاربرد دارد و در موتورهاي جستوجوي عمومي مانند Google عمل نخواهد كرد.
3-2-3 پایگاه توالی های نوکلئوتیدی:
تواليهاي نوكلئوتيدي در سه پايگاه داده EMBL/DDBJ/Genbank نگهداري ميشوند. دادههاي جديد هر 24 ساعت بين اين سه پايگاه به اشتراك گذاشته ميشود و دادهها را بين هم انتقال ميدهند. همکاری بینالمللی پایگاههای توالیهای نوکلئوتیدی (INSDC) یک همکاری دیرین و بنیادین بین سه پایگاه داده ذکر شده در فوق میباشد.
56-فصل سوم
تصویر 3-3: ارتباط بین سه پايگاه داده EMBL/DDBJ/Genbank.
بنابراين دادههاي هر سه بانك يكسان است و جهت امنيت و حفاظت از اين دادهها، اين سه بانك در سه گوشه دنيا قرار گرفتهاند. سازمان NCBI بانك نوكلئوتيدي بزرگ GenBank را مديريت ميكند. همچنان كه گفته شد اين سازمان در ايالت متحده قرار دارد. بانك نوكلئوتيدي DDBJ در ژاپن و EMBL نيز در اروپا استقرار يافتهاند. در اين بخش چگونگي دستيابي به تواليهاي نوكلئوتيدي موجود در پايگاه GenBank را شرح ميدهيم. همانند بانكهاي ديگر چندين راه براي دستيابي به اين بانك نوكلئوتيدي وجود دارد. يك راه اين كه در صفحه اصلي NCBI جهت جستوجو، از منوي Search گزينه
All Database را انتخاب نماييد و جستوجويي را انجام دهيد تا Entrez تمام بانكها را براي شما جستوجو نمايد. سپس در صفحه نتيجه، لينك Nucleotide را انتخاب نماييد. راه سادهتر اين كه در صفحه اصلي NCBI منوي کشویی را باز و گزينهNucleotide را انتخاب نماييد در باکس روبهروی منوی کشویی چیزی تایپ نکنید و دكمه Search را كليك نماييد تا صفحه اينترنتي مطابق تصویر4-3 با لوگوي Nucleotide را مشاهده كنيد. در این صفحه توضیحاتی در رابطه با این بانک و همچنین لینکهای مفیدی برای دریافت اطلاعات بیشتر وجود دارد.
تصویر 4-3: صفحه اصلی پایگاه Nucleotide.
1-3-2-3 جستوجو در بانك نوكلئوتيدها
57-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
به صفحه اينترنتي مطابق تصویر4-3 بروید و عبارت جستوجوي خود را در قسمت Search Box وارد و دكمه Search را كليك كنيد. هدف ما يافتن توالي نوكلئوتيدي ژن DCC میباشد. بعد از جستوجو نتيجه را در تصویر 5-3 مشاهده مينماييد. همانطور كه ملاحظه ميكنيد تعداد 4408 ركورد يافت شده است كه با شماره از هم جدا شدهاند. و در هر صفحه تعداد 20 نتیجه جستوجو نمایش داده میشود.
تصویر5-3:جستجو در پایگاه Nucleotide.
درباره هر ركورد اطلاعات زير وجود دارد:
در سطر دوم در كنار هر شماره عبارتي به نام Accession را ميبينيد كه با حروفی مثل NM، NR و … شروع شده است. اين عبارت كد يكتاي ركورد است كه به آن Accession Number گفته ميشود. در مراجعات بعدی تنها با اين كد ميتوانيد به اين ركورد دست يابيد بدين ترتيب كه اين كد را به عنوان عبارت جستوجوي خود در Search Box وارد نماييد. بنابراين اگر در جستوجوها، ركوردي را مناسب تحقيقات خود دانستيد كافي است كه اين شماره را يادداشت نماييد. برای درکAccession Numberها به سه جدول زیر که کدهای مربوط به GenBank را شرح داده اند توجه کنید.
جدول 1-3: Accession Numberها در GenBank.
جدول 2-3: Accession Numberها در فرمت Refseq.
58-فصل سوم
در سطر دوم عدد دیگری را بعد از GI میبینید که كد اين ركورد در بانك GenBank است. اگر بر روي لينك هر ركورد كليك كنيد جزييات هر ركورد همراه با توالي نوكلئوتيدي آن مطابق تصویر6-3 نمايش داده ميشود كه ما در ادامه محتویات این رکورد را كاملا شرح ميدهيم.
تصویر 6-3: یک نمونه رکورد بانک Nucleotide
2-3-2-3 بررسي يك ركورد نمونه
محتواي اين صفحه (تصویر 6-3) بسیار طولانی است، براي شرح جزييات اين صفحه، نمونهاي كوچكتر را ارايه كردهايم و در پايان اين ركورد نيز توضيحات كاملي درباره آن آمده است. در نگاه اول، اين اطلاعات بغرنج و نامفهوم به نظر ميرسند. جزء جزء اين اطلاعات را مورد بررسي قرار داده و مفهوم آنها را شرح ميدهيم. به اين ساختار ارايه شده falt file گفته ميشود. اطلاعات درون falt fileها به صورت Line type ارايه ميشود. بدين معنا كه در اول هر سطر، يك كلمه يا يك كد قرار گرفته است و بيان ميكند در آن سطر چه اطلاعاتي گنجانده شده است. براي مثال در سطر اول كلمه LOCUS در ابتداي سطر، بيان مي كند كه در اين سطر كد يكتاي ركورد (SCU49845) يا ID Locus قرار دارد. يا در سطري كه در ابتداي آن كلمه ORGANISM آمده، بيان كننده درخت تاكسونومي است كه اين ژن از آن گرفته شده است.
59-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
نظر ميرسند. جزء جزء اين اطلاعات را مورد بررسي قرار داده و مفهوم آنها را شرح ميدهيم. به اين ساختار ارايه شده falt file گفته ميشود. اطلاعات درون falt fileها به صورت Line type ارايه ميشود. بدين معنا كه در اول هر سطر، يك كلمه يا يك كد قرار گرفته است و بيان ميكند در آن سطر چه اطلاعاتي گنجانده شده است. براي مثال در سطر اول كلمه LOCUS در ابتداي سطر، بيان مي كند كه در اين سطر كد يكتاي ركورد (SCU49845) يا ID Locus قرار دارد. يا در سطري كه در ابتداي آن كلمه ORGANISM آمده، بيان كننده درخت تاكسونومي است كه اين ژن از آن گرفته شده است.
كالبدشكافي Flat Fileهاي تواليهاي نوكلئوتيدي
file Flatها به سه بخش اصلي تقسيم ميشوند:
1- Header حاوي اطلاعاتي است در مورد كل ركورد.
2- Features (ويژگيها) كه يادداشتها و توضيحات ركورد است.
3- توالي نوكلئوتيدي.
همه file flatهاي پايگاههاي نوكلئوتيدي داراي علامت // در انتهاي هر ركورد هستند. اكنون هر سه بخش بالا را مفصل شرح ميدهيم.
60-فصل سوم
The header
بخش header بخشي است كه بيش ترين وابستگي را به پايگاه داده دارد. يعني اين كه در پايگاه دادههاي نوكلئوتيدي مختلف تفاوتهايي مشاهده میشود. سطر اول همه flat fileها در بانك GenBank سطر LOCUS است كه در زير نمونهاي از آن را ميبينيد:
LOCUS SCU49845 5028 bp DNA PLN 23 MAR 2010
اين المان (نام) بايد با يك حرف شروع شود و كاراكتر بعدي ميتواند حرف يا عدد باشد. در اين مثال سه كاراكتر اول، حرف و بقيه عدد است. همه حروف نام همگي حرف بزرگ هستند. طول اين المان بايد از 10 كاراكتر بيشتر نشود. در گذشته افرادي كه تواليهاي درون بانك را كنترل مي كردند، ميكوشيدند تا نام مفيد و با معنی انتخاب كنند در ضمن اين كه اين نام ميبايست در كل بانك يكتا باشد، از آن جا كه تمام نامهاي با معنا تاكنون استفاده شده است، نامهاي جديد معناي خاصي ندارند. امروزه اين نام، تنها از اين نظر در بانك حضور دارند كه نرم افزارهاي قديمي زيادي وابسته به اين فيلد هستند. بنابراين اين نامها حاوي اطلاعات مفيدي نيستند.
دومين المان در خط LOCUS، طول توالي است. در اين مثال طول توالي 5028 bp است.
سومين المان در اين سطر نشان دهنده ماهيت بيولوژي مولكول است كه معمولا DNA يا RNA است.
المان چهارم در اين سطر (PLN)، كد تقسيمبندي (division code) است. اين كد سه حرفي، كد تقسيمبندي تاكسانومي بوده يا براي دستهبنديهاي ديگري به كار ميرفته است، NCBI كد تقسيمبندي تاكسانومي ارگانيزمها را به روز نكرده است، چرا كه فكر مي كرد اين كد 3 حرفي مناسب نمايش گونههاي متنوع بيولوژي موجود روي كره زمين نيست. اين نوع كدگذاري امروزه منسوخ شده است. جديدا اين تقسيمبندي بر پايه عملكرد (functuion) ژنها صورت ميگيرد. ممكن است به جاي اين كدها با عباراتي نظير EST يا STS برخورد نماييد. توضيح مختصري از اين دو كد در زير آورده شده است:
61-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
EST
اين كلمه مخفف Expressed Sequence Tag است. اين تقسيمبندي در سال1993 معرفي شده است. ركوردهايي كه داراي اين كد سه حرفي هستند، حاوي تواليهاي كوتاه از cDNA هستند. معمولا به تعداد زيادي از روي اين نوع ژن رونويسي صورت ميگيرد. ESTها نمايش يك تصوير فوري از آنچه در يك بافت خاص يا در يك مرحله خاصي از رشد موجود (development) بيان میشود. اينها tagهايي از بين يك ژن خاص موجود در يك كتابخانه خاص cDNA هستند. (در فصل ترنسکریپتومیکسESTها به تفصیل شرح داده شدهاند)
STS
اين كلمه مخفف “Sequence Tagged Site” است. STSها تواليهاي كوتاه (بين 200 الي 500 جفت باز) و روي ژنوم يكتا هستند. جايگاه و توالي آنها كاملا مشخص است. اين تواليها قابل آشكار شدن به وسيله PCR هستند. تواليهاي STS، به دليل يكتا بودن روي ژنوم، از آنها جهت تهيه نقشههاي ژنتيكي استفاده میشود.
المان پنجم در خط اول تاريخ اضافه شدن اين ركورد به GenBank است. در اين مثال: 23-MAR-2010. اگر هر يك از ويژگيهاي ركورد به روز شده باشد و سپس ركورد انتشار يابد، اين تاريخ، آخرين تاريخ انتشار است.
بخش بعدي header، سطر definition به فرمت زير است:
DEFINITION Saccharomyces cereviiae TCP1-beta gane , partial cds, and Ax12p(AXL2) and Rev7p (REV7) genes, completed cds.
در اين سطر، اطلاعاتي ارايه میشود كه نشان دهد اين ركورد راجع به چه موضوعي است. در ايجاد اين خطوط دقت فراواني صورت گرفته است. گرچه بسياري از اين اطلاعات را مي توان از بخش هاي ديگر ركورد به دست آورد ولي اين اطلاعات چنان انتخاب شدهاند تا داراي ارزش باشند. بنابراين در مراجعه به اين ركورد سري به اين سطر بزنيد تا مطمئن شويد كه اطلاعات ركورد مناسب تحقيقات شما است يا خير. به هر حال هميشه امكان ندارد كه تمام اطلاعات بيولوژيك ركورد را بتوان در يك سطر جمعآوري كرد. كاربران بايد تنها به اين سطر اكتفا نكنند.
کمی پایینتر، كد دسترسي (ACCESSION)، كليد اصلي براي ارجاع به ركورد در پايگاه داده را وجود دارد. كد دسترسي هميشه با ركورد خواهد بود و اگر ركورد تغيير كند (مثلا با تغيير يك نوكلئوتيد) كد دسترسي تغير نخواهد كرد. هم اكنون كد دسترسي به يكي از شكلهاي روبهرو است: “5+1” و “6+2”
- “5 +1” يعني يك حرف بزرگ انگليسي در اول و پنج رقم به دنبال آن، در مثال بالا كد دسترسي U49845 است كه از اين قانون پيروي ميكند.
- “6+2” يعني دو حرف بزرگ انگليسي در ابتدا و شش رقم به دنبال آن، اكثر ركوردهاي جديدي كه امروزه وارد بانك ميشوند كدي به صورت اين فرمت دوم دارند.
سطر بعدي در اين ركورد به VERSION تعلق دارد:
VERSION U49845.1 GI: 1293613
قالب version به صورت accession.version”” است (U49845.1). شماره accession ثابت بوده ولي version هر گاه كه توالي تغيير كند يك واحد به آن افزوده میشود. سطر VERSION در GenBank همچنين داراي عدد
GI (the geninfo identifier) است. كه در اين مثال GI: 1293613 است. اگر توالي تغيير كند GI به عدد صحيح موجود بعدي تغيير مي كند. عدد GI فقط مخصوص GenBank است. عدد accession.version به عنوان نام اصلي ركورد (identifier) است كه تنها و تنها به يك ركورد در هر بانك اشاره مي كند.
سطر بعدي حاوي كلمات كليدي (keywords) ركورد است. اين خطوط به دلايل تاريخي وجود دارند و در بسياري از موارد متاسفانه بياستفادهاند.
اطلاعات Taxonomy در سطرهايي با عنوان SOURCE و ORGANISM در GenBank وجود دارد. اين كلاسبندي از بالا به پايين است. مطابق درخت taxonomic عموميترين و بزرگترين گروه، اول آورده میشود.
هر ركورد GenBank بايد حداقل يك مرجع (reference يا citation) داشته باشد. اين مرجعها مقالاتي هستند كه به توالي اعتبار مي دهند كه چرا اين ژن خاص تعيين توالي شده است. در بسياري از موارد ركوردها دو يا چند مرجع دارند.
اگر به ركورد اصلي مراجعه نماييد متوجه ميشويد كه سه مرجع با ساختار بالا وجود دارد. مرجعها با شمارهاي كه دقيقا جلوي كلمه REFERENCEقرار گرفته است از هم جدا شدهاند. افزودن يك ركورد به بانك براي فرد اعتبار علمي ايجاد ميكند. هر مرجع از بخشهاي زير تشكيل شده است.
نويسندگان مقاله (AUTHORS)
عنوان مقاله (TITLE)
نام ژورنال و سال انتشار آن (JOURNAL)
كد PMID اين مقاله (PUBMED)
62-فصل سوم
از طريق اين مراجع بين دو بانك نوكلئوتيدها و بانك PubMed ارتباط برقرار میشود. بدين ترتيب ميتوانيد با استفاده از PMID اين مرجعها به مقالات مرتبط با اين ركورد دست يابيد.
The Feature Table
بخش مياني ركورد، FEATURES نام دارد. در قسمت FEATURES، اطلاعات ژنتيكي توالی قرار دارد. اطلاعات موجود در اين قسمت دستهبندي شده است. دستهاي از اين اطلاعات در قسمت source قرار دارد كه به كل ژن اشاره دارد و دستهاي ديگر در قسمت CDS و بخشي نيز در قسمت gene قرار دارد.
تفسير اين اطلاعات به صورت زير است:
طول اين ژن 5028 نوكلئوتيد است كه در جلوي source به صورت 1…5028 نشان داده شده است.
اين ژن مربوط به ” ساكارومايسس سروسيه” است كه در سطر /organism در بخش source قرار گرفته است.
كد تاكسانومي اين موجود در سطر db_xref، عدد 4932 را نشان مي دهد.
اين ژن روي كروموزوم IX اين موجود قرار دارد كه در بخش /chromosome در زير source مشاهده مي كنيد.
توالي اين ژن از سه exon تشكيل شده است كه اطلاعات هر كدام در يك CDS جداگانه گذاشته شده است. همچنان كه در قسمت اولين CDS مي بينيد اولين اگزون از باز 1 شروع و به باز 206 ختم میشود. كدون شروع آن باز شماره 3 است (codon_start=3/). نام اين پروتئين TCP1-beta، شناسه آن AAA98665 در سطرهاي بعدي آمده است. ترجمه اين exon نيز در سطر translation مشاهده مي نماييد این ترجمه توسط نرمافزار انجام شده است نام اين ژن AXL2، در سطر gene قرار دارد.
توالي ژنها
در آخر ركورد نيز در بخش ORIGIN توالي كامل اين ژن وجود دارد. در بسياري از نرمافزارهاي كامپيوتري از اين توالي نوكلئوتيدي به عنوان ورودي نرم افزار استفاده میشود مانند نرم افزار BLAST كه تواليهاي نوكلئوتيدي را با يكديگر مقايسه مينمايد.
4-2-3 معرفی GenBank
GenBank مشهورترین پایگاه دادههای توالی نوکلئوتیدی NCBI و مستندات مربوط است که به عنوان بخشی از کتابخانه ملی پزشکی (National Library of Medicine) در سال 1982 پایهگذاری شد. ابزارهای موجود برای دسترسی به دادههای این پایگاه عبارتند از BLAST (1990)، Entrez (1992)، GenBank (1992) و PubMed (1997). به دلیل تسلیم انواع دادههای ژنومی، رشد اطلاعات در این بانک بسیار سریع بوده است. بهطور میانگین، ماهانه سه میلیون توالی و 1400 گونه جدید به این بانک اطلاعاتی افزوده میگردد به طوری که تقریبا هر 10 ماه حجم اطلاعات آن دو برابر میشود.
همان طور که پیشتر گفته شد، دادههای این پایگاه با بانک دادههای DNA ژاپن (DDBJ) و موسسه زیستشناسی مولکولی اروپا (EMBL) در حال تبادل بوده و هر سه پایگاه، اطلاعات خود را روزانه رد و بدل میکنند. GenBank حاوی دادههای تکراری و اضافی (مانند توالیهای وکتوری) است که بخشی از آن به دلیل تسهیل در ورود اطلاعات بوده است. اما دلیل عمده آن امکان تسلیم توالیهای مشابه تکراری از سوی آزمایشگاههای مختلف بوده است تا بتوان ذخیرهای از گوناگونی ژنتیکی (polymorphism) ایجاد نمود.
بخشهای عمومی GenBank که به بخشهای تاکسونومیک مشهورند، بر حسب نوع موجود عبارتند از:
BCT (Bacterial and Archea)
MAM (Mammalian)
Inv (Invertebrate)
PHG (Phage)
PLN (Plant and fungi)
PRI (Primate)
ROD (Rodent)
SYN (synthetic= cloning vectors)
VRL (Viral)
VRT (other vertebrate)
GenBank همچنین به دلایل فنی (ماهیت حجیم و با کیفیت پایین دادهها) بخشی از اطلاعات خود را در قسمتهای اختصاصی اطلاعات حجیم ذخیره میکند.
PAT (Patents)
63-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
EST (Expressed Sequence Tag)
STS (Sequence Tagged Site)
GSS (Genome Survey Sequence)
HTG (High Throghput Genome)
CON (Contig)
بانک ژن با آدرس www.ncbi.nlm.nih.gov/genbank شناخته میشود اما در این آدرس امکان جستجو وجود ندارد و فقط اطلاعاتی در مورد بانک و شیوه ارائه داده ها به بانک شرح داده شده است. بانک ژن برای فراهم کردن و تقویت دسترسی جامعه علمی به اطلاعات جامع و به روز رسانی شده توالیها طراحی شده است.
روشهای تسلیم داده به بانکهای اطلاعاتی اولیه و توالی نوکلئوتیدی
دادههای موجود در GenBank و بانکهای مشابه از دو طریق تامین میشود:
1:از تحقیقات پژوهشگران در دنیا
2:از مراکز توالییابی ژنومها در دنیا به شکلهای مختلف EST، STS، GSS، HTC و توالیهای بلند موجود در کاسمیدها و BAC کلونها.
دادههای کم حجم و معمولا مشتمل بر یک توالی با استفاده از نرم افزار Bankit و دادههای ژنومی حجیم با استفاده از نرم افزار Sequin تسلیم میشوند. تسلیم اطلاعات از طریق On-line، email و یا حتی ارسال بسته اطلاعاتی مانند، فلاپی، سی دی، دی وی دی و غیره امکانپذیر است. بدیهی است که دادهها اکثرا از طریق WWW تسلیم میشوند. تسلیم توالیهای کوتاه cDNA مانند نتایج آزمایشهای نمایش بیان ژنها (Differential display) و یا ESTها از طریق بانک ESTها و روال مربوط انجام میشود. از اول ژانویه 2000، توالیهای غیر ژنومی بلند GSS از طریق Bankit پذیرفته نمیشوند و باید در dbGSS فرستاده شوند.
پایگاه دادههای Refseq
Refseq به مجموعه توالیهای مرجع استخراج شده از GenBank را گویند که تصحیح شده و غیر تکراری هستند. یعنی بر خلاف GenBank، در پایگاه Refseq هر رکورد مربوط به یک ژن یا فرم پیرایش شده از یک ژن میباشد. در بانک دادههای Refqseq شماره دسترسی هر مولکول با دستوری ویژه تعیین میشود که در جدول زیر مشخص شده است.
64-فصل سوم
5-2-3 تفاوت سه بانک Gene، Nucleotide، Genome
تصویر 7-3: نمایش لینک برخی از بانکها در منوی کشویی پایگاه NCBI.
شاید در نگاه اول گیجکننده باشد و نتوانیم راحت بفهمیم توالی مورد نظرمان را در کدام بانک جستجو کنیم اما با توضیحاتی که در ادامه آمدهاند مسئله روشن میشود.
بانک Gene
این بانک داده اطلاعات مربوط به یک ژن خاص(نه اطلاعات مربوط به کل ژنوم) را در اختیار کاربر قرار میدهد. این بانک اطلاعات مربوط به همه ژنها شناخته شده را ندارد و روی ژنومهایی که به طور کامل توالییابی شدهاند متمرکز میباشد. Entrez Gene بخشی در NCBI میباشد که اطلاعات مفیدی در مورد نقشه، توالی،بیان ژن،ساختار،عملکرد و هومولوژی را در اختیار همگان قرار میدهد. اطلاعات فراوانی از طیف گستردهای از گونهها موجود میباشد که سابقه نامگذاری، نقشهها، مسیرها، تغییرات، و لینکهایی به ژنوم، فنوتیپ، و لوکوس به بانکهای دیگر را دارا میباشد. همچنین این بانک حاوی دادههای RefSeqs میباشد. دامنه وسیعی از اطلاعات دربارهی ژنها و موجودات را در بر دارد. این اطلاعات شامل نتایج تجزیه و تحلیلهایی است که روی دادههای توالی صورت گرفته است. مقدار و نوع اطلاعات ارائه شده وابسته به این است که چه اطلاعاتی راجع به یک ژن و یا موجود مشخص در دسترس است و میتواند شامل 1) خلاصه گرافیکی محتوی ژنومی، ساختار اگزون/ اینترون، 2) تصویر گرافیکی توالی mRNA ، 3) انتولوژی ژنی و اطلاعات مربوط به فنوتیپ، 4) دادههای توالی پروتئینی و دمینهای حفظ شده ، 5) پایگاههای اطلاعات مربوط به جهش میباشد.
بانک Genome
این پایگاه داده امکان دستیابی به اطلاعات ژنومی بیش از هزار گونه که به طور کامل توالی یابی و نقشهیابی شدهاند و یا این که توالییابی آنها در حال انجام است را فراهم میآورد. نمایش گرافیکی نتایج اطلاعات مفیدی را در سه سطح، ژنوم، یک کروموزوم و یک ژن در اختیار پژوهشگران قرار میدهد.
بانک Nucleotide
همانطور که پیشتر توضیح داده شد Gen bank پایگاه داده توالیهای نوکلئوتیدی ارگانیسمهای مختلف است و قابلیت جستجو در این بانک از طریق بخش Nucleotide فراهم میباشد. این مجموعه شامل توالیهای نوکلئوتیدی شامل mRNA، قطعات DNA ژنومی، ژنهای منفرد، ژنهای چند گانه و ژنهای دستهای rRNA میباشد که در دسترس عموم قرار دارد. پایگاه دادههای Nucleotide مجموعهای از منابع مختلف، از جمله GenBank، RefSeq، TPA و PDB است. این بانک حاوی دادههای بسیار گستردهای میباشد و اغلب جستجو در آن بسیار گیج کننده میباشد. معمولا محققین ابتدا از بانک Gene استفاده میکنند و در صورتی که نتوانند اطلاعات مناسبی پیدا کنند از این بانک استفاده میکنند.
65-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
6-2-3 بانکهای اطلاعاتی توالیهای غیرتکراری
هیچکدام از بانکهای اطلاعاتی موجود واقعا کامل نیستند. برای این کار تلاشهایی برای ایجاد بانکهای اطلاعاتی مرکب صورت گرفت. با مقایسهی توالیها و با حذف توالیهای تکراری و توالیهایی که بهطور جزیی با هم متفاوتاند، از تکراری بودن آنها ممانعت میشود. معیار دقیق برای تکراری بودن، این پایگاههای مرکب را نسبتا کوچک میکند و بنابراین در جستجوی بانکهای اطلاعاتی کارایی بهتری دارد.
7-2-3 بانکهای اطلاعاتی حاوی توالیهای اختصاصی
علاوه بر بانکهای اطلاعاتی عمومی، چندین بانک اطلاعاتی اختصاصی وجود دارد. برخی از این بانکها از پایگاههای عمومی منشا گرفتهاند، بهطوری که برخی از آنها عضویت مولفان را پذیرفته و میتواننند حاوی توالیهایی باشند که هنوز در پایگاههای عمومی یافت نمیشود. آنها یک یا چند مزیت زیر را دارند:
* بانک اطلاعاتی تشکیل یک مجموعهی بسیار مشخص از توالیها را میدهد که پیدا کردن آنها در پایگاههای عمومی مشکل است. جستجوی پایگاه اختصاصی به جای پایگاه عمومی لیستی از توالیهایی را تهیه میکند که ناخالصی و توالیهای مزاحم و ناخواسته را کم میکند و در زمان کمتری مورد استفاده قرار میگیرد.
بانک اطلاعات اختصاصی شده معمولا غیرتکراری است و حاوی توالیهای یکسان نیست.
* گاهی تعریف موضوع دادهها یا کلمات کلیدی بهتر استانداردسازی میشود که به کاربر امکان یافتن توالیهای مورد نظر را با یک جستجوی تککلمهای میدهد. در یک بانک اطلاعاتی بدون استانداردسازی، جستجو باید با کلمات کلیدی متفاوت تکرار شود.
* مستندات نیز بیشتر و بهتر از بانک اطلاعات عمومی است.
چند مثال از بانکهای اطلاعاتی اختصاصی به شرح زیر است:
پایگاه اطلاعات HIV: توالیهای DNAی HIV و SIV که در LANL (آزمایشگاه ملی لوسآنجلس؛ نیومکزیکو، آمریکا) نگهداری میشود و سالیانه گزارش میدهد.
HPVSD: توالیهای پروتئینی و DNAیی از papillomavirusهای انسانی و حیوانی و پروتئینهای سلولی که به وسیلهی آلودگی این ویروسها تحت تاثیر قرار میگیرند؛ این پایگاه اطلاعاتی در LANL نگهداری میشود و سالیانه گزارش میدهد.
IMGT (ایمنوژنتیک): مجموعهای از بانکهای اطلاعاتی در زمینهی ایمنیشناسی.
IMGT /LIGM (آزمایشگاه ایمنوژنتیک مولکولی): ژنهای ایمنوگلوبولینها و گیرندههای سلولهای T که از EMBL گرفته شده و مستندات آن بهبود یافته و در دانشگاه مونتپولیر (فرانسه) نگهداری میشود.
IMGT /HLA (سازگاری بافتی جایگاه ژنی A در انسان): ژنهایی برای جایگاههای اصلی سازگاری بافتی در انسان که در موسسهی تحقیقاتی Anthony Nolan (لندن) نگهداری میشود.
NRL-3D: زیرمجموعهای از PIR، حاوی توالیهای پروتئینی برای آن پروتئینهایی که ساختار سهبعدی شناخته شده دارند و در PDB ثبت شدهاند، که در NBRF نگهداری شده و هر سه ماه گزارش میدهد.
8-2-3 دیتابیسهای NCBI
با توجه به تعداد زیاد بانکهای موجود در سایت NCBI و اهمیت بالای آنها اکثر بانکهای این سایت با شرحی مختصر که برگرفته از کتاب راهنمای NCBI میباشد در ادامه آمده است. بسیاری از این بانکها در بخشهای مختلف این کتاب شرح داده شدهاند.
Mitelman
در این بانک داده ناهنجاریهای کروموزومی با ویژگیهای تومور بررسی میشود و با توجه به ارائه اطلاعات زیستشناسی مولکولی و کلینیکی قادر است ناهنجاریهای کروموزومی و بافتشناسی تومور را با توالیهای ژنومی مقایسه کند. لازم به ذکر است که اطلاعات این بانک داده به صورت دستی از مجلات توسط Fredrik Mitelman و همکارانش جمعآوری شده است.
66-فصل سوم
بانک داده Recurrent Chromosome Aberrations Cancer از بانک Mitelman مشتق شده است و شامل تمامی تغییرات سیتوژنتیکی است که حد اقل در دو مورد مورفولوزی یکسان داشته باشند و در هر زمان تومورهای ثابت در مکان یکسان قابل اجرا میباشد.
Cancer Chromosome
به منظور فهرست کردن اطلاعات مربوط به ناهنجاریهای کروموزومی در سرطان که از تکنیکهای سیتوژنتیک مولکولی به دست آمدهاند و نیز برای ادغام کردن این اطلاعات با نقشههای ژنومی دو منبع تاسیس شده است.
1: بانک داده SKY/M-FISH&CGH
2: بانک داده Cancer Chromosome
هدف از تشکیل این بانک داده این است که به محقق این امکان را بدهد تا اطلاعات سیتوژنتیکی و کلینیکی حاصل از تحقیق را آنالیز کند و یا برای این بانک بفرستد. در بانک داده SKY/M-FISH&CGH امکان مقایسه اطلاعات سیتوژنتیکی و مولکولی فراهم شده است و میتوان بهطور همزمان کروموزومهای موجوداتی مثل موش و انسان را با توجه به رنگهای متفاوت مشخص شده در آنها بررسی کرده و ناهنجاریها را به سادگی نشان داد.
Protein Cluster
در این پایگاه داده کل پروتئینهای موجود در بانک refseq که از ژنوم کامل پروکاریوتها ،پلاسمیدها و فاژها بیان شدهاند بر اساس تشابه در توالی و عملکرد پروتئین گروهبندی میشوند.پروتئینها به صورت کامپیوتری در گروههایی بر مبنای امتیاز مربوط به همترازی آنها دستهبندی شده و هر دسته مربوط به یک شناسه منحصر به فرد میباشد.
Pop set
این پایگاه داده شامل توالیهای نوکلئوتیدی و پروتئینی است که به منظور بررسی خویشاوندی و سیر تکاملی یک جمعیت در این پایگاه گردآوری شده است.در این پایگاه با توجه به همترازی انجام شده بین توالیها کاربر قادر به توصیف وقایع سیر تکاملی و تنوع جمعیت توالیها میباشد. نتایج موجود در این پایگاه داده برای مطالعه و بررسی جهشها،روابط تکاملی در جمعیتها ،مورد استفاده قرار میگیرد.
Probe
در این پایگاه داده میتوان به روشهای مختلف در یک توالی ژن خاص،کاوشگر مورد نظر را جستجو کرد. انواع کاوشگرهای مورد جستجو در توالی شامل STS، RNAi ، RFLP و… میباشد.
dbGap
این پایگاه داده، نتایج مطالعات و بررسیهای انجام شده در مورد ارتباط بین ژنوتیپ و فنوتیپ را جمعآوری میکند. این مطالعات شامل مطالعات وسیع ژنومی، توالییابی، تستهای تشخیص مولکولی و نیز ارتباط بین ژنوتیپ و ویژگیهای غیر کلینیکی میباشد. این پایگاه داده شامل سه قسمت است. بخش اول Studyنام دارد و مقالاتی با موضوعات فوق در این بخش دیده میشود. بخش دوم Disease نام دارد و نام چند بیماری مهم ژنتیکی همراه با خصوصیت فنوتیپی آن در این قسمت آورده شده است. بخش سوم Advanced search نام دارد که جهت جستجوی پیشرفته و اختصاصی از این گزینه استفاده میگردد.
67-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
BioSystems
The BioSystems database collects information on interacting sets of biomolecules involved in metabolic and signaling pathways, disease states, and other biological processes. BioSystems currently contains biological pathways from the Kyoto Encyclopedia of Genes and Genomes (KEGG) and the EcoCyc (Escherichia coli K-12 MG1655) subset of the BioCyc databases and is designed to accommodate other data in the future. BioSystems records link to related literature, genes, protein sequences, structures, chemical data, to related BioSystems. When available each record links to detailed diagrams and annotations for individual pathways on the Web sites of the source databases.
Bookshelf
The NCBI Bookshelf contains a collection of full-text books that can be searched online and that are linked to PubMed records through research paper citations within the text. The collection includes biomedical textbooks, other scientific titles, the NCBI News, and NCBI help manuals.
Conserved Domains
Conserved Domains is a database of protein domains represented by sequence alignments and profiles for protein domains conserved in molecular evolution. It also includes alignments of the domains to known three-dimensional protein structures in the MMDB database. The source databases for Conserved Domains are Pfam, Smart, and COG.
dbGaP
dbGaP (Database of Genotypes and Phenotypes) provides the results of studies that have investigated the interaction of genotype and phenotype including genome-wide association studies, medical sequencing, molecular diagnostic assays, as well as association between genotype and non-clinical traits.
dbVAR
dbVAR (Database of Genomic Structural Variation) contains information about large-scale genomic variation, including large insertions, deletions, translocations and inversions. dbVar also provides associations of defined variants with phenotype information.
Epigenomics
The Epigenomics database contains results of genome-wide studies on modifications of chromatin (histone modification, DNA methylation, DNAase footprinting) in various cell types that assay programmable changes that affect gene expression (epigenetics). Data from these studies may be displayed graphically on the genome sequence using the NCBI graphical sequence viewer.
EST
The EST database contains sequence records from the bulk EST (Expressed Sequence Tag) division of GenBank. These are typically short single-pass reads from cDNA libraries often generated as large survey project. Data from EST can be used to catalog expressed genes for a particular organ, tissue or cell type or general for a species, and compare expression levels of genes in various library sources.
Gene
Gene is a searchable database of genes, focusing on genomes that have been completely sequenced and that have an active research community to contribute gene-specific data. Information in Gene records includes nomenclature, chromosomal localization, gene products and their attributes (e.g., protein interactions), associated markers, phenotypes, interactions, and links to citations, sequences, variation details, maps, expression reports, homologs, protein domain content, and external databases.
Genome
The Genome database contains sequence and map data from the whole genomes of over 1000 species or strains. The genomes represent both completely sequenced genomes and those with sequencing in-progress. All three main domains of life (bacteria, archaea, and eukaryota) are represented, as well as many viruses, phages, viroids, plasmids, and organelles.
68-فصل سوم
Genome Project
Genome Projects collects information on complete and in-progress large-scale sequencing, assembly, annotation, and mapping projects for cellular organisms. The database is organized as a set of organism-specific overviews that allow browsing and retrieving specific projects for that organism.
GEO Datasets
GEO Datasets stores curated gene expression and molecular abundance data sets assembled by NCBI from the Gene Expression Omnibus (GEO) repository of microarray data.
GEO Profiles
GEO Profiles is a database that stores individual gene expression and molecular abundance profiles assembled from the Gene Expression Omnibus (GEO) repository of microarray data.
GSS
The GSS database contains sequence records from the bulk GSS (Genome Survey Sequence) division of GenBank. These are the genomic equivalent of EST records; short single pass reads from gDNA libraries. Insert end and other reads from BAC and other large insert genomic libraries used to identify and assemble candidates for genome sequencing are common examples of GSS records.
HomoloGene
The HomoloGene database contains automatically generated sets of homologous genes and their corresponding mRNA, genomic, and protein sequence data from selected eukaryotic organisms. Potential homologs from other organisms are included through sequence similarity to UniGene clusters.
MeSH
MeSH (Medical Subject Headings) is the National Library of Medicine’s controlled vocabulary and classification system (ontology) used for indexing articles in PubMed. MeSH terminology provides a consistent way to retrieve information that may use different terminology for the same concepts. Searches in the Entrez MeSH database provide synonymous MeSH terms that can provide more useful results in PubMed. The MeSH database records show subheadings access the MeSH browser showing related concepts and hierarchical relationships among MeSH terms.
NCBI Web Site Search
NCBI Site Search is database of static NCBI web pages, documentation, and online tools. Searching this database is a quick way to find specialized online sequence analysis tools, back issues of newsletters, legacy resource description pages, sample code, and other miscellaneous resources.
NLM Catalog
The NLM Catalog contains records for books, journals, audiovisuals, computer software, electronic resources, and other materials in the National Library of Medicine (NLM) collections. The old Journals database was merged into the NLM Catalog database and the information once retrieved via Journals, is provided by the NLM Catalog. This includes data such as journal title, MEDLINE abbreviation, NLM ID, ISO abbreviation, or ISSN.
Nucleotide
Apart from sequence data in the EST (Expressed Sequence Tag) and GSS (Genome Survey Sequence divisions of GenBank, the Nucleotide database contains all the sequence data from GenBank, EMBL, and DDBJ, the members of the International Nucleotide Sequence Databases Collaboration (INSDC). Nucleotide also includes NCBI-curated Reference Sequences (RefSeqs), submitted assemblies and annotations from the Third Party Annotation (TPA) database, and nucleotide sequences extracted from structure records from the Protein Databank (PDB).
OMIA
OMIA (Online Mendelian Inheritance in Animals) is a database of genes, inherited disorders and traits in animal species (other than human and mouse). The database contains textual information and references, as well as links to relevant records from OMIM, PubMed, and Gene.
69-پایگاههای اطلاعات اولیه توالیهای اسید نوکلئیک
OMIM
The OMIM (Online Mendelian Inheritance in Man) database contains review articles human genes, genetic disorders, and other inherited traits. OMIM articles provide links to associated literature references, sequence records, maps, and related databases.
PopSet
The PopSet database contains related nucleotide sequences that originate from comparative studies: phylogenetic, population, environmental (ecosystem), and mutational. Each record in the database is a set of nucleotide sequences representing the same molecule from the same species (population, mutation), different identifiable species (phylogenetic), or anonymous species from the same biological community (ecosystem).
Probe
Probe is a database of nucleic acid reagents designed for use in a wide variety of biomedical research applications including genotyping, gene expression studies, SNP discovery, genome mapping, and gene silencing. Probe records contain information on reagent distributors, probe effectiveness, and computed sequence similarities.
Protein
The Protein database contains amino acid sequences created from the translations of coding regions provided on nucleotide records in GenBank, EMBL, and DDBJ, the members of the International Nucleotide Sequence Databases Collaboration (INSDC) as well as those from coding regions on NCBI Reference Sequences and the Third Party Annotation (TPA) database records. Protein records are also imported from the outside protein-only data sources Protein Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF). Protein sequences are also extracted from structure records from the Protein Data Bank (PDB).
Protein Clusters
Protein Clusters is a collection of related protein sequences (clusters) consisting of Reference Sequence proteins that are encoded by complete prokaryotic genomes as well those encoded eukaryotic organelle plasmids and genomes. The database provides easy access to annotation information, publications, domains, structures, external links, and analysis tools.
PubChem BioAssay
PubChem BioAssay is a database that contains bioactivity screens of chemical substances described in PubChem Substance. It provides searchable descriptions of each bioassay, including descriptions of the conditions and readouts specific to that screening procedure.
PubChem Compound
The PubChem Compound database contains unique, validated chemical structures (small molecules) that can be searched using names, synonyms or keywords. The compound records may link to more than one PubChem Substance record if different depositors supplied the same structure. Structures in PubChem Compounds are pre-clustered and cross-referenced by identity and similarity groups. Additionally, calculated properties and descriptors are available for searching and filtering of chemical structures. Compound records are linked to related PubChem Substance Records, PubMed citations, protein 3D structures, and biological screening results that are available in PubChem BioAssay.
PubChem Substance
The PubChem Substance database contains information on chemical substances including mixtures electronically submitted to PubChem by depositors. This includes any chemical structure information submitted, as well as chemical names, comments, and links to the depositor’s web site.
PubMed
PubMed is database of citations and abstracts for biomedical literature from MEDLINE and additional life science journals. Links are provided when full text versions of the articles are available through PubMed Central or other websites.
70-فصل سوم
PubMed Central
PubMed Central (PMC) is the U.S. National Library of Medicine’s digital archive of life sciences journal literature. PMC contains full-text manuscripts deposited by authors or articles provided by the publisher.
SNP
The SNP (Single Nucleotide Polymorphism) database is a central repository for single nucleotide polymorphisms, microsatellites, and small-scale insertions and deletions. Both submitted SNPs and NCBI-produced non-redundant reference records (RefSNPs) that cluster reports of the same polymorphism from different sources are available. SNP also contains population-specific frequency and genotype data, experimental conditions, molecular context, and mapping information for both neutral polymorphisms and clinical mutations.
SRA
The SRA (Sequence Read Archive) contains sequencing data from the next generation sequencing platforms. SRA accepts and presents data from all current next-generation sequencing platforms including 454 (Roche), Illumina, SOLiD (Applied Biosystems), HeliScope, and Complete Genomics. Data can include sequence, quality scores, color values, and intensity graphs depending on the platform involved.
Structure
The Structure or Molecular Modeling Database (MMDB) contains experimental data from crystallographic and NMR structure determinations. The data for MMDB are obtained from the Protein Data Bank (PDB). Structure records link to bibliographic information, the sequence databases, and to the NCBI taxonomy. Cn3D, the NCBI 3D structure viewer, allows for easy interactive visualization of molecular structures from Entrez.
Taxonomy
The Taxonomy database contains the names and phylogenetic lineages of the more than 160,000 organisms that have molecular data in the NCBI databases. New taxa are added to the Taxonomy database as data are deposited for them. The taxonomy records include links to all molecular data for the organism or group as well as links to outside classification resources. The taxonomy provides the major controlled vocabulary for classifying molecular data across the Entrez system.
UniGene
UniGene is a database that provides automatically generated nonredundant sets (clusters) of transcript sequences, each cluster representing a distinct transcription locus (gene or expressed pseudogene). UniGene clusters also provide information on protein similarities, gene expression, cDNA clone reagents, and genomic location.
UniSTS
UniSTS is a comprehensive database of sequence tagged sites (STSs) derived from STS-based maps and other experiments. STSs are defined by PCR primer pairs and are associated with additional information, such as genomic position, genes, and sequences.