چطور یک پروژهش متا آنالیز رو انجام بدم؟

بدون ديدگاه

پروژه‌های داده‌های حجیم یا متا آنالیز، امروز یکی از چالش‌ها و البته یکی از زمینه‌های مورد علاقه بسیاری از دانشجویان زیست‌شناسی و بیوانفورماتیک است. اما نکته اینجاست که ما چطور می‌تونیم داده‌های حجیم مثل داده‌های توالی یابی، داده‌های تکنیک میکرواری، فلوسایتومتری و غیره را بخوبی آنالیز و پردازش کنیم و پروژه های اون‌ها رو مدیریت کنیم؟

 شاید اصلاً خیلی از ما نمی‌دونیم وقتی حرف از داده‌های حجیم می‌زنیم منظورمون چیه!

بیایید با هم وارد یک پروژه فرضی بشیم. من تصمیم می‌گیرم روی داده توالی یابی دو گروه از افراد که طی یک سال به بیمارستان مراجعه کردن،‌مطالعه کنم. یک گروه بیماران آلزایمری و گروه بعدی افراد سالم در گروه های سنی مشابه. پس من دو گروه بیمار دارم که در سه مقطع زمانی مختلف داده ی RNA از آنها تهیه شده. یعنی از هر بیست نفر سه بار نمونه می‌گیرم. پس شصت نمونه در هر گروه و صد و بیست نمونه در کل. این نمونه‌ها شامل ۱۲۰ فایل توالی یابی خام هست. من چندین مرحله نیاز دارم تا این‌که تجزیه و تحلیل اصلی را روی داده‌ها انجام بدم مثل فیلتر کردن، حذف دادههای با کیفیت پایین، حذف پرایمرها،‌Mapping، alignment و …

اگر قرار باشه من ده مرحله داشته باشم و در ده مرحله صد و بیست فایل رو مدیریت بکنم، یعنی من باید حداقل هزار و دویست فایل رو دارم. به‌علاوه این‌که باید در نظر بگیرم ممکنه فقط یک آنالیز را انجام ندم، بلکه چندین آنالیز مختلف روی اون فایل‌ها انجام بدم و چندین گروه فایل داده مختلف را داشته باشم. حتی ممکنه بخوام خروجی‌هایی را که بدست میارم درنهایت وارد آنالیزهای آماری بکنم یا وارد آنالیزهایی که بیان شبکه بیان ژن بکنم.

حالا ما چطور باید این پروژه‌ها را مدیریت بکنیم؟ آیا کار ساده‌ای مسلماً به نظر نمی‌رسد که این کار کار ساده‌ای باشد اما ما چطور می‌تونیم این کار را بهینه کنیم؟

 یکی از راهکارهایی که برای مدیریت بهتر پروژه‌های داده‌های حجیم بخصوص توالی یابی اتخاذ می‌شه، نحوه مدیریت فایل‌ها نحوه نام‌گذاری فولدر بندی و استفاده از اون فایل‌ها هست. تمام این‌ها اتفاقات خوب و جالبی هستن، اما این‌که چطور ما می‌خواهیم این کارو انجام بدیم یک بحث متفاوته.

یکی از خدماتی که بنیاد The Carpentries به محققین سراسر جهان می‌کنه، یاد دادن روش مدیریت پروژه های داده های حجیم است. مسلماً این پروژه‌ها فقط به زیست‌شناسی ختم نمی‌شه، اما در حوزه زیست‌شناسی این‌که شما بتونید صرفاً با یک کامند تمامی مسائل و تمامی فایل‌ها رو با یک روش یکسان نام گذاری کنید، نام ها را عوض کنید، از فولدر یبه فولدر دیگه منتقل کنید، برای ارسال فایل های حجیم نیاز به آپلود فایل نداشته باشید، و روی تمام فایلهاتون یک آنالیز خاص رو پیاده بکنید، توانایی هست که هر کسی از عهده او برنمی‌آید و به همین علت بنیاد تصمیم گرفته تا شبکه‌ای از متخصصین را در سراسر جهان تربیت بکنه که با استناد به دریافت مدرک The Carpentries در سرتاسر جهان به‌عنوان افرادی که قادر به ایجاد و مدیریت پروژه‌های داده‌های حجیم در رشته اختصاصی خودشون هستند، شناسایی بشنشما که امروز درحال خوندن این مقاله هستید می‌تونید با کلیک کردن روی لینکی که در انتهای مقاله قرار داده شده وارد لینک ثبت‌نام مربوط به دوره‌ها و کارگاه Data Carpentry Genomics رو دریافت کنید و از این طریق نحوه انجام این کارو به ساده‌ترین شکل ممکن و به بهینه‌ترین شکل ممکن و در کوتاه‌ترین زمان ممکن یاد بگیرید. زمان را از دست ندید.

لینک دوره‌ی کارپنتری:

دوره آموزشی Data Carpentry Genomics

نوشتن دیدگاه

نشانی ایمیل شما منتشر نخواهد شد.

ده − نه =