2-4-1) الگوریتم ژنتیک (GA)……………………………………………………………………………………………………………………………….23
2-4-1-1) اصول الگوریتم‌های ژنتیکی…………………………………………………………………………………………………24 2-4-1-2) روش‌های انتخاب…………………………………………………………………………………………………………………….25
2-5) ایجاد مدلهای آماری 26
2-5-1) رگرسیون خطی چندگانه…………………………………………………………………………………………………………..26
2-5-2) شبکه‌های عصبی پرسپترون چندلایه(MLP)…………………………………………………………………………………….27
2-5-2-1) تک نرون و ساختار (MLP)………………………………………………………………………………………………..28
2-5-2-2) پرسپترون چند لایه……………………………………………………………………………………………………………30
2-5-2-3) آموزش شبکه‌های عصبی MLP……………………………………………………………………………………………30
2-6) انتخاب بهترین مدل و ارزیابی اعتبار مدل انتخاب شده33
2-6-1) قلمرو کاربرد مدل………………………………………………………………………………………………………………….37
2-7) نرم افزارهای مورد استفاده………………………………………………………………………………………………………………………………………………………………38
2-7-1) بسته نرم افزاری Hyperchem………………………………………………………………………………………………………………………38
2-7-2) بسته نرم افزاری MOPAC…………………………………………………………………………………………………………………………..38
2-7-3) بسته نرم افزاریSTATISTICA 39
2-7-4) نرم افزار دراگون39
2-7-5) نرم افزار CODESSA………………………………………………………………………………………………………………………………..39
فصل سوم: مدلسازی QSAR سمیت مایعات یونی41
3-1) روش کار43
3-1-1) سری داده‌ها………………………………………………………………………………………………………………………………………………43
3-1-2) محاسبه و پیش‌پردازش توصیف‌کننده‌ها…………………………………………………………………………………………………………53
3-1-3) انتخاب اعضای سری‌های آموزشی و ارزیابی به روش خوشه‌بندی k-میانگین……………………………………………………….54
3-1-4) انتخاب بهترین توصیف کننده و مدل‌سازی خطی…………………………………………………………………………………………….55
3-1-5) مدلسازی غیر خطی با شبکه‌ی عصبی مصنوعی پرسپترون چند لایه56
3-2) بحث و نتیجه‌گیری57
3-2-1) تفسیر توصیف‌کننده‌ها………………………………………………………………………………………………………………………………..75
3-2-2) بررسی نتایج……………………………………………………………………………………………………………………………………………..61
3-2-3) ارزیابی نتایج مدل………………………………………………………………………………………………………………………………………63
3-3) جمع‌بندی نهایی65
فصل چهارم: پیش‌بینی دمای ذوب مایعات یونی و نمک‌های مربوطه با بهره‌گیری از رویکرد QSPR67
4-1) روش کار70
4-1-1) سری داده‌ها………………………………………………………………………………………………………………………………………………70
4-1-2) محاسبه و پیش‌پردازش توصیف‌کننده‌ها…………………………………………………………………………………………………………72
4-1-3) تقسیم‌بندی سری داده‌ها توسط روش تحلیل خوشه‌ای……………………………………………………………………………………….73
4-1-4) انتخاب متغیر و مدل‌سازی خطی……………………………………………………………………………………………………………………74

4-1-5) مدل‌سازی به روش شبکه‌ی عصبی پرسپترون چند لایه (MLP)77
4-2) بحث و نتیجه‌گیری79
4-2-1) تفسیر توصیف‌کننده‌ها………………………………………………………………………………………………………………………………..79
4-2-2) ارزیابی نتایج مدل‌ها…………………………………………………………………………………………………………………………………..81
4-3) جمع‌بندی نهایی…………………………………………………………………………………………………………………………………………………82
منابع83
فهرست شکلها
عنوان صفحه
شکل 2-1: طرحی ساده از خوشه بندی سلسله‌ای13
شکل 2-2: شمایی کلی از الگوریتم ژنتیک25
شکل 2-3: شمایی کلی از یک نرون29
شکل 2-4: ساختار کلی پرسپترون تک لایه29
شکل 2-5: ساختار شبکه پیشرو دولایه با توابع سیگموید در لایه پنهان و لایه خروجی30
شکل 2-6: کمینه کلی و کمینه محلی31
شکل 2-7: ساختار کلی آموزش با ناظر32
شکل 3-1: شمایی از شبکه‌ی بهینه شده‌ی پرسپترون57
شکل 3-2: نمودار مقادیر تجربی سمیت در برابر مقادیر محاسبه شده با مدل پرسپترون چند لایه62
شکل 3-3: نتایج تحلیل حساسیت63
شکل 3-4: قلمرو کاربرد مدل ارائه شده به صورت نمودار ویلیامز64
شکل 1-4: نمودار حاصل از آنالیز خوشه‌ای76
شکل 4-2: نمودار تغییر ضریب همبستگی و لگاریتم خطای استاندارد مدل در برابر تعداد توصیف‌کننده‌ها75
شکل 4-3: شبکه‌ی عصبی پرسپترون طراحی شده جهت پیش‌بینی دمای ذوب مایعات یونی78
شکل 4-4: نمودار حاصل از تحلیل حساسیت79
شکل 4-5: قلمرو کاربرد مدل81
فهرست جدولها
عنوان صفحه
جدول 3-1: سری داده‌های سمیت تجربی و پیش بینی شده به صورت (log EC50)44
جدول 3-2: ماتریس ضرایب همبستگی بین توصیفکنندههای انتخاب شده55
جدول 3-3: آنیون‌های متنوع به کار رفته در ساختار مایعات یونی موجود در سری داده60
جدول 3-4: پایه‌های کاتیونی به کار رفته در سری داده61
جدول 3-5: نتایج حاصل از مدل‌های خطی و غیر خطی62
جدول 4-1: مقادیر پیش‌بینی شده و تجربی دمای ذوب مایعات یونی70
جدول 4-2: ماتریس ضرایب همبستگی بین توصیف‌کننده‌های انتخاب شده76
جدول 4-3: ضرایب و آماره‌های مدل MLR77
جدول 4-4: نتایج حاصل از مدل‌های خطی و غیرخطی78

کمومتریکس1 یا شیمی سنجی در حقیقت کاربرد علوم آمار، کامپیوتر و ریاضی در شیمی می‌باشد [1]. از روش‌های ذکر شده برای درک بهتر اطلاعات شیمیایی که در آزمایشگاه بدست می‌آید استفاده می‌شود، به این صورت که با استفاده از تحلیل داده‌های شیمیایی بدست آمده اطلاعات مفید استخراج می شود تا با توجه به این اطلاعات بتوان آزمایش‌های مورد نظر را با بازدهی بهتر طراحی کرد.کاربرد روش‌های ریاضی در شیمی سابقه دیرین دارد ولی با توجه به پیشرفت علوم کامپیوتر و کاربرد آن در علوم روش‌های کمومتریکس در دهه اخیر پیشرفت بسیار داشته است. در این دو دهه روش‌های کمومتریکس مختلفی توسط شیمیدان‌ها با کمک متخصصین علوم کامپیوتر، ریاضی و آمار ارائه شده است. بسیاری از شیمیدان‌ها و کسانی که از روش‌های کمومتریکس استفاده می‌کنند دانشمند سوئدی به نام ولد2را به عنوان اولین کسی که این روش‌ها را معرفی کرده است نام می‌برند و به او لقب پدر علم کمومتریکس را داده‌اند [2]. کمومتریکس درشاخههای مختلف شیمی مورد استفاده قرار می‌گیـرد. بـرخی از کاربردهای آن شامل کنترل فرآیندها، تجزیه و تحلیل و شناخت الگوها، پردازش علائم و بهینه کردن شرایط میباشد.  یکی از زمینههای مهم کاربرد کمومتریکس در مطالعاتی است که خواص مولکولها را به ویژگیهای ساختاری آنها نسبت میدهد. موارد خاصی از این تحقیقات و مطالعات شامل موارد رابطه‌ی کمی ساختار-فعالیت3(QSAR)، رابطه‌ی کمی ساختار-سمیت4(QSTR)، رابطه‌ی کمی ساختار-خصوصیت5(QSPR) است که به منظور سهولت و کلی نگری تمامی این موارد تحت عنوان QSAR قرار می گیرند.
1-1) اجزای اصلی QSAR
یک رابطه ی کمی‌ساختار – فعالیت از سه بخش مجزای زیر تشکیل می‌گردد ;[3]
داده‌های معتبر مربوط به فعالیت یا ویژگی مورد مطالعه که باید مدل سازی و در نهایت پیش بینی شوند. تعدادی از خصوصیاتی که می‌توانند برای مدل سازی QSAR مورد استفاده قرار گیرند به شرح زیر می‌باشند: فعالیت دارویی، فعالیت سمی، خصوصیات فیزیکوشیمیایی و تاثیرات سموم شیمیایی در محیط زیست.
توصیف‌کننده‌ها6 یا همان متغیرهایی که مدل براساس آنها ساخته می‌شود. ویژگی‌های هر ملکول که معمولا با در نظر گرفتن ساختار ملکولی به صورت کمی‌محاسبه می‌شوند، در واقع همان متغیر‌های مورد استفاده در مدل سازی می‌باشند.
روشی (اعم از ریاضی یا آماری) که برای فرمول بندی مدل از آن استفاده می‌گردد.
روش‌های بسیاری جهت مدل سازی QSAR به کار می‌روند که تعدادی از آن‌ها به قرار زیر می‌باشند:

در این سایت فقط تکه هایی از این مطلب(به صورت کاملا تصادفی و به صورت نمونه) با شماره بندی انتهای صفحه درج می شود که ممکن است هنگام انتقال از فایل ورد به داخل سایت کلمات به هم بریزد یا شکل ها درج نشود-این مطالب صرفا برای دمو می باشد

ولی برای دانلود فایل اصلی با فرمت ورد حاوی تمامی قسمت ها با منابع کامل

اینجا کلیک کنید

رگرسیون خطی چند تایی (MLR)7، روشی ریاضی است که معمولا برای برقراری ارتباط بین ویژگیهای ساختاری مولکول و خواص آن در مطالعات QSPR/QSAR به کار میرود. این روش هنگامی که بین توصیفکنندهها برهمکنشی وجود نداشته و ارتباط آنها با فعالیت مورد نظر خطی باشد مفید است.[4]
شبکه عصبی مصنوعی (ANN)8، که با تقلید از شبکههای عصبی بیولو‍ژیکی مثل مغز انسان ساخته شدهاند الگویی برای پردازش اطلاعات میباشند که بر پایه اتصال به هم پیوسته چندین واحد پردازشی عمل میکنند [5].
ماشین بردار پشتیبان (SVM)9، یکی دیگر از روشهای یادگیری راهنمایی شده است که از آن برای طبقه بندی و آنالیز رگرسیون استفاده میکنند[6] .
کمترین مربعات جزیی (PLS)10، این روش با روش MLR، تفاوت چندانی ندارد. تنها فرضیاتی که براساس آن ضرایب متغیرهای مدل محاسبه می‌گردند در دو روش با هم متفاوت است[7] .
1-2) انواع روشهای QSAR
روش‌هایQSAR را می‌توان به سه گروه تقسیم‌بندی کرد[8]. اولین روش، QSAR دو بعدی است که در آن ساختار سه ‌بعدی مولکول در نظر گرفته نمی‌شود. در این روش مولکول با استفاده از یک سری توصیف‌کننده‌های مولکولی نمایش داده می‌شود که مقادیر عددی آن مشخصه مفاهیم متنوعی از ساختار مولکولی است و در مجموع با در نظر گرفتن فعالیت مشاهده شده مدل پیشگو ساخته می‌شود.
روش دوم QSAR سه بعدی است که بطور مثال با رهیافت CoMFA11 نشان داده می‌شود [8]. در این روش ساختار سه بعدی مولکول مورد بررسی قرار می‌گیرد. به این منظور ابتدا مولکول در یک شبکه منظم سه‌ بعدی قرار گرفته و سپس برهمکنش‌های الکتروستاتیک و فضایی بین مولکول مورد نظر و یک اتم فرضی قرار گرفته در محل نقاط تقاطع این شبکه توری مانند (مثل کربن)، محاسبه شده و به عنوان توصیف‌کننده استفاده می‌شود تا با ایجاد مدل، برهمکنشهای الکتروستاتیک و فضایی مطلوب بدست آید. به وضوح این روش مزایای بسیار زیادی نسبت به روش ساده‌تر دو بعدی دارد اما پیچیدگی‌های آن نیز بیشتر است.
روش سوم که QSAR چهار بعدی است، یک روش توسعه یافته از QSAR سه بعدی می‌باشد و توسط هاپفینگر12 و همکارانش ارائه شد [9] که اطلاعات مربوط به صورتبندی را در بعد چهارم در نظر می‌گیرد. مشابه با روش CoMFA، QSARچهار بعدی با مشخص کردن یک مجموعه از نقاط شبکه که خصوصیات مولکول را ارزیابی کند شروع می‌شود. این روش علاوه بر نقاط شبکه از کل صورتبندی، نمونه برداری کرده و از اطلاعات بدست آمده از آن استفاده می‌کند تا سلولهای اشغال شده در شبکه را ارزیابی کند و از این خصوصیات مولکولی برای ساختن مدل استفاده می‌کند.

1-3) اهداف QSAR
روابط کمی‌ساختار – فعالیت باید به عنوان ابزاری علمی‌تلقی گردند که اجازه ی کشف و همچنین تجزیه و تحلیل روابط نهفته در میان داده‌های موجود را به ما می‌دهند. اهداف زیادی را از ایجاد یک QSAR می‌توان برشمرد که تعدادی از آنها به صورت زیر است[8]:
1- پیش بینی فعالیت زیستی وخصوصیات فیزیکو- شیمیایی
2- درک بهتر مکانیسم عمل دریک سری از ترکیبات شیمیایی
3- صرفه جویی درهزینه‌های تولید محصول ( داروها ، آفت کش‌ها ، و ترکیبات شیمیایی جدید)
4- کاهش دادن ودربرخی موارد حتی جایگزینی استفاده از حیوانات آزمایشگاهی
با توجه به این اهداف، مدل سازی خصوصیات مایعات یونی که از پرکاربردترین ترکیبات در علم شیمی بشمار میروند، میتواند بسیار مفید واقع گردد. در ادامه مایعات یونی به صورت مختصر معرفی گردیدهاند.

1-4) نگاهی گذرا برمایعات یونی
مایعات یونی اولین بار در سال ١٩١۴ با سنتز اتیل آمونیوم نیترات (نقطه ذوب C˚12) شناخته شدند اما تا سال ١٩۵١ کاربرد گسترده ای نداشتند [10] . در پی یافتن روش جدیدی برای تهیه آلومینیم به طریق آبکاری13 با مخلوط کردن دو پودر سفید رنگ آلکیل پیریدینیوم کلرید با 3AlCl مشاهده شد که این دو با یکدیگر واکنش می‌دهند و مایع بی رنگ آلکیل پیریدینیوم تتراکلروآلومینات تولید می‌شود[11] . با این توصیف همچنان به این دسته از ترکیبات فقط با کنجکاوی نگاه می‌شد تا اینکه در چند دهه اخیر به عنوان جایگزین، برای حلال‌های آلی متداول واکنش‌های شیمیایی مطرح شدند. به طور کلی تعریف‌های گوناگونی برای یک مایع یونی وجود دارند که شاید پذیرفته شده‌ترین آنها «یک ماده متشکل از یون‌ها با نقطه ذوب پایین‌تر از 100 درجه‌ی سانتی‌گراد» باشد [12] . مایعات یونی را با نام های نمک های مذاب14، مایعات یونی غیرآبی15 یا مایعات یونی دمای اتاق16 نیز می‌شناسند[13] . اگر دمای ذوب نمک زیر دمای اتاق (25درجه‌ی سانتی‌گراد) باشد به آن مایع یونی دمای اتاق می‌گویند. این ترکیبات متشکل از یک کاتیون آلی غیر متقارن سنگین شامل فسفر یا نیتروژن مانند آلکیل ایمیدازولیوم، پیرولیدینیوم، آمونیم، فسفونیوم و انواع مختلفی از آنیون‌های آلی مانند تری فلئورو استات و یا آنیون‌های معدنی کلرید، برمید، تترافلئوروبورات و هگزافلئوروفسفات و … می‌باشند [13]. ترکیب آنیون‌ها و کاتیون‌های مختلف به طور گسترده تعداد مایعات یونی را گسترش داده‌است و تاکنون بیش از 2000 مایع یونی شناخته شده‌اند. از آنجا که معمولا می‌توان با اتصال یک کاتیون و آنیون خاص مایع یونی مورد نیاز برای یک کاربرد به خصوص را تولید کرد به این حلال‌ها، حلال‌ طراح17 نیز گفته می‌شود[12] .
مهمترین ویژگی‌های مایعات یونی عبارت‌اند از:[14]
خواص فیزیکی مایعات یونی با تغییر ترکیب شیمیایی آنیون‌ها و کاتیون‌ها تغییر می‌کنند.
مایعات یونی غیر فرارند بنابراین در سیستم‌های با خلاء زیاد قابل استفاده‌اند که این موضوع از بروز برخی مشکلات فرایندی جلوگیری می‌کند.
بسیاری از ترکیبات آلی و معدنی در آنها قابل حل‌اند.
عدم حلالیت مایعات یونی در برخی از حلال‌ها (مانند آلکان‌ها) یک محیط قطبی غیر آبی ایجاد می‌کند که این عامل، در سیستم‌های جداسازی دو فازی و چند فازی، بازیابی کاتالیست را (فرایند سبز) آسان می‌کند.
این ترکیبات می‌توانند، نه تنها به عنوان یک حلال، بلکه به عنوان یک کاتالیست فعال نیز در واکنش شرکت کنند.
همچنین مایعات یونی خواص بی نظیر دیگری از قبیل پنجره‌ی الکتروشیمیایی وسیع، هدایت الکتریکی زیاد، تحرک یونی، گستره‌ی دمایی مایع وسیع، به شدت سولواته کننده، عدم فراریت، اشتعال ناپذیری و گستره‌ی پایداری گرمایی وسیع نیز دارند.
با وجود محدودیت تعداد پایه های کاتیونی مایعات یونی که بیشتر مشتقات ایمیدازول، پیریدین و پیرولیدین هستند، به دلیل تنوع ترکیبی با آنیون های مختلف، امروزه تعداد بیشماری مایع یونی ساخته شده‌است. در مجموع، قابلیت‌های منحصر به فرد مایعات یونی مانند فشار بخار ناچیز، پایداری حرارتی خوب و قابلیت انحلال گونه‌های قطبی، این ترکیبات را جایگزین مناسبی برای حلال‌های آلی فاقد چنین ویژگی‌هایی می‌کند [15]. در نتیجه‌ی همین ویژگی‌ها، مایعات یونی به‌طور گسترده در زمینه‌های مختلف کاربردی شیمی تجزیه شامل: کروماتوگرافی گازی، کروماتوگرافی مایع با عملکرد بالا، استخراج مایع- مایع، میکرواستخراج٬ طیف‌سنجی جرمی، الکتروفورز و حسگرها به کار می‌روند[14] .
از اینرو، با توجه به کاربرد گسترده‌ی مایعات یونی درفرآیند‌های شیمیایی و اهمیت دمای ذوب این ترکیبات در نوع کاربرد آن‌ها‌، در این پروژه سعی شده با استفاده از رویکرد QSPR، مدل‌هایی برای پیش‌بینی دمای ذوب این ترکیبات ارائه گردد و همچنین به منظور بررسی عوامل مؤثر بر بروز فعالیت سمی مایعات یونی در سلول‌های زنده، مسموم کنندگی سلولی این ترکیبات نیز با استفاده از رویکرد QSAR مدل‌سازی شود.

نتایج مطالعات ساختار- فعالیت/ ویژگی علاوه بر شفافسازی نحوه ارتباط بین خواص مولکول‌ها و ویژگی‌های ساختمانی آنها، به پژوهشگران در پیش‌بینی رفتار مولکول‌های جدید براساس رفتار مولکول‌های مشابه کمک می‌کند. به مجموعه ابزارها و روشهایی که به این منظور مورد استفاده قرار می‌گیرند روش‌های پارامتری گویند.  در روش‌های پارامتری سعی می‌کنند بین یک سری توصیف کننده‌های مولکولی با فعالیت یا خاصیت مورد نظر ارتباط منطقی برقرار نمایند. توصیف‌کننده‌های مولکولی که به این منظور استفاده می‌شوند، مقادیر عددی می‌باشند که جنبه‌های مختلف ساختاری مولکول را به طور کمی‌نشان می‌دهند. وقتی خصوصیات ساختاری گونه‌ها و فعالیت آنها توسط اعداد و ارقام بیان می‌شود می‌توان رابطه ریاضی یا کمی، بین ساختار و فعالیت گونه ایجاد کرد. این رابطه می‌تواند برای پیشبینی پاسخ بیولوژیکی یا شیمیایی دیگر ساختارها مورد استفاده قرار گیرد. به عبارتی دیگر در این گونه مطالعات توصیفکنندهها به عنوان متغیرهای مستقل و پارامتر بیولوژیکی یا شیمیایی مورد نظر به عنوان متغیر وابسته در نظر گرفته میشوند. در مرحله مدلسازی مدلی از متغیر وابسته بر حسب متغیرهای مستقل ساخته میشود، سپس در مرحله پیشبینی مدل ساخته شده مورد ارزیابی قرار میگیرد. مراحل کلی مدل‌سازی به روش پارامتری به شرح زیر است:
1- جمع آوری سری داده‌ها
2- وارد کردن ساختارهای مولکولی و بهینهسازی آنها
3- محاسبه توصیفکننده‌های مولکولی
4- تجزیه و تحلیل آماری توصیفکندهها و انتخاب مؤثرترین آنها
5- ایجاد مدلهای آماری
6- انتخاب بهترین مدل و ارزیابی اعتبار مدل انتخابشده

2-1) جمعآوری سری دادهها
اولین مرحله، جمعآوری و انتخاب یک سری مولکولی از منابع قابل اعتماد و در دسترس است. بایستی کمیت مورد مدل‌سازی برای ترکیبات مختلف، در شرایط عملی یکسان بدست آمده باشد تا نتیجه قابل قبولتر و مناسبتری بدست آید. در مدلهای خطی سری دادهها به دو قسمت سری کالیبراسیون 18 و سری ارزیابی19 تقسیم میشوند[7] . عملیات مدل‌سازی بر روی سری کالیبراسیون که اکثر مولکولها را در بر میگیرد، انجام میشود. از سری ارزیابی برای بررسی قدرت پیشبینی و اعتبار مدل استفاده میشود. ترکیبات سری ارزیابی به نحوی انتخاب میشوند که نماینده جمعیت مولکولهای سری کالیبراسیون باشند. لازم به ذکر است که مولکولهای سری ارزیابی در هیچ یک از مراحل مدل‌سازی شرکت ندارند. در مدل سازی به روشهایی مانند شبکه عصبی مصنوعی از سری کالیبراسیون به دلیل استفاده در مرحله آموزش با عنوان سری آموزشی20 نام برده میشود. سری ارزیابی نیز به دو دسته به نامهای سری ارزیابی داخلی21 یا سری پیشبینی و سری ارزیابی خارجی22 تقسیم میشود. سری پیشبینی برای کنترل خطای مدلسازی و جلوگیری از ایجاد آموزش اضافی23 در حین ساخت مدل و سری ارزیابی، برای ارزیابی اعتبار مدل و تخمین قدرت پیشگویی آن بهکار میرود.

2-1-1) روش‌های تقسیم بندی سری داده‌ها
به طور معمول، دو روش وجود دارند که از رایج‌ترین روش‌های تقسیم بندی سری داده‌ها در مدل‌سازی QSAR به شمار می‌روند[16] :
1- روش انتخاب تصادفی24: در این روش سری داده‌ها به صورت کاملا تصادفی و بدون در نظر گرفتن هیچ گونه معیار خاصی، به سری‌های آموزشی و ارزیابی تقسیم می‌گردد. عمده‌ترین نقص این روش این است که در این روش ترکیبات بدون در نظر گرفتن هیچ‌گونه ارتباطی با ساختارشان، دسته‌بندی می‌گردند. به همین دلیل احتمال بسیار زیادی وجود دارد که ترکیباتی خارج از قلمرو کاربرد مدل، در سری ارزیابی قرار گیرند[7] . بنابراین از آنجایی که این ترکیبات توسط مدل برون‌یابی می‌شوند، پیش‌بینی‌های مدل برای این ترکیبات غیر‌قابل اعتماد خواهد بود[17] .
2- روش مرتبسازیy-25: در این روش سری دادهها به صورت نزولی یا صعودی مرتب شده و از هر قسمت آن بهعنوان نماینده یک داده برای قرار گرفتن در سری ارزیابی انتخاب میشود[7] . حتی در این روش نیز ضمانتی وجود ندارد که سری‌های آموزشی و ارزیابی روی تمامی نقاط نماینده در فضای توصیف‌کننده‌ها پراکنده بوده و سری آموزشی بتواند تمامی نقاط موجود در سری داده‌ها را تحت پوشش قرار دهد[18] . در حقیقت انتخاب سری‌های آموزشی و ارزیابی باید بر اساس نزدیکی نقاط نماینده‌ی سری آموزشی به نقاط نماینده‌ی سری ارزیابی در فضای چند بعدی توصیف کننده‌ها صورت گیرد. در اصل مفهوم “نزدیکی”، بر اساس مهمترین فرضی است که منجر به شکل گیری روابط QSAR گردیده است[16] :
” ترکیبات مشابه، خصوصیات مشابهی دارند”
در این پروژه از روشی نوین به نام تحلیل خوشه‌ای (CA)26 [19]جهت انتخاب صحیح اعضای سری‌های آموزشی و ارزیابی (براساس ساختار) استفاده شده ‌است که در ادامه معرفی می‌گردد.

2-1-1-1) تحلیل خوشه‌ای (CA)
تحلیل خوشه‌ای یا خوشه‌بندی نسبت دادن یک سری از اشیاء به گروه‌های معین (یا خوشه‌ها) می باشد، به نحوی که اشیاء موجود دریک خوشه از برخی جهات مشابه بوده ودارای وجه اشتراک باشند. خوشه‌بندی یکی از روش‌های موجود یادگیری غیر نظارت شده است که روشی معمول برای آنالیز آماری داده‌ها در بسیاری از زمینه‌های علمی شامل: یادگیری ماشینی27، داده‌کاوی، تشخیص الگو، آنالیز تصاویر، بازیابی اطلاعات و زیست فناوری28 می باشند[20] . علاوه بر اصطلاح خوشه‌بندی عبارات دیگری نیز دررابطه باهمین مفهوم مورد استفاده قرار می‌گیرند که شامل: طبقه‌بندی خودکار29، دسته‌بندی عددی30، آنالیز رده‌شناسی31 و بتریولوژی32 می‌باشند.

2-1-1-2) انواع خوشه‌بندی
الگوریتم‌های سلسله مراتبی33 با استفاده از گروه‌هایی که قبلا تشکیل شده‌اند گروه‌های جدیدی را پیدا می‌کنند. این الگوریتم‌ها غالبا یا تراکمی (از بالا به پایین) هستند، یا انشعابی (از پایین به بالا). الگوریتم‌های تراکمی با هر عنصر که به عنوان یک خوشه‌ی مجزا درنظر گرفته شده است شروع می‌شوند و آنها را به گروه‌های بزرگتر تبدیل می‌کنند[21] . الگوریتم‌های انشعابی با تمامی سری داده شروع می‌شوند و با تقسیم کردن آنها به گروه‌ها یا خوشه‌های کوچکتر ادامه می یابند (شکل 2-1 را ببینید). الگوریتم‌های تفکیکی معمولا تمامی خوشه‌ها را به صورت یکباره تعیین می‌کنند اما می‌توانند بعنوان الگوریتم‌های انشعابی در خوشه‌بندی سلسله‌ای نیز بکار روند. الگوریتم‌های خوشه‌بندی چگالی مبنا34، به منظور کشف گروه‌هایی با شکل دلخواه ابداع شده‌اند. در این رویکرد یک خوشه بصورت منطقه‌ای درنظر گرفته می‌شود که چگالی یا تراکم اشیاء در آن از حد آستانه بیشتر باشد. الگوریتم‌های خوشه‌ای فضایی35 ، به دنبال خوشه‌هایی می‌گردند که فقط بتوان انها را دریک تجسم خاص از داده‌ها (خمیده، بخشی از فضا) مشاهده کرد[22] .

شکل2-1) طرحی ساده از خوشه بندی سلسله‌ای

2-1-1-3) اندازه‌گیری فاصله
یکی از مراحل خوشه‌بندی انتخاب مقیاس اندازه‌گیری فاصله ‌است که نحوه‌ی محاسبه‌ی میزان شباهت دوعنصر را تعیین می‌کند. این انتخاب می تواند بر شکل خوشه‌ها تاثیرگذار باشد بنابراین یک عنصر می تواند براساس نوع فاصله‌ی انتخابی مربوط به یک خوشه‌ی خاص باشد که با تغییر نوع فاصله، این عنصر به خوشه‌ی دیگری تعلق گیرد. توابع فاصله‌ای که متداولترند شامل موارد زیر می شوند: فاصله اقلیدسی36، فاصله‌ی منهتن37، فاصله ماهالانوبیس38، زاویه‌ی بین دو بردار نیز می‌تواند به عنوان مقیاس فاصله در نظر گرفته شود[23] . مورد دیگری که در خوشه‌بندی از اهمیت بالایی برخوردار است این است که آیا از فواصل متقارن استفاه می‌شود یا فواصل نامتقارن. بسیاری از توابع فاصله که در بالا به آنها اشاره شد دارای خصوصیت متقارن بودن فواصل‌اند. این تقارن به این معنی است که فاصله‌ی شیء A از B دقیقا با فاصله‌ی شیء B از A یکسان است. درعین حال باید دقت شود که یک مقیاس مناسب، اندازه‌های متقارن ارائه می‌دهد.

شما می توانید تکه های دیگری از این مطلب را با جستجو در همین سایت بخوانید

2-1-1-4) دسته‌بندی تفکیکی39
انواع زیادی از این نوع دسته‌بندی وجود دارد که در ادامه به تعدادی از آنها اشاره شده است.
2-1-1-4-2) دسته بندی مبهم C- میانگین40
دردسته بندی مبهم یا نامشخص[22] ، هرنقطه به جای اینکه کاملا به یک دسته‌ی مشخص نسبت داده شود بادرجه‌ای از میزان تعلق به یک دسته تعیین می‌گردد. بناباین نقاط روی مرز یک دسته می‌توانند متعلق به آن دسته در نظر گرفته شوند اما با درجه‌ی تعلق کمتری نسبت به نقاط مرکزی دسته. برای هرنقطه‌ی x ضریبی تعریف می‌شود که میزان تعلق آن نقطه رابه دسته‌ی K‌ ام نشان می‌دهد U_k (x). معمولا مجموع ضرایب برای هر نقطه‌ای یک تعریف می شود. مرکز یک دسته، مرکز تمامی نقاطی است که میزان تعلق آنها به دسته در فرمول زیر در نظر گرفته می‌شود:
Center_k= (∑_x▒U_k 〖(x)〗^m x)/(∑_x▒U_k 〖(x)〗^m )
x= نقطه
k= دسته
m= پارامتر واقعی
درجه‌ی تعلق با معکوس فاصله تا مرکز دسته ارتباط دارد:
U_k (x)= 1/(d (Center_k , x))
d= فاصله

‌سپس ضرایب نرمال شده با یک پارامتر واقعی m >1 به نحوی که مجموع آنها یک شود، مبهم سازی می‌گردند.

U_k (x)= 1/(∑_j▒〖((d (Center_k , x))/(d (Center_j , x)))〗^(2/((m-1))) )
برای 2= m به راحتی می توان به نحوی نرمال سازی راانجام داد که مجموع مقادیر آنها به صورت خطی یک شود. این الگوریتم با الگوریتم k- میانگین بسیار مشابهت دارد.

2-1-1-4-3) الگوریتم دسته‌بندی QT41
دسته بندی QT (آستانه کیفیت)[21] روش جایگزین برای تفکیک داده‌ها در دسته بندی‌های ژنی است. این الگوریتم درمقایسه با الگوریتم K- میانگین به نیروی محاسباتی بیشتری نیازمند است، اما به تعیین تعداد دسته‌ها پیش از اجرای الگوریتم نیاز ندارد وهمیشه نتایج یکسانی را پس از هر مرتبه اجرا بدست می‌دهد. در این روش فاصله‌ی بین یک نقطه ویک گروه از نقاط با استفاده از روش اتصال کامل (در نظر گرفتن بیشترین فاصله از نقطه‌ی مورد نظر تا هر نقطه از اعضای گروه )‌ محاسبه می شود.

2-1-1-4-1) خوشه بندی K- میانگین42
الگوریتم K-میانگین [16]روشی از آنالیز خوشه‌ای است که n شیء را به k سری دسته‌بندی می‌کند. هرنقطه از داده‌ها به دسته‌ای اختصاص می‌یابد که مرکز آن نزدیکترین محل به نقطه‌ی مورد نظر است. مرکز، درحقیقت میانگین تمامی نقاط درون دسته است. اگر یک سری از اشیاء را به صورت {x1, x2, …, xn}در نظر بگیریم به نحوی که هر شیء یک بردار حقیقی d بعدی باشد، خوشه‌بندی K- میانگین تلاش می‌کند تا n شیء را به k سری تقسیم‌بندی کند (n S={s1, s2, …, sn} (k ≤، به صورتی که مجموع مربعات درون خوشه‌ای (wcss)43 کمترین مقدار باشد.
〖arg〗_s min⁡∑_(i=1)^k▒∑_(x_i∈s_i)▒‖x_j-μ_i ‖^2
x_j=شیء
S= دسته
در این رابطه، μ_i میانگین نقاط درون s_i می‌باشد.
اصطلاح « K- میانگین» برای اولین بار توسط جیم مک کویین44 در سال 1967 به کار برده شد. هر چند که نظریه‌ی‌ اولیه‌ی آن مربوط به شخصی به نام هوگو اسین‌هاوس45 در سال 1956 می‌باشد. الگوریتم‌های مختلفی از الگوریتم‌های اکتشافی برای حل مسئله‌ی خوشه‌بندی K- میانگین وجود دارد که متداولترین آنها الگوریتم استاندارد می‌باشد. این الگوریتم از روش پالایش مکرر46 بهره می‌برد. شایان ذکر است که این الگوریتم در علم رایانه تحت عنوان الگوریتم للوید47 نیز شناخته می‌شود.
با فرض اولیه‌ی K- میانگین {m1, …, mk}، الگوریتم با نوسان بین دو مرحله جلو می‌رود. اولین مرحله، مرحله‌ی تعیین یا انتصاب48 است که در آن هر شیء به خوشه‌ای که دارای نزدیکترین میانگین است تعلق می‌گیرد. در حقیقت اشیاء مورد نظر با در نظر گرفتن رابطه‌ی زیر دسته‌بندی می‌گردند.

s_i^((t))= {x_j:‖x_j-m_i^((t)) ‖≤‖x_j-m_i^((t)) ‖ for all i=1, 2, …, k}
s= دسته
m=میانگین
x=شیء

مرحله‌ی دوم، مرحله‌ی نوسازی49 می‌باشد. در این مرحله میانگین‌های جدیدی (طبق فرمول زیر) محاسبه می‌گردند که در مرکز اعضای خوشه قرار دارند.
m_i^((t))= 1/|s_i^((t)) | ∑_(x_j∈ s_i^((t)))▒x_j
s= دسته
m=میانگین
x=شیء
زمانی که در انتصابات انجام گرفته دیگر تغییری صورت نگیرد، الگوریتم به همگرایی رسیده است و پایان یافته تلقی می‌گردد. مراحل این الگوریتم به اختصاربه صورت زیر است:
تعداد دسته‌ها راانتخاب می‌کنیم (K).
بصورت تصادفی K دسته ایجاد ومراکز آنها تعیین می‌گردند.
مراکز دسته‌های جدید دوباره محاسبه می‌گردند.
دومرحله‌ی قبلی را تا زمانی که الگوریتم به همگرایی برسد (یعنی زمانی که اعضای موجود دردسته دیگر تغییر نکنند) تکرار می شوند.
مهمترین مزیت این الگوریتم سادگی وسرعت آن است که اجازه می‌دهد آن رابرروی سری داده‌های بزرگ اجرا کنیم. درعین حال دو نکته وجود دارند که باید مد نظر قرار گیرند:
مفهوم میانگین باید به وضوح برای تمامی مراحل تعریف شده وثابت باشد.
از آنجایی که دسته‌ها در ابتدا به صورت تصادفی تشکیل می‌گردند، نتایج حاصله می توانند در هر مرتبه از اجرای الگوریتم متفاوت باشند، بناباین داشتن درکی کلی از تعداد دسته‌های موجود درسری داده به صورت تجربی به اجرای صحیح این الگوریتم کمک می کند.

2-2) بهینهسازی ساختارهای مولکولی
مولکولها معمولا با استفاده از نرمافزارهایی مانند Hyperchem [24] رسم میشوند. درنهایت، ساختار مولکولها به وسیله روش مکانیک مولکولی50 و یا روشهای نیمه تجربی51 بهینه میشوند. سپس ماتریس سه‌بعدی این ساختارها به صورت ورودی به نرمافزارهایی مانندMopac [25]، Dragon [26]وارد شده تا توصیفکنندههای مولکولی محاسبه شوند.

2-3) محاسبه توصیفکنندههای مولکولی
توصیفکنندههای مولکولی نتیجه نهایی یک استدلال و روش ریاضی هستند که اطلاعات شیمیایی را به رمز تبدیل می‌کنند و آنها را به صورت یک نماد نشان می‌دهند طوری که ارائه دهنده ویژگیهای یک مولکول به صورت یک عدد مفید ‌باشند. برای مثال ممکن است توصیف‌کننده‌ها، ویژگی‌های فیزیکی و شیمیایی یک مولکول باشند و یا ممکن است مقادیر ناشی از بکارگیری روش‌های الگوریتمی برای ساختارهای مولکولی باشند. به عبارت دیگر میتوان گفت که هر توصیفکننده، اطلاعات خاصی از مولکول را که بر کمیت مورد مدلسازی اثر میگذارد در اختیار قرار میدهد که از اهمیت به سزایی برخوردار است. در صورتی که توصیفکنندههای انتخاب شده مناسب نباشند، عمل مدل‌سازی با مشکل مواجه شده و مدل مناسب به دست نخواهد آمد. بنابراین در انتخاب توصیفکنندهها باید دقت کرد و توصیفکنندههایی میبایست انتخاب شوند که در ارتباط با ویژگی مورد نظر مولکول بوده، فهم و تفسیر آنها آسان باشد و بتوانند به ساختارهای متفاوت، مقادیر عددی متفاوتی بدهند.
توصیفکنندهها را بر اساس چگونگی بیان خصوصیات مولکول میتوان به چند دسته کلی تقسیم کرد، که معروفترین آنها در اینجا آورده شده است:
1- توصیفکنندههای ساختاری52
2- توصیفکنندههای توپولوژیکی53
3- توصیفکنندههای هندسی54
4- توصیفکنندههای الکترونی55
5- توصیفکنندههای فیزیکوشیمیایی56
6- توصیفکنندههای توسعهیافته57
7- توصیفکنندههای LFER58
2-3-1) توصیفکنندههای ساختاری
این سری توصیفکنندهها عمومیترین توصیفکنندههای مورد استفاده میباشند که ساختار ترکیب را بدون هیچگونه اطلاعاتی درباره هندسه مولکولی آن در اختیار قرار میدهند. از مهمترین توصیفکنندههای ساختاری میتوان تعداد اتمها، تعداد پیوندها، تعداد مطلق و نسبی انواع اتمهای مورد نظر و تعداد مطلق و نسبی انواع پیوندها را نام برد. این دسته توصیفکنندهها به تغییرات پیکربندی حساس نیستند و بین ایزومرها تمایزی قائل نمیشوند.

2-3-2) توصیفکنندههای توپولوژیکی
توصیف‌کننده‌های توپولوژیکی جزء سادهترین نوع توصیف‌کننده‌ها می‌باشند و به ساختار فضایی مولکول ارتباطی نداشته و تنها به نوع اتمها، نوع پیوندها و نحوه ارتباط اتم‌ها به یکدیگر وابستهاند. این پارامترها را می‌توان بدون بهینه کردن ساختار مولکول محاسبه کرد. توصیف‌کننده‌های توپولوژیکی خود به چهار دسته، توصیفکنندههای جزء، زیر ساختاری، اندیسهای توپولوژی و توصیفکنندههای محیطی تقسیم میشوند و شکلهای ساختاری از قبیل مسیر و ارتباطات را مشخص میکنند.

2-3-2-1) توصیفکنندههای جزء
این گروه از توصیفکنندهها مشخص کننده اطلاعات ساده مولکولی بوده و از نظر محاسبه سادهترین نوع توصیفکنندهها میباشند مقدار توصیفکنندههای فوق به سادگی از فرمول مولکولی ترکیب مورد نظر قابل محاسبه میباشند. این نوع از توصیفکنندهها میتوانند جرم مولکولی، حضور یا عدم حضور گروههای عاملی خاص و یا اتمهای معینی را در مولکول نشان دهند.

2-3-2-2) اندیسهای توپولوژی
این اندیسها دستهای از توصیفکنندههای توپولوژیکی هستند که اطلاعاتی راجع به ساختمان، اندازه و میزان شاخهای شدن مولکول، نحوه اتصال اتمها و نوع اتمهای موجود در یک را مولکول در اختیار ما قرار میدهند. و از روی شکل‌های شیمیایی مولکولها بدست می‌آیند. شکل نمایش دهنده ساختار به شیوه انتزاعی است که در آن اتمهای مولکول به صورت نقطه و پیوندهای میان اتمها به صورت خطهای راست رسم شده باشند. در شکل شیمیایی وجود پیوند میان اتمها اهمیت دارد نه ماهیت آن پیوند شیمیایی. از جمله اندیسهای توپولوژی میتوان اندیس بالابان59 و عدد واینر60 را نام برد.

2-3-2-3) توصیفکنندههای زیرساختاری 
این توصیفکنندهها اطلاعاتی را در مورد وجود یا عدم وجود گروههای عاملی خاص یا زیرساختارهای معین در مولکول فراهم میسازند. اگر زیرساختار مشخصی در مولکول وجود داشته باشد، توصیفکننده مقداری معادل با تعداد دفعات تکرار آن زیر ساختار در مولکول را خواهد داشت ودر غیر این صورت مقدار آن صفر خواهد شد.

2-3-2-4) توصیفکنندههای محیطی
این نوع توصیفکنندهها نحوه قرار گرفتن یک زیرساختار را در مولکول نشان میدهند. اگر یک زیرساختار خاص در مولکول وجود داشته باشد، آنگاه یک شبه مولکول توسط این زیرساختار و اولین اتم مجاور آن تشکیل میشود. مقدار توصیفکننده محیطی برای این زیرساختار خاص برابر با اندیس ارتباطی مولکول مسیر درجه اول برای شبه مولکول حاصل میباشد. در صورتی که یک زیرساختار معین چند بار در مولکول تکرار شده باشد، مقدار متوسط اندیس ارتباطی آنها در نظر گرفته میشود.

دسته بندی : پایان نامه

پاسخ دهید