۳۰ مطلب با موضوع «پروژه R» ثبت شده است

پروژه داده کاوی امتیاز اعتباری (Credit scoring) با زبان R

سفارش انجام پروژه داده کاوی امتیاز اعتباری:

امتیاز اعتباری یک عبارت عددی است که با تکنیک‌های آماری و بر اساس اطلاعات واقعی که بیانگر وضعیت جاری و سابقه‌ای فرد یا شرکت هستند محاسبه می‌شود. امتیاز اعتباری یک نمره قابل مقایسه است؛ لذا تصمیم‌گیری بر این مبنا، در مقایسه با روش‌های سلیقه‌ای و گزارش‌های متنی، به مراتب قابل اطمینان‌تر و منصفانه‌تر خواهد بود. برای مطالعه جزییات بیشتر در مورد امتیازاعتباری کلیک کنید.

در این پروژه، با استفاده از زبان R، مجموعه داده های مربوط به امتیاز اعتباری مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه

پیاده سازی مقاله: تشخیص جرایم سایبری در ارتباطات برخط با رویکرد داده کاوی

پیاده سازی مقاله: تشخیص جرایم سایبری در ارتباطات برخط با رویکرد داده کاوی

چکیده:

در سال­های اخیر سایت­های شبکه های اجتماعی برخط محبوبیت چشمگیری را به دست آورده­اند. جرایم سایبری از رسانه­های اجتماعی به عنوان پلتفرم جدید در پذیرش انواع مختلف جرایم رایانه­­ای مانند فیشینگ، اسپمینگ، اشاعه بدافزار و اذیت و آزار سایبری استفاده می­کنند. در این تحقیق، با کمک استفاده از اطلاعات مفید در پیام ها، عملکرد تشخیص آزار و اذیت­های سایبری را بهبود داده می شود. انتخاب بهترین مشخصه­ها با قدرت جداکنندگی بالا بین توئیت­های مزاحمت­های سایبری و غیر مزاحمت های سایبری یک فعالیت پیچیده است که نیازمند تلاش قابل ملاحظه­ای در ساخت مدل یادگیری ماشین می­باشد. در این راستا عملکرد پنج روش طبقه بندی بیزساده، ماشین بردار پشتیبان، درخت تصمیم، k- نزدیک­ترین همسایگی و شبکه عصبی را تحت پنج تنظیم مختلف به منظور انتخاب بهترین تنظیم برای مشخصه های پیشنهادی مقایسه شده است و با استفاده از الگوریتم های خفاش و ژنتیک و ازدحام ذرات پارامترهای C و سیگما را بهبود داده شده است و مقایسه­ای بین پنج روش طبقه بندی با پارامترهای پیش فرض و پارامترهایی که با الگوریتم­­های بهینه ساز به دست آورده شده و مشخص شده است که الگوریتم خفاش از بین الگوریتم های دیگر بهینه­ساز بهترین عملکرد را داشته است. با توجه به پژوهشی که انجام شده بیشترین دقت را با مدل SVM به 56/86 و بیشترین صحت را به 14/87 بوده است.

  • شریف پژوه

پیاده سازی مقاله: روش جدید تشخیص فیشینگ مبتنی بر ترکیب الگوریتم پنگوئن و داده کاوی

پیاده سازی مقاله: روش جدید تشخیص فیشینگ مبتنی بر ترکیب الگوریتم پنگوئن و داده کاوی

چکیده:

با دسترسی آسان به اینترنت، بسیاری از کسب و کارها فعالیت های خود را در شبکه های وابسته به اینترنت انجام می دهند. اما هموره مخاطرات امنیتی از جمله حملات فیشینگ این کسب و کارها را تهدید می کنند. تعدد ویژگی های صفحات وب، منجر به استفاده از روش های انتخاب ویژگی و ترکیب آنها با روش های یادیگیر به منظور تشخیص فیشینگ شده است. عملکرد مناسب الگوریتم فرا ابتکاری پنگوئن در یافتن پاسخ بهینه، ایده اصلی این مقاله جهت بررسی نحوه عملکرد این الگوریتم در مسئله تشخیص فیشینگ بوده است. بنابراین از تریکب الگوریتم پنگوئن در فاز انتخاب ویژگی با شبکه عصبی مصنوعی در فاز تشخیص فیشینگ استفاده شده است. برای آموزش و ارزیایی روش پینشهادی از یک مجموعه داده با 11055 نمونه وبسایت های فیشینگ و عادی استفاده شده است. نتایج پیاده سازی در محیط متلب نشان می دهد با افزایش اندازه جمعیت و تعداد تکرار در الگوریتم بهینه سازی پنگوئن، مقدار متوسط تابع انتخاب ویژگی 69.57%، و شاخص RMSE حدود 24.56% کاهش یافته است. همچنین روش پیشنهادی در مقایسه با شبکه عصبی مصنوعی چند لایه حدود 29.16% خطای کمتر در تشخیص فیشینگ را نشان می دهد.

  • شریف پژوه

پیاده سازی پایان نامه: تشخیص تقلب صورت های مالی با استفاده از تکنیک های داده کاوی

پیاده سازی پایان نامه: تشخیص تقلب صورت های مالی با استفاده از تکنیک های داده کاوی

بررسی تقلب مالی در واقع یکی از موضوعات چالش برانگیز است با توجه به این که پیامدهای اقتصادی و اجتماعی ناشی از تقلب می تواند گسترده باشد. به این ترتیب تقلب مالی در حال تبدیل شدن به یک مشکل جدی است و در نتیجه، شناسایی موثر تقلب حسابداری همیشه یک کار مهم اما نسبتاً پیچیده برای متخصصان حسابداری بوده است. در این تحقیق راهکاری مبتنی بر تکنیک های داده کاوی برای حل این مسئله ارائه می شود.

  • شریف پژوه

یاده سازی پایان نامه: پیش بینی بستری مجدد در بیمارستان ها با تکنیک های داده کاوی

پیاده سازی پایان نامه: پیش بینی بستری مجدد در بیمارستان ها با تکنیک های داده کاوی

بهداشت و درمان به یکی از بزرگترین صنایع در سطح جهان تبدیل شده است و به همین دلیل منابع زیادی را مصرف می کند. در سال‌های اخیر بستری مجدد در بیمارستان به دلیل هزینه‌های غیرضروری در سیستم مراقبت‌های بهداشتی به موضوعی قابل توجه تبدیل شده است. بسیاری از بستری‌های مجدد قابل پیشگیری به کیفیت پایین مراقبت در طول اقامت بیمار در بیمارستان و همچنین به ضعیف فرآیند ترخیص مربوط می‌شود. در سال های اخیر به کارگیری تکنیک های داده کاوی توانسته مداخلات موثر و پیشگیرانه را برای آن اجرا کند.

  • شریف پژوه

پیاده سازی پایان نامه: پیش بینی ریزش مشتری با استفاده از تکنیک های داده کاوی

پیاده سازی پایان نامه: پیش بینی ریزش مشتری با استفاده از تکنیک های داده کاوی

رویگردانی مشتریان یا ریزش مشتری، اصطلاحی تجاری اســت که برای از دست رفتن مشــتریان استفاده می‌شود. سازمان‌ها و شرکت‌هایی مانند بانک‌ها، شرکت‌های مخابراتی، ارائه‌دهندگان خدمات اینترنتــی (ISP)، شرکت‌های تلویزیون کابلی، شرکت‌های بیمه و غیره اغلب از رویگردانی مشــتریان و نرخ از دست دادن مشــتریان به‌عنوان یکی از معیارهای کلیدی سنجش در کسب‌وکار استفاده می‌کنند. دلیل این امر این است که هزینه نگهداری یک مشتری موجود بسیار کمتر از هزینه جذب یک مشتری تازه است. بنابراین این نوع بنگاه‌های اقتصادی، اغلب واحدها و بخش‌هایی به نام خدمات مشــتریان دارند که سعی می‌کنند مشــتریان رویگردان را دوباره بازگردانند زیرا مشــتریان قدیمی معمولاً ارزش بیشــتری از مشتریان جدید خلق می‌کنند. برای مطالعه ی بیشتر کلیک کنید.

در این پروژه، با استفاده از تکنیک های داده کاوی راهکاری برای پیش بینی ریزش مشتری ارائه می شود.

  • شریف پژوه

پیاده سازی مقاله: ارائه یک الگوریتم جهت بهبود الگوریتم k-means

پیاده سازی مقاله: ارائه یک الگوریتم جهت بهبود الگوریتم k-means

چکیده:

؛k-means یکی ازمحبوب ترین روش های خوشه بندی می باشد، به این دلیل که سادگی، و سرعت آن در طبقه بندی داده های عظیم بسیار خوب است. با این حال خروجی الگوریتم k-means به انتخاب مراکز خوشه های اولیه بستگی دارد، چون به صورت تصادفی انتخاب می شود. محدودیت دیگر آن تعداد مورد نیاز خوشه ورودی است، که این نیاز به نوعی دانش شهودی در مورد مقدار مناسب k دارد. در این مقاله یک الگوریتم پیشنهاد شده بر اساس k-means که تعیین تعداد خوشه k به عنوان ورودی را نیاز ندارد پیچیدگی زمانی و کیفیت خوشه های تولید شده توسط الگوریتم پیشنهادی با الگوریتم k-means اصلی با استفاده از دو مجموعه داده مختلف، مقایسه شده است.
  • شریف پژوه

ایجاد مدل برای تشخیص بیماری مزمن کلیه با استفاده از الگوریتم ماشین بردار پشتیبان، جنگل و درخت تصمیم

پیاده سازی مقاله: ایجاد مدل برای تشخیص بیماری مزمن کلیه با استفاده از الگوریتم های ماشین بردار پشتیبان، جنگل و درخت تصمیم

چکیده:

امروزه بیماری مزمن کلیه یکی از مهمترین بیماریهای رایج بین افراد جامعه بخصوص بزرگسالان است. این بیماری در واقع نوعی مرگ خاموش محسوب میشود زیرا این بیماری از دسته بیماریهای مزمن است و یکباره فرد به این بیماری مبتلا نمی شود و ممکن است، سالهای سال مبتلا به این بیماری باشد بدون اینکه کوچکترین علائمی از خود نشان دهد و زمانی علائم خود را بروز دهد که به بدترین وضعیت بیماری برسد و منجر به خطر افتادن جان بیمار یا صرف هزینه های بسیاری برای دیالیز یا پیوند کلیه های بیمار شود. هدف این پژوهش ارائه مدل هوشمند برای کمک به شناسایی و تشخیص بیماری کلیه با استفاده از روشها و الگوریتم های یادگیری ماشین و داده کاوی برروی مجموعه داده کلیه دانشگاه کلیولند کالیفرنیا است. در این تحقیق برای ساخت مدل پیشبینی در ابتدا مجموعه داده اصلی را به دو مجموعه داده آموزش/ ارزیابی و مجموعه داده آزمایش تقسیم کردیم. به کمک مجموعه داده آموزش/ارزیابی با استفاده از روش اعتبار سنجی متقابل fold-10 و الگوریتم های درخت تصمیم، جنگل تصادفی و ماشین بردار پشتیبان مدل را ایجاد کرده و دقت نهایی مدل در این پژوهش را به کمک مجموعه داده آزمایش ارزیابی کرده ایم. در انتها نتایج بدست آمده با الگوریتم های جنگل تصادفی و ماشین بردار پشتیبان با دقت های 89,98 %بالاترین دقت را دراین پژوهش حاصل کرده است.

  • شریف پژوه

پیاده سازی مقاله: تشخیص بیماری دیابت با استفاده از تکنیک داده کاوی و شبکه عصبی

پیاده سازی مقاله: تشخیص بیماری دیابت با استفاده از تکنیک داده کاوی و شبکه عصبی

چکیده:

استخراج اطلاعات و کشف الگوهای پنهان از پایگاه داده های تا اندازه بسیار بزرگ داده کاوی نامیده می شود. الگوها و اطلاعات معمولا به شکل پنهانی در داده ها نهفته هستند و به سادگی خود را نشان می دهد. استخراج این داده ها یکی از کاربردهای اصلی داده کاوی است. روش کشف الگوهای پنهان که تاثیر مهمی در کشف و تشخیص بیماری ها دارد به طور معمول به کمک داده کاوی امکان پذیر است. در داده کاوی حجم زیادی از اطلاعات بیماران بررسی می شود و الگوهای مفید و پنهان آن کشف می شود. تشخیص به موقع بیماری دیابت یکی از روش های کنترل و درمان آن محسوب می شود. در این مقاله با استفاده از تکنیک داده کاوی و به کارگیری یک روش ابتکاری شامل ترکیب شبکه عصبی با الگوریتم هوش دسته جمعی ذرات، یک سیستم دقیق برای تشخیص بیماری دیابت ارایه می شود. یکی از ویژگی های مهم روش پیشنهادی استفاده از مجموعه داده استاندارد Pima پس آنچه شبکه عصبی و تشخیص بیماری دیابت است. در این روش همراه با آموزش شبکه عصبی از الگوریتم هوش دسته جمعی ذرات جهت تعیین بهینه تر اوزان شبکه عصبی استفاده می شود تا یک مدل پیش بینی بیماری دیابت دقیق ساخته شود. روش پیشنهادی پس معیار دقت، ویژگی و حساسیت با سه تکنیک معتبر تشخیص بیماری دیابت شامل رگرسیون، شبکه عصبی مصنوعی و درخت تصمیم گیری مورد ارزیابی قرار می گیرد و همان طور که نتایج شبیه سازی نشان می دهد و هر سه معیار عملکرد بهتری دارد و تا حدود خیلی زیادی منطبق بر مدل واقعی می باشد. به طوری که بیشترین مقدار دقت، ویژگی و حساسیت در روش پیشنهادی با تعداد 50 آزمایش مختلف به ترتیب 94.1% ، 92.88% و 92.12 می باشد.

  • شریف پژوه

پیاده سازی مقاله: روشی جهت تشخیص بدافزار با استفاده از الگوریتم های داده کاوی و هوش مصنوعی

پیاده سازی مقاله: روشی جهت تشخیص بدافزار با استفاده از الگوریتم های داده کاوی و هوش مصنوعی

چکیده:

بدافزار به هرگونه برنامه کامپیوتری اطلاق می شود که دارای اهداف مخرب باشد. این برنامه ها مهمترین تهدید برای سیستم هایکامپیوتری به حساب می آیند. تنوع این بدافزارها باعث محدود شدن راه کارهای مقابله با آنها شده است، به گونه ای که روزانه میلیون ها سیستمکامپیوتری بر اثر آسیب های ناشی از انواع ویروس ها، تروجان ها و کرم های اینترنتی و غیره آلوده می شوند. در سال های اخیر یکی از مهمترینچالش های امنیت اطلاعات و شبکه های ارتباطی، افزایش روز افزون انواع بدافزارها و به دنبال آن یافتن راه های مناسب جهت حفاظت سیستم ها درمقابل آنهاست که از مهمترین دغدغه های برنامه نویسان و متخصصین امنیت اطلاعات، شناخت به موقع و یافتن راه های مقابله با اثرات مخرباینگونه بدافزارها می باشد. در این راستا طی سالهای اخیر استفاده از الگوریتم های داده کاوی و هوش مصنوعی بعنوان یکی از روشهای نوظهور وامیدوار کننده توانسته است کاربرد بسیاری جهت شناسایی و تشخیص انواع بدافزارها داشته باشد. لذا در این تحقیق سعی کردیم با استفاده ازشبکه عصبی مصنوعی و الگوریتم ازدحام ذرات، فایل های آلوده به بدافزار را تشخیص دهیم. پیاده سازی روش پیشنهادی نشان میدهد که توانستهاست فایل های آلوده به بدافزار را با استفاده از مجموعه داده مربوط به فایل های سالم و آلوده به بدافزار با دقت 0.91 درصد تشخیص دهد که نشان ازعملکرد بالای آن دارد.

  • شریف پژوه

پیاده سازی مقاله: بکارگیری تکنیک های داده کاوی در تشخیص و پیش بینی کلاهبرداری بانکی

پیاده سازی مقاله: بکارگیری تکنیک های داده کاوی در تشخیص و پیش بینی کلاهبرداری بانکی

چکیده:

با گسترش روز افزون استفاده از سامانه های نوین بانکی و افزایش تعداد عملیات بانکی، سوء استفاده های مالی و تقلب در این عملیات بیشاز پیش گسترش پیدا کرده است. اینگونه سوء استفاده ها علاوه بر اتلاف منابع مالی، باعث کاهش اعتماد مشتریان به استفاده از سامانه های نوینبانکی و در نتیجه کاهش اثر بخشی این سامانه ها در مدیریت بهینه ی سرمایه و تراکنش های مالی می شود. در این پژوهش جهت کشف تقلببانکی بر روی مجموعه داده های بانکی ، از ترکیب الگوریتم های داده کاوی استفاده شده است. برای انجام کار در ابتدا، خوشه بندی رکوردهای دادهای موجود در مجموعه داده ها صورت گرفته است و به دنبال آن، تشخیص تراکنش های بانکی شبهه دار، در زمان انجام تراکنش تشخیص داده میشود. نتایج حاصل نشان می دهد که روش پیشنهادی دارای میزان دقت بالاتری نسبت به الگوریتم های داده کاوی دیگر همچون درخت تصمیم J48و جنگلهای تصادفی دارد.

  • شریف پژوه

پیاده سازی مقاله: تشخیص نفوذ در شبکه های کامپیوتری مبتنی بر سیستم های فازی و الگوریتم جستجوی ممنوعه

پیاده سازی مقاله: تشخیص نفوذ در شبکه های کامپیوتری مبتنی بر سیستم های فازی و الگوریتم جستجوی ممنوعه

چکیده:

 با توجه به گسترش و توسعه سریع شبکه های کامپیوتری، نفوذ و حملات به آن ها افزایش یافته و به طرق و شیوه های مختلف انجام می شود. هدف از تشخیص نفوذ برای شناسایی استفاده غیرمجاز، سوء استفاده، و آسیب پذیری های ایجاد شده توسط کاربران داخلی و مهاجمان خارجی است. در این مقاله قصد داریم که سیستم تشخیص نفوذ از نوع سوء استفاده مبتنی بر سیستم فازی و الگوریتم جستجوی ممنوعه را ارائه کنیم. در ابتدا دانش موردنیاز خود را از سیستم فازی که مجموعه ای از قوانین if-then است، را کسب کرده و سپس الگوریتم جستجوی ممنوعه برای بهینه کردن مجموعه قوانین به دست آمده را بر روی مجموعه داده NSL-KDD پیاده و اجرا نمودیم. نتایج به دست آمده در مقایسه با نتایج موجود حاکی از آن است که روش پیشنهادی از صحت و کارایی مناسبی برخوردار است.

  • شریف پژوه

پیاده سازی مقاله: ارایه یک روش انتخاب ویژگی جدید با بکارگیری الگوریتم رقابت استعماری در راهکار فیلتر

پیاده سازی مقاله: ارایه یک روش انتخاب ویژگی جدید با بکارگیری الگوریتم رقابت استعماری در راهکار فیلتر

چکیده:

 با پیشرفت تکنولوژی در زمینه داده کاوی، مجموعه های دادهای با ابعاد بالا در حال افزایش است که در آن بسیاری ازویژگیها بی ربط و زاید هستند و منجر به کاهش کارایی الگوریتم های دسته بندی میشود؛ بنابراین، کاهش ابعاد این مجموعه های دادهای تبدیل به یک تلاش ضروری شده است. انتخاب ویژگی یک تکنیک رایج برای غلبه بر این مشکل است که هدف آن، شناسایی زیرمجموعه ای از ویژگیهای مفید از بین مجموعه ویژگیهای اولیه برای بهبود عملکرد طبقه بندی است. در این مقاله، روش جدیدی برای انتخاب ویژگی مبتنی بر راهکار فیلتر به نامSimRelICA ارایه میشود. در روش پیشنهادی با بکارگیری الگوریتم رقابت استعماری چارچوبی ارایه شده که فرآیند انتخاب ویژگی را مستقل از هر طبقه بندی کننده، انجام میدهد. در ابتدا، هر کشور با استفاده از یک شکل جدید، بازنمایی میشود. سپس با توجه به این بازنمایی،روش جدیدی برای تولید جمعیت اولیه پیشنهاد شده است. در طی یک فرآیند تکرارشونده، روش پیشنهادی یک زیرمجموعه ویژگی مناسب را انتخاب میکند که در آن از تابع هزینه جدید برای محاسبه هزینه هر کشور استفاده شده است. این تابع هزینه به شکلی ارایه شده است که مناسب بودن هر ویژگی را ارزیابی میکند. عملکرد روش پیشنهادی با روشهای انتخاب ویژگی شناخته شده، با استفاده از طبقه بندی کنندههای مختلف مقایسه شده است. نتایج آزمایشها نشان از برتری روش پیشنهادیSimRelICA به لحاظ دقت طبقهبندی، بر روشهای انتخاب ویژگی موجود دارد. همچنین نتایج نشان میدهد که با توجه به مستقل بودن روش پیشنهادی از طبقه بندی کننده، عملکرد مناسبی بر روی طبقه بندی کننده های مختلف داشته است.

  • شریف پژوه

پروژه داده کاوی تشخیص سرطان با زبان R

سفارش انجام پروژه داده کاوی تشخیص سرطان:

سرطان نامی است که به مجموعهٔ بیماری‌هایی اطلاق می‌شود که از تکثیر مهارنشده سلول‌ها پدید می‌آیند. سلول‌های سرطانی از سازوکارهای عادی تقسیم و رشد سلول‌ها جدا می‌افتند. علت دقیق این پدیده همچنان نامشخص است ولی احتمال دارد عوامل ژنتیکی یا مواردی که موجب اختلال در فعالیت سلول‌ها می‌شوند در هسته سلول اشکال وارد کنند. از جملهٔ این موارد می‌توان از مواد رادیو اکتیو، مواد شیمیایی و سمی یا تابش بیش از حد اشعه‌هایی مانند نور آفتاب نام برد. در یک جاندار سالم، همیشه بین میزان تقسیم سلول، مرگ طبیعی سلولی و تمایز، تعادلی وجود دارد. برای مطالعه جزییات بیشتر در مورد بیماری سرطان کلیک کنید.

در این پروژه، با استفاده از زبان R، مجموعه داده های مربوط به سرطان (انواع سرطان) مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه

پروژه داده کاوی بازاریابی مستقیم (Direct marketing) با زبان R

سفارش انجام پروژه داده کاوی بازاریابی مستقیم:

بازاریابی مستقیم (Direct Marketing) یعنی استفاده از کانال های مستقیم مصرف کننده، برای رساندن و تحویل کالاها و خدمات به مشتریان بدون استفاده از واسطه های بازاریابی. این کانال ها شامل پست مستقیم، کاتالوگ ها، بازاریابی تلفنی، تلویزیون تعاملی، دکه ها، وب سایت ها، و تجهیزات همراه می شوند. بازاریاب های مستقیم به دنبال یک پاسخ قابل اندازه گیری، مثل سفارش مشتری هستند. برای مطالعه جزییات بیشتر در مورد بازاریابی مستقیم کلیک کنید.

در این پروژه، با استفاده از زبان R، مجموعه داده های مربوط به بازاریابی مستقیم مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه

پروژه داده کاوی تشخیص اسپم (Spam Detection) با زبان R

سفارش انجام پروژه داده کاوی نشخیص اسپم:

به سوءاستفاده از ابزارهای الکترونیکی مانند ایمیل، مسنجر، گروه‌های خبری ایمیلی، فکس، پیام کوتاه و... برای ارسال پیام به تعداد زیاد و به صورت ناخواسته اسپم می‌گویند. با توجه به هزینه اندک این روش نسبت به پست سنتی که در گذشته برای ارسال پلاک به پلاک تبلیغات مورد استفاده قرار می‌گرفت و همچنین ناقص بودن قوانین بین‌المللی برای محدود کردن هرزنامه، در حال حاضر اسپم ها در سطح وسیعی ارسال می‌شوند. امروزه اسپم‌ها به‌طور عمده با هدف‌های تجاری منتشر می‌شوند ولی اسپم‌های غیرتجاری مانند اسپم های سیاسی یا مذهبی نیز روز به روز در حال افزایش هستند. برای مقابله با اسپم ها تاکنون روش‌های متعددی ایجاد شده است و این روند با توجه به ابعاد گسترده آن، همچنان ادامه دارد. برای مطالعه جزییات بیشتر در مورد تشخیص اسپم کلیک کنید.

در این پروژه، با استفاده از زبان R، مجموعه داده های مربوط به تشخیص اسپم مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه

پروژه داده کاوی تشخیص تقلب در کارت های اعتباری با زبان R

سفارش انجام پروژه داده کاوی تشخیص تقلب در کارت های اعتباری:

به دلیل ضعف های امنیتی سیستم پردازش کارت هـای بـانکی، تقلـب در آن هـا رونـد رو به گسترشی دارد و خسارت های زیادی وارد می کند. تقلب در کارت های بانکی به یکی از راه های کسب درآمد بـرای مجرمـان تبـدیل شـده اسـت. به همین دلیل مسئله ی تقلب برای بانـکهـا و مؤسسه ها اهمیت بالایی دارد. رویکردهای تشخیص تقلب به طور گسترده به دو دسته تقسیم می شوند. مورد اول، تشخیص سو استفاده است که تلاش می کند که موارد مشاهده شده قبلی را در قالب یک الگو یا امضا تشخیص دهد. مورد دوم، تشخیص ناهنجاری است که تلاش می کند تا یک مشخصه از تاریخچه عملکرد برای هر کاربر ایجاد کرده و سپس با هرگونه انحراف به قدر کافی بزرگ، پی به یک رفتار مشکوک می برد.

در این پروژه، با استفاده از زبان R، مجموعه داده های مربوط به تشخیص تقلب در کارت های اعتباری مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه

پروژه داده کاوی پیش بینی نرخ جرم و جنایت (Crime Rate Prediction) با زبان R

سفارش انجام پروژه داده کاوی پیش بینی نرخ جرم و جنایت:

با گسترش روزافزون سیستم های کامپیوتری، تحلیلگران اطلاعات می توانند به روند حل جرم و جنایات سرعت بخشند و از این طریق به اجرای قانون کمک کنند. تجزیه و تحلیل و پیشگیری از جرم رویکردی برای شناسایی و تحلیل الگوها و روند جنایت است. در این پروژه اطلاعات ناشناخته و مفید از داده های بدون ساختار استخراج می شود و مناطقی که احتمال وقوع جرم و جنایت در آن ها وجود دارد، پیش بینی می شود.

در این پروژه، با استفاده از زبان R، مجموعه داده های مربوط به پیش بینی نرخ جرم و جنایت مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه

پیاده سازی الگوریتم ژنتیک در زبان R

پیاده سازی الگوریتم ژنتیک در زبان R:

الگوریتم‌های ژنتیک (به انگلیسی: Genetic algorithm) تکنیک جستجو در علم رایانه برای یافتن راه‌حل تقریبی برای بهینه‌سازی مدل، ریاضی و مسائل جستجو است. الگوریتم ژنتیک نوع خاصی از الگوریتم‌های تکاملی است که از تکنیک‌های زیست‌شناسی فرگشتی مانند وراثت، جهش زیست‌شناسی و اصول انتخابی داروین برای یافتن فرمول بهینه جهت پیش‌بینی یا تطبیق الگواستفاده می‌شود. الگوریتم‌های ژنتیک اغلب گزینه خوبی برای تکنیک‌های پیش‌بینی بر مبنای رگرسیون هستند. در مدل‌سازی الگوریتم ژنتیک یک تکنیک برنامه‌نویسی است که از تکامل ژنتیکی به عنوان یک الگوی حل مسئله استفاده می‌کند. مسئله‌ای که باید حل شود دارای ورودی‌هایی می‌باشد که طی یک فرایند الگوبرداری شده از تکامل ژنتیکی به راه‌حلها تبدیل می‌شود سپس راه حلها به عنوان کاندیداها توسط تابع ارزیاب (Fitness Function) مورد ارزیابی قرار می‌گیرند و چنانچه شرط خروج مسئله فراهم شده باشد الگوریتم خاتمه می‌یابد. بطور کلی یک الگوریتم مبتنی بر تکرار است که اغلب بخش‌های آن به صورت فرایندهای تصادفی انتخاب می‌شوند که این الگوریتم‌ها از بخش‌های تابع برازش، نمایش، انتخاب وتغییر تشکیل می‌شوند.. برای مطالعه جزییات بیشتر در مورد الگوریتم ژنتیک کلیک کنید.

در این پروژه، با استفاده از زبان R، پیاده سازی الگوریتم ژنتیک به همراه توضیحات مربوطه، ارائه می گردد.

  • شریف پژوه

عقیده کاوی نظرات کاربران دیجی کالا با زبان R

سفارش انجام پروژه عقیده کاوی نظرات کاربران دیجی کالا:

رشد استفاده از اینترنت و شبکه‌های اجتماعی، باعث ایجاد متون انبوهی حاوی عقاید افراد شده‌است که در گذشته قابل ثبت نبوده‌اند. آگاهی از عقاید افراد برای بسیاری از امور مرتبط با تصمیم‌گیری اهمیّت فراوانی دارد. متن‌کاوی که شاخه‌ای از داده‌کاوی است، اطلاعات مفیدی را از متن استخراج می‌کند، ولی برای استخراج عقاید باید سراغ روش‌های پیشرفته‌تری رفت. عقیده‌کاوی به عنوان شاخه‌ای از متن‌کاوی با تمرکز بر روی استخراج عقاید شناخته می‌شود.

عقیده‌کاوی کاربردهای فراوانی دارد. از مهم‌ترین کاربردهای آن می‌توان به دنبال‌کردن عقاید مردم توسط سیاستمداران، آگاهی تولیدکنندگان از سطح رضایت مشتریان و پیش‌بینی تغییرات بازار با توجه به نظرات افراد اشاره کرد. سرعت زیاد و هزینهٔ کم مهم‌ترین عوامل جایگزین‌کردن عقیده‌کاوی با روش‌های سنتّی (به کمک نیروی انسانی) هستند. برای مطالعه جزییات بیشتر در مورد عقیده کاوی کلیک کنید.

در این پروژه، با استفاده از نرم افزار زبان R، مجموعه داده های مربوط به نظرات کاربران دیجی کالا مورد بررسی قرار گرفته است. راهکارهای متعدد پاکسازی داده ها، دسته بندی، خوشه بندی بر روی داده ها اعمال شده است و نتایج در قالب مستندات و همچنین فایل های شبیه سازی فراهم شده است.

  • شریف پژوه
موضوعات
Latest Posts