صفحه محصول - پایان نامه داده کاوی در سازمان

پایان نامه داده کاوی در سازمان (docx) 1 صفحه


دسته بندی : تحقیق

نوع فایل : Word (.docx) ( قابل ویرایش و آماده پرینت )

تعداد صفحات: 1 صفحه

قسمتی از متن Word (.docx) :

centercenter 2042160-187325دانشگاه علامه طباطبايي دانشکده مديريت و حسابداري پايان نامه کارشناسي ارشد رشته مديريت امور شهري کاربرد داده کاوي در کشف دانش پنهان ميان داده هاي سامانه 137 شهرداري تهران استاد راهنما دکتر جمال شهرابي استاد مشاور دکتر غلامرضا کاظميان پژوهشگر مينا گشادرو زمستان 1390 تقديم به مادرم آن که از نگاهش صلابت، از رفتارش محبت و از صبرش ايستادگي را آموختم... به رسم ادب و احترام برخود لازم مي دانم، زحمات کليه اساتيد گرانقدرم را ارج نهاده و مراتب تشکر و سپاسگزاري قلبي خويش را از الطاف ايشان ابراز دارم. از جناب آقاي دکتر شهرابي استاد راهنماي گرامي که با راهنمايي هاي ارزنده و حمايت هاي هميشگي شان نقش چشمگيري در به ثمر رسيدن اين تحقيق داشته اند صميمانه تشکر مي کنم. از جناب آقاي دکتر کاظميان استاد مشاور گرامي به خاطر مساعدت ها و هم فکري هاي بي دريغشان سپاسگزارم. بي شک انجام اين پژوهش بدون همکاري و همدلي اين اساتيد غير ممکن مي نمود. هم چنین از جناب آقای مهندس مجیدی مدیر فنی مرکز سامانه مدیریت شهری 137 و جناب آقای فرهند معاون فرهنگی-اجتماعی شهرداری تهران به خاطر همکاری های صمیمانه شان در دریافت اطلاعات مورد نیاز و نیز از جناب آقای مهندس هداوندی که با راهنمایی های ارزنده خود سهم بسزایی در پیشرفت کار داشتند تشکر می نمایم. در پايان از خانواده ي مهربانم به ويژه خواهرم به خاطر صبوري، بردباري و حمايت هاي دلسوزانه شان سپاسگزارم. پبامبر اکرم (ص): دانش اگر در ثريا هم باشد مردماني از سرزمين پارس بدان دست خواهند يافت. چکيده شهرداري يکي از کليدي ترين سازمان هايي است که در ارائه ي خدمات شهري به شهروندان نقش مهمي ايفا مي کند. اين سازمان با به کار بستن دانش فن آوري اطلاعات و سيستم هاي مخابراتي و نيز توان متخصصان داخلي و مجرب در مديريت شهري، سامانه اي را ايجاد نموده است که شهروندان را نسبت به محيط زندگي خويش وارد عرصه مديريت مي نمايد و تلاش نموده امور شهري را با مشارکت فعال همين شهروندان به انجام رساند. از اين رو مي توان سامانه ي 137 را بانك اطلاعاتي دانست كه داده هاي ارزشمندي در زمينه ي مسايل شهري در آن جاي گرفته است. اطلاعات حاصل از اين سامانه، حاوي مطالب مفيدي در مورد خدمات ارائه شده به شهروندان است و مي تواند به عنوان منبعي مهم و مناسب در انجام تحليل هاي داده کاوي مورد استفاده قرار بگيرد. به عنوان نمونه با استفاده از اين تحليل ها مي توان وقايع و مشکلاتي که ممکن است در آينده گريبان شهر را بگيرد پيش بيني کرد و آماده مقابله با اين مشکلات شد. در اين تحقيق که از نوع تحقيقات کاربردی –توصيفی محسوب می شود، داده هاي سال 1389 سامانه 137 با استفاده از نرم افزار کلمنتاين 12 براي انجام فرايند داده کاوي مورد استفاده قرار گرفته است. يکي از نتايج اين تحقيق تعيين همگني مناطق از منظر سامانه 137 با استفاده از تکنيک خوشه بندي به دو دسته است؛ که نشان مي دهد مناطقي که در دسته دوم قرار گرفته اند آمادگي و آگاهي بيشتري براي برقراري ارتباط با سامانه دارند و ميزان تماس بالاتر شهروندان اين مناطق ارتباطي با مشکلات بيشتر آن ها ندارد. هم چنين با استفاده از قوانين وابستگي ارتباط ميان مشکلات، مناطق و نواحي مورد بررسي قرار گرفته است و مشخص گرديد کدام نواحي در هر منطقه بيشتر مستعد بروز برخي مشکلات و معضلات شهري هستند که شهرداري مي تواند با کسب آمادگي بيشتر از بروز آن جلوگيري نمايد. علاوه بر آن، نتايج به دست آمده، الگوهاي جالبي را نيز در پيش بيني تعداد تماس هاي مربوط به آب گرفتگي و آب افتادگي يک منطقه بر اساس ميزان بارش و يا تعيين وابستگي ميان پيام هاي آب گرفتگي بين نواحي مختلف يک منطقه خاص به دست داد. انتظار مي رود نتايج به دست آمده در مديريت مشکلات شهري و افزايش سطح رضايت مندي شهروندان موثر واقع شود. کلمات کليدي مديريت شهري، سامانه ي 137، داده کاوي، خوشه بندي، قوانين وابستگي، مدل خطي تعميم بافته، شبکه عصبي. فهرست مطالب عنوان صفحه فصل اول: کليات TOC \o "1-3" \f \h \z \u \t "Heading 4,1" مقدمه PAGEREF _Toc350583291 \h 1 1-1- بيان مساله PAGEREF _Toc350583292 \h 2 1-2- هدف تحقيق PAGEREF _Toc350583293 \h 3 1-3- سوالات تحقيق PAGEREF _Toc350583294 \h 3 1-4- اهميت و ضرورت تحقيق PAGEREF _Toc350583297 \h 4 1-5- قلمرو تحقيق PAGEREF _Toc350583298 \h 5 1-5-1-از منظر سازماني PAGEREF _Toc350583299 \h 5 1-5-2-از منظر زماني و مکاني PAGEREF _Toc350583300 \h 5 1-5-3-از منظر موضوعي PAGEREF _Toc350583301 \h 5 1-6- روش تحقيق و جمع آوري اطلاعات PAGEREF _Toc350583302 \h 5 1-7- تعريف واژه ها و اصطلاحات فنی PAGEREF _Toc350583303 \h 6 1-8- خلاصه فصل اول PAGEREF _Toc350583305 \h 6 فصل دوم: ادبيات تحقيق مقدمه PAGEREF _Toc350583306 \h 8 2-1- مباني نظري PAGEREF _Toc350583308 \h 9 2-1-1-تاريخچه داده کاوي PAGEREF _Toc350583309 \h 9 2-1-2-تعريف داده کاوي PAGEREF _Toc350583310 \h 10 2-1-3-انواع داده کاوي PAGEREF _Toc350583311 \h 11 2-1-4-دلايل استفاده از داده کاوي PAGEREF _Toc350583312 \h 12 2-1-5-پيش نيازهاي يک داده کاوي موفق PAGEREF _Toc350583313 \h 12 2-1-6-مراحل فرايند داده کاوي ( استاندارد CRISP-DM ) PAGEREF _Toc350583314 \h 13 2-1-6-1شناخت کسب و کار PAGEREF _Toc350583315 \h 14 2-1-6-2شناخت داده ها PAGEREF _Toc350583316 \h 14 2-1-6-3آماده سازي داده ها PAGEREF _Toc350583317 \h 15 2-1-6-4مدل سازي PAGEREF _Toc350583318 \h 15 2-1-6-5ارزيابي مدل PAGEREF _Toc350583319 \h 15 2-1-6-6توسعه ي مدل PAGEREF _Toc350583320 \h 16 2-1-7-قابليت هاي اساسي داده کاوي PAGEREF _Toc350583321 \h 16 2-1-7-1 طبقه بندي PAGEREF _Toc350583322 \h 16 2-1-7-2 پيش بيني PAGEREF _Toc350583323 \h 17 2-1-7-3تحليل خوشه اي PAGEREF _Toc350583324 \h 17 2-1-7-4تخمين PAGEREF _Toc350583325 \h 18 2-1-7-5گروه بندي شباهت يا قوانين وابستگي PAGEREF _Toc350583326 \h 19 2-1-7-6توصيف و نمايه سازي PAGEREF _Toc350583327 \h 20 2-1-8-دسته بندي الگوريتم هاي داده کاوي PAGEREF _Toc350583328 \h 20 2-1-9-الگوريتم هاي خوشه بندي PAGEREF _Toc350583329 \h 21 2-1-9-1روش افرازي ( تقسيم بندي) PAGEREF _Toc350583330 \h 21 2-1-9-1-1الگوريتم K-means PAGEREF _Toc350583331 \h 22 2-1-9-2روش هاي سلسله مراتبي PAGEREF _Toc350583332 \h 22 2-1-9-3روش هاي مبتني بر چگالي PAGEREF _Toc350583333 \h 23 2-1-10-الگوريتم هاي وابستگي قواعد PAGEREF _Toc350583334 \h 23 2-1-10-1الگوريتم Naïve PAGEREF _Toc350583335 \h 23 2-1-10-2 الگوريتم Apriori PAGEREF _Toc350583336 \h 24 2-1-11-الگوريتم هاي طبقه بندي PAGEREF _Toc350583337 \h 26 2-1-11-1الگوريتم درخت طبقه بندي و رگرسيون (CART) PAGEREF _Toc350583338 \h 26 2-1-11-2الگوريتم درخت تصميم C4.5 PAGEREF _Toc350583339 \h 27 2-1-11-3الگوريتم هاي شبکه هاي بيزين PAGEREF _Toc350583340 \h 29 2-2-1-مديريت شهري و شهرداري PAGEREF _Toc350583342 \h 30 2-2-2-نقش فن آوري اطلاعات در توسعه ي مديريت شهري PAGEREF _Toc350583343 \h 31 2-2-3-معرفي سامانه مديريت شهري 137 شهرداري تهران PAGEREF _Toc350583344 \h 33 2-2-3-1نحوه ي عملکرد سامانه مديريت شهري 137 PAGEREF _Toc350583345 \h 36 2-2-3-2ماموريت هاي مرکز سامانه مديريت شهري 137 PAGEREF _Toc350583346 \h 38 2-2-3-3رويکردهاي اجرايي مرکز سامانه مديريت شهري 137 PAGEREF _Toc350583347 \h 38 2-2-3-4چشم انداز مرکز سامانه مديريت شهري 137 PAGEREF _Toc350583348 \h 39 2-2-3-5ساختار سازماني سامانه مديريت شهري 137 PAGEREF _Toc350583349 \h 39 2-2 مدل مفهومي تحقيق PAGEREF _Toc350583350 \h 40 2-3- ادبيات ياپيشينه تحقيق PAGEREF _Toc350583351 \h 40 2-4- خلاصه فصل دوم PAGEREF _Toc350583352 \h 44 فصل سوم: روش تحقيق مقدمه PAGEREF _Toc350583353 \h 46 3-1- نوع تحقيق PAGEREF _Toc350583355 \h 46 3-2- مدل فرايندي داده کاوي بر اساس استاندارد CRISP-DM PAGEREF _Toc350583356 \h 47 3-2-1-شناخت کسب و کار PAGEREF _Toc350583357 \h 47 3-2-2-شناخت داده ها PAGEREF _Toc350583358 \h 48 3-2-3-آماده سازي داده ها PAGEREF _Toc350583359 \h 48 3-2-4-مدل سازي PAGEREF _Toc350583360 \h 49 3-2-5-ارزيابي مدل PAGEREF _Toc350583361 \h 49 3-2-6-توسعه مدل PAGEREF _Toc350583362 \h 49 3-3-داده هاي تحقيق PAGEREF _Toc350583363 \h 50 3-4-جامعه آماري, روش نمونه گيري و حجم نمونه PAGEREF _Toc350583364 \h 50 3-5-روش گردآوري اطلاعات و ابزار سنجش PAGEREF _Toc350583365 \h 50 3-6-نوع داده ها و مقياس آن ها PAGEREF _Toc350583366 \h 51 3-7-ساختار اجرايي تحقيق PAGEREF _Toc350583367 \h 51 3-7-1-درک مساله کسب و کار PAGEREF _Toc350583368 \h 51 3-7-2-درک داده ها PAGEREF _Toc350583369 \h 52 3-7-3-آماده سازي داده ها PAGEREF _Toc350583370 \h 53 3-7-4-مدل سازي PAGEREF _Toc350583371 \h 55 3-7-5-ارزيابي نتايج PAGEREF _Toc350583372 \h 56 3-7-6-به کارگيري مدل PAGEREF _Toc350583373 \h 56 3-8-مدل اجرايي تحقيق PAGEREF _Toc350583374 \h 56 3-9-خلاصه فصل سوم PAGEREF _Toc350583375 \h 58 فصل چهارم: تجزيه و تحليل داده ها مقدمه PAGEREF _Toc350583376 \h 60 4-1- توصيف داده ها PAGEREF _Toc350583378 \h 60 4-2- تحليل توصيفي داده ها با استفاده از جداول و نمودارهاي توصيفي PAGEREF _Toc350583379 \h 63 4-2-1-طبقه بندي بر اساس نوع مشکل PAGEREF _Toc350583380 \h 63 4-2-2-طبقه بندي بر اساس منطقه بروز مشکل PAGEREF _Toc350583381 \h 66 4-2-3-شاخص‌هاي توصيفي سرانه PAGEREF _Toc350583382 \h 67 4-3- تحليل داده ها با استفاده از تکنيک هاي داده کاوي PAGEREF _Toc350583383 \h 70 4-3-1-شناسايي مناطق همگن از منظر سامانه 137 PAGEREF _Toc350583384 \h 70 4-3-1-1ارزيابي خوشه ها PAGEREF _Toc350583385 \h 76 4-3-2-پيش بيني وضعيت تماس هاي آب گرفتگي در هر يک از مناطق به ازاي بارش هر ميليمتر باران PAGEREF _Toc350583386 \h 77 4-3-2-1 مدل تعميم يافته خطي PAGEREF _Toc350583387 \h 77 4-3-2-2مدل شبکه‌هاي عصبي PAGEREF _Toc350583388 \h 82 4-3-3تعيين ارتباط ميان آب گرفتگي نواحي مختلف يک منطقه PAGEREF _Toc350583389 \h 84 4-3-4تعيين نواحي مستعدتر در هر منطقه در بروز مشکلات و معضلات شهري PAGEREF _Toc350583390 \h 86 4-4- خلاصه فصل چهارم PAGEREF _Toc350583391 \h 87 فصل پنجم: بحث و نتيجه گيری مقدمه PAGEREF _Toc350583392 \h 89 5-1-خلاصه PAGEREF _Toc350583394 \h 89 5-2- دلايل با اهميت بودن نتايج و دستاوردهاي تحقيق PAGEREF _Toc350583395 \h 90 5-3- جنبه ي نوآوري تحقيق PAGEREF _Toc350583396 \h 91 5-4- نتايج تحقيق PAGEREF _Toc350583397 \h 91 5-4-1-نتايج تحليل توصيفي PAGEREF _Toc350583398 \h 91 5-4-2-نتايج حاصل از تحليل داده کاوي و ارائه ي دانش استخراج شده PAGEREF _Toc350583399 \h 94 5-4-2-1نتايج حاصل از شناسايي مناطق همگن با استفاده از روش خوشه بندي دو مرحله اي PAGEREF _Toc350583400 \h 94 5-4-2-2- نتايج پيش بيني تماس هاي آب گرفتگي در هر يک از مناطق به ازاي بارش هر ميليمتر باران PAGEREF _Toc350583401 \h 95 5-4-2-3تعيين ارتباط میان آب گرفتگي نواحي مختلف يک منطقه96 5-4-2-4نتايج تحليل قوانين وابستگي براي شناسايي نواحي مستعدتر در هر منطقه در بروز مشکلات و معضلات شهري PAGEREF _Toc350583403 \h 97 5-5- پاسخ به سوالات تحقيق PAGEREF _Toc350583404 \h 97 5-6- محدوديت‌هاي تحقيق PAGEREF _Toc350583405 \h 98 5-7- پيشنهادات تحقيق PAGEREF _Toc350583406 \h 99 5-8- پيشنهادات جهت تحقيقات آتي PAGEREF _Toc350583407 \h 100 5-9- خلاصه فصل پنجم PAGEREF _Toc350583408 \h 101 فهرست منابع102 چکیده انگلیسی105 فهرست جداول عنوان صفحه TOC \h \z \t "Mina -Jadval,1" جدول 2-1 : نمونه اي از جدول پيام PAGEREF _Toc317048851 \h 35 جدول 2-2: تحقيقات خارجي در زمينه کاربرد داده کاوي در مراکز تماس PAGEREF _Toc317048852 \h 444 جدول4-1 : فيلد هاي جدول پيام61 جدول 4-2: فيلد هاي جدول اطلاعاتي مربوط به اعتبار مصوب عمراني مناطق PAGEREF _Toc317048854 \h 61 جدول4-3: فيلد هاي جدول اطلاعاتي مربوط به بارش مناطق PAGEREF _Toc317048855 \h 61 جدول4-4: فراواني گروه هاي تماس PAGEREF _Toc317048856 \h 63 جدول4-5 پراکندگي مشکلات مربوط به گروه جمع آوري و نصب65 جدول4-6 : طبقه بندي مشکلات بر اساس منطقه PAGEREF _Toc317048858 \h 66 جدول 4-7 سرانه تماس و بودجه مناطق بيست و دو گانه تهران68 جدول4-8: شاخص‌هاي نيکويي برازش PAGEREF _Toc317048860 \h 78 جدول4-9: آزمون درستنمايي مدل خطي تعميم يافته PAGEREF _Toc317048861 \h 78 جدول4-10 آزمون عوامل مدل خطي تعميم يافته79 جدول4-11 آزمون ضرائب مدل خطي تعميم يافته79 جدول4-12 بخشي از ارتباط‌هاي دنباله‌اي شناسايي شده PAGEREF _Toc317048864 \h 85 جدول4-13 قوانين شناسايي شده به روش GRI PAGEREF _Toc317048865 \h 86 فهرست شکل ها عنوان صفحه TOC \h \z \t "Mina-Shekl,1" شکل 2-1 مراحل فرايند کشف دانش و جايگاه داده کاوي. PAGEREF _Toc363221364 \h 11 شکل2-2 مراحل فرايند CRISP-DM PAGEREF _Toc363221365 \h 13 شکل 2-1 چرخه گردش پيام- ماخذ: مرکز سامانه 137 PAGEREF _Toc363221366 \h 36 شکل 2-2ساختار سازماني سامانه مديريت شهري سامانه 137-ماخذ: مرکز مديريت سامانه 137 PAGEREF _Toc363221367 \h 39 شکل2-3 مدل مفهومي تحقيق PAGEREF _Toc363221368 \h 40 شکل3-1وضعيت ايستگاه هاي پنج گانه هواشناسي مستقر در شهر تهران مي باشد. PAGEREF _Toc363221369 \h 53 شکل3-2 روش اجرايي تحقيق PAGEREF _Toc363221370 \h 57 شکل4-1: درصد فراواني هر کدام از گروه‌هاي تماس PAGEREF _Toc363221371 \h 64 شکل 4-2 :سهم مناطق در تماس هاي از نوع "جمع آوري خاک و نخاله" و "نصب سطل زباله مخزن دار" PAGEREF _Toc363221372 \h 66 شکل4-3: رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمرانی PAGEREF _Toc363221373 \h 69 شکل4-4 بررسي نه عامل اول در خوشه بندي PAGEREF _Toc363221374 \h 73 شکل4-5 بررسي نه عامل دوم در خوشه بندي PAGEREF _Toc363221375 \h 74 .شکل 4-6 بررسي هفت عامل آخر در خوشه بندي PAGEREF _Toc363221376 \h 75 شکل 4-7 اعضاي خوشه هاي اول و دوم PAGEREF _Toc363221377 \h 76 شکل 4-8 : آناليز مدل خطی تعميم يافته PAGEREF _Toc363221378 \h 81 شکل 4-9: نمودار صعود PAGEREF _Toc363221379 \h 81 شکل 4-10: مدل شبکه عصبي PAGEREF _Toc363221380 \h 83 شکل 4-11: آناليز مدل شبکه عصبی PAGEREF _Toc363221381 \h 84 شکل 5-1 : رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمراني PAGEREF _Toc363221382 \h 93 شکل 5-2 اعضای خوشه اول و دوم PAGEREF _Toc363221383 \h 94 1 فصل اول کليات مقدمه تمايل به شهرنشيني و جاذبه هاي آن در ميان جامعه، به حدي رو به افزايش است که در حال حاضر شهرها به عنوان مهم ترين پايگاه رشد و توسعه و مرکز اصلي تحولات قرار گرفته اند. بنابراين در مسير دستيابي به توسعه ي پايدار، شهر يک شاخص مهم تلقي مي گردد که رشد وبالندگي آن ارتباط مستقيم با چگونگي مديريت و دستاورد هاي حاصله دارد. مشارکت اگرچه به معناي عام آن از ديرباز با زندگي انسان پيوند داشته، اما به معناي جديد از عرصه سياست و پس از جنگ جهاني دوم آغاز شده است. اين نوع مشارکت در برخي از کشورهاي صنعتي جهان، در قلمرو اقتصادي و صنعتي آغاز شد؛ تا مردم را در مالکيت شريک سازد و پايه هاي پايدار و تداوم صنعت و اقتصاد را مستحکم سازد.     اما تازه ترين زمينه ي مشارکت، مشارکت شهروندان در اداره ي امور شهرهاست. اين نوع مشارکت يکي از الزامات زندگي شهري است و هنگامي تحقق مي يابد که شهرنشينان از حالت فردي که صرفاً در مکاني به نام شهر زندگي مي کنند درآيند و به شهروند بدل شوند. مي توان گفت يکي از مسائل مهم در عرصه ي مديريت شهري، نحوه ي ارزيابي شهروندان از عملکرد مديريت شهري، اعتماد به اين نهاد و مشارکت در آن است. در اين ميان، نحوه ی عملکرد مديريت شهري، خود مي تواند عامل مهمي براي ميزان اعتماد شهروندان به مديريت شهري و مشارکت با آن باشد. به عبارت ديگر با توجه به گسترش شهر نشيني و مهاجرت به شهرها، به خصوص كلان شهر تهران و با در نظر گرفتن جمعيت ميليوني اين شهر، عدم كارايي مديريت سنتي شهر و لزوم بهره گيري از مديريت متمركز همراه با به كارگيري از بروزترين دانش فن آوري اطلاعات، احساس مي شود. يكي از مشكلات بارز شهر تهران، عدم اطلاع به موقع مديران شهري از وجود و بروز حوادث و مشكلات در شهر مي باشد كه مشاركت بيشتر شهروندان در اداره ي شهر و برقراري ارتباط مستقيم مردم با سيستم مديريت شهري از طريق يك وسيله در دسترس و ارزان قيمت راه حل اين معضل بزرگ مي باشد(اميري 1389). از اين رو شهرداري تهران در يک اقدام ابتکاري و با استفاده از فن آوري هاي نوين اطلاعاتي و ارتباطاتي، به راه‌اندازي سامانه ي مديريت شهري 137 جهت ايجاد ارتباط مستقيم شهروندان با مديران شهري به منظور انتقال نظرات و خواسته‌ها و بيان مشکلات مربوط به امور مديريت شهري اقدام کرده است. از طرفي تنوع و پيچيدگي در حوزه ي خدمات شهرداري، دسترسي به دانش مناسب براي تصميم گيري و توليد اطلاعات از ميان حجم انبوهي از داده ها را براي اين سازمان، بيش از پيش ضروري مي سازد. استفاده از فن آوري اطلاعات و ارتباطات نقش اساسي در حل مسائل تهران و کلان شهرها دارد. اين مساله به ويژه در مديريت شهري، اقتصاد شهري، توليد شغل و ارتقاي سطح فرهنگ شهروندي نقشي اساسي ايفا مي کند(هراتي زاده، 1386). يکي از ابزارهاي مناسب جهت ايجاد اين دانش سازماني و کمک به مديران در تصميم سازي و تصميم گيري صحيح به کارگيري فن آوري هاي نوين، نظير داده کاوي است. از اين رو هدف اين تحقيق، به کارگيري تکنيک هاي داده کاوي در شناسايي و پيش بيني، نيازها و مشکلات شهري بر اساس داده هاي بدست آمده از سامانه ي مديريت شهري 137 مي باشد. بيان مساله شهرها، امروزه بسيار پيچيده شده اند. مشکلات متعددي هم چون آلودگي هوا، آلودگي صوتي، توليد انبوه زباله، دفن زباله هاي توليدي، توسعه معابر و آسفالت، فضاي سبز، بهداشت، و ... شهرها را احاطه کرده اند. با توسعه ي شهرها وظايف شهرداري ها در خدمت رساني هم توسعه پيدا کرده است. در مديريت‌ شهري‌ امروز که آن را اداره‌ امور شهر به‌منظور ارتقاي مديريت‌ پايدار مناطق‌ شهري‌ در سطح‌ محلي و‌ با تبعيت‌ از اهداف‌ سياست هاي‌ ملي، اقتصادي‌ و اجتماعي‌ کشور مي دانند، مشارکت و تعامل، مفاهيمي محوري مي باشند(ويژه‌نامه‌ مرکز مطالعات‌ برنامه‌ريزي‌ شهري، شهرداري‌ تهران‌ 1387، ص 7). يکي از راه هاي مشارکت شهروندان در اداره ي امور شهر برقراري ارتباط با شهرداري از طريق سامانه 137 مي باشد. اين سامانه که در رويكردي نوين توسط شهرداري تهران و با بهره مندي از دانش فن آوري اطلاعات، ايجاد شده است سعي در انجام سريع و دقيق امور شهري با نظر مستقيم و مشاركت فعال شهروندان دارد و تلاش مي نمايد ساكنين شهر را نسبت به محيط زندگي خويش وارد عرصه ي مديريت نمايد. از نگاهي ديگر سامانه 137 يك بانك اطلاعاتي است كه داده هاي ارزشمندي در مورد مسايل شهري را در خود جاي داده است. كليه پيام ها و درخواست هاي مردم در بانك اطلاعاتي مركز سامانه 137 ذخيره شده و با استفاده از اين داده ها مي توان تحليل هايي كاربردي در بازه هاي زماني مختلف و به تفكيك لايه هاي مختلف اطلاعاتي مانند مناطق، نواحي و واحدهاي مختلف سازماني ارائه كرد. با استفاده از اين تحليل ها مي توان وقايع و مشكلاتي كه ممكن است در آينده گريبان شهر را بگيرد پيش بيني كرد و آماده مقابله با اين مشكلات شد. توانايي استخراج دانش مفيد نهفته در اين داده ها در جهان امروزي خود يک توانايي رقابتي محسوب مي شود و در چنين شرايطي است که بايد از رشد تکنولوژي براي استفاده موثر از اين ثروت بالقوه سود جست و داده کاوي نيز يک جواب بهينه براي استخراج اين ثروت است. داده کاوي که يکي از ده دانش در حال توسعه مي باشد امروزه در امور کسب و کار مورد توجه بيشتر سازمان ها قرار گرفته است و هدف آن استخراج اطلاعات از پايگاه هاي داده و يافتن الگوهاي جديد، معتبر، مفيد و قابل فهم در داده ها مي باشد (http:// www.wikipedia.org). در طول دهه گذشته، حجم زيادي از داده ها در پايگاه داده ها انباشته و ذخيره شده اند و نتيجه اين انباشتگي اين است که سازمان ها در داده غني ولي در کسب دانش بسيار ضعيف مي باشند. امروزه ميزان داده هاي در دسترس هر 3 سال دو برابر مي شود و سازماني تواناست که قادر باشد حداقل 7 درصد از اطلاعاتش را مديريت نمايد. تحقيقات انجام يافته نشان از آن دارد که سازمان ها امروزه کمتر از يک درصد از داده هايشان را براي تحليل استفاده مي نمايند. به عبارت ديگر امروزه سازمان ها در اطلاعات غرق شده اند در حالي که گرسنه دانش هستند؛ چرا که سازمان ها داده هاي زيادي را در تصرف خود دارند درحالي که هنوز با فقدان دانش پنهان درون داده ها مواجه هستند(www.irandatamining.ir). هدف تحقيق به کارگيري برخی از قابليت هاي داده کاوي نظير Clustering، Association Rules و ... بر روي اطلاعات سامانه ي137 و کشف روابط و الگوهاي پنهان ميان داده ها با استفاده از تکنيک هاي مختلف هريک از آن ها و بررسي و تحليل نتايج به دست آمده به منظور ارتقاي کيفيت خدمات شهري. سوالات تحقيق چگونه مي توان با استفاده از تکنيک هاي داده کاوي بر روي داده هاي سامانه 137 شهرداري تهران به پيش بيني مشکلات مناطق22 گانه شهرداري در حوزه ي کلان شهري پرداخت؟ چگونه مي توان با استفاده از تکنيک هاي داده کاوي بر روي داده هاي سامانه 137 شهرداري به کشف الگوي پنهان ميان مشکلات مناطق و حوزه هاي مختلف شهرداري دست يافت؟ اهميت و ضرورت تحقيق با رشد فزاينده ي جمعيت در کلان‌شهر تهران و به دنبال آن افزايش مشکلات و مسائل ناشي از شهرنشيني در ابعاد وسيع اقتصادي، اجتماعي، فرهنگي و زيست‌محيطي، لزوم ايجاد و استفاده از بسترهاي مديريت شهري جديد همراه با به‌روزترين و کاربردي‌ترين فن آوري‌ها احساس مي‌شود (اميري، 1388،ص3 ). تهران با جمعيت بيش از 8217236 نفر(سالنامه آماري شهر تهران- 1388) و مساحت 730 کيلومتر مربع پرجمعيت ترين کلان شهر ايران محسوب مي شود. ناگفته پيداست که ارائه خدمات شهري در چنين کلان شهري با تراکم بيش از 11256 نفر بر کيلومتر مربع که سفرهاي آونگي ساکنين شهرهاي دور و نزديک اطراف نيز به جمعيت روز آن مرتباً مي افزايد، نيازمند به کارگيري تمهيدات ويژه بوده و بدون حضور و نقش فعال شهروندان امکان پذير نمي باشد. يکي از مشکلات رايج و فراگيري که در مديريت كلان‌شهر تهران مشاهده مي‌شود، ضعف دريافت اطلاعات به موقع مديران شهري درباره نيازهاي شهروندان و تشخيص ضرورت‌هاي ارائه خدمات شهري در نواحي و مناطق مختلف شهرداري مي‌باشد. در اين ميان يکي از بهترين روش‌ها براي کسب اطلاعات دقيق در زمينه ی مسائل و مشكلات شهروندان و دريافت نقطه‌نظرات مردم پيرامون مديريت شهري، ايجاد خطوط ارتباطي مناسب با شهروندان و كسب اطلاعات از طريق خود آنان مي‌باشد و اين مهم با ايجاد سامانه اي موسوم به 137 در شهرداري تهران دنبال مي‌شود. از اين رو شماره 137 پل ارتباطي بين شهروندان و شهرداري تهران است؛ که به شهروندان اجازه مي دهد مشکلات و کمبودهاي موجود در شهر را به اطلاع شهرداري برسانند. به عبارت ديگر سامانه 137، که از سال 1384 جايگزين صندوق صوتي پيام گير شهرداري گرديده است، فرايندي است که با سرلوحه قرار دادن اصول شهروند مداري، محله گرايي و مشارکت مردمي به اجرا در آمده تا اين مشکلات و درخواست هاي شهروندان را رسيدگي و برطرف نمايد. کاوش داده ها و اطلاعات جمع آوري شده از طريق اين سامانه مي تواند منجر به شناسايي الگوهاي مهم و پنهاني شود که پيش از آن ممکن است مورد توجه قرار نمي گرفته و دانستن آن مديران شهري را در ارائه ي مطلوب خدمات شهري به شهروندان ياري مي رساند. زيرا دانش داده کاوي سازمان ها را قادر مي سازد تا از سرمايه ي داده هايشان بهره برداري نمايند. از اين ابزار براي پشتيباني فرايند تصميم گيري استفاده مي گردد. داده کاوي با پردازش جامع داده و انجام فرايند تصميم سازي از طريق استخراج دانش با ارزش از داده، تصميم گيري را براي مديران سازمان تسهيل مي نمايد. قلمرو تحقيق از منظر سازماني قلمرو اين تحقيق از منظر سازماني، مرکز مديريت شهري سامانه ي 137 شهرداري تهران است که از سال 1384 جايگزين صندوق صوتي پيام گير شهرداري گرديده و اصول شهروند مداري، محله گرايي و مشارکت مردمي را سرلوحه خود در رسيدگي به درخواست ها و مشکلات مردم شهر تهران نموده است. از منظر زماني و مکاني قلمرو اين تحقيق از منظر مکاني – زماني، پيام ها و درخواست هاي واصله شهروندان در همه مناطق 22 گانه شهرداري تهران است که در طول فروردين تا اسفند ماه سال 1389 از طريق کانال هاي ارتباطي با 137 دريافت شده است. از منظر موضوعي از منظر موضوعي اين تحقيق در حوزه ي کاربرد داده کاوي در مديريت شهري جاي دارد. به اين ترتيب که در نتيجه داده کاوي سامانه 137 و کشف دانش پنهان ميان داده ها، به توسعه مديريت شهري خواهيم رسيد. کشف دانش پنهان منجر به تسهيل در امر تصميم سازي مديران، تخصيص بهينه منابع و آمادگي بيشتر در مقابل معضلات شهري خواهد شد. و در نتيجه توسعه مديريت شهري به افزايش مشارکت هاي مردمي و به کارگيري هر چه بيشتر فن آوري هاي نوين اطلاعاتي در فرايندهاي شهري نايل مي شويم. روش تحقيق و جمع آوري اطلاعات تحقيق حاضر از نظر هدف کاربردي و از نظر روش تشريحي محسوب مي شود. در اجراي تکنيک هايداده کاوي، از نرم افزار Clementine 12 استفاده شده است. دليل استفاده از اين نرم افزار توانايي آن در پردازش مجموعه هاي داده اي بزرگ و متداول بودن آن در ميان کاربران است. در بخش آماده سازي داده ها از نرم افزارهايي نظير Sql server 2008، Excel 2007 و Spss 16 استفاده شده است. داده هاي اصلي اين تحقيق شامل برشي از بانک داده سامانه 137 در مقطع سال 89 مي باشد که از طريق مراجعه حضوري به آن مرکز و طي مراحل استاندارد و قانوني گرد آوري گرديده است. ساير داده هاي تحقيق که شامل اعتبار مصوب عمراني مناطق و ميزان بارش روزانه در سال 89 مي شود از اطلاعات معتبر منتشر شده در سايت اينترنتي شهرداري و هواشناسي به دست آمده است. تعريف واژه ها و اصطلاحات فنی داده کاوي(Data Mining): علم استخراج اطلاعات مفيد از پايگاه‌هاي داده يا مجموعه داده‌اي مي‌باشد. انباره داده ها (Data Warehouse) : مجموعه اي از داده هاي ذخيره شده به شکل الکترونيکي در يک سازمان که به منظور استفاده در فعاليت هاي تحليلي و گزارش گيري طراحي و راه اندازي شده است. خوشه بندي(Clustering): يکي از تکنيک هاي مهم داده کاوي است که اشياء با تعداد زيادي مشخصه را به زيرگروههاي معني دار جدا ازهم تقسيم بندي مي کند. به طوري که اعضاي هر گروه از نظر مقدار مشخصه هايشان، بيشترين شباهت را به هم دارند و با اعضاي ساير گروه ها بيشترين تفاوت را دارند.( هن و کمبر 2006) قوانين وابستگي (Association Rules): هدف قوانين وابستگي تعيين کردن اين است که چه پديده هايي با هم در ارتباط بوده و به هم وابسته اند. نمونه ي اصلي اين کار تعيين اقلامي است که با هم در چرخه ي خريد مشتريان يک سوپرمارکت قرار مي گيرند. خلاصه فصل اول در اين فصل به کليات تحقيق پرداخته شد که شامل: بيان مساله، هدف تحقيق، سوالات تحقيق، اهميت و ضرورت تحقيق، قلمرو سازماني- زماني و مکاني- موضوعي تحقيق، روش تحقيق و جمع آوري اطلاعات، تعريف واژه ها و اصطلاحات فنی مي شد. توضيحات لازم ذيل هر بخش به تفصيل آورده شده است تا تصويري جامع و کلي از چارچوب تحقيق انجام يافته ارائه شود. 2 فصل دوم ادبيات تحقيق مقدمه اصولاً پيدايش و رواج اصطلاح مديريت شهري به مفهوم جديد آن را بايد نتيجه ي تلاش هاي نظري و عملي براي غلبه بر انبوه مشکلات موجود در کلان شهرها به ويژه در نيمه دوم قرن بيستم دانست ( کاظميان، 1382، صص 43و 51). مديريت شهري معاني و محتواهاي متفاوتي براي انديشمندان مختلف در برداشته و دارد. مفاهيم و تعاريف اوليه در چارچوب سنت و طرز تلقي محدود، تکنوکراتيک و سياست زدايي شده از مديريت شهري ارائه شده اند. همه ي اين تعاريف مديريت شهري را در چارچوب اداره ي امور عمومي محدود مي کنند(Mattingly, 1994). امروزه شهرها با افزايش مداوم جمعيت و نيازهاي اجتماعي وابسته به آن روبرو هستند ولي منابعي که در اختيار شهرداري ها قرار مي گيرد به همان نسبت افزايش نمي يابد. اهميت حفظ تعادل بين نيازهاي اجتماعي، اقتصادي و محيطي نسل حاضر و آينده از طيف توسعه انساني پايدار، تغيير پارادايمي را در مديريت شهري و ارائه ي خدمات شهري به وجود آورده است. اين تغيير پارادايم به ورود مفاهيمي چون مشارکت شهروندي، جامعه مدني، مقتدرسازي، مشغوليت مدني و حکمراني شهري انجاميده است(شريفيان ثاني، 1388، ص 43). مشاوره و کسب نظر شهروندان، در صورتي که واقعي باشد، سودمند است. مخالفان نظارت شهروندي چنين نظارتي را سد راه ارائه ي خدمات مطلوب مي دانند. مشارکت عمومي همواره، امري مطلوب به شمار مي آيد، اما برنامه ريزان در عمل، براي جلب مشارکت شهروندان با مشکل روبرويند. مشارکت گونه هاي مختلف دارد که برخي از آن ها عبارتند از: مشارکت از طريق مشاوره و درخواست پاسخ به پرسش ها از سوي اجتماعات و مشارکت به دليل انگيزه هاي مادي که در آن اجتماع منابعي مانند نيروي کار و پول و غذا را در برابر محرک هاي مادي در اختيار مي گذارند(شريفيان ثاني، 1388، ص 42). يکي از جنبه هاي بارز مشارکت مردم در اداره ي امور شهر برقراري ارتباط با شهرداري از طريق سامانه ي مديريت شهري 137 شهرداري تهران مي باشدکه تلاش نموده با سرلوحه قرار دادن اصول شهروند مداري، محله گرايي و مشارکت مردمي به رسيدگي به درخواست ها و مشکلات مردم شهر تهران بپردازد. از طرف ديگر، امروزه شهرداري ها نيز هم چون ديگر سازمان ها غرق در انبوه داده ها و اطلاعاتي هستند که استفاده از آن ها در بيشتر موارد، محدود به انجام کارهاي جاري شده است. داده کاوي که استفاده از آن نيز روز به روز توسعه مي يابد، مي تواند منجر به استفاده از اين اطلاعات در زمينه ي تصميم گيري هاي استراتژيک شود. در اين فصل به ارائه ي مباني نظري تحقيق، مفاهيم و ابعاد تحقيق و مدل مفهومي تحقيق مي پردازيم. مباني نظري تاريخچه داده کاوي ايده اي که مبناي داده کاوي است، يک فرايند با اهميت از شناخت الگوهاي بالقوه مفيد، بديع و نهايتاً قابل درک از داده هاست. واژه «کشف دانش در پايگاه داده ها» که به معناي جستجوي دانش در اطلاعات است، در اوايل دهه 80 شکل گرفته است. کشف دانش و داده کاوي يک حوزه جديد، ميان رشته اي و در حال رشد است که حوزه هاي مختلفي هم چون پايگاه داده، آمار، يادگيري ماشين، مصور سازي، هوش مصنوعي، بازشناسي الگو و ساير زمينه هاي مرتبط را با هم تلفيق کرده است تا اطلاعات و دانش ارزشمند نهفته در حجم بزرگي از داده ها را استخراج نمايد( فياد و همکاران، 1996، هن و کمبر، 2006). هن و کمبر (2006) داده کاوي را به صورت استخراج يا کاوش دانش از مقادير عظيم داده ها تعريف کرده و داده کاوي را مهم ترين مرحله در فرايند کشف دانش معرفي کرده اند. جايگاه استخراج دانش و کاوش داده ها در شکل 2-1 نشان داده شده است. تعريف داده کاوي داده کاوي به استخراج يا کاوش دانش از حجم زيادي داده اطلاق مي شود که در واقع تشبيهي از کاوش طلا از صخره ها و سنگ هاست. کاوش واژه اي صريح و روشن است که فرايند يافتن يک مجموعه ي کوچک از مواد با ارزش در حجم زيادي از مواد خام را توصيف مي کند. به اين ترتيب مفهوم داده کاوي به عنوان يک مفهوم کلي و عام مشخص مي شود. واژه هاي ديگري هم در متون علمي ديده مي شوند که مفاهيمي مشابه يا کاملاً نزديک به داده کاوي دارند؛ مثل کاوش دانش از بانک هاي اطلاعاتي، استخراج دانش، تحليل داده يا الگو.(Frawley 1992) تعاريف مختلفي از داده کاوي ارائه شده است که چند مورد آن در زير آورده شده است: داده کاوي استخراج اطلاعات مفهومي، ناشناخته و به صورت بالقوه مفيد از پايگاه داده مي باشد (Frawley 1992). داده کاوي به معناي يافتن نيمه خودکار الگوهاي پنهان موجود در مجموعه داده هاي موجود مي باشد( هن و کمبر 2006). داده کاوي علم استخراج اطلاعات مفيد از پايگاه هاي داده يا مجموعه داده اي مي باشد(هاند و ديگران 2001). داده کاوي استخراج نيمه اتوماتيک الگوها، تغييرات، وابستگي ها، نابهنجاري ها و ديگر ساختارهاي معني دار آماري از پايگاه هاي بزرگ داده مي باشد(Larsed 2003). داده کاوي عبارت است از فرايند اکتشاف دانش در بانک هاي اطلاعاتي به منظور يافتن الگوهاي معتبر، مفيد، جديد و قابل درک از داده ها(شهرابي، 1389). داده کاوي مجموعه اي از تکينک هاي اکتشاف دانش در بانک هاي اطلاعاتي بر مبناي روش هاي پيشرفته تحليلي است که به عنوان ابزاري براي کارکردن بر روي اطلاعات با حجم بالا و کشف الگوهاي جديد در اين اطلاعات به کار مي رود (Gupta 2006). داده کاوي تلاشي براي ارائه ي بينشي هوشمندانه به مديران براي شناخت بهتر کسب و کار و پيش بيني شرايط آينده، در طي يک فرايند پيچيده است (Gupta 2006). -1625601082040داده کاوي در واقع يک فن آوري ميان گروهي است که با همکاري متخصصين بانک هاي اطلاعاتي، محرمانگي و امنيت اطلاعات، هوش مصنوعي و يادگيري ماشيني، آمار و گرافيک انجام مي- شود(فياد و همکاران، 1996، هن و کمبر، 2006). شکل 2-1 مراحل فرايند کشف دانش و جايگاه داده کاوي(آخوندزاده نوقابی، 1388). انواع داده کاوي در عمل دو هدف مهم و اساسي داده کاوي، پيش بيني و تشريح است. در پيش بيني، بعضي از متغيرها يا حوزه هايي از مجموعه هاي داده اي به منظور پيش بيني ارزش ناشناخته يا آينده ي داده هاي ديگر مورد استفاده قرار مي گيرند، از سوي ديگر تشريح، بر يافتن الگوهاي تشريحي داده ها که مي توانند به وسيله انسان تعبير شوند تمرکز مي نمايد. در نتيجه داده کاوي را مي توان در يکي از گروه هاي زير جاي داد: در داده کاوي پيش بيني کننده با استفاده از داده ها، مدل هايي براي پيش بيني مقادير متغيرهاي مورد نظر توليد مي گردد. داده کاوي تشريحي با استفاده از الگوهايي که در اعداد مي يابد به تجزيه و تحليل و علت يابي يک يا چند پديده مي پردازد. ازنظر پيش بيني کننده، هدف از داده کاوي توليد مدلي است که با استفاده از يک کد اجرايي، وظايفي چون پيش بيني، دسته بندي، تخمين مقدار، تخمين عملکرد و غيره را انجام دهد. از نظر تشريح کننده، هدف حصول درکي کامل از سيستم تحليل شده به وسيله الگوهاي پنهان در آن و روابط درون مجموعه هاي داده اي است(مرکز مطالعات و برنامه ريزي شهر تهران 1388، ص 3). دلايل استفاده از داده کاوي در سال هاي اخير استفاده از تکنيک هاي داده کاوي رشد بسيار سريعي داشته است که از دلايل اين امر مي توان به موارد ذيل اشاره کرد(Gupta 2006): سهولت توليد داده ها با استفاده از پردازش تحليلي برخط. افزايش داده هاي ايجاد شده از طريق ابزارهاي الکترونيکي از قبيل تراکنش هاي خريد، عمليات بانک، کارت هاي اعتباري و ماهواره ها. افزايش داده هاي ايجاد شده از طريق صفحات وب. افزايش حجم ابزاهاي ذخيره داده ها شامل انواع حافظه ها. کاهش هزينه هاي پردازش اطلاعات. وجود محيط هاي رقابتي با توجه به جهاني شدن کسب و کار. وجود نرم افزارهاي مفيد داده کاوي. پيش نيازهاي يک داده کاوي موفق براي انجام يک داده کاوي موثر، لازم است قبل از شروع به موارد زير توجه داشت(Gupta 2006): ضمن آشنايي کامل با موضوع مورد بحث، مسئله ي داده کاوي به درستي تعريف و تبيين شده باشد. داده ها موجود باشند. داده هاي موجود مرتبط، کافي، مناسب و پاک سازي شده باشند. مسئله با روش هاي پرس و جو يا ساير ابزارهاي کار با بانکهاي اطلاعاتي قابل حل نباشد. نتايج حاصل از داده کاوي قابل اجرا و عملياتي باشد. مراحل فرايند داده کاوي ( استاندارد CRISP-DM ) -519430220980 فرايند CRISP-DM يک متدولوژي استاندارد داده کاوي مي باشد که در اواخر سال 1996 توسط سه شرکت بزرگ دايملر کرايسلر (بنز)، SPSS، و NCR ايجاد گرديد. اين متدولوژي، يک مدل فرايندي براي داده کاوي ارائه مي دهد که مروري بر چرخه ي عمر هر پروژه ي داده کاوي بوده و شامل مراحل متناظر با يک پروژه، وظايف مربوطه و ارتباط بين اين وظايف مي باشد. گام هاي اين متدولوژي در ادامه بيان شده است. شکل2-2 مراحل فرايند CRISP-DM (Gupta,2006) چرخه ي عمر يک پروژه ي داده کاوي، شامل 6 مرحله مي باشد که در شکل2-2 نشان داده شده است. توالي اين مراحل انعطاف پذير مي باشد و برگشت به مراحل قبلي و مسير هاي آزاد بين مراحل گاهي مورد نياز است. جهت پيکان هايي که در شکل مشاهده مي گردد، بيان کننده ي مهم ترين و تکراري ترين وابستگي هاي بين مراحل مي باشد. شناخت کسب و کار در اين مرحله لازم است که اهداف پروژه و نيازها از ديدگاه کسب و کار به طور مشخص تبيين شود. توجه به اين مرحله بسيار ضروري است و با شناخت کامل اهداف مي توان از قابليت هاي داده کاوي بهترين استفاده را کرد و الگوريتم مناسب را انتخاب نمود(هن و کمبر 2006). گام هاي اين مرحله عبارتند از: تعيين اهداف کسب و کار ( مفاهيم اوليه، اهداف و معيارهاي موفقيت). ارزيابي موقعيت ( موجودي منابع، نيازمندي ها، فرضيه ها و محدوديت ها، ريسک ها و روابط، اصطلاحات و هزينه و فايده). تعيين اهداف داده کاوي ( اهداف داده کاوي و معيار موفقيت). توليد طرح پروژه. شناخت داده ها در اين مرحله مواردي از قبيل موجود بودن داده ها، محرمانگي داده ها، چگونگي دسترسي به داده ها و ميزان سيستمي بودن داده ها بررسي مي شود. تحليل صحيح در اين مرحله ممکن است به تجديد نظر در مرحله يک (شناخت کسب و کار) بيانجامد. جمع آوري و آشنايي با داده ها، شناخت مسائل مربوط به کيفيت داده ها و مشاهده ي اطلاعات اوليه ي نهاني يا زيرمجموعه هاي داده ها که ممکن است براي آناليز جالب باشند از وظايف اين مرحله است (هن و کمبر 2006). گام هاي اين مرحله عبارتند از: جمع آوري اوليه داده ها توصيف داده ها شناسايي داده ها تاييد کيفيت داده ها آماده سازي داده ها در اين مرحله داده هاي موجود جهت استفاده ي الگوريتم داده کاوي آماده مي شود. هدف اين مرحله رسيدن به چشم انداز قابل کاوش است. در اين مرحله يکپارچگي، انتخاب، پاکسازي و تغيير شکل داده ها انجام مي شود (هن و کمبر 2006). گام هاي اين مرحله عبارتند: انتخاب داده ها پاکسازي داده ها ساختار دهي داده ها ( انتخاب برخي صفات و ايجاد رکوردها) يکپارچه نمودن داده ها ( داده هاي ترکيبي) فرمت کردن داده ها مدل سازي اين مرحله شامل پياده سازي تکنيک هاي مدل سازي يا داده کاوي بر روي ديدگاه قابل کاوش ايجاد شده در مرحله ي قبل است (هن و کمبر 2006). گام هاي اين مرحله عبارتند از: انتخاب تکنيک مدل سازي (فرضيه ها و تکنيک هاي مدل سازي) ارزيابي طراحي ( طراحي آزمايشي) ساخت مدل (پارامترهاي انتخاب شده و توصيف مدل) ارزيابي مدل (سنجش مدل و بازنگري در پارامترهاي انتخاب شده) ارزيابي مدل در اين مرحله مدل طراحي شده مورد ارزيابي قرار مي گيرد تا مشخص شود آيا اهداف داده کاوي تامين شده است . به عبارت ديگر بايد مشخص شود که آيا مدل براي پاسخگويي به برخي از نيازهاي کسب و کار مفيد است يا خير. بعد از ارزيابي مدل ممکن است به بازنگري در اهداف تعيين شده در مرحله ي اول منجر شود (هن و کمبر 2006). گام هاي اين مرحله عبارتند از: ارزيابي نتايج تجديد نظر در فرايند طراحي گام هاي بعدي (ليست فعاليت ها و تصميم هاي ممکن) توسعه ي مدل ايده ي اين مرحله به کارگيري پتانسيل هاي مدل استخراج شده، ترکيب آن با فرايند هاي تصميم گيري سازمان، ارائه گزارش هايي در مورد دانش استخراج شده و ... مي باشد. در اين مرحله مدل، پياده سازي و اجرا مي گردد و معمولاً يک رابط گرافيکي مناسب نيز براي کاربران طراحي مي شود (هن و کمبر 2006). گام هاي اين مرحله عبارتند از: برنامه ريزي براي توسعه برنامه ريزي براي مانيتور و نگهداري توليد گزارش نهايي بازنگري مجدد پروژه قابليت هاي اساسي داده کاوي طبقه بندي طبقه بندي فرايند جستجوي مجموعه اي از مدل ها يا توابع است که کلاس هاي داده ها يا مفاهيم را توصيف يا تفکيک مي نمايد. تا بتوان از اين مدل براي پيش بيني کلاس اشيا استفاده کرد. مدل استخراج شده بر پايه تحليل مجموعه اي داده هاي آموزشي يا داده هايي که کلاس آن ها مشخص است مي باشد(هن و کمبر 2006). فرايند طبقه بندي در واقع نوعي يادگيري با ناظر مي باشد که طي دو مرحله انجام مي گيرد. در مرحله اول مجموعه اي از داده ها که در آن هر داده شامل تعدادي خصوصيتِ داراي مقدار و يک خصوصيت به نام خصوصيتِ کلاس مي باشد، براي ايجاد يک مدل داده به کار مي رود که اين مدل داده در واقع توصيف کننده مفهوم و خصوصيات مجموعه داده هايي است که اين مدل از روي آن ها ايجاد شده است. مرحله دوم اعمال فرايند طبقه بندي يا به کارگيري مدل داده ايجاد شده بر روي داده هايي است که شامل تمام خصوصيات داده هايي مي شود که براي ايجاد مدل داده به کار گرفته شده اند، به جز خصوصيت کلاس اين مقادير، که هدف از عمل طبقه بندي نيز تخمين مقدار اين خصوصيت مي باشد(هن و کمبر 2006). پيش بيني پيش بيني به هر دو مورد پيش بيني مقادير عددي و پيش بيني کلاس ها اشاره دارد. پيش بيني شامل شناسايي روند توزيع بر اساس اطلاعات در دسترس است. طبقه بندي و پيش بيني ممکن است نياز به تجزيه و تحليل مرتبط داشته باشند تا بتوانند صفاتي را که در فرايند طبقه بندي يا پيش بيني مشارکتي ندارند شناسايي و در صورت تمايل آن ها را حذف نمايند (هن و کمبر 2006). تحليل خوشه اي خوشه بندي، يک جمعيت نامنظم را به مجموعه اي از زيرگروه هاي منظم تقسيم بندي مي کند. برخلاف دسته بندي و پيش بيني که اشيا داده ها را بر اساس کلاس ها تحليل مي کنند، خوشه بندي اشيا داده ها را بدون در نظر گرفتن برچسب هاي کلاس تحليل و آناليز مي نمايند. عمدتاً برچسب کلاس ها در داده هاي آموزشي به آساني مشخص نيست زيرا اين کلاس ها شناخته شده نمي باشند. خوشه بندي گاهي براي تعيين و توليد چنين برچسب هايي به کار مي رود. به عبارت ديگر مي توان خوشه بندي را به صورت دسته بندي تعريف کرد، با اين تفاوت که دسته ها و برچسب آن ها از پيش تعريف شده نبوده و عمل دسته بندي، بدون نظارت انجام مي گيرد. اشيا خوشه بندي شده بر اساس اصل ماکزيمم شباهت بين اعضا هر خوشه و مينيمم شباهت بين خوشه هاي مختلف گروه بندي مي شوند. يعني خوشه ها به گونه اي تنظيم مي شوند که اشيا داخل هر خوشه بيشترين شباهت را با يکديگر داشته باشند. معيار شباهت وقتي که همه مشخصه ها پيوسته هستند، معمولا با فاصله اقليدسي بيان مي شود، در غير اين صورت يک معيار مناسب براي آن در نظر گرفته مي شود. به عنوان شاخه اي از آمار، خوشه بندي براي سال ها به صورت وسيعي مورد مطالعه قرار گرفته و بر روي تحليل فاصله متمرکز شده است. ابزارهاي خوشه بندي که مبتني بر K-means و K-mediods و روش هايي مانند آن ها هستند در خيلي از بسته هاي آماري مانند Spss، S-plus و Sas وجود دارند. آناليز خوشه اي کاربردهاي گسترده اي دارد که عبارتند از: شناسايي متن، آناليز داده، پردازش تصوير و تحقيقات بازار و ... ( هن و کمبر، 2006، رومرو 2007) تخمين تخمين با نتايج مجزايي که با ارقام پيوسته نشان داده شده اند، سرو کار دارد. در تخمين، داده هاي ورودي در قالب متغيرهاي ورودي به سيستم داده مي شود و متغيرهاي خروجي آن رقمي چون درآمد يا تراز کارت اغتباري مي باشد. در عمل، تخمين اغلب براي دسته بندي استفاده مي شود. روش تخمين فوايد زيادي دارد که مهم ترين آن اين است که در آن اطلاعات را مي توان مطابق تخمين به دست آمده مرتب نمود. براي پي بردن به اهميت آن فرض کنيد که يک شرکت توليد پوتين هاي اسکي براي ارسال پانصد هزار آگهي تبليغاتي محصول جديد خود بودجه ريزي نموده است. فرض کنيد از روش دسته بندي استفاده شده و يک و نيم ميليون نفر اسکي باز تعيين شده اند، پس به راحتي مي توان به صورت تصادفي، تبليغات را براي پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالي که اگر مدل تخمين، امتياز تمايل به اسکي را براي کليه افراد تعيين نمايد شايسته است که تبليغات را براي پانصد هزار نفر از محتمل ترين کانديداها فرستاد. پر واضح است که احتمال پاسخ گيري و ارسال تبليغات بر اساس مدل تخمين بسيار بيشتر از ارسال تصادفي تبليغات مي باشد مدل هاي رگرسيون و شبکه هاي عصبي از جمله تکنيک هاي مناسب داده کاوي براي تخمين مي باشد (شهرابي، 1390). گروه بندي شباهت يا قوانين وابستگي قوانين وابستگي براي تعيين ويژگي هاي هم زماني هستند که در وقوع يک پديده رخ مي دهند. به عبارت ديگر عمل گروه بندي شباهت يا قوانين وابستگي احتمال وقوع و يا عدم وقوع هم زمان ويژگي ها را تعيين مي نمايد.به عبارت ساده تر گروه بندي شباهت تعيين مي کند که چه چيزهايي با هم جورند؛ مثال معمول اين موضوع تعيين کالاهايي است که با هم در يک چرخ دستي خريد در سوپرمارکت قرار مي گيرند، چيزي که آن را تحليل سبد بازار مي ناميم گروه بندي شباهت بک روش ساده براي ايجاد قوانين از داده هاست. اگر دو قلم کالا مثلا شير خشک و پوشک نوزاد در يک قفسه و کنار هم چيده شوند، مي توان دو قانون وابستگي ايجاد کرد(شهرابي، 1390): افرادي که شير خشک نوزاد مي خرند هم چنين با احتمال 1 Pپوشک نوزاد را مي خرند. افرادي که پوشک نوزاد مي خرند هم چنين با احتمال 2 P شير خشک نوزاد را هم مي خرند. تعيين قواعد وابستگي معمولاً در بانک اطلاعات تراکنش ها کاربرد دارد. در اين روش که به صورت قواعد اگر_ آنگاه (X->Y) بيان مي شود، هم زمان واقع شدن X و Y با Support و شانس وقوع قاعده با Confidence بيان مي شود. Support بالاي يک قاعده، نشان دهنده ي تکرار زياد و نياز به توجه ويژه به آن و Confidence بالا نشان دهند ي صحت کافي قاعده براي استفاده در تصميم گيري هاست. مقادير Support و Confidence به روش زير محاسبه مي گردد: تعداد کل/تعداد تکرارX =Support(X) تعداد کل/تعداد تکرارX و Y باهم =Support(XY) Confidence(X->Y) =Support (XY)/Support(X) توصيف و نمايه سازي گاهي اوقات هدف داده کاوي، تنها توصيف آن چيزي است که در يک پايگاه داده اي پيچيده در جريان است. نتايج نمايه سازي درک ما را از مردم، محصولات يا فرايندهايي که داده ها را در مرحله اول توليد کرده اند افزايش مي دهد. درحقيقت نمايه سازي يک روش آشنا براي بسياري از مسائل است که نياز به درگير شدن با تحليل پيچيده داده ها ندارد. به عنوان مثال مطالعه و نظرسنجي يک روش رايج براي ساختن نمايه مشتريان است. مطالعات و نظر سنجي ها نشان مي دهند که مشتريان بالفعل و بالقوه چه مشخصاتي دارند يا حداقل اين که چطور پاسخ دهندگان به سوالات پاسخ مي دهند. نمايه ها معمولاً مبتني بر متغيرهاي جمعيت شناختي هم چون موقعيت جغرافيايي، جنسيت و سن هستند؛ از آن جا که تبليغات با توجه به همين متغيرها انجام مي شود، نمايه هاي جمعت شناختي را مي توان مستقمياً به استراتژي هاي سازماني تبديل کرد. به طور مثال از نمايه هاي ساده براي تعيين حق بيمه استفاده مي شود؛ يک پسر 17 ساله بيش تر از يک زن 60 ساله براي بيمه خودرو بايستي پرداخت کند. درخت تصميم گيري ابزار مفيدي براي نمايه سازي مي باشد؛ قوانين وابستگي و خوشه بندي را نيز مي توان براي نمايه سازي استفاده نمود(شهرابي، 1390). دسته بندي الگوريتم هاي داده کاوي به طور کلي الگوريتم هاي داده کاوي را مي توان به سه دسته اصلي تقسيم نمود(نخعي زاده، 1388): الگوريتم هاي با رويکرد يادگيري ماشيني: از اين دسته الگوريتم ها مي توان به الگوريتم هاي استنتاج مبتني بر قواعد، درخت هاي تصميم، شبکه هاي عصبي و خوشه بندي بر مبناي مفاهيم اشاره کرد. الگوريتم هاي با رويکرد آمار: تحليل خوشه بندي، تحليل رگرسيون و تحليلي رگرسيون لجستيک از اين دسته الگوريتم ها مي باشند. الگوريتم هاي با رويکرد فن آوري هاي بانک هاي اطلاعاتي: قواعد وابستگي، نمونه اي از اين دسته از الگوريتم ها مي باشند. الگوريتم هاي خوشه بندي مهم ترين روش هاي خوشه بندي به شرح ذيل مي باشند(مرشدلو، 1386): روش افرازي ( تقسيم بندي) روش سلسله مراتبي روش مبتني بر چگالي روش مبتني بر مشبک کردن فضا روش مبتني بر مدل روش افرازي ( تقسيم بندي) روش هاي خوشه بندي که به روش تقسيم بندي عمل مي کنند، داده هاي موجود در يک مجوعه داده را به K خوشه تقسيم مي کنند، به طوري که هر خوشه 2 خصوصيت زير را داراست: هر خوشه يا گروه حداقل شامل يک داده باشد. هر داده موجود در مجموعه داده دقيقاً به يک گروه يا خوشه تعلق دارد. معيار اصلي در چنين مجموعه داده هايي ميزان شباهت داده هاي قرار گرفته در هر خوشه مي باشد. در حالي که داده هاي قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادي دارند. مقدار K که به عنوان پارامتر استفاده مي گردد، هم مي تواند به صورت پويا تعيين گردد و هم مي توان قبل از شروع الگوريتم خوشه بندي مقدار آن را مشخص کرد. براي دست يابي به خوشه بندي بهينه به شمارش همه افرازهاي ممکن نياز خواهد بود. يعني تمام حالات ممکن بايد بررسي شوند که اين روش براي پايگاه داده هاي بزرگ ناممکن است. معمولا از يکي از الگوريتم هاي K-means يا K-medoids استفاده مي شود در الگوريتم K-means هر خوشه با ميانگين اشيا آن خوشه (مرکز خوشه) و در الگوريتم K-medoids با يکي از اشيا که در نزديکي مرکز خوشه جاي گرفته است، نشان داده مي شود. الگوريتم K-means الگوريتم K-means يکي از پرکاربردترين الگوريتم هاي خوشه بندي مي باشد(شهرابي، 1390). اين الگوريتم K ( تعداد خوشه ها) را به عنوان ورودي مي گيرد و مجموعه n شي را به K خوشه افراز مي کند، به صورتي که سطح شباهت داخلي خوشه ها را بالا برده و سطح شباهت اشيا بين خوشه ها را کاهش دهد. روش کار در اين الگوريتم بدين صورت است: به صورت تصادفي K شي را به عنوان مراکز خوشه هايي ابتدايي انتخاب مي کند. هر شي را با توجه به بيشترين شباهت آن به مراکز خوشه ها، به خوشه ها تخصيص مي دهد. مراکز خوشه ها را به روز مي کند. به اين معني که براي هر خوشه مقدار متوسط اشيا آن خوشه را محاسبه مي نمايد. تا هنگامي که هيچ تغييري در خوشه ها رخ ندهد به مرحله 2 رجوع مي کند. روش هاي سلسله مراتبي روش هاي سلسله مراتبي به دو دسته کلي: روش هاي Bottom-up و روش هاي Top-down تقسيم مي شوند. روش هاي سلسله مراتبي Bottom-up به اين صورت عمل مي کنند که در شروع، هر کدام از داده ها را در يک خوشه جداگانه قرار مي دهد و در طول اجرا سعي مي کند تا خوشه هايي نزديک به يکديگر را با هم ادغام نمايد. اين عمل ادغام تا زماني که تنها يک خوشه داشته باشيم و يا اين که شرط خاتمه برقرار گردد، ادامه مي يابد. روش هاي Top-down دقيقاً به طريقه ي عکس عمل مي نمايند، به اين طريق که ابتدا تمام داده ها را در يک خوشه قرار مي دهند و در هر تکرار از الگوريتم، هر خوشه به خوشه هاي کوچکتر شکسته مي شود و اين کار تا زماني ادامه مي يابد که يا هر کدام از خوشه ها تنها شامل يک داده باشند و يا شرط خاتمه الگوريتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر يا خوشه مي باشد. روش هاي مبتني بر چگالي اکثر روش هاي خوشه بندي که به روش تقسيم بندي عمل مي کنند، معمولاً از تابع فاصله به عنوان تابع معيار خود بهره مي برند. استفاده از چنين معياري باعث مي گردد که الگوريتم خوشه بندي تنها قادر به ايجاد خوشه هايي با اشکال منظم باشد. در صورتي که اگر خوشه هاي واقعي در داده ها داراي اشکال غير منظمي باشند، اين الگوريتم ها در خوشه بندي آن ها با مشکل مواجه مي گردند. براي حل اين گونه مشکلات، يک سري از روش هاي خوشه بندي پيشنهاد گرديده اند که عمل خوشه بندي را بر مبناي چگالي داده ها انجام مي مدهند. ايده اصلي در اين روش ها بر اين اساس است که خوشه ها تا زماني که داده هاي قرار گرفته درهمسايگي خوشه ها از حد معيني بيشتر باشد، رشد مي کنند و بزرگ مي شوند. چنين روش هايي قادرند خوشه هايي با شکل هاي نامنظم نيز ايجاد نمايند. البته دسته ديگري از روش هاي خوشه بندي مانند روش هاي مبتني بر مشبک کردن فضا، روش هاي مبتني بر مدل و ... نيز وجود دارند که در اين تحقيق مورد بررسي قرار نگرفته اند. الگوريتم هاي وابستگي قواعد الگوريتم هاي مختلفي براي تعيين وابستگي قواعد وجود دارد که برخي از مهم ترين آن ها در زير آورده شده است: الگوريتم Naïve اين الگوريتم پردازه اي براي کشف تمام قواعد وابستگي با حداقل Support=p% و Confidence=q% مي باشد. در اين الگوريتم ليستي از تمامي ترکيب هاي ممکن تهيه شده و سپس تعداد تکرار آن ها در مجموعه تراکنش هاي محاسبه مي شود سپس با توجه به مقدار Support داده شده ليست ترکيب هايي که تعداد تکرار آن ها برابر يا بيشتر از تعداد مورد نظر است جدا شده و براي تمامي ترکيب هاي آن ميزان Confidence محاسبه و با مقدار داده شده مقايسه مي شود. سپس ليست قواعد با Confidence مورد نظر استخراج مي گردد.(Gupta 2006) در نسخه بهبود يافته اين الگوريتم به جاي شمارش تمامي ترکيب ها، تراکنش ها يموجود شمارش شده و ترکيب هاي با تعداد تکرار صفر منظور نمي شوند. الگوريتم Apriori الگوريتم Apriori را مي توان يکي از مهم ترين يافته ها در تاريخ استخراج وابستگي قواعد دانست که توسط چيونگ در سال 1996 ابداع گرديد. يکي از کاربردي ترين مسائل مربوط به اين تکنيک، تجزيه و تحليل سبد بازار است. خرده فروشان با تجزيه و تحليل سبد بازار مي توانند رفتار خريد مشتريان را پيش بيني کنند. اينکار به آن ها کمک مي کند تا بتوانند کالاهاي خود را بهتر ساماندهي کرده و چيدمان بهتري از محصولات خود داشته باشند و از اين طريق سودآوري خود را افزايش دهند. در حالت معمولي براي يافتن مجموعه هاي پرتکرار بايد تمام مجموعه هاي تک عضوي پر تکرار را پيدا کرد، سپس بر اساس آن مجموعه هاي دو عضوي پر تکرار را پيدا کرد و ... بنابراين در هر مرحله بايد کل فضا جستجو شود. اما اين الگوريتم از يک خصوصيت به نام خصوصيت Apriori استفاده مي کند. به اين صورت که اگر يک مجموعه از عناصر پرتکرار باشد، تمام زير مجموعه هاي غير تهي آن نيز پر تکرار خواهند بود. مثلا اگر مجموعه A به صورت A={C,D,E} پر تکرار باشد، آن گاه تمام مجموعه هاي زير نيز پرتکرار هستند: {C, D}, {C, E}, {D, E}, {C}, {D}, {E} اين خصوصيت را به اين صورت نيز مي توان توصيف کرد که اگر مجموعه I به يک تعداد مرتبه تکرار شده باشد، اگر A را نيز به آن اضافه کنيم تعداد تکرار مجموعه ي جديد از تعداد تکرار مجموعه قبلي بيشتر نخواهد بود. پس اگر اولي پرتکرار نباشد دومي هم پرتکرار نخواهد بود. اي الگوريتم نيز اي اين خصوصيت استفاده مي کند. الين الگوريتم در يافتن مجموعه هاي پرتکرار به اين صورت عمل مي کند: فرض مي کنيم Ck و Fk به ترتيب برابر با مجموعه اقلام کانديد و مجموعه اقلام پرتکرار با اندازه K باشند. در ابتدا K=1 قرار مي دهد. در ابتدا تمامي اقلام پرتکرار تک عضوي با عنوان F1 را پيدا مي کند. مراحل زير را زماني که هيچ مجموعه پرتکرار جديدي يافت نشود تکرار مي کند. 3-1 مجموعه اقلام کانديد (K+1) عضوي که همان Ck+1 است را از مجموعه اقلام پرتکرار K عضوي (Fk) مي يابد. 3-2 مجموعه اقلام پرتکرار FK+1 را با در نظر گرفتن شرط حداقل پشتيبان و حذف اقلام غير پرتکرار، پيدا مي کند. لازم به ذکر است که گام (3-1) در دو مرحله صورت مي گيرد. يکي توليد اقلام کانديد و يکي هرس کردن اقلامي که پرتکرار نيستند. از مرحله اول تحت عنوان مرحله پيوست نيز ياد مي شود(آخوندزاده نوقاني،1388). مرحله توليد اقلام کانديد و يا پيوست در اين مرحله به دليل جلوگيري از مجموعه هاي تکراري از قانون لگزيکوگرافي استفاده مي شود و عناصر براساس قاعده الفبايي با يکديگر ترکيب مي شوند. بنابراین در ابتدا بايد عناصر بر مبناي ترتيب حروف الفبا مرتب شده باشند. در ضمن دو مجموعه در صورتي با يکديگر قابل پيوست هستند که عناصر آن ها غير از عنصر آخر با يکديگر برابر باشند(آخوندزاده نوقاني،1388). مرحله هرس نکته اي که در مورد مجموعه به دست آمده از مرحله قبل وجود دارد اين است که ممکن است برخي از عناصر آن پرتکرار نباشند، البته تمام عناصر پرتکرار در آن قرار دارند. بنابراين لازم است تا مرحله هرس کردن انجام شود. به اين منظور بايد تمامي اعضاي اين مجموعه بررسي شوند تا مشخص شود که آيا پرتکرار هستند يا خير؟ اما چون ممکن است تعداد آن ها زياد باشد لذا براي کاهش حجم محاسبات از اصل APriori استفاده مي شود. به اين صورت که اگر يکي از زير مجموعه ها پرتکرار نباشد، آن مجموعه نيز پرتکرار نخواهد بود. بنابراين براي پيدا کردن مجموعه هاي پرتکرار کافي است مجموعه هاي غير پرتکرار را از آن ها جدا کرد. به عنوان نمونه مجموعه F3 که مجموعه اقلام پرتکرار 3 عضوي است را در نظر بگيريد. F3 = {{A, B, C}, {A, B, D}, {A,B, E}, {A,C,E}, {A,D,E}, {B,D,E}} با ترکيب اقلام پرتکرار فوق 3 مجموعه جديد به دست مي آيد که عبارتند از: C4 = {{A, B, C, D}, {A, B, C, E}, {A, B, E, D}} تنها عضوي از مجموعه فوق که به عنوان اقلام کانديد 4 تايي پيشنهاد مي شود، {A, B, D, E} است. به علت اين که ساير موارد غير پرتکرار هستند. به عنوان نمونه {A, B, C, D} در مرحله هرس حذف مي شود. زيرا برخي از زير مجموعه هاي آن عبارتند از {A, C, D} و {B, C, D} متعلق به F3 نيستند. پس از آن که مجموعه هاي پرتکرار استخراج شدند، نوبت به استخراج قوانين قوي با اطمينان بالا مي رسد. در اين مرحله تمام زير مجموعه هاي غير تهي يک مجموعه پرتکرار نوشته شده و تمامي قواعد ممکن بر اساس آن استخراج مي شود. سپس اطمينان را براي هر يک از قوانين محاسبه نموده و اگر بيشتر از حد قابل قبول بود به عنوان يک قانون پذيرفته مي شود(آخوندزاده نوقاني،1388). الگوريتم هاي طبقه بندي الگوريتم ها و روش هاي مختلفي تا کنون براي طبقه بندي پيشنهاد شده اند که براي مثال مي توان از روش هاي طبقه بندي با استفاده از درخت تصميم C4.5، درخت طبقه بندي و رگرسيونCART، شبکه هاي بيزين، SVM، طبقه بندي مبتني بر قواعد، طبقه بندي با استفاده از شبکه هاي عصبي و .... نام برد که در زير برخي از آن ها تشريح شده اند: الگوريتم درخت طبقه بندي و رگرسيون (CART) روش درخت طبقه بندي و رگرسيون (CART) توسط Breiman و همکارانش در سال 1984 پيشنهاد شد(Larsed 2003). درخت هاي تصميم توليد شده توسط CART دودويي بوده و دقيقا دو شاخه براي هر گره تصميم دارد. CART به صورت بازگشتي داده هاي آموزشي را بر اساس مقادير مشابه مشخصه هدف به زير مجموعه هايي تقسيم مي کند. الگوريتم CART با انجام يک جستجوي گسترده در همه متغيرهاي موجود و تمامي تقسيم هاي ممکن، نقطه تقسيم بهينه را برمبناي معيار زير انتخاب نموده درخت تصميم را توسعه مي دهد. فرض کنيم Ф(s|t) يک مقياس براي تعيين ميزان مناسب بودن يک کانديد تقسيم S در گره t باشد: # classes Ф(s|t) = 2PL PR Σ|P ( j |tL ) – P ( j |tR) j=1 tL= فرزند چپ نود t tR= فرزند راست نود t PL= تعداد رکوردها در tL تقسيم بر تعداد رکوردها در مجموعه ي آموزشي PR= تعداد رکوردها در tR تقسيم بر تعداد رکوردها در مجموعه ي آموزشي P (J|tL) = تعداد رکوردهاي کلاس j در tL تقسيم بر تعداد رکوردها در t P (j|tR) = تعداد رکوردهاي کلاس j در tR تقسيم بر تعداد رکوردها در t نقطه تقسيم بهينه جايي است که بيشترين مقدار را در بين تمام نقاط تقسيم در گره t داشته باشد. به طور کلي CART به صورت بازگشتي تمام نقاط تقسيم باقي مانده را ملاقات کرده و تابع فوق را براي يافتن نقطه تقسيم بهينه در هر گره اجرا مي نمايد. در نهايت هيچ گره تصميمي باقي نمي ماند و درخت به طور کامل توسعه مي يابد. البته ممکن است تمامي گره ها همگن نباشد که منجر به نوع خاصي از خطاي طبقه بندي خواهد شد. هم چنين در الگوريتم CART عمليات هرس کردن گره ها و شاخه ها انجام مي گردد تا قابليت تعميم نتايج طبقه بندي افزايش يابد. هر چند که درخت کاملا توسعه يافته پايين ترين نرخ خطا را در مجموعه آموزشي دارد ولي مدل نهايي ساخته شده بر اساس آن ممکن است بسيار پيچيده شود. با توسعه هر گره تصميم، زير مجموعه رکوردهاي موجود براي تجزيه و تحليل کوچکتر شده و محدوده کمتري از جمعيت را شامل مي شود. بنابراين هرس نمودن درخت، باعث عموميت يافتن نتايج خواهد شد(Larsed 2003). الگوريتم درخت تصميم C4.5 الگوريتم C4.5 از نسل الگوريتم ID3 براي توليد درخت تصميم است که از قانون هرس استفاده مي کند. دقيقا مشابه الگوريتم CART، الگوريتم C4.5 نيز به صورت بازگشتي هر گره تصميم را ملاقات کرده و نقطه تقسيم بهينه را انتخاب مي کند تا جايي که ديگر انشعاب امکان پذير نباشد. با اين حال، تفاوت هاي جالبي بين CART و C4.5 وجود دارد(Larsed 2003). الگوريتم C4.5 به تقسيم هاي دودويي محدود نمي باشد و قادر است درخت هاي با شاخه هاي بيشتر را توليد نمايد. در اين الگوريتم به طور پيش فرض براي هر يک از مقادير صفات يک شاخه توليد مي شود. از آن جا که ممکن است تعداد تکرار برخي از مقادير کم باشد، در مواردي منجر به ايجاد درختي انبوه و بزرگتر از آن چه مورد نظر بوده مي گردد که با استفاده از هرس سعي مي شود درخت کوچکتر شده و اين مشکل برطرف گردد. حتي اگر هيچ خطايي در داده هاي آموزشي وجود نداشته باشد باز هم هرس انجام مي شود که اين امر باعث مي شود درخت عام تر شده و وابستگي کمتري به مجموعه آموزشي داشته باشد. الگوريتم C4.5 توانايي کار با داده ها و صفات پيوسته، گسسته، صفات فاقد مقدار و داده هاي نويزي را دارد. اين الگوريتم بهترين صفت را با استفاده از معيار بي نظمي انتخاب مي کند و به دليل استفاده از عامل Gain Ratio قادر به بکارگيري صفات با مقادير بسيار زياد مي باشد(Wu, Kumar 2006). کليد ساختن درخت تصميم در الگوريتم C4.5 اين است که کدام صفت براي تقسيم استفاده شود. اکتشاف و ابتکار در اين الگوريتم براي انتخاب صفت به صورت حداکثر بهره اطلاعات است. الگوريتم C4.5 از مفهوم دستيابي اطلاعاتGain Information يا کاهش آنتروپي ( بي نظمي) براي انتخاب تقسيم بهينه استفاده مي نمايد. آنتروپي آندازه گيري ناخالصي يا بي نظمي مجموعه داده D است. هرچه داده ها خالص تر و خاص تر باشد آنتروپي کوچک تر بوده و در واقع آنتروپي زياد به معني اطلاعات کم است. در آنتروپي، بيت واحد اطلاعات است. در واقع بيت ها نمادهاي حامل اطلاعات هستند، نه خود اطلاعات. m Entropy (D) = - Pi log2(Pi ) i=1 m تعداد کلاس هاي موجود است و pi احتمال آن است که يک متغير دلخواه در D متعلق به کلاس Ci باشد که اين احتمال به صورت |Ci,D|/|D| تخمين زده مي شود. ( |D|و |Ci,D| تعداد رخداد در D و Ci,D را نشان مي دهد) فرض مي کنيم صفت A داراي v مقدار متمايز به صورت {a1, a2, … ,av} باشد يا به عبارت ديگر A يک صفت گسسته است. اگر بخواهيم D را برحسب صفت A تقسيم کنيم v بخش يا زيرمجموعه مانند {D1,D2,….Dv} حاصل مي شود. آنتروپي مورد انتظار اگر Ai به عنوان ريشه به کاربرده شود برابر است با: EntropyA (D)=∑|Dj|/|D|* Entropy(Dj ) اطلاعات حاصل از انشعاب بر حسب صفت A را به صورت زير تعريف مي کنيم: [Gain(A) = Entropy(D)-EntropyA(D))] هرچه مقدار بهره صفت A يعني (GainA) بيشتر باشد يا به عبارت ديگر هرچه (Entropy D) کمتر باشد، صفتA گزينه مناسب تري براي انتخاب به عنوان صفت تقسيم مي شود. الگوريتم هاي شبکه هاي بيزين در برخي از الگوريتم هاي طبقه بندي تعدادي شي موجود است که همگي داراي يک بردار از خصيصه ها مي باشند. مدل شبکه بيزين يک مدل بر مبناي احتمال است که رويدادهاي مشاهده شده و ذخيره شده را بررسي کرده و مشابهت رويدادها را با استفاده از خصيصه هاي به ظاهر نامشابه تعيين مي کند. شبکه بيزين يک مدل گرافيکي است که متغيرها در يک مجموعه داده را به صورت گره نشان داده و احتمال يا شرط استقلال بين آن ها را بيان مي کند. ارتباط سببي ( علي) بين گره ها هم مي تواند توسط شبکه بيزين نمايش داده شود. هم چنين خطوط شبکه لزوماً ارتباط يا تاثيرهاي مستقيم بين متغيرها را نشان نمي دهد. در صورتي که مقادير گم شده در داده ها زياد باشد، اين نوع شبکه بسيار بزرگ و گسترده شده و بهترين پيش بني ممکن را با استفاده از اطلاعات موجود ارائه مي دهد(Wu, Kumar 2006). در اين مدل ابتدا فرض مي شود که هر شي به يکي از کلاس هاي مشخص متعلق است. سپس احتمال درست بودن اين فرضيه محاسبه مي شود. براي اين کار تمامي اشيا يک بار پويش شده و با توجه به داده هاي آموزشي صحت احتمال منظور شده به طور قابل توجهي افزايش يا کاهش مي يابد. هدف استخراج قواعدي است که بر اساس ن ها بتوان با دادن خصيصه هاي يک شي کلاس آن را تعيين نمود. الگوريتم بيزين با توجه به سادگي پياده سازي وعدم نياز به روش هاي پيچيده براي تخمين پارامترهاي تکراري مورد توجه مي باشد. اين ويژگي ها بدين معني است که به راحتي بر روي داده هاي بسيار بزرگ اعمال مي شود و به دليل امکان تفسير و تحليل ساده، کاربران غير متخصص نيز مي توانند دلايل طبقه بندي انجام شده توسط اين کاربر را درک نمايد. در اين الگوريتم Ci کلاس هاي تعريف شده و X شي مورد نظر است که تعدادي خصيصه دارد. احتمال هاي زير براي اجراي مدل محاسبه مي گردد: P(ci|x): احتمال اين که شي x متعلق به کلاس ci باشد. P(x|ci): احتمال اين که در صورتي که شي x متعلق به کلاس ci باشد، مقادير خصيصه هاي آن براي ساخت قواعدي انتخاب شود. P(ci ): احتمال اين که هر شي متعلق به کلاس ci باشد. P(x): احتمال اين که مقادير خصيصه هاي شي x بدون توجه به کلاس آن براي ساخت قواعد انتخاب شود. فرضيه الگوريتم بيزين بر اساس فرمول زير مي باشد: P(ci|x)=P(x|ci) P(ci) / P(x) مديريت شهري و شهرداري چالش شهري در هيچ جاي دنيا به اندازه ي آسيا مشهود نمي‌باشد. امروزه 38 درصد از جمعيت اين ناحيه در شهرها زندگي مي‌کنند، اين نسبت اکنون در ايران حدود 70 درصد مي‌باشد و پيش‌بيني مي‌شود تا سال 2020 اين مقدار از 80 درصد فراتر رود. متخصصان شهري اکنون پديده ي جديدي را در بين اين کلان‌شهرها شناسايي کرده‌اند؛ انباشت و تراکم انبوهي از شهرها با اندازه‌هاي مختلف که قبلاً به صورت مجزا بوده‌اند ولي هم چنان هويت فيزيکي خود را حفظ نموده‌اند، روي‌هم انبوهي از جمعيت 20 و حتي 30 ميليون نفري را به صورت شبکه‌اي به‌وجود مي‌آورند؛ به عنوان مثال منطقه ي شهري تهران که شامل شهرهاي تهران، ري، اسلام‌شهر، شميرانات، شهريار، رباط‌کريم و کرج مي‌باشد، همگي با وجود حفظ بافت کهن خود به هم‌ديگر چسبيده‌اند. در تعدادي از اين شهرها، پيش‌بيني مي‌شود که مسائلي از قبيل عرضه ي خدمات پايه، طي مسافت از خانه تا محل کار و دفع ضايعات و زباله‌ها که تا کنون بسيار معضل‌آفرين بوده‌اند در دهه‌هاي آتي چندين برابر افزايش يابند(وست فال و دويلا،1386، صص1و2). گستردگي و پيچيدگي مسائل شهري و رشد و توسعه ي روزافزون شهرها، مديريت امور شهر را به وظيفهاي دشوار تبديل نمودهاست. علاوه بر موضوعاتي هم چون محيط زيست، حمل و نقل، ايمني و برنامه ريزي شهري، يکي از عوامل مهمي که تأثير فزاينده و تعيين کنندهاي بر عوامل سازنده ي شهري دارد، مديريت شهري است. اگر شهر هم چون سازماني در نظر گرفته شود، لازم است که در رأس آن عنصري براي برنامهريزي آينده و اداره ي امور کنوني قرار گيرد. اين عنصر را ميتوان مديريت شهر ناميد. مسائل بسياري در شهرها وجود دارد که براي حل آن ها و پاسخ به درخواستهاي موجود در عرصههاي زندگي جمعي، وجود مديريت شهري را ضروري مينمايد. اين موضوع به خصوص در مسائل خدماتي و عمراني عمومي، جنبه ي ويژه پيدا ميکند. لذا اموري مانند تأمين بهداشت و نظافت محيط شهر، ايجاد و حفظ فضاي سبز، تأمين ايمني شهر و شهروندان، نيازمند وجود سازماني با تشکيلات مشخص است تا مديريت شهر به نحو مطلوب صورت گيرد. بدينسان مديريت شهري به معناي سازماندهي عوامل و منابع براي پاسخگوئي به نيازهاي ساکنان شهر است و شامل کارکردهاي برنامهريزي، اجرا، نظارت، کنترل و هدايت است که براي اعمال قدرت بايد برآمده از اراده ي شهروندان و قراردادهاي اجتماعي باشد (نظريان آزاد، 1388، ص4). همان طور که بيان شد، امروزه شهرنشيني و توسعه ي شهري يکي از پديدههاي ويژه است. رشد سريع شهرها و پيشي گرفتن آن از توانائيها و منابع مديران شهري، ارائه ي خدمات شهري مناسب را براي مديران شهري به يک چالش عظيم تبديل نموده است. تراکم جمعيت، دشواري رفت و آمد در محيطهاي شهري، آلودگيهاي هوا و ناامنيهاي اجتماعي، برخي از مشکلاتي است که ذهن کارشناسان و صاحبنظران در حوزههاي مختلف را به خود مشغول نموده است. در اين خصوص، به منظور کاهش و برطرف نمودن مشکلات ياد شده، توسعه ي فن آوري اطلاعات و ارتباطات مدنظر قرار گرفته است. (نظريان آزاد، 1388، ص1). ترادف مفهوم مديريت شهري به رغم ماهيت آن با مفهوم شهرداري به عنوان سازمان مديريت شهري، ناگزير ميسازد تا به مفهوم شهرداري نيز پرداخته شود. برابر ماده 5 قانون محاسبات عمومي کشور نيز «شهرداري سازماني است عمومي و غيردولتي که داراي شخصيت و استقلال حقوقي بوده و تحت نظارت شوراي شهر که منتخب مردم است و نظارت دولت از طريق وزارت کشور براي انجام وظايفي که در قانون شهرداريها آمده است، تأسيس شده است. » با توجه به تعاريف ذکر شده ميتوان گفت تعريف مديريت شهري( با توجه به ديدگاهي که آن را مساوي با شهرداري ميگيرد) عبارت است از اداره سازماني غيردولتي که براي برآورده کردن نيازهاي مشترک شهروندان در سطح شهر از طرف آن ها و مطابق با قانون تأسيس ميگردد و در محدوده فعاليت خود استقلال سازماني دارد(خانزاده، 1386، ص 76). نقش فن آوري اطلاعات در توسعه ي مديريت شهري در دو دهه اخير، واژه فن آوري اطلاعات يا فن آوري اطلاعات و ارتباطات به عنوان يک پديده ي نوظهور و قدرتمند، جايگاه جهاني خود را پيدا کرده است و به نظر ميرسد به زودي کاربردهاي مختلف آن، تمام امور روزمره جوامع را- به صورت مستقيم و يا غير مستقيم _ تحت تأثير خود قرار دهد. سرعت تأثيرگذاري و گسترش اين پديده بسيار زياد است به طوري که از هم اکنون انتظار ميرود در ساختارهاي فرهنگي، اقتصادي، اجتماعي و سياسي و هم چنين در بنيانهاي سنتي اداره جوامع، تحولات اساسي رخ دهد و سيستم جديدي از مديريت معرفي گردد.. بيشتر کشورهاي توسعه يافته منافع و خطرهاي احتمالي فن آوري اطلاعات و ارتباطات و کاربردهاي آن را پذيرفتهاند و از آن استفاده ميکنند. بعضي از کشورهاي در حال توسعه و يا فقير نيز که در خصوص مزايا و فرصتهاي اين فن آوري اطلاعات کافي ندارند و يا از امکانات اقتصادي لازم براي بهکارگيري اين پديده بيبهره هستند، در اين زمينه دچار عقبماندگي شدهاند. کشورهائي نيز وجود دارند که از نظر مالي مشکل خاصي ندارند، اما با رويکردي ايدوئولوژيک به اين پديده ي نوظهور نگاه ميکنند و باعث تأخير و يا مانع استفاده مردم کشور خود ميشوند. متأسفانه اين رويکرد موجب ميشود خسارات جبرانناپذيري به جامعه تحميل گردد. از آنجا که تمام ابعاد اين پديده ( و به خصوص بعضي از کاربردهاي آن مانند شهر الکترونيکي) حتي در بعضي از کشورهاي توسعه يافته نيز شناخته شده نيست. بنابراين، فرهنگسازي و آسيب شناسي در زمينه معرفي فن آوري اطلاعات و ارتباطات و کاربردهاي آن اقدام موثّري محسوب ميشود(جلالي، 1384). به کارگيري فن آوري اطلاعات و ارتباطات در اداره ي امور شهر هم از ديدگاه شهروندان و هم از ديدگاه مديران شهري داراي مزاياي فراواني است که برخي از آن ها عبارتند از(محکي، 1386، ص 77): از ديدگاه مديران شهري شناسايي بهتر مشکلات و نقاط ضعف شهر. افزايش قدرت کنترل و نظارت بر شهر. تقويت رقابت تجاري شهر و ايجاد فرصتهاي تجاري بيشتر توسط تجارت الکترونيک. ارتباط بهتر سازمانها و ارگانهاي مختلف شهري. افزايش مشارکت مردم در اداره شهر. کاهش آلودگي هوا با کاهش ترافيک شهري. تسريع در برطرف شدن مشکلات ايجاد شده در شهر با ارتباط مستقيم مديران شهري با شهروندان. ايجاد زيرساختار لازم براي توسعه آتي شهر. کاهش فساد اداري از طريق شفافسازي فرايندها. افزايش نظم در فعاليتهاي شهر با استفاده از سيستم اطلاعات جامع. مديريت و نظارت واحد شهري. از ديدگاه شهروندان پيگيري بهتر امور. دسترسي به پايگاه اطلاعاتي شهري مورد نياز. شناسايي بهتر مشکلات و نقاط ضعف شهر به منظور بهبود در تصميمگيري در بعضي از فرآيندهاي زندگي. صرفهجويي در زمان و هزينه. ارتباط بهتر با سازمانها و ارگانهاي مختلف شهري. دسترسي 24 ساعته به خدمات شهري. افزايش سطح آگاهي. بهرهگيري از خدمات اينترنتي با کيفيت و سرعت بالا. شهرداري يکي از مهمترين نهادهاي مديريت شهري در ساختارهاي اجتماعي و سياسي محسوب ميشود که تحت تأثير انقلاب اطلاعات و ارتباطات قرار گرفته است (نظريان آزاد، 1388، ص1). سامانه ي 137 مديريت شهري، به عنوان يكي از بخش هاي مديريتي در اين حوزه ، با استفاده از شبكه ارتباطي و ايجاد امكان برقراري ارتباط تلفني بين شهروندان و مديران تا حدودي فضاي طرح نياز هاي شهروندان و بررسي رضايتمندي از پروژه هاي اجرائي و نظارت برحسن اجراي فعاليت هاي شهرداري را تحقق بخشيده است كه با توجه به مطالعات انجام شده و نظر سنجي هاي به عمل آمده از جايگاه خوبي برخوردار مي باشد. اين سامانه تنها بخش كوچكي از تاثير فن آوري در حوزه ي خدمات شهري و نظارت شهري، آن هم در زير مجموعه ارتباطات را نشان مي دهد، در حالي كه امروزه فن آوري در بخش هاي گسترده تر كارائي خود را نشان داده است(جلالي لواساني؛ نجفي ، 1388، ص 19). مشارکت امروزه يکي از الزامات زندگي شهري به شمار مي رود و همان طور که بيان شد هنگامي تحقق مي يابد که شهرنشينان از حالت فردي که صرفاً در مکاني  به نام شهر زندگي مي کنند درآيند و به شهروند بدل شوند. .حضور پررنگ شهروندان در سيستم اداره ي شهر هميشه مي تواند به بالا بردن بهره وري در عرصه ي خدمات شهري انجاميده و پويايي و پيشرفت هر چه سريع تر شهر و رفع عقب ماندگي هاي گذشته را به همراه داشته باشد. شهرداري تهران تلاش نموده است تا با استقرار سامانه ي 137 شهروندان را وارد عرصه مشارکت نمايد. معرفي سامانه مديريت شهري 137 شهرداري تهران واحد دريافت پيام هاي مردمي 137 شهرداري تهران با هدف دريافت ديدگاه ها و نقطه نظرات شهروندان در خصوص مديريت شهري و هم چنين ايجاد ارتباط بيشتر شهروندان با مديران ارشد شهرداري در سال 1379راه اندازي شد که درخواست هاي مردمي را از طريق سيستم صوتي دريافت مي نمود. ميانگين تماس در اين دوره با شماره 137، تعداد10 تماس در روز بوده است. به دنبال افزايش حجم ارتباطات و هم چنين تقاضاي شهروندان مبني بر امکان ارتباط مطلوب تر با اين مرکز، طرح بازبيني واحد 137 تدوين شد و سيستم مرکز تلفن در مهرماه سال 1381 راه اندازي و امکان ارتباط با اپراتور انساني مهيا گرديد. در ابتداي شروع به کار سامانه در سال 1384 اين سيستم به صورتOff line راه اندازي گريد. نحوه ي عملکرد اين سيستم بدين صورت بود که بخش ثبت پيام با حضور22 اپراتور به پاسخگويي و ثبت پيام و تقاضاهاي شهروندان مي پرداخت و بعد از تفکيک پيام ها، هر دسته از پيام هاي مربوط به هر يک از مناطق 22 گانه، به بخش ابلاغ فرستاده مي شد. در اين بخش به ازاي هر منطقه، يک نماينده ي منطقه حضور داشت که پيام هاي دريافتي را توسط فاکس يا تلفن و در صورت ضرورت و فوريت توسط بي سيم به مديران اجرايي منطقه منتقل مي کرد(اميري، 1387). در سال 1385 با اتصال مناطق 22 گانه شهرداري تهران به مرکز سامانه مديريت شهري توسط فيبر نوري، اين سامانه به صورت On line شروع به فعاليت نمود. بدين ترتيب که بخش ابلاغ از سامانه حذف گرديد و تمامي تماس ها و تقاضاهاي شهروندان به صورت هم زمان و On line به مناطق 22گانه شهرداري تهران انتقال مي يافت(اميري، 1387). در حال حاضر اين سامانه با 60 خط تلفن، 2 سايت ثبت خبر با 44 اپراتور در هر شيفت به صورت 24 ساته در خدمت شهروندان مي باشد. در حال حاضر بيش از 7 هزار تماس در روز در سامانه ثبت شده است. آمار بالاي تماس شهروندان با اين سامانه و تنوع پيام هاي آن ها نشان دهنده موفقيت اين سامانه در جلب اعتماد شهروندان است. سامانه 137، اصول شهروند مداري، محله گرايي، مشارکت مردمي، رفع فوري مشکلات شهري و پاسخگويي به مشکلات شبانه روزي بدون وقفه را سرلوحه ي گسترش فعاليت هاي خود قرار داده است تا با شعار سرعت، دقت، صحت نياز شهروندان را با مشارکت خود ايشان در کمترين زمان به انجام رسانده که نتيجه ي اقدامات فوق، افزايش آمار تماس هاي روزانه ي شهروندان با اين سامانه مي باشد(www.tehran.ir). اين سامانه بر اساس نوع و موضوع پيام 644 عنوان دارد که ذيل 51 عنوان کلي طبقه بندي شده است و هريک به نوعي مشکلات شهري را بيان مي کنند. جدول 2-1 نمونه اي از رکوردهاي جدول پيام را نشان مي-دهد: جدول 2-1 : نمونه اي از جدول پيام MessageCode49129852491717904916898549177380CategoryNameزباله و ضايعاتکارمندانآسفالتزباله و ضايعاتSubjectNameمخزن زباله و ضايعات به موقع تخليه نمي شودحقوق و مزاياي پرسنل به موقع پرداخت نشده است.اين محل نياز به روكش آسفالت دارد.مخزن زباله و ضايعات به موقع تخليه نمي شودMessageSolarDate1389/06/191389/06/211389/06/211389/06/21LastStateNameانجام شد و تاييد گرديدانجام شد و تاييد گرديدتکراري و اطلاع رساني شدرضايتLastStateDate1389/06/271389/07/051389/06/221389/06/22LastUnitNameناحيه 3 منطقه 8اداره کل امور مالي و اموالناحيه 1 منطقه 7ناحيه 4 منطقه 16MessageTextنياز به تخليه مخزن و پاکسازي اطراف آن مي باشدحقوق کارگر ميدان تره بار مذکور به مدت 2 ماه پرداخت نشده استروکش اسفالت نيمه کاره رها شده است .جهت جمع اوري زباله هاي کنار سطل و تخليه سطل زباله اقدام شود.CitizenFirstNameاقاي اقاي خانمآقايCitizenLastName کدخداييبختياري روز بهاني عبدالهيCitizenPhoneNULLNULL7760266355002001CitizenMobile912526412691255859426NULLNULL ماخذ جدول: بانک اطلاعاتي سامانه 137 موضوعاتي که شهروندان در خصوص آن با سامانه 137 تماس مي گيرند شامل موارد ذيل است(آخوندزاده نوقاني، 1388، صص51 و52 ).: خدمات شهري و عمراني ( آسفالت، جدول گذاري، آبياري درخان، جمع آوري زباله، لايروبي، رفع آب گرفتگي، برف روبي، رفع لغزندگي، نصب پل عابر، احداث بزرگراه، احداث فضاي سبز، احداث اماکن فرهنگي هنري ورزشي،...) حمل و نقل عمومي و ترافيک شهري (اتوبوس، تاکسي، ميني بوس، مترو، خطوط عابر پياده، تابلوهاي راهنمايي و رانندگي و مسافربرهاي شخصي تحت نظارت تاکسيراني) اماکن عمومي ( پارک ها و فضاي سبز، پايانه هاي مسافربري، بهشت زهرا، مراکز معاينه فني، ميادين ميوه و تره بار، فروشگاه هاي شهروند، ايستگاه هاي اتوبوس،...) زيبا سازي و چشم انداز شهري ( حذف زوائد فيزيکي، نظافت، ديوارها، درختکاري، گلکاري، معابر عمومي، شست و شوي نشانه ها و علامت هاي شهري، نظافت معابر و ...) امور اجتماعي و مزاحمت هاي شهري (سد معبر، جمع آوري متکديان و کارتن خوابها، اماکن فرهنگي هنري و ورزش) نحوه ي عملکرد سامانه مديريت شهري 137 برقراري تماس با سامانه 137 از 5 روش امکان پذير مي باشد(www.tehran.ir) : تماس با شماره 137 ارسال پيام کوتاه به شماره 30000137 ارتباط از طريق پست الکترونيک 137@Tehran.ir ارتباط از طريق وب سايت اينترنتي و ثبت نام اينترنتي پيام به آدرس www.tehran.ir/137 ارتباط از طريق صندوق پستي ارجاع به عامل اجرايي يا پيمانکار و اجراي حکم کارتحويل حکم کار نهايي به شهردار ناحيهبررسی کار انجام شدهعدم پذيرش گزارش کارتاييد کار و اعمال در فرم الکترونيک ثبت پاسخارجاع به کارتابل ناظر عالیاعمال بررسی و ثبت نظارتثبت عدم تاييد کارثبت تاييد کارارجاع به کارتابل بازخوردتکراری انجام شده است.تکراری در دست اقدام.برابر با نظر کارشناسی نياز به اقدام نمی باشدقابل انجامثبت در سامانه 137کارتابل الکترونيک مدير اجراييصدور حکم کار/ ارجاع مجدد حکم کار و تحويل به مامور بازديدبازديد و تشخيص مامور بازديدصندوق پستیپيام کوتاهتماس تلفنیپست الکترونيکاينترنت شکل 2-1 چرخه گردش پيام- ماخذ: مرکز سامانه 137 در هنگام تماس شهروندان از طريق تلفن يا پيام کوتاه و پست الکترونيک موضوع پيام توسط اپراتور تعيين مي گردد و در صورت ارتباط از طريق درگاه اينترنتي شهروندان خود نوع درخواست را از طريق دسته بندي موضوع هاي مختلف ثبت مي کنند. سپس اطلاعاتي راجع به منطقه و محل وقوع مشکل و مشخصات فرد متقاضي دريافت و در محيط نرم افزاري سامانه ثبت مي شود و کد پيگيري مربوطه در اختيار شهروند قرار مي- گيرد(اميري، 1387). اين درخواست به صورت آنلاين در کارتابل مدير اجرايي منطقه مربوطه قرار مي گيرد. پس از بررسي مقدماتي مدير اجرايي منطقه حکم انجام کار به مامور بازديد را صادر مي کند(اميري، 1387). مامور بازديد پس از حضور در محل وقوع مشکل و تشخيص و بررسي ابعاد مسئله، نظر کارشناسي خود را تحت يکي از 4 عنوان ذيل اعلام مي دارد: درخواست تکراري بوده و در گذشته انجام شده است. درخواست تکراري بوده و در دست اقدام مي باشد. برابر با نظر کارشناسي نياز به اقدام درخواست نمي باشد. درخواست قابل انجام است. در صورت گزارش مامور بازديد مبني بر يکي از موارد 1 تا 3 حکم کار مستقيماً به شهردار ناحيه تحويل داده مي شود. ولي در صورتي که نظر کارشناسي، درخواست شهروند را مبني بر قابل انجام بودن تقاضا تاييد کند درخواست انجام کار به عامل اجرايي منطقه يا پيمانکار مربوطه ارجاع داده مي شود(اميري، 1387). پس از اجراي حکم، کار توسط عامل اجرايي و عملياتي شهرداري و تکميل گزارش کار، حکم کار به شهردار ناحيه تحويل مي شود. شهردار ناحيه توسط عوامل بررسي و کنترل، از کار انجام گرفته بازديد و نحوه انجام را بررسي و با گزارش کار تکميل شده توسط عوامل اجرايي مسئول مقايسه مي کنند؛ در اين مرحله در صورت عدم پذيرش گزارش کار، درخواست مجددا براي صدور حکم کار ارجاع داده مي شود و در صورت تاييد کار، با ثبت تاييديه مربوطه پرونده به کارتابل الکترونيکي ناظر عالي منطقه ارجاع داده مي شود(اميري، 1387). ناظر سازمان با بررسي مجدد نحوه ي انجام کار صورت گرفته توسط مجموعه عوامل شهرداري در صورت عدم تاييد کار، مجدداً درخواست را به کارتابل الکترونيک مدير اجرايي جهت صدور حکم جديد کار و بازديد مامور تشخيص ارجاع و در صورت تاييد کار، پس از ثبت تاييديه، پرونده الکترونيکي تکميل شده، به کارتابل مربوط به بخش بازخورد ارجاع داده مي شود(اميري، 1387). در اين مرحله پس از ثبت و بايگاني پرونده، تمامي فعاليت هاي صورت گرفته و نتيجه کار توسط بخش بازخورد چه از طريق تماس تلفني يا از طريق پيام کوتاه يا ارسال از طريق پست الکترونيک به اطلاع شهروندان مي رسد تا از کم و کيف مراحل اجرايي تقاضاي خود و نتيجه حاصله باخبر شوند(اميري، 1387). پس از مرحله ي بازخورد، تمامي پرونده هاي ثبت شده به واحد تجزيه و تحليل اطلاعات ارجاع داده مي شود تا کارشناسان و متخصصين شهرداري با تجزيه و تحليل نوع تقاضاي شهروندان و هم چنين نحوه ي انجام کار به بررسي ميزان و فوريت نياز شهروندان در سطح ناحيه و مطقه محل زندگي و هم چنين نياز کلي مردم در سطح شهر بپردازند تا مسائل بحراني را در سطح کلي شهر و حتي منطقه شناسايي و نسبت به رفع معضل موجود برنامه ريزي کنند(اميري، 1387). ماموريت هاي مرکز سامانه مديريت شهري 137 ايجاد پل ارتباطي بين شهرداري و شهروندان. هماهنگي و هدايت توان اجرايي براي رفع سريع و فوري مشکلات ملموس در سطح شهر با بهره گيري از کليه تجهيزات و امکانات به پيام هاي شهروندان. ايجاد زمينه جلب مشارکت عمومي شهروندان و ارکنان مرکز سامانه با تبليعات، اطلاع رساني و آموزش همگاني براي اعتلا و ارتقاي ابعاد زندگي شهري در تهران. دريافت درخواست هاي شهروندان و پاسخگويي و ارائه خدمات به صورت شبانه روزي و بدون وفقه. بهره گيري از درخواست هاي ثبت شده مردمي در سامانه 137 و تحليل داده هاي آماري به منظور برنامه ريزي دقيق در جهت رفع معضلات شهري و بهبود روش هاي موجود در ماموريت هاي محوله(http://137.tehran.ir). رويکردهاي اجرايي مرکز سامانه مديريت شهري 137 پيگيري کليه فعايت ها و ماموريت ها با توجه به تلاش علمي وجهادي. بهره گيري درست از سرمايه هاي انساني و اجتماعي. نهادينه کردن فرهنگ شهروند مداري. توجه به اطلاع رساني، آموزش همگاني و مشارکت به عنوان سه رکن اساسي جلب مشارکت مردم. بهره گيري موثر از دانش روز فن آوري اطلاعات(http://137.tehran.ir). چشم انداز مرکز سامانه مديريت شهري 137 معماري صحيح در جهت دريافت و رسيدگي به کليه نيازمندي هاي شهروندان در حوزه مديريت شهري از طريق بارگذاري پيام هاي مرتبط با واحدهاي اجرايي. استقرار نظام جامع جذب و سازماندهي منابع نيزوي انساني درمرکز. تجهيز امکانات ستادي و نيز پيگيري تجهيز امکانات عملياتي صف به ابزارهاي نوين علمي روز با هدف ارتقاي سرعت، صحت و کيفيت در نحوه دريافت و اجراي پيام و با رويکرد کاهش هزينه ها و صرفه جويي و شفافيت در اقلام و کالاهاي مصرفي. تلاش به منظور استقرار سيستم واحد مديريت شهري با محوريت مرکز 137، استقرار سيستم هاي استاندارد کيفيت خدمات، تحقق مدل هاي عملياتي مديريت ارتباط با شهروندان به عنوان اصلي ترين مشتريان شهرداري، استفاده و بهره گيري از سيستم هاي اطلاعات جغرافيايي و موقعيت ياب از طريق آخرين دستاوردهاي ناشي از فن آوري هاي اطلاعاتي و ارتباطاتي. توليد محتو و فرهنگ سازي جهت آشنايي و نزديکي هرچه بيشتر شهروندان جهت استفاده از خدمات اين مرکز براي مشارکت در مديريت شهر. پيگيري عملياتي و ميداني، نظارت دقيق بر اجرا و صحت عمل، بازرسي هوشمندانه جهت پاسخ گويي صحيح و موثر. (http://137.tehran.ir) -412115242570ساختار سازماني سامانه مديريت شهري 137 شکل 2-2ساختار سازماني سامانه مديريت شهري سامانه 137-ماخذ: مرکز مديريت سامانه 137 مدل مفهومي تحقيق يکي از ابعاد توسعه ي مديريت شهري به کارگيري فن آوري هاي نوين اطلاعاتي مي باشد. همان طور که بيان شد، شهرداري تهران در اقدامي ابتکاري با به کار گيري اين فن آوري و به منظور جلب مشارکت مردم در اداره ي امور شهر، اقدام به راه اندازي مرکز مديريت شهري سامانه 137 نموده است. از طرف ديگر با گذشت بيش از 6 سال از راه اندازي اين مرکز، بانک اطلاعاتي سامانه 137 حاوي داده هاي ارزشمندي در زمينه ي مسائل شهري مي باشد، که با انجام داده کاوي بر روي اين داده ها مي توان به کشف دانش پنهان ميان آن پرداخت و مديران شهري را در ارائه ي مطلوب خدمات شهري به شهروندان ياري رساند. توسعه ی مديريت شهريافزايش مشارکت مردمیبه کارگيری فن آوری های نوين اطلاعاتیخوشه بندی طبقه بندیپيش بينیقوانين وابستگیداده کاوی بر روی سامانه ی 137کشف دانش پنهانتسهيل در امر تصميم سازیتخصيص بهينه منابعآمادگی بيشتر در مقابل معضلات شهری شکل2-3 مدل مفهومي تحقيق ادبيات ياپيشينه تحقيق تحقيقات داخلي سامانه ي مديريت شهري 137 شهرداري تهران تاکنون موضوع تحقيقات و پژوهش هاي متعددي براي دانشجويان و محققان بوده که از آن جمله مي توان به موارد زير اشاره نمود: يوسفيان مريم آبادي، محمد حسين(1389)؛ طراحي چهارچوب کندوکاو فرايندهاي همکارانه بر پايه فرايند کاوي: پايان نامه کارشناسي ارشد؛ دانشگاه تربيت مدرس، دانشکده فني و مهندسي (گروه مهندسي سيستم هاي اقتصادي – اجتماعي) در تحقيق مذکور با مد نظر قرار دادن ويژگي هاي خاص فرايندهاي همکارانه و با استفاده از مجموعه تکنيک هاي فرايند کاوي، چارچوبي براي کندو کاو اين دسته از فرايندها طراحي شده است و آن ها را از منظرهاي مختلفي تجزيه و تحليل کرده است. در اين تحقيق داده هاي مربوط به سال 1387 سامانه 137 با استفاده از تکنيک هاي ابتکاري در منظر فرايند، تکنيک هاي آناليز شبکه هاي اجتماعي در منظر سازمان و تکنيک هاي آماري و الگوريتم دسته بندي در منظر عملکرد پردازش و از نتايج براي شناخت فرايند 137 و کشف برخي انحرافات و مشکلات آن استفاده گرديده است. همتي، ميثم(1388)؛ بررسي تاثير بکارگيري مرکز سامانه مديريت خدمات شهري (137) بر ميزان رضايت مشتريان در منطقه 2 شهرداري تهران؛ پايان نامه کارشناسي ارشد؛ دانشگاه پيام نور مرکز تهران، دانشکده علوم اجتماعي و اقتصادي. در اين تحقيق ميزان رضايت شهروندان منطقه 2 شهرداري تهران از نظر کيفيت عملکرد و به طور کلي از منظر کارکرد مرکز سامانه مديريت شهري 137 مورد سنجش قرار گرفته است. اين تحقيق بيان مي کند که بيشترين توفيق مرکز 137 در برقراري ارتباط موفق و مناسب شهرداري با شهروندان و هم چنين نحوه برخورد مناسب اپراتورهاي 137 بوده است. از طرفي کمترين ميزان رضايت به ميزان سرعت ارائه خدمات شهرداري از طريق مرکز سامانه 137 و وجود فرايند مناسب براي رديابي علايق و سلايق شهروندان اختصاص داشته است. پژوهشگر پس از انجام اين پژوهش و با توجه به نتايج برآمده از دل تحقيق ، به ارائه برخي پيشنهادها و توصيه هاي کاربردي پرداخته است. اميري، آرين (1387)؛ عوامل مؤثر بر پذيرش سامانه مديريت شهري تهران (137) توسط شهروندان؛ پايان نامه کارشناسي ارشد؛ دانشگاه علامه طباطبائي، دانشکده مديريت وحسابداري. در اين تحقيق سعي شده است تعدادي از عوامل مؤثر بر ميزان استفاده از خدمات مرکز سامانه ي 137 توسط شهروندان بررسي شود، تا از طريق شناسايي اين عوامل، به فراگير شدن هر چه بيشتر بهره‌گيري از اين سامانه به عنوان يکي از زير مجموعه‌هاي ضروري تحقق «شهر الکترونيک» كمك شود. نتيجه پژوهش حاكي از آن است كه مهم‌ترين عامل تأثيرگذار بر پذيرش سامانه 137 توسط شهروندان «درك سهولت استفاده از سامانه» است و عامل «درك سودمندي و احساس مفيد بودن سامانه» نيز مي‌تواند در ميزان استفاده عملي شهروندان از آن تأثير به‌سزايي داشته باشد. و اما مهم ترين پژوهش انجام شده و حائز اهميت در خصوص سامانه 137 بر اساس داده کاوي، پژوهشي است که در ذيل به آن اشاره شده است. اين پژوهش به کاوش دانش پنهان مديريت ارتباط با مشتري در اين سامانه پرداخته و مقالاتي نيز با عناوين ذکر شده در کنفرانس هاي داده کاوي و شهر الکترونيکي بر اساس يافته هاي اين پژوهش ارائه شده است: آخوندزاده نوقابي، الهام(1388)؛ کاوش دانش پنهان مديريت ارتباط با مشتري: مورد کاوي پايگاه اطلاعاتي 137 شهرداري تهران، پايان نامه کارشناسي ارشد؛ دانشگاه شاهد دانشکده فني و مهندسي. در اين تحقيق سعي شده است با يک رويکرد ترکيبي از تکنيک هاي داده کاوي نيازها و مشکلات اصلي و مهم شهروندان تهراني شناسايي و بر اساس اهميت و ميزان رضايت مندي شهروندان از نحوه ي رفع هريک از اين مشکلات استراتژي بهبود جهت ارائه بهتر خدمات شهري ارائه گردد. نحوه ي انجام کار و دستاوردهاي حاصل شده در اين تحقيق به دليل شباهت روش انجام کار و سازمان مورد مطالعه با تحقيق حاضر با ذکر جزئيات بيشتر بيان مي گردد: قلمرو زماني و مکاني تحقيق انجام گرفته، داده هاي سامانه 137 در زمستان 86 و منطقه 1 تهران مي باشد. محقق در اين تحقيق با استفاده از تکنيک خوشه بندي و به کار گيري الگوريتم K-means مشکلات شهري را براساس فراواني و بازه زماني بروز مشکل (اين که در چندمين روز از فصل زمستان رخ داده است) به 5 خوشه تقيسم کرده است و سپس به بررسي و تحليل هر خوشه پرداخته است. در ادامه با ترکيب خوشه ها، مشکلات ونيازهاي شهري را نهايتاً به 3 دسته: مشکلات اوليه شهروندان، مشکلات ثانويه شهروندان و مشکلات موردي و نادر تقسيم مي نمايد. با تشکيل خوشه هاي جديد و با استفاده از الگوريتم Apriori به شناسايي الگوهاي پرتکرار در درون هر خوشه پرداخته شده است. کشف اين الگوهاي پرتکرار در دو مرحله صورت گرفته است. در يک مرحله ارتباط بين نوع مشکلات وبازه هاي زماني- مکاني بروز آن ها و در مرحله ديگر ارتباط بين نوع مشکلات و مشخصه هاي رضايت مندي مورد بررسي قرار گرفته است. به طور نمونه يکي از الگوهاي پرتکرار شناسايي شده بين خوشه، ناحيه و ماه بيان مي کند که در ناحيه 6 با اطمينان 98% مشکلات خوشه 1 اتفاق افتاده است. وضعيت رضايت مندي شهروندان نيز بر اساس کشف الگوهاي پرتکرار بين مشخصه رضايت مندي شهروندان و دسته هاي مشکلات در خوشه هاي نيازهاي اوليه و نيازهاي ثانويه تحليل شده است. يکي از الگوهاي شناسايي شده در اين بخش بيان مي کند: اگر مشکل به وجود آمده از نوع مشکلات ساخت و ساز بوده باشد با اطمينان 66/72% مي توان گفت که ميزان رضايت از سرعت خدمات ارائه شده بالا بوده است. بررسي نقش واحدهاي اجرايي در دسته مشکلات مربوط به خوشه نيازهاي اوليه که شامل زباله ضايعات، نظافت، آسفالت و مشکلات مرتبط با جوي آب مي شود نيز به طور جداگانه با استفاده از قوانين باهم آيي پرداخته شده است. به طور نمونه اين بخش مشخص کرد که ميزان رضايت مندي شهروندان از واحدهاي اجرايي نواحي 1، 2 و 7 در مشکلات مربوط به زباله ضايعات با اطمينان 70% بالا بوده است. در پايان به کشف هم زماني وقوع مشکلات پرداخته شده است که به طور نمونه بيان مي کند اگر مشکل "معبر نياز به برف روبي دارد" اتفاق افتاده باشد مشکل "رفع لغزندگي معابر" نيز با اطمينان 100 درصد در همان روز اتفاق افتاده است. احمدوند، علي محمد؛ آخوندزاده، الهام ؛مينايي بيدگلي، بهروز (1388)، "استفاده از داده کاوي در بهبود مديريت شهري: مورد کاوي پايگاه اطلاعاتي 137 شهرداري تهران". سومين کنفرانس داده کاوي ايران. احمدوند، علي محمد ؛ بهروز، مينايي بيدگلي، آخوندزاده ، الهام ؛ (1388) تحليل رضايتمندي شهروندان با استفاده از تکنيک هاي داده کاوي: مورد کاوي شهرداري تهران". سومين کنفرانس داده کاوي ايران. مينايي بيدگلي، بهروز؛ آخوندزاده نوقابي، الهام؛ موسوي، محمد حسين؛ احمدوند، علي محمد(1388)؛ "استفاده از داده کاوي در مديريت ارتباط با شهروند: مورد کاوي پايگاه اطلاعاتي 137 شهرداري تهران". دومين کنفرانس شهر الکترونيک. در اين مقاله به کشف الگوهاي متوالي ميان پيام ها با استفاده از الگوريتم Sequenceو کشف قواعد وابستگي بر روي پيام ها با استفاده از الگوريتم Apriori پرداخته شده است. تحقيقات خارجي مطالعات انجام شده در زمينه ی عملکرد مراکز تماس که از تکنيک های داده کاوی در آن استفاده شده است، به شرح جدول 2-2 می باشد. جدول 2-2: تحقيقات خارجي در زمينه کاربرد داده کاوي در مراکز تماس الگوريتم داده کاويمدل داده کاويمرجعMLP، LNN، PNN ، CART، SVMPrediction, ClassificationPaprzycki, Abraham, Guo and Mukkamala (2003)عنوان مقالهData Mining Approach for Analyzing Call Center Performance visualizationFrancois du Toit, Calitz(2008)عنوان مقالهA Model for the Visual Data Mining of Call PatternsID3، Naïve bayes، VFI، IB1، IBK، K-StarText mining-ClassificationWhite, Jagielska(2004)عنوان مقالهInvestigation into the Application of Data Mining Techniques to Classification of Call Centre Data Naïve bayes,C4.5ClassificationNing Tan, Blau, Harp and Robert Goldman(2003)عنوان مقالهTextual Data Mining of Service Center Call RecordsText mining-ClusteringWallace, Cermack (2003)عنوان مقالهText Mining Warranty and Call Center Data: Early Warning for Product Quality AwarenessNeural NetworkPredictionLv Jing  Guo Min (2010)عنوان مقالهPredicting Call Center Service Grade with Improved Neural Network Algorithm خلاصه فصل دوم در اين فصل، ادبيات موضوع داده کاوي که شامل تعاريف، تاريخچه، تکنيک ها و الگوريتم هاي داده کاوي مي باشد آورده شده است. هم چنين از آن جا که اين تحقيق در حوزه ي شهرداري تهران و مرکز مديريت شهري 137 مي باشد، لذا به فلسفه وجودي اين سامانه ، اهداف و کارکردهاي آن و نحوه ثبت تماس هاي شهروندان و اقدام بر روي آن ها اشاره شده است. سپس متدلوژي و مدل مفهومي تحقيق آورده شده است و در انتها به شرح مختصري از پژوهش هاي انجام شده در حوزه ي سامانه 137 و داده کاوي در اين سامانه پرداخته شده است و يافته هاي آن ها براي ارائه ي اطلاعات بيشتر و تکميلي تر به اختصار بيان شده است. در فصل بعد با عنايت به ادبيات و تئوري هاي مطرح شده در اين فصل به روش شناسي تحقيق مي پردازيم. 3 فصل سوم روش تحقيق مقدمه در فصل قبل مباني نظري و تجربي تحقيق مورد بررسي قرار گرفت. در اين فصل ساختار مفهومي روش تحقيق تشريح مي گردد. براي اين منظور مباحث مرتبط با مدل و الگوريتم هاي مورد استفاده به تفصيل بيان مي گردند، سپس در خصوص داده ها و ساختار اجرايي تحقيق و گام هاي آن بحث خواهد شد. نوع تحقيق در اين قسمت نوع تحقيق بر مبناي هدف تحقيق و روش گردآوري داده ها بيان مي شود که در ادامه به شرح آن مي پردازيم: بر اساس هدف تحقيقات تحقيقات علمي بر اساس هدف، به سه دسته: بنيادي، کاربردي، تحقيق و توسعه تقسيم مي شوند. اين پژوهش از آن جهت که سعي در توسعه ي دانش داده کاوي در مديريت شهري دارد؛ تحقيق کاربردي محسوب مي شود. بر اساس روش گردآوري داده ها تحقيقات علمي بر اساس روش گردآوري اطلاعات به دو دسته کلي: تحقيقات توصيفي و تحقيقات آزمايشي طبقه بندي مي شوند. پژوهش حاضر از نوع توصيفي مي باشد زيرا محقق به دنبال کشف الگوهاي پنهان ميان داده ها و تشريح و تبيين دلايل چگونه بودن و چرايي اين الگوهاست. مدل فرايندي داده کاوي بر اساس استاندارد CRISP-DM با توجه به ماهيت تحقيق که استفاده از داده کاوي در کشف روابط و الگوهاي پنهان ميان داده هاي سامانه 137 شهرداري تهران مي باشد اين تحقيق از نوع داده محور محسوب مي شود. پايه اصلي تحقيق بر کشف دانش از پايگاه داده مرکز مديريت شهري 137 شهرداري تهران نهاده شده است. از اين رو استاندارد جهاني CRISP-DM جهت انجام فرايند تحقيق مورد استفاده قرار گرفته است که در فصل دوم به مراحل اصلي آن اشاره شد. هم چنين ساختار اجرايي تحقيق بر همين اساس مورد بررسي قرار گرفته است که در ادامه به آن مي پردازيم. با توجه به اين که در اين تحقيق از تکنيک هاي متعدد داده کاوي براي مدل سازي استفاده شده است در هر بخش سعي شده الگوريتمي که بيشترين دقت را در مدل سازي ارائه مي کند به کار گرفته شود. در فصل بعد به تفصيل به جزئيات الگوريتم هاي به کار گرفته شده پرداخته مي شود. شناخت کسب و کار همان گونه که پيشتر اشاره شد؛ يکي از مسائل مهم در عرصه ي مديريت شهري، نحوه ي ارزيابي شهروندان از عملکرد مديران شهري، اعتماد به اين نهاد و مشارکت در آن است. با رشد فزاينده ي جمعيت در کلان‌شهر تهران و به دنبال آن افزايش مشکلات و مسائل ناشي از شهرنشيني در ابعاد وسيع اقتصادي، اجتماعي، فرهنگي و زيست‌محيطي لزوم ايجاد و استفاده از بسترهاي مديريت شهري جديد همراه با به‌روزترين و کاربردي‌ترين فن آوري‌ها احساس مي‌شود. از اين رو شهرداري تهران در يک اقدام ابتکاري و با استفاده از فن آوري هاي نوين ارتباطي در پياده سازي سامانه مديريت شهري 137، فصل جديدي را در ايجاد ارتباط باشهروندان و افزايش مشارکت آنان در زمينه ي شناسايي و اطلاع رساني مسائل و مشکلات شهري پايه ريزي کرده است. هم اکنون با گذشت بيش از 6 سال از پياده سازي اين سامانه مي توان گفت که داده هاي ارزشمندي در زمينه مسائل شهري در بانک اطلاعاتي اين مرکز جمع آوري شده که با به کارگيري دانش داده کاوي به عنوان يکي از ابزارهاي پياده سازي هوش سازماني يا Business Intelligence بر روي اين داده ها به شهرداري در شناخت درست نيازهاي شهروندان و ارائه ي هر چه بهتر خدمات به آنان کمک نمود. نتيجه ي به کارگيري تکنولوژي داده کاوي در اين سامانه مي تواند منجر به شناسايي الگوهاي مهم و پنهاني شود که پيش از آن ممکن است مورد توجه قرار نمي گرفته و دانستن آن مديران شهري را در ارائه ي مطلوب خدمات شهري به شهروندان ياري مي رساند. شناخت داده ها داده هاي اصلي مورد استفاده در اين تحقيق از بانک اطلاعاتي مربوط به سامانه 137 شهرداري تهران به دست آمده که طي سال 1389 از طريق روش هاي 5 گانه ارتباط شهروندان با اين مرکز در سراسر مناطق 22 گانه شهرداري تهران جمع آوري شده است. هر پيام در اين سامانه داراي يک کد رهگيري مشخص مي باشد که از زمان ثبت پيام تا زمان اقدام همراه آن است. بانک اطلاعاتي اين سامانه SQL Server 2005 مي باشد. با توجه به اين که اطلاعات فرد تماس گيرنده نظير شماره ي تلفن تماس گيرنده، نام و نام خانوادگي، در صورت تمايل شهروند در سامانه ثبت مي شود پس از بررسي مشاهده شد که در حجم وسيعي از رکوردها اين فيلد به صورت مقادير تهي ثبت شده بود و به همين دليل امکان طبقه بندي تماس ها به تفکيک شهروند ميسر نبود ( با در نظر گرفتن اين فرض که هر شهروند بيش از 1 بار در سامانه ثبت اطلاعات نموده است). شرح دقيق فليدهاي جداول به کار رفته در اين تحقيق در بخش تحليل توصيفي آورده شده است. آماده سازي داده ها آماده سازي داده ها مهم ترين و زمان بر ترين بخش در انجام يک فرايند داده کاوي است و شامل مواردي هم چون حذف نقاط مغشوش، پر و يا حذف کردن مقادير مفقوده، تبديل و يا گسسته سازي و کاهش ابعاد داده هاست. هم چنين در اين مرحله بايد داده ها به فرمتي مناسب براي استفاده از نرم افزارها و برنامه هاي داده کاوي تبديل شوند. در قسمت روش اجرايي تحقيق به شرح فرايندهاي انجام شده در مرحله آماده سازي داده ها به تفصيل مي پردازيم. مدل سازي اين مرحله پياده سازي تکنيک هاي مدل سازي يا داده کاوي بر روي ديدگاه قابل کاوش ايجاد شده در مرحله قبل است. براي مدل سازي لازم است که ابتدا تکنيک مدل سازي انتخاب شود که در اين تحقيق سعي شده است از اکثر تکنيک ها (قابليت ها) ي داده کاوي نظير خوشه بندي، درخت تصميم و قوانين وابستگي در کاوش داده هاي موجود به کار گرفته شود. در هر مورد الگوريتم هاي موجود آزمايش و بر اساس نوع و تعداد رکوردهاي اطلاعاتي، بهترين الگوريتم انتخاب گرديده است. براي اعمال اين تکنيک ها در تحقيق حاضر از نرم افزار SPPS Clementine به کار گرفته شده است. بدين شکل که داده ها با فرمت هاي شناخته شده در نرم افزار بارگذاري شده و الگوريتم هاي مختلف بر روي اين مجموعه داده ها اجرا گرديده است. نتايج به دست آمده در فصل چهارم ارائه شده است. ارزيابي مدل در اين مرحله مدل هاي طراحي شده در هر بخش مورد ارزيابي قرار مي گيرد تا مشخص شود آيا اهداف پيش بيني شده در انجام داده کاوي تامين شده است يا خير. توسعه مدل در آخرين مرحله، گزارش نهايي از محصول که همان دانش کشف شده است را مي توان در اختيار شهرداري تهران قرار داد تا راجع به استفاده از نتايج تصميم گيري نمايند. با توجه به اين که اين تحقيق يک تحقيق کاربردي مي باشد، نتايج مي تواند به صورت يک سيستم جهت تصميم گيري مديران شهري کاربرد داشته باشد. داده هاي تحقيق داده هاي اين تحقيق شامل موارد زير مي باشد: داده هاي حاصل از تماس شهروندان تهراني با مرکز سامانه مديريت شهري137 شهرداري تهران که هر يک به نوعي بيان کننده ي مشکلات شهري در يکي از مناطق 22 گانه شهرداري تهران مي باشد و به يکي از روش هاي 5 گانه ارتباطي که در بخش 2-2-3-1 به آن اشاره شده به اين مرکز اطلاع رساني شده و در بانک اطلاعاتي مربوطه ثبت گرديده است. اين داده ها مربوط به سال 1389 مي باشد. داده هاي جمعيتي شهر تهران به تفکيک مناطق 22گانه شهرداري تهران. داده هاي مربوط به وضعيت اعتبار عمراني مصوب 89 به تفکيک مناطق 22گانه شهرداري تهران. داده هاي هواشناسي. جامعه آماري, روش نمونه گيري و حجم نمونه جامعه ي آماري اين تحقيق، 1.135.237 رکورد از بانک داده مرکز سامانه مديريت شهري 137 شهرداري تهران مي باشد که هر رکورد نمايانگر يکي از موضوعات و مشکلات شهري منعکس شده از سوي شهروندان در طول سال 1389 مي باشد. از آن جايي که داده هاي جمعيتي، آب و هوايي و بودجه اي مناطق در طول سال مورد بررسي در بانک داده سامانه 137 ثبت و نگهداري نشده است، لذا داده هاي مذکور با مراجعه به سايت هاي مربوطه استخراج و ذخيره گرديد. با توجه به اين که نتايج داده کاوي با داشتن داده هاي بيشتر از صحت بالاتري برخوردار مي شوند، بنابراين نمونه گيري در خصوص اين جامعه آماري صورت نگرفته است و تمامي داده ها به جز داده هاي پرت و داده هاي ناقص مورد استفاده قرار گرفته است. روش گردآوري اطلاعات و ابزار سنجش گردآوري داده هاي اصلي اين پژوهش از طريق مراجعه حضوري به مرکز سامانه مديريت شهري 137 شهرداري تهران و در اختيار گرفتن برشي از بانک اطلاعاتي اين سامانه در مقطع يک سال و مصاحبه با کارشناسان محترم معاونت فن آوري اطلاعات مرکز مديريت شهري137 که متولي امر پياده سازي اين سامانه از ابتدا و نظارت بر حسن اجراي نرم افزار اين سامانه و ارزيابي عملکرد و تهيه گزارش هاي آماري مرتبط در حال حاضر هستند صورت گرفته است. هم چنين مطالعات کتابخانه اي، شامل جستجوي مقالات و پايان نامه هاي با موضوع مشابه، مطالعه کتاب هاي مرتبط در زمينه ي داده کاوي و نيز شرکت در سمينارهاي مرتبط با داده کاوي از جمله روش هاي گردآوري اطلاعات در بخش ادبيات موضوع بوده است. نوع داده ها و مقياس آن ها نوع و مقياس داده هاي اين تحقيق به شرح ذيل مي باشد: رکوردهاي مربوط به جدول پيام ها يا همان تماس هاي مشتريان شامل 12 فيلد مي شد که اکثراً از نوع اسمي (رشته اي) بود که در مرحله آماده سازي داده ها مقادير عددي فيلدهاي مورد نظر از طريق اضافه شدن ستون هاي جديد به انتهاي جدول ايجاد گرديد. رکوردهاي مربوط به جداول جمعيت، بارندگي و اعتبار مصوب همگي از نوع عددي مي باشند. شرح دقيق فيلدهاي اطلاعاتي در هر جدول در فصل بعد آورده شده است. ساختار اجرايي تحقيق همان طور که در ابتداي اين فصل بيان شد، ماهيت تحقيق، داده محور مي باشد و پايه اصلي تحقيق حاضر برکشف دانش از پايگاه هاي داده شهرداري تهران بنا نهاده شده است. از اين رو استاندارد جهاني CRISP-DM جهت انجام فرايند تحقيق مورد استفاده قرار گرفته است که در اين بخش ساختار اجرايي تحقيق بر اساس مراحل اين استاندارد تشريح شده است. درک مساله کسب و کار در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان گرديده است: تعيين اهداف کسب و کار ارزيابي موقعيت تعيين اهداف داده کاوي در اين فاز، ابتدا اهداف کسب و کار تعيين و تبيين گرديد که اصلي ترين هدف کسب و کار، به کارگيری تکنيک هاي مختلف داده کاوي نظير Clustering، Classification، Association Rules و ... بر روي اطلاعات سامانه 137 و بررسي و تحليل نتايج به دست آمده به منظور ارتقاي کيفيت خدمات شهري. گام بعدي که در اين مرحله انجام شده است تعيين اهداف داده کاوي تحقيق است که به طور کاملاً روشن مي توان گفت که نوع داده کاوي، هم از نوع پيش بيني کننده و هم از نوع تشريح کننده مي باشد. درک داده ها در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان شده است: جمع آوري داده هاي اوليه توصيف داده ها تصديق کيفيت داده ها و شناسايي داده هاي هدف در مرحله ي قبل يک تصوير کلي از وضعيت کسب و کار و اهداف مورد نظر از لحاظ کسب و کار و داده کاوي براي محقق حاصل گرديد. در اين مرحله با توجه به درک صورت گرفته از اين اهداف و وضعيت موجود لازم است تا درک صحيحي از وضعيت داده ها، نحوه ي جمع آوري و اطمينان از کيفيت داده هاي مورد بررسي، حاصل گردد. در مجموع مهم ترين اقداماتي که در اين بخش به آن ها پرداخته شده تعيين داده هاي مورد نياز و نحوه ي دسترسي به آن داده ها مي باشد. در اين مرحله براي ارزيابي اوليه از داده هاي موجود، ابتدا ساختار بانک اطلاعاتي سامانه ی 137 شهرداري تهران با 12 فيلد دريافت گرديد. لازم به ذکر است که برخي از فيلدها مثل فيلد نام و شماره تماس شهروند به علت اختياري بودن حاوي رکوردهاي تهي بود که در فرايند تحقيق قابل کاربرد نبودند و لذا از اين فرايند حذف گرديدند. هم چنين اطلاعات مربوط به جمعيت و بودجه مناطق و نيز وضعيت آب و هواي تهران در سال 1389 به ترتيب از وب سايت شهرداري تهران و وب سايت سازمان هواشناسي دريافت و در جداول جداگانه ذخيره گرديد. نکته ي قابل توجه اين که نه در سازمان هواشناسي و نه در شهرداري تهران وضعيت آب و هوايي شهر به تفکيک مناطق 22 گانه اندازه گيري و ثبت نمي شود و تنها اطلاعات مذکور به تفکيک ايستگاه هاي پنج گانه سازمان هواشناسي قابل دسترس مي باشد. بنابراين محقق با در نظر گرفتن مجاورت جغرافيايي مناطق درنقشه ي شهر تهران و نيز راهنمايي کارشناسان هواشناسي، اطلاعات هر ايستگاه را براي مناطقي که در همسايگي و 217170-318135شکل3-1وضعيت ايستگاه هاي پنج گانه هواشناسي مستقر در شهر تهران مي باشد. مجاورت آن ايستگاه بود تعميم داد. شکل3-1 نمايانگر وضعيت ايستگاه هاي هواشناسي مستقر در شهر تهران مي باشد. به طور مثال اطلاعات ايستگاه اقدسيه که در منطقه 1 واقع شده است به مناطق 1، 3 و 4 تعميم داده شد. آماده سازي داده ها در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه آورده شده است: جمع آوري و انتخاب داده ها يکپارچه سازي داده ها پاکسازي داده ها (کاهش داده ها) شکل دادن وساخت داده ها (تغيير داده ها) قالب بندي داده ها ( براي مدل سازي در نرم افزار) در مرحله قبل داده هاي هدف، جهت جمع آوري و پالايش مشخص شدند. در اين مرحله داده هاي مرتبط با تماس هاي مشتريان شناسايي و از تماس هاي مرتبط با کارمندان و کارکنان سازمان شهرداري تفکيک گرديد. در ادامه فرايند آماده سازي، بايد براي پاکسازي و پيش پردازش داده ها، دو عمليات مهم کاهش داده و اعمال تغييرات در شکل داده ها بر روي اطلاعات صورت گيرد. کاهش اطلاعات عبارت است از توليد يک مجموعه کوچکتر از داده هاي اوليه که تحت عمليات داده کاوي نتايج تقريبا يکساني با نتايج داده کاوي روي اطلاعات اوليه به دست مي دهد (مرشدلو، 1386) در اين مرحله بر حسب نياز، عمليات کاهش داده ها به صورت حذف فيلد هاي شماره تماس ثابت و همراه شهروند - نام و نام خانوادگي شهروند به علت تهي بودن بيش از نيمي از رکوردهاي بانک اطلاعاتي صورت گرفت. همان طور که قبلاً نيز بحث شد داده هاي بانک اطلاعاتي سامانه 137 در مقطع سال 89 به همراه اطلاعات وضعيت بارندگي و جمعيت و اعتبار مصوب عمراني در همان سال به منظور تحليل، انتخاب و گردآوري گرديد. پس از بررسي و انتخاب فيلدهاي مورد نظر از هر يک از جداول از طريق ايجاد ديد هاي تو در تو در نرم افزار Sql 2008 داده هاي هر 3 جدول با يکديگر ترکيب شدند. با عنايت به اين موضوع که بيشتر فيلدهاي جدول مربوط به اطلاعات پيام ها حاوي رکوردهاي فارسي مي شد لازم بود تا مقادير فارسي به کدهاي متناظر عددي تبديل شوند. بنابراين فيلد جديدي به انتهاي جدول پيام ها اضافه و کدهاي عددي جاي مقادير منحصر به فرد داده هاي فارسي را گرفت. در اين راستا حذف فاصله هاي اضافي انتهاي رکورد و يکسان کردن حروف عربي و فارسي به کدپيچ واحد از مقدمات کار بود. با توجه به اين که اکثر تحليل هاي انجام گرفته در اين تحقيق به تفکيک منطقه و يا ناحيه مي باشد لذا مي بايست وجود مقادير صحيح کد منطقه و ناحيه در کليه رکوردهاي جدول کنترل مي شد. لذا با انجام پرس جو هاي متعدد از طريق نرم افزار Sql 2008 دو فيلد جديد به انتهاي جدول پيام اضافه و مقادير کد منطقه و ناحيه شناسايي شده که ترکيب آن (نام منطقه – نام ناحيه) در ستون ديگري از همان جدول قرار داشت به صورت عددي و تفکيک شده، اضافه گرديد. در مواردي که نام منطقه يا ناحيه در ستون مربوطه آورده نشده بود، تلاش شد تا از طريق ستون متن پيام، مقادير آن شناسايي گردد. که تکميل داده ها به اين روش بسيار زمان بر بود. البته در مواردي که کد ناحيه ومنطقه از هيچ روشي قابل تعيين نبود به ناچار رکورد مربوط به آن از مجموعه رکوردهاي مورد بررسي حذف گرديد. طبق بررسي هاي انجام شده بر روي داده ها مشخص گرديد بخشي از پيام هاي ثبت شده در اين سامانه مربوط به تماس هاي شهروندان با شهرداري نبوده بلکه مربوط مي شود به شکايات يا درخواست هاي کارکنان و پرسنل سازمان شهرداري از واحدهاي اجرايي همان سازمان. بنابراين با توجه به اين که اساساً اين رکوردها موضوعيتي با نيازها و معضلات شهري شهروندان تهراني پيدا نمي کرد، به ناچار از مجموعه رکوردهاي مورد بررسي حذف گرديد. همان طور که پيش تر گفته شد داده هاي سامانه 137 (جدول پيام ها) بر اساس نوع و موضوع پيام 644 عنوان دارد که ذيل 51 عنوان کلي طبقه بندي شده است. به عبارت ديگر در مجموع 644 نوع مشکل در سطح شهر تهران شناسايي شده است که هر کدام در يکي از 51 طبقه تعيين شده قرار مي گيرد. با بررسي هاي به عمل آمده بر روي داده ها مشخص شد در برخي از اين 51 طبقه، تعداد تماس هاي شهروندان بسيار کم و ناچيز مي باشد. به عبارت ديگر فراواني بسيار کم آن ها در ميان ساير مشکلات نشان دهنده موردي بودن و بي اهميت بودن مشکلات آن طبقه بود و از آن جا که بيم آن مي رفت که در روند تکرار پذيري پيام ها اختلال ايجاد نمايد لذا با امکان پرس جوي نرم افزار Sql 2008 اين طبقه ها شناسايي و به همراه مشکلات آن طبقه از مجموع داده هاي مورد بررسي حذف گرديدند. گفته شد که مرحله آماده سازي داده ها مهم ترين و زمان بر ترين بخش از فرايند داده کاوي محسوب مي شود. در اين بخش، فارسي بودن اکثر فيلدهاي جدول پيام و نيز حجم زياد رکوردها خود منجر به طولاني تر شدن اين مرحله گرديد به گونه اي که محقق براي جلوگيري از حذف رکوردهاي صحيح ، که به علت رشته اي بودن نوع فيلدها ممکن بود رخ دهد، اين مرحله را با صرف زمان و دقت بيشتري به انجام رساند. در نهايت پس از مرحله آماده سازي، داده ها در قالب SPSS تجميع و به عنوان ورودي در نرم افزار Clementine مورد استفاده قرار گرفت. مدل سازي در اين مرحله گام هاي زير دنبال شده است که جزئيات آن در ادامه بيان شده است: انتخاب تکنيک هاي مدل سازي ساخت مدل ارزيابي مدل براي مدل سازي لازم است که ابتدا تکنيک مدل سازي انتخاب شود. با توجه به اين که هدف از انجام اين تحقيق انجام تکنيک هاي مختلف بر روي داده هاي سامانه 137 شهرداري تهران و بررسي نتايج به دست آمده از هر تکنيک مي باشد؛ لذا تکنيک هاي مختلف داده کاوي نظير خوشه بندي، قوانين وابستگي، درخت تصميم، مدل خطي تعميم يافته بر روي داده ها انجام و نتايج آن در فصل بعد آورده شده است. در هر مرحله سعي شده است با توجه به نوع داده ها بهترين الگوريتم انتخاب شود. ارزيابي نتايج در اين مرحله گام هاي زير دنبال شده استکه جزئيات آن در ادامه بيان شده است: ارزيابي نتايج مرور نمودن فرايند نتايج به دست آمده در مرحله قبل به عنوان دانش استخراج شده از تحقيق تلقي مي گردد. در مرحله قبل نتايج حاصل از اجراي تکنيک هاي داده کاوي در هر بخش با الگوريتم ديگري مورد مقايسه قرار گرفت. سپس با توجه به مقايسه هاي صورت گرفته الگوريتم مناسب انتخاب گرديده است. براي اطمينان از صحت عمليات انجام شده فرايند کار در نهايت مرور گرديده است. به کارگيري مدل در آخرين مرحله، گزارش نهايي از محصول که همان دانش کشف شده است صورت مي گيرد. کار اصلي تحليل گر يا داده کاو در مرحله قبل به اتمام رسيده و در اين تحقيق نيز نتايج، به صورت يک گزارش از کل کار در اختيار سازمان مربوطه يا داوطلبان قرار مي گيرد تا راجع به استفاده از نتايج تصميم گيري نمايند. نکته اي که لازم است در انتهاي اين بخش به آن اشاره شود اين است که تحقيق صورت گرفته مي توانست در صورت وجود برخي فيلدهاي اطلاعاتي ديگر که در فصل اول به آن ها اشاره شد، بسيار جامع تر گردد. مدل اجرايي تحقيق مدل اجرايي تحقيق براساس آن چه بيان شد، مطابق شکل 3-2 مي باشد. در فصل بعد چرايي انتخاب هر يک از موضوعات شرح داده شده است. ارائه دانش استخراج شده و پيشنهادات براي افزايش کيفيت در ارائه ي بهتر خدمات شهريانتخاب و جمع آوري داده هاي مورد نيازتلخيص توصيفي داده ها با استفاده از ابزارهاي آماري پيش پردازش، آماده سازي و تشکيل انباره داده هاآماده سازي نهايي داده ها براي Associationتحليل وابستگي بين انواع پيام ها براساس روش GRI براي تعيين نواحي مستعد در بروز مشکلات شهري ارائه نتايج و تفسير قوانينآماده سازي نهايي داده ها برای Association کشف وابستگي بين پيام هاي آب گرفتگي بر اساس روش Sequenceارائه نتايج و تفسير قوانينآماده سازي نهايي داده ها براي Predictionارائه مدلي براي پيش بيني تماس هاي آب گرفتگي هريک از مناطق بر اساس روش Gen Lin ارائه نتايج و تفسير مدلآماده سازي نهايي داده ها براي Segmentationشناسايي مناطق همگن از طريق خوشه بندیارائه نتايج و تفسير خوشه ها شکل3-2 روش اجرايي تحقيق خلاصه فصل سوم در اين فصل روش تحقيق تحقيق صورت گرفته به صورت گام به گام، تشريح گرديد. روش انجام تحقيق بر مبناي استفاده از يک مدل استاندارد داده کاوي مي باشد که مراحل اجراي تحقيق با الگوگيري از اين مدل به صورت گام به گام مورد بررسي قرار گرفت. هم چنين کلياتي در خصوص داده هاي تحقيق بيان گرديد. در نهايت اين که در اين فصل تمامي مراحلي که در فصل بعد بر روي داده ها صورت مي پذيرد؛ پوشش داده شده است . 4 فصل چهارم تجزيه و تحليل داده ها مقدمه همان طور که در فصـل قبل به آن اشـاره شد، شـهرداري يـکي از مـهم ترين سـازمان هـايي است که نقش عمده اي در ارائه ي خدمات شهري به شهروندان ايفا مي کند. سامانه ي مرکز مديريت شهري 137 نيز پل ارتباطي اين سازمان با شهروندان در رسيدگي به معضلات و مشکلات شهري است. کاوش داده ها و اطلاعات جمع آوري شده از طريق اين سامانه مي تواند منجر به شناسايي الگوهاي مهم و پنهاني شود که پيش از آن ممکن است مورد توجه قرار نمي گرفته و دانستن آن مديران شهري را در ارائه ي مطلوب خدمات شهري به شهروندان ياري مي رساند. در اين فصل داده هاي سامانه ي 137 را از دو منظر توصيفي و تحليلي بررسي خواهيم کرد. در بخش توصيفي، روش ها و نمودارهاي آماري متداول به منظور آشنايي مقدماتي با وضيعت مشکلات و معضلات شهري در سال 89 به کار گرفته شده است و در بخش تحليلي از تکينک هاي پرکاربرد داده کاوي براي کاوش اطلاعات و شناسايي دانش پنهان درون داده ها استفاده شده است. در ادامه جزئيات ساختار اجرايي و پياده سازي روش تحقيق تشريح گرديده است. توصيف داده ها از آن جا که لازم است تا شناخت مناسبي از داده هاي تحقيق و چگونگي آماده سازي آن ها قبل از اعمال مدل ها و الگوريتم هاي مختلف کسب گردد؛ در اين بخش هم به ويژگي داده ها و هم به مراحل آماده سازي داده ها پرداخته شده است، در ادامه هر قسمت به طور کامل تشريح شده است. همان طور که در فصل قبل تشريح شد داده هاي اصلي مورد استفاده در اين تحقيق حاوي رکوردهاي ثبت شده در بانک اطلاعاتي سامانه مديريت شهري 137 شهرداري تهران در بازه ي سال 1389 مي باشد. تعداد کل رکوردها قبل از فرايند آماده سازي داده ها، برابر 1.135.237 مي باشد که هر کدام مربوط به يک تماس از جانب شهروندان در زمينه ي هر يک از مسايل و موضوعات شهري مرتبط با شهرداري تهران مي باشد. ساختار اوليه جداول اطلاعاتي به کار رفته، پيش از مرحله آماده سازي داده ها به شرح ذيل مي باشد: جدول4-1 : فيلد هاي جدول پيام نام فيلدشرح فيلدMessageCodeشناسه پيام که يک عدد يونيک به ازاي هر تماس مي باشدCategoryNameطبقه يا گروه مشکلSubjectNameموضوع مشکلMessageSolarDateتاريخ وقوع مشکلLastStateNameآخرين وضعيت رفع مشکلLastStateDateتاريخ اتمام رسيدگي به مشکلLastUnitNameمنطقه و ناحيه وقوع مشکلMessageTextشرح مشکل ذکر شده با جزئياتCitizenFirstNameنام شهروندCitizenLastNameنام خانوادگي شهروندCitizenPhoneشماره تلفن شهروندCitizenMobileشماره موبايل شهروند جدول 4-2: فيلد هاي جدول اطلاعاتي مربوط به اعتبار مصوب عمراني مناطق نام فيلدشرحMant_idکد منطقهBudgetاعتبار مصوب عمراني در سال 89 جدول4-3: فيلد هاي جدول اطلاعاتي مربوط به بارش مناطق نام فيلدشرحDateتاريخMant_idکد منطقهRainDropميزان بارش در اين قسمت به ارائه توضيحاتي درمورد برخي از فيلدها مي پردازيم: فيلد وضعيت نهايي رفع مشکل(Last State Name) اين فيلد وضعيت نهايي رفع مشکل را نشان مي دهد. اين که آيا مشکل توسط واحد اجرايي مربوطه رفع شده است؟ آيا نحوه کار، مورد تاييد ناظر عالي قرار گرفته است؟ آيا شهروند از نحوه ي رفع مشکل رضايت داشته است يا ناراضي بوده است؟ و... 26 حالت مختلف براي اين مشخصه در نظر گرفته شده است. به عنوان نمونه مي توان به " برابر نظر کارشناسي نياز به اقدام نمي باشد"، " انجام شد" و " رضايت " اشاره کرد. طبقه يا گروه مشکل) (Category Name اين فيلد نشان مي دهد که هر يک از پيام ها يا تماس هاي مشتريان در چه طبقه يا گروهي قرار مي گيرد. در اين جدول 644 مشکل شهري وجود دارد که هر کدام ذيل يکي از 51 طبقه کلي تر قرار مي گيرد. تحليل هاي انجام شده با بر اساس طبقات يا گروه مشکل انجام شده است. ميزان بارش(Rain Drop) اين فيلد ميزان بارش باران در هريک از روزهاي سال 89 را نشان مي دهد . ميزان بارش بر اساس ميليمتر است. پيشتر در فصل سوم بيان شد که اطلاعات آب و هوايي به تفکيک مناطق 22 گانه نه تنها در سايت شهرداري بلکه در سايت هواشناسي نيز موجود نمي باشد. طبق بررسي هاي به عمل آمده در شهر تهران 5 ايستگاه هواشناسي وجود دارد. هر ايستگاه در يکي از مناطق شهر مستقر شده است. باعنايت به نياز به داده هاي بارندگي به تفکيک هر منطقه براي انجام تحليل هاي بارندگي، لذا اطلاعات هر ايستگاه به مناطق هم جوار براساس مجاورت و نزديکي جغرافيايي تعميم داده شد. در جدول مربوط به بارندگي، اطلاعات بارش به تفکيک منطقه آورده شده است. پس از آشنايي با فيلدهاي جداول به کار رفته و ارائه توضيحات پيرامون برخي از فيلدهاي آن در ادامه به تلخيص توصيفي داده ها با استفاده از ابزارهاي آماري و مصور سازي مي پردازيم. تحليل توصيفي انجام شده بر اساس 2 مشخصه: نوع مشکل و منطقه بروز مشکل انجام گرفته شده است. تفسير تحليل هاي توصيفي مذکور در فصل بعد آورده شده است. تحليل توصيفي داده ها با استفاده از جداول و نمودارهاي توصيفي طبقه بندي بر اساس نوع مشکل همان طور که بيان شد هريک از پيام هاي ثبت شده در بانک اطلاعاتي سامانه ي مديريت شهري 137 ذيل يکي از گروه هاي از پيش تعيين شده طبقه بندي مي شود. براي مثال پيامي با موضوع" جوي نياز به لايروبي دارد." ذيل گروه " لايروبي" و پيامي با موضوع " ديوار نويسي شهري نياز به پاکسازي يا رنگ آميزي دارد" ذيل گروه " نظافت" طبقه بندي مي گردد. جدول4-4 فراواني هر يک از اين گروه ها را نشان مي دهد: جدول4-4: فراواني گروه هاي تماس نوع مشکلفراوانيدرصدجمع آوري و نصب165.72015.3آسفالت129.18211.9نظافت94.5608.7سد معبر92.7968.6زباله و ضايعات73.6836.8ساخت و ساز72.3296.7مرمت و ترميم67.8826.3درخت57.7415.3حيوانات52.4464.8آب گرفتگي و آب افتادگي46.3804.3پارکها و فضاي سبز39.2603.6لايروبي39.0843.6تفکيک و بازيافت21.6292.0برف20.9961.9شستشو20.7541.9مزاحمت20.2971.9تغيير کاربري17.4671.6آسيبهاي اجتماعي1.45221.3نصب علائم ايمني10.3941.0کارگران9.0530.8ترافيک6.7250.6اتوبوس5.5210.5تاکسي1.8420.2پاركبانها و پاركينگ1.6570.2كنترل كيفيت هوا2750.0کل1.082.195100.0 در ادامه، نمودار درصد فراواني هرکدام از گروه‌هاي تماس به تفکيک مناطق 22 گانه نمايش داده شده است. شکل4-1: درصد فراواني هر کدام از گروه‌هاي تماس همان طور که از جدول و نمودار فوق بر مي آيد، از ميان 1،082،195 رکوردي که پس از مرحله آماده سازي داده ها باقي مانده است بيش از 15 درصد آن مربوط به پيام هاي از نوع "جمع آوري و نصب" مي شود و پيام هاي مربوط به "کنترل کيفيت هوا" کمترين ميزان تماس ها را شامل شده است. با توجه به اين موضوع پيام هاي مربوط به "جمع آوري و نصب" به صورت دقيق تر مورد بررسي قرار مي گيرند، تا فراواني هر يک از مشکلاتِ زير مجموعه آن مشخص گردد. جدول ذيل نتايج اين بررسي را نشان مي دهد. جدول4-5 پراکندگي مشکلات مربوط به گروه جمع آوري و نصب نوع مشکلفراوانيجمع آوري خاک و نخاله57168در اين محل سطل زباله مخزن دار نصب کنيد25403زوائد فيزيکي ....جمع آوري گردد22145در اين محل خودرو اسقاطي نياز به جمع آوري دارد13011اين محل نياز به نصب سرعت گير دارد9009در اين محل نياز به نصب پل فلزي جهت گذر خودروها مي باشد8516اين محل نياز به نصب تابلو شناسايي معابر دارد7512اين محل نياز به نصب دستك دارد6055اين محل نياز به نصب پل عابر پياده دارد.3312اين محل نياز به نصب تابلو ي راهنماي معابردارد.3140پل عابر در اين محل نياز به نصب پله برقي دارد2702در اين محل سطل زباله فلزي نصب كنيد.2217اين محل نياز به نصب گاردريل دارد1280اين محل نياز به پل هم سطح روي نهر جهت عبور عابرين ومعلولين دارد.1125اين محل نياز به نصب روشنايي داخل پل/زير گذر/زيرپلهاي سواره رو دارد.1011تبليغات غير مجاز جمع اوري گردد771اين محل نياز به نصب چراغ راهنمايي دارد746اين بزرگراه نياز به تابلو شناسايي و راهنمايي دارد.447پل عابر در اين محل نياز نصب به سقف دارد109در آدرس...فعاليتهاي عمراني /ترافيكي با ريخت و پاش همراه بوده و ايجاد آلودگي مي كند.41 همان گونه که از جدول فوق مشاهده مي کنيم بيشترين تماس ها در گروه "جمع آوري و نصب" مربوط است به مشکل "جمع آوري خاک و نخاله"و پس از آن "نصب سطل زباله مخزن دار"؛ که در مجموع تعداد 82،571 رکورد را به خود اختصاص داده اند. به منظور بررسي بيشتر به اين موضوع مي پردازيم، که سهم هريک از اين مناطق در شکل گيري تماس هاي از اين نوع چقدر بوده است. به عبارت ديگر هر منطقه چقدر با اين دو مشکل روبروست. شکل 4-2 نمايانگر همين موضوع مي باشد. شکل 4-2 :سهم مناطق در تماس هاي از نوع "جمع آوري خاک و نخاله" و "نصب سطل زباله مخزن دار" همان طور که از نمودار4-2 مشخص است منطقه 4 و بعد از آن منطقه 5 بيشتر از ساير مناطق با مشکلات مربوط "جمع آوري خاک و نخاله" و" نصب سطل زباله مخزن دار" روبروست. با توجه به تفاوت چشمگير منطقه 4 با ساير مناطق، در نرخ بالاي تماس هاي از نوع "جمع آوي خاک ونخاله" و "نصب سطل زباله مخزن دار"، در فصل بعد مشخصاً به تفسير اين موضوع مي پردازيم که چرا منطقه 4 با چنين افزايشي روبرو شده است. طبقه بندي بر اساس منطقه بروز مشکل جدول4-6 : طبقه بندي مشکلات بر اساس منطقه منطقهفراوانيدرصدمنطقه 499.6759.2منطقه 587.4668.1منطقه 286.8348.0منطقه 172.3316.7منطقه 1265.3366.0منطقه 357.5255.3منطقه 1556.555 5.2منطقه 1152.900 4.9منطقه 1452.796 4.9منطقه 1049.8504.6منطقه 749.463 4.6منطقه 848.902 4.5منطقه 648.354 4.5منطقه 2042.0243.9منطقه 1634.6933.2منطقه 1834.4443.2منطقه 1723.142 3.0منطقه 1331.411 2.9منطقه 1925.1562.3منطقه 922.205 2.1منطقه 2119.420 1.8منطقه 2212.713 1.2کل1.082.195100.0 ادامه جدول4-6 : طبقه بندي مشکلات بر اساس منطقه همان‌طور که مشخص است اين بار هم منطقه‌ 4 با فراواني 99.675 رکورد و منطقه 5 با فراواني 87.466 رکورد در سال 89 به ترتيب 9.2 درصد و 8.1 درصد کل تماس ها را به خود اختصاص داده اند که بالاترين نرخ تماس در ميان ساير مناطق بوده است. منطقه 22 نيز با فراواني 12.713 تماس کمترين درصد تماس هاي سال 89 را در ميان ديگر مناطق داشته است. شاخص‌هاي توصيفي سرانه همان طور که مي دانيم شاخص هاي سرانه مي تواند توصيف دقيق تري از وضعيت داده ها ارائه دهد. بدين منظور آمار جمعيتي مناطق 22 گانه شهرداري تهران را که از شناسنامه آماري شهر تهران در پايان سال 88 استخراج شده است و نيز اعتبار مصوب عمراني مناطق در سال مالي 89 را با داده هاي تماس شهروندان در کنار هم قرار مي دهيم تا با محاسبه سرانه ي تماس و سرانه ي اعتبار مصوب عمراني بتوانيم مقايسه دقيق تري از وضعيت موجود مناطق از حيث مشکلات و معضلات شهري آنان داشته باشيم. لازم به ذکر است ارقام مربوط به اعتبار مصوب در هر منطقه به هزار ريال مي باشد. جدول 4-7 سرانه تماس و بودجه مناطق بيست و دو گانه تهران منطقهجمعيتاعتبار مصوب عمرانيسرانه تماسسرانه اعتبار مصوب عمراني(هزار ريال) منطقه 1390.9461.040.500.00019/05/2661منطقه 2628.1061.077.619.00014/07/1715منطقه 3321.496699.000.00018/02/2174منطقه 4874.006870.350.00011/082/995منطقه 5702.978918.724.00012/09/1306منطقه 6247.644382.800.00020/08/1545منطقه 7318.992410.000.00016/03/1285منطقه 8390.658296.162.00013/011/758منطقه 9164.165443.210.00014/08/2699منطقه 10329.507447.592.20015/04/1358منطقه 11284.778592.398.80019/02/2080منطقه 12257.284856.824.75025/03/3330منطقه 13265.114350.112.50012/06/1320منطقه 14567.483521.803.10009/05/919منطقه 15673.469528.420.00008/062/784منطقه 16325.112394.773.74011/03/1214منطقه 17268.485376.500.00012/03/1402منطقه 18332.283634.124.60010/04/1908منطقه 19257.434746.427.40010/05/2899منطقه 20334.752.859.551.39013/07/2567منطقه 21169.284490.831.58011/05/2899منطقه 22113.262815.861.10011/03/7203 همان طور که مشاهده مي شود منطقه 12 با سرانه تماس 0.25 درصد، بيشترين نرخ تماس را نسبت به جمعيت ساکن در مقايسه با مناطق ديگر داراست. پس از منطقه 12، منطقه 6 با سرانه تماس 0.20 درصد رتبه دوم را دارد. اين در حالي است بدون منظور نمودن عامل جمعيت بيشترين تعداد تماس در طول سال 89 متعلق به منطقه 4 مي باشد. با مقايسه سرانه تماس و سرانه اعتبار مصوب عمراني در هر منطقه در مي يابيم؛ منطقه 12 با دارا بودن بيشترين سرانه تماس در سال89 ، بعد از منطقه 22 بيشترين سرانه اعتبار مصوب عمراني(بودجه) را نيز داراست. اگرچه اين نسبت در مورد تعدادي از مناطق، نظير مناطق 1، 12، 13، 14، 15، 16، 17 به خوبي رعايت شده اما در مورد ساير مناطق به نظر مي رسد عامل سرانه اعتبار مصوب متناسب با سرانه تماس نيست. -608965698500نمودار زير رابطه بين جمعيت ساکن در هر منطقه، تعداد تماس و ميزان اعتبار مصوب عمراني در آن منطقه را به شکل حبابي به تصوير کشيده است: شکل4-3: رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمرانی همان طور که در شکل مشخص است محور افقي جمعيت منطقه، محور عمودي تعداد کل تماس ها در هر منطقه و اندازه هر حباب ميزان اعتبار مصوب عمراني در آن منطقه مي باشد. نتايج قابل تفسير از اين نمودار در فصل بعد آورده شده است. تحليل داده ها با استفاده از تکنيک هاي داده کاوي يکي از بهترين روش هايي که مي تواند به منظور تحليل داده هاي حجيم، با هدف کشف دانش، مورد استفاده قرار بگيرد، داده کاوي است. همان طور که در فصل اول گفته شد؛ داده کاوي با پردازش جامع داده ها و انجام فرايند تصميم سازي از طريق استخراج دانشِ با ارزش از داده، تصميم گيري را براي مديران سازمان تسهيل مي نمايد. بر اساس نتايج به دست آمده از اين تحليل ها مي توان وقايع و مشكلاتي كه ممكن است در آينده گريبان شهر را بگيرد پيش بيني كرد و آماده ي مقابله با اين مشكلات شد و در نتيجه در جهت افزايش رضايتمندي شهروندان گام برداشت. تکنيک هاي اصلي تحليل‌هاي صورت گرفته در اين فصل عبارتند از: خوشه بندي پيش بيني قوانين وابستگي مدل خطي تعميم يافته در اجراي تکنيک هاي داده کاوي از نرم افزار Clementine12 استفاده شده است. دليل استفاده از اين نرم افزار، توانايي آن در پردازش مجموعه هاي داده اي بزرگ و متداول بودن آن در ميان کاربران است. در بخش آماده سازي داده ها، رسم نمودارها و جداول از نرم افزارهايي نظير Sql server 2008، Excel 2007 و Spss 16 استفاده شده است. لازم به ذکر است موضوعات آورده شده در ذيل، جهت تحليل از طريق تکنيک هاي داده کاوي، همگي بر اساس نوع و کيفيت داده هاي در دسترس انتخاب شده است. بديهي است در صورت دسترسي به ديگر داده هاي شهري، گستره ي انتخاب موضوع بسيار وسيع تر و متنوع تر خواهد گرديد به گونه اي که حضور کارشناسان شهري و متوليان سامانه 137 جهت انتخاب اولويت موضوع ضروري خواهد بود. شناسايي مناطق همگن از منظر سامانه 137 يکي از پارامترهاي موثر در ارزيابي مناطق شهرداري، ارزيابي عملکرد اين مناطق از ديدگاه سامانه ي مديريت شهري 137 مي باشد. به اين ترتيب که هر منطقه با توجه با شاخص هايي نظير ميزان پيام هاي دريافتي، سرعت و صحت انجام پيام، شرايط محيطي و جغرافيايي منطقه و ... مورد ارزيابي قرار مي گيرند. اگرچه در ارزيابي مناطق به ترتيبي که در بالا بيان شد، تصويري نسبتاً کامل از وضعيت هر منطقه از منظر عملکرد آن در بخش رسيدگي به مشکلات و معضلات شهري به دست مي آيد، اما همگني مناطق در ميزان آمادگي و آگاهي آنان در اعلام مشکل از طريق سامانه 137 در هيچ يک از تحليل ها مورد توجه قرار نمي گيرد. در اين بخش سعي داريم به شناسايي مناطق همگن از منظر سامانه 137 بپردازيم. دانستن اين نکته به مديران شهري در ترسيم تصويري بزرگ تري از سيماي شهر کمک مي کند. مديران مي توانند بر اساس ميزان مشابهت و تفاوت مناطق، بسته هاي سياستي – نظارتي خاص آنان را طراحي کنند تا به نياز اين مناطق در پاسخگويي به معضلات شهري موثرترين اقدام صورت پذيرد. همان طور که در فصل دوم شرح داده شد، هنگامي که بخواهيم يک جمعيت نامنظم را به زير گروه هاي منظم تقسيم کنيم در حالي که برچسب از پيش تعريف شده اي براي اين کار نداريم، از خوشه بندي يا تحليل خوشه اي استفاده مي کنيم. در اين بخش به منظور شناسايي مناطق همگن از منظر نوع تماس‌ها يا نوع مشکلاتي که شهروندان از طريق سامانه ي 137 با شهرداري تهران مطرح نموده اند از تحليل خوشه بندي مناطق با استفاده از روش خوشه بندي دو مرحله‌اي استفاده شده است. علت استفاده از الگوريتم دو مرحله اي، توانايي اين الگوريتم در به کارگيري مجموعه داده هاي بزرگ و داده هاي ازنوع mixed است. الگوريتم دو مرحله اي مي تواند چندين راهکار خوشه اي را تست کرده و بهترين را انتخاب نمايد، بنابراين نيازي به تعيين تعداد خوشه هاي خروجي نيست. هم چنين قادر به شناسايي و حذف خودکار داده هاي پرت مي باشد. همان طور که در فصل قبل شرح داده شد هر يک از تماس هاي مشتريان ذيل يکي از گروه هاي تماس از پيش تعيين شده طبقه بندي مي شود. هر گروه در واقع تبيين کننده يک نوع مشکل مي باشد. مشکلات موجود در بانک اطلاعاتي سامانه 137، در 51 نوع طبقه بندي مي شود. آماده سازي اوليه داده ها به ترتيبي که در فصل قبل به آن اشاره شد، منجر به حذف تعدادي از گروه هاي تماس گرديد و در نهايت 25 گروه که نشان دهنده 25 نوع از مشکلات و معضلات شهري مي باشد باقي ماند که در مرحله ي تحليل توصيفي داده ها به تفصيل به شرح و فراواني آن پرداخته شد. با توجه به اين که متغير ورودي براي خوشه بندي گروه هاي تماس بود، بنابراين با انجام پردازش بر روي داده هاي خام به ترتيبي که در ادامه به آن اشاره مي شود، داده ها براي استفاده در نرم افزار آماده سازي نهايي شدند. اقدامات انجام شده در اين بخش عبارتند از: ماتريسي از داده ها تهيه شد که در آن سطر ها نشان دهنده مناطق و ستون‌ها نشان دهنده گروه هاي تماس بودند و هر عنصر ماتريس نمايانگر فراواني تماس‌هاي گرفته شده يک منطقه خاص ذيل هريک از گروه هاي تماس. براي تهيه اين ماتريس از ابزار Pivot در نرم افزار اکسل استفاده شد. سپس با تقسيم عناصر هر سطر از ماتريس بر جمعيت منطقه، سرانه ي تماس‌هاي مربوط به هر منطقه محاسبه شد. همان طور که بيان شد، براي خوشه بندي از تکنيک دو مرحله‌اي در نرم افزار Clementine استفاده شده است. تعداد بهينه خوشه‌ها، به صورت اتوماتيک و با استفاده از شاخص فاصله ي اقليدوسي توسط نرم افزار مشخص شده است. براي يافتن فاصله اقليدوسي بين X و Y ابتدا بايد تفاوت مولفه هاي متناظر X و Y را پيدا کرد و آن ها را به توان 2 رساند. فاصله برابر است با جذر مجموع تفاوت هايي که به توان 2 رسيده اند(شهرابي 1390). در اين تحقيق تعداد حداقل و حداکثرخوشه‌ها به صورت پيش فرض به ترتيب برابر 2 و 15 قرار گرفته است. در نهايت با استفاده از روش دو مرحله اي و اندازه‌هاي اقليدسي بين خوشه‌ها، تعداد بهينه خوشه ها برابر 2 به دست آمد. همان طور که در فصل دوم بيان شد، معيار اصلي؛ ميزان شباهت داده هاي قرار گرفته در هر خوشه مي باشد. در حالي که داده هاي قرار گرفته در دو خوشه مختلف از نظر شباهت با يکديگر فاصله زيادي دارند. پس از اجراي مدل، نتايج نشان داد، 16 منطقه در خوشه اول و 6 منطقه در خوشه دوم قرار مي گيرد. هر يک از 16 منطقه قرار گرفته درخوشه اول و نيز هريک از 6 منطقه خوشه دوم از نظر سرانه مشکلات و معضلات شهري با يکديگر همگن مي باشند. در ادامه بررسي به تاثير هر کدام از عوامل ( مشکلات) در خوشه بندي مي پردازيم. براي خوانايي بيشتر نتايج به دست آمده از اين تحليل را در سه شکل مجزا بررسي شده است. در شکل 4-4 ميزان اهميت و تاثير 9 عامل اول در خوشه بندي مورد بررسي قرار گرفته است. شکل4-4 بررسي نه عامل اول در خوشه بندي127825570485 همان‌طور که مشخص است 7 عامل از ميان 9 عامل داراي اهميت معني‌دار (مقدار احتمال کمتر از 0.05) مي‌باشند که در شکل با علامت قرمز رنگ مشخص شده اند. اين 7 عامل عبارتند از: آب گرفتگي و آب افتادگي ،آسفالت ، آسيبهاي اجتماعي،اتوبوس، تاکسي، تغيير کاربري، تفکيک و بازيافت همان‌طور که در شکل نيز مشخص است سرانه ي تماس‌ها در هريک از 7 نوع مشکل ياد شده در خوشه دوم بيشتر از خوشه اول است. و از اين بابت اختلاف معناداري بين آن ها وجود دارد. در ادامه ميزان اهميت و تاثير 9 عامل دوم در بخش بندي مورد بررسي قرار گرفته است. همان‌طور که از شکل 4-5 مشخص است 6 عامل از اين ميان داراي اهميت معني‌دار (مقدار احتمال کمتر از 0.05) مي‌باشند. اين شش عامل عبارتند از: جمع آوري و نصب، حيوانات، درخت، زباله و ضايعات، ساخت و ساز، سد معبر 1124585723900اين بار نيز سرانه ي تماس‌ها در اکثر مشکلات مذکور در خوشه دوم بيشتر از خوشه اول است. شکل4-5 بررسي نه عامل دوم در خوشه بندي در ادامه آخرين عوامل باقي مانده مورد بررسي قرار مي‌گيرند. در شکل4-6 ميزان اهميت و تاثير 7 عامل انتهايي در بخش بندي مورد بررسي قرار گرفته است. همان‌طور که از شکل4-6 مشخص است 6 عامل از اين ميان داراي اهميت معني‌دار (مقدار احتمال کمتر از 0.05) مي‌باشند. اين شش عامل عبارتند از: جمع آوري و نصب، حيوانات، درخت، زباله و ضايعات، ساخت و ساز، سد معبر 1315720772160اين بار نيز سرانه ي تماس‌ها در اکثر مشکلات مذکور در خوشه دوم بيشتر از خوشه اول است. در ادامه آخرين عوامل باقي مانده مورد بررسي قرار مي گيرند. .شکل 4-6 بررسي هفت عامل آخر در خوشه بنديدر شکل فوق ميزان اهميت و تاثير 7 عامل انتهايي در بخش بندي مورد بررسي قرار گرفته است. همان‌طور که مشخص است 6 عامل از اين ميان داراي اهميت معني‌دار (مقدار احتمال کمتر از 0.05) مي‌باشند اين 6 عامل عبارتند از: مرمت و ترميم، مزاحمت، نصب علائم ايمني، نظافت، پارك بان ها و پاركينگ، پارکها و فضاي سبز، کارگران همان‌طور که در شکل مشخص است سرانه تماس‌ها در اکثر عوامل اين گروه نيز در خوشه دوم بيشتر از خوشه اول است. 813435308610در شکل زير اعضاي خوشه اول و اعضاي خوشه دوم نشان داده شده است. شکل 4-7 اعضاي خوشه هاي اول و دوم ارزيابي خوشه ها با توجه به اين که ترتيب قرار گرفتن رکوردها در فايل ورودي ممکن است بر روي خروجي الگوريتم دو مرحله اي در تعيين تعداد خوشه ها و اعضاي هر خوشه، تاثير گذار باشد؛ لذا با به هم ريختن ترتيب قرارگيري رکوردها از طريق ايجاد فيلد عددي ID بر روي داده هاي ورودي، حداقل 5 مرتبه، مدل اجرا گرديد. نتايج در هر 5 مرتبه از نظر تعداد خوشه ها و اعضاي آن يکسان بود و تنها تفاوت مشاهده شده در جابه جايي ترتيب اعضا ميان دو خوشه بود. پيش بيني وضعيت تماس هاي آب گرفتگي در هر يک از مناطق به ازاي بارش هر ميليمتر باران به رغم اقدامات ستادي مديريت شهري در روزهاي باراني، اما هم چنان ايجاد گره هاي ترافيکي يکي از معضلات پايتخت نشينان در روزهاي باراني است. هر چند کارشناسان ترافيک، توسعه ي حمل و نقل عمومي و استفاده ي شهروندان از وسايل نقليه عمومي را تنها راه حل ممکن براي کاهش بار ترافيکي روزهاي باراني تهران مي دانند، اما مي توان با استفاده از داده هاي ذخيره شده در بانک داده سامانه 137 و تحليل رکوردهاي مربوط به آب گرفتگي و آب افتادگي در سطح شهر، به پيش بيني تعداد تماس ها در هر منطقه پرداخت و با تجهيز اکيپ خدمات شهري متناسب با نياز هر منطقه تا حدودي از بروز ترافيک ناشي از آب افتادگي در سطح شهر جلوگيري نمود. هم چنين مي توان با دانستن تعداد تماس هاي آب گرفتگي در هر منطقه، متناسب با نياز همان منطقه ماشين آلات، تجهيزات و پرسنل آماده به خدمت، اختصاص داد و از اين رو از اتلاف منابع پرهيز و به ارائه خدمات مطلوب اقدام نمود. در اين بخش از دو تکنيک: مدل‌هاي خطي تعميم يافته و شبکه‌هاي عصبي براي پيش بيني تعداد تماس‌هاي مربوط به آب گرفتگي با استفاده از ميزان بارندگي در هر منطقه استفاده شده است. در پايان نتايج به دست آمده با يکديگر مقايسه شده اند. مدل تعميم يافته خطي براي آماده سازي داده ها در اين بخش، جدولي شامل ستون هاي، تاريخ روز هاي سال 89، منطقه، متوسط بارش و تعداد تماس هاي آب گرفتگي تهيه شد. مدل هاي تعميم يافته خطي انعطاف پذيري بسياري زيادي دارند و از اين رو حائز اهميت مي باشند. هم چنين داده هاي داراي مشخصه هاي کيفي را نيز به خوبي پشتيباني مي کند. در اين مرحله داده ها ابتدا به نسبت 40 و 60 به دو دسته آزمايشي و آموزشي تقسيم شدند. تعداد تماس‌هاي مربوط به آب گرفتگي متغير پاسخ (هدف) و ميزان بارش باران به ميليمتر و منطقه تماس متغيرهاي پيشگو ( ورودي) مي‌باشند. در ارائه ي نتايج، ابتدا شاخص‌هاس نيکويي برازش مدل و آزمون درست نمايي مدل برازش شده آورده مي‌شود و سپس ضرائب مدل مورد بررسي قرار مي‌گيرد. جدول4-8: شاخص‌هاي نيکويي برازش شاخصهاي نيکويي برازشمقداردرجه آزاديمقدار/درجه آزاديانحراف774/2838136767941/41انحراف معيار شده 67906767 آماره کاي دو پيرسون774/2838136767941/41آمار کاي دو پيرسون معيار شده67906767 لگاريتم درستنمايي677/22307- معيار آکائيک (AIC)355/44663 معيار بيزين (BIC)112/44827  درست نمايي نشان دهنده کفايت يا عدم کفايت مدل خواهد بود. جدول4-9: آزمون درستنمايي مدل خطي تعميم يافته شاخص آماريمقدارآماره کاي دو درست نمايي578/2356درجه آزادي22مقدار احتمال000/0نتيجهتائيد کفايت مدل همان‌طور که در جدول فوق مشخص است آزمون درست نمايي نيز کفايت مدل خطي تعميم يافته برازش شده را تائيد مي‌کند. در ادامه آزمون متغيرهاي مدل صورت مي‌گيرد. شکل آماري آزمون ضرايب مورد نظر بصورت زير مي‌باشد: جدول4-10 آزمون عوامل مدل خطي تعميم يافته عامل مورد نظرآماره کاي دو والددرجه آزاديمقدار احتمالمقدار ثابت342/39671000/0منطقه684/99121000/0ميانگين بارش باران75/17261000/0 همان‌طور که مشخص است هر سه ضريب در مدل حضور معني‌داري دارند. در ادامه مقدار ضرائب مدل مشخص مي‌گردد. جدول4-11 آزمون ضرائب مدل خطي تعميم يافته ضريبضريبخطاياستانداردفاصله اطمينان والدحد پائين حد بالايآمارهکاي دو والددرجهآزاديمقداراحتمالمقدار ثابت236/14501/0354/0118/2545/71006/0[منطقه= 1]078/45675/0966/219/5636/511000/0[منطقه= 2]793/45777/0661/3925/5824/681000/0[منطقه= 3]323/55669/0212/4434/6156/881000/0[منطقه= 4]212/95654/0104/8321/10465/2651000/0[منطقه= 5]579/45646/0473/3686/5796/651000/0[منطقه= 6]95/55742/0825/4076/7396/1071000/0[منطقه= 7]77/55749/0643/4896/6706/1071000/0[منطقه= 8]231/55838/0087/4375/6279/801000/0[منطقه= 9]817/15831/0674/0959/2706/91002/0[منطقه=10]094/5564/0988/3199/6559/811000/0[منطقه=11]582/85736/0458/7707/9899/2231000/0[منطقه=12]498/75826/0356/664/8611/1651000/0[منطقه=13]461/15909/0303/0619/2113/61013/0[منطقه=14]635/4583/0492/3778/52/631000/0[منطقه=15]028/35854/0881/1175/4755/261000/0[منطقه=16]985/15954/0818/0152/3118/111001/0[منطقه=17]961/1575/0834/0088/3627/111001/0[منطقه=18]81/15858/0662/0959/255/91002/0[منطقه=19]274/15834/013/0417/2768/41029/0[منطقه=20]222/25887/0068/1376/3247/141000/0[منطقه=21]288/06157/0918/0-495/122/0639/0[منطقه=22](a)0......بارش باران078/00259/0027/1129/175/17261000/0 همان‌طور که در جدول فوق مشخص است اکثر ضرائب به تفکيک منطقه از نظر آماري معني‌دار هستند. با استفاده از مدل خطي تعميم يافته فوق، شهرداري تهران مي‌تواند با اطلاع از ميانگين بارش باران در هر منطقه ميزان تماس‌هاي آب گرفتگي آن منطقه را در روز پيش بيني کند. به طور مثال اگر پيش بيني هواشناسي براي هفته آتي ميانگين بارش a ميليمتر براي منطقه X باشد آن گاه احتمال تماس هاي آب گرفتگي آن منطقه در همان روز برابر خواهد بود با مقدار Y در فرمول زير: Y=1.236+1.078*a+I (Region X) I (Region X) به ازاي مناطق مختلف مقداري ثابت اما متفاوت مي باشد و مقدار آن از جدول 4-11 قابل استخراج است. به طور مثال ثابت I (Region X) براي منطقه 1 برابر 4.078 و براي منطقه 2 برابر با 4.793 مي باشد. ارزيابي مدل خطي تعميم يافته 724535799465به منظور ارزيابي مدل خطي تعميم يافته، ابزار آناليز در نرم افزار Clementine مورد استفاده قرار گرفت. شکل 4-8 نتايج حاصل شده را به ازاي داده هاي آزمايشي و داده هاي آموزشي نشان مي دهد. شکل 4-8 : آناليز مدل خطی تعميم يافتههمان طور که بيان شد 40% داده ها براي آزمايش و 60% مابقي براي آموزش مدل به کار گرفته شد. حداقل و حداکثر خطاي رخ داده به تفکيک هر دو گروه آورده شده است. 7956551189355نمودار صعود، دقت پيش بيني ايجاد شده را در مورد يک مدل داده کاوي مشخص، محاسبه مي نمايد. اين کار را توسط پيش بيني يک ستون از داده هاي مجموعه آزمايشي و سپس مقايسه آن با مقدار واقعي انجام مي دهد. سپس مقدار پيش بيني شده و مقدار واقعي به صورت گرافيکي نمايش داده مي شود(شهرابي، شکورنياز 1389 ص 180). شکل 4-9: نمودار صعود مدل شبکه‌هاي عصبي در اين بخش با استفاده از مدل چندگانه شبکه هاي عصبي، مدلي با متغيرهاي مشابه مدل تعميم يافته خطي به جز مشخصه منطقه (به دليل کمي نبودن) برازش مي‌شود. اطلاعات مدل شبکه‌هاي عصبي برازش شده بصورت زير مي‌باشد: Analysis Estimated accuracy: 97.741 Input Layer: 1 neurons Hidden Layer 1: 19 neurons Output Layer: 1 neurons Build Settings Use partitioned data: false Calculate variable importance: true Calculate raw propensity scores: false Calculate adjusted propensity scores: false Method: Multiple Stop on: Default Set random seed: false Prevent overtraining: true Sample %: 50.0 Optimize: Memory Mode: Simple Training Summary Algorithm: Neural net Model type: Approximation Stream: C: \Stream1.str User: Mina Date built: 29/1/12 4:06 PM Application: Clementine 12.0 Elapsed time for model build: 0 hours, 0 mins, 20 secs همان‌طور که مشخص است دقت مدل برازش شده بالاتر از 97 درصد مي‌باشد که مي‌توان نتيجه گرفت به لحاظ دقت و پيش بيني برتر از مدل تعميم يافته خطي عمل مي‌کند ولي با توجه به خاصيت مدل‌هاي شبکه عصبي مدلي به منظور شناسايي ارتباط متغيرها و همين طور شاخص هاي ديگري به منظور بررسي کفايت مدل ارائه نمي شود. براي براي به دست آوردن نتايج پيش بيني توسط اين مدل، مي بايست اطلاعات مورد نظر در ذيل اطلاعات ورودي مدل شبکه عصبي قرار بگيرد و آن گاه خروجي در قالب جدول قابل مشاهده خواهد بود. طبق اطلاعات مدل، شبکه عصبي استفاده شده به صورت زير مي‌باشد: N1N2N3N4N5N6N7N8N9N10N11N12N13N14N15N16N17N18N19XOلايه وروديلايه پنهانلايه خروجيشکل 4-10: مدل شبکه عصبي ارزيابي مدل شبکه عصبي 1047750739775در اين بخش نيز همانند ارزيابي مدل خطي تعميم يافته از ابزار آناليز استفاده شده است. نتايج به دست آمده به شرح ذيل مي باشد. شکل 4-11: آناليز مدل شبکه عصبی تعيين ارتباط ميان آب گرفتگي نواحي مختلف يک منطقه آب گرفتگي و آب افتادگي به دليل ويژگي سيال بودن مي تواند به راحتي در سطح منطقه جا به جا شود در صورت عدم رسيدگي به موقع نواحي اطراف را نيز تحت تاثير خود قرار دهد به عبارت ديگر جريان آب مزاحم از يک ناحيه به ناحيه ديگر قابل تسري است. از اين رو در اين بخش سعي داريم با استفاده از قوانين وابستگي، وجود يا عدم وجود الگوهاي ناشي از وابستگي پيام هاي مربوط به آب گرفتگي را در ميان نواحي مختلف يک منطقه بررسي کنيم. از آن جا که حجم داده ها امکان انجام اين محاسبه را به ازاي تمامي نواحي مناطق 22 گانه نمي داد، نواحي ده گانه منطقه 1 به عنوان نمونه انتخاب و با استفاده از ابزار Sequence در نرم افزار Clementine اين تحليل صورت گرفت. علت استفاده از اين ابزار، وجود عامل زمان در اين تحليل است. هنگامي که در قوانين وابستگي نياز به در نظر گرفتن دتباله‌اي از زمان باشد، ابزار Sequence تنها ابزار موجود داده کاوي در نرم افزار Clementine مي‌باشد. همان طور که در توضيح قواعد وابستگي در فصل دوم بيان شد، دو شاخص پشتيبان و اطمينان به منظور سنجش کيفيت قوانين به دست آمده، استفاده مي شود. به منظور افزايش اطمينان از کيفيت قوانين توليد شده، ميزان حداقل اطمينان برابر 80 و ميزان حداقل پشتيبان برابر 20 در نظر گرفته شد. با توجه به اين موضوع، 24 دنباله معني دار شناخته شد که تعدادي از آن در جدول 4-12 آورده شده است. جدول4-12 بخشي از ارتباط‌هاي دنباله‌اي شناسايي شده مقدمتاليدرصد پشتيباندرصد اطمينان7 > 1823.53100.004 > 5820.59100.005 > 5835.2991.673 > 5832.3590.912 > 5829.4190.003 > 1829.4190.004 > 7826.4788.894 > 2726.4788.897 > 7847.0687.501 > 3823.5387.509 > 9523.5387.501 > 2823.5387.502 > 1823.5387.507 > 5838.2484.621835.2983.338 > 7835.2983.335 > 1832.3581.823 > 7844.1280.00 به طور مثال در تفسير سطر اول جدول فوق مي‌توان گفت چنان چه تماسي مبني بر آب گرفتگي و آب افتادگي از ناحيه 7 منطقه 1 گرفته شود، آن گاه با اطمينان 100 درصد نواحي 1 وبعد از آن ناحيه 8 نيز براي رفع همين مشکل با سامانه 137 تماس خواهد گرفت. يا در تفسير سطر انتهايي اين جدول مي توان گفت، آب گرفتگي از ناحيه 3 شروع شده و با اطمينان 80 درصد به ناحيه 7 و نهايتاً ناحيه 8 سرايت مي کند. همان طور که از جدول فوق بر مي آيد اکثر تماس هاي آب گرفتگي و آب افتادگي در منطقه 1 در نهايت به ناحيه 8 ختم شده است. تعيين نواحي مستعدتر در هر منطقه در بروز مشکلات و معضلات شهري استخراج قوانين وابستگي يک حالت غير نظارتي داده کاوي است که به جستجو براي يافتن ارتباط در ميان ويژگي ها در مجموعه داده ها مي پردازد. به عبارت ديگر تحليل وابستگي ها مطالعه ي ويژگي ها يا خصوصياتي است که با يکديگر همراه هستند. در اين بخش قصد داريم اين تحليل قوانين وابستگي را براي شناسايي ارتباط ميان انوع تماس‌هاي گرفته شده در مناطق مختلف و ارتباط آن با ناحيه مورد نظر به عمل آوريم. در اين بخش، از ماژول شناسايي قوانين تعميم يافته نرم افزار Clementine استفاده شده است. به اين منظور گروه تماس (انواع مشکلات) و منطقه به عنوان مقدم و ناحيه به عنوان تالي مورد استفاده قرار گرفته است. براي شناسايي قوانين تعميم يافته از الگوريتم GRI استفاده شده است. همان طور که در بخش ادبيات و پيشينه تحقيق اشاره شد، در پژوهش مشابهي از الگوريتم Apriori براي شناسايي قواعد وابستگي ميان پيام ها استفاده شده است به همين علت محقق الگوريتم GRI را برگزيد ضمن آن که، اين الگوريتم، عموميت بالاتر، انعطاف پذيري و قدرت شناسايي بالاتري نيز دارد. قوانين شناسايي شده از اين روش به شرح جدول ذيل مي باشد: جدول4-13 قوانين شناسايي شده به روش GRI تاليمقدمدرصد پشتيبانيدرصد اطمينانمشکل مورد نظرناحيه = 1منطقه= 17 و نوع تماس = 173/069/50سد معبرناحيه = 1منطقه = 21 و نوع تماس = 1715/084/63سد معبرناحيه = 1منطقه = 9 و نوع تماس = 1515/052/56زباله و ضايعاتناحيه = 1منطقه = 21 و نوع تماس = 708/082/55پارکها و فضاي سبزناحيه = 1منطقه = 21 و نوع تماس = 1607/012/66ساخت و سازناحيه = 1منطقه = 9 و نوع تماس = 1105/003/64تفکيک و بازيافتناحيه = 1منطقه = 9 و نوع تماس = 705/057پارکها و فضاي سبزناحيه = 5منطقه = 14 و نوع تماس = 903/023/52ترافيکناحيه = 1منطقه = 8 و نوع تماس = 502/014/62برفناحيه = 3منطقه = 10 و نوع تماس = 902/066/59ترافيکناحيه = 4منطقه = 7 و نوع تماس = 502/067/52برفناحيه = 1منطقه = 18 و نوع تماس = 2002/056/50کارگرانناحيه = 4منطقه = 13 و نوع تماس = 501/034/56برف همان‌طور که در جدول فوق مشخص است تحليل مورد نظر موفق به شناسايي قوانين مختلفي شده است. به طور مثال در تفسير قانون سطر اول مي‌توان گفت که چنان چه تماسي از منطقه 17 راجع به "سد معبر" گرفته ‌شود با اطمينان قابل قبولي اين تماس مربوط به ناحيه 1 اين منطقه بوده است. و يا در تقسير قانون سطر آخر مي توان گفت چنان چه از منطقه 13 تماسي مربوط مشکلات ناشي از "برف" با شهرداري گرفته شود با اطمينان قابل قبولي اين تماس از سمت ناحيه 4 آن منطقه بوده است. از قوانين به دست آمده در اين بخش مي توان دريافت در سال 89 چه نواحي در چه مناطقي بيشتر مستعد چه مشکلاتي هستند و از آن در پيش بيني بروز يک مشکل خاص در نواحي مختلف يک منطقه و در نتيجه تخصيص بهينه بودجه، منابع و نيروي انساني به نواحي آن منطقه استفاده نمود. خلاصه فصل چهارم در اين فصل داده هاي تحقيق توصيف و تحليل شدند و مراحل انجام کار به طور کامل تشريح شد. در بخش توصيفي از نمودارها و جداول آماري براي نمايش و ارائه وضعيت پيام ها يا مشکلات شهروندان در مناطق 22 گانه استفاده شد و در بخش تحليلي، تکنيک هاي داده کاوي متعدد نظير: خوشه بندي، مدل خطي تعميم يافته و قوانين وابستگي به کار گرفته شد تا در فصل بعد نتايج حاصل از آن ارائه گردد. 55 فصل پنجم بحث و نتيجه گيري مقدمه در اين فصل به صورت خلاصه به مرور متدولوژي و نتايج تجزيه و تحليل‌هاي آماري انجام شده در فصل چهارم مي پردازيم و سپس پيشنهادهايي براي تحقيقات آتي ارائه مي‌گردد. خلاصه تحقيق حاضر از نوع کاربردي مي باشد و به بررسي به کارگيری برخی روش‌هاي داده کاوي در مورد داده‌هاي سامانه 137 شهرداري تهران مي‌پردازد. سامانه 137 يک مرکز گيرنده پيام‌هاي مردمي جهت رسيدگي به مشکلات و معضلات مشکلات شهري شهروندان تهراني مي‌باشد. در اين راستا کل پيام‌هاي سال 1389 اين سامانه در بانک اطلاعاتي2008 SQL Server گردآوري و مورد تحليل قرار گرفت. سامانه 137 با هدف رفع مشکلات و معضلات شهري و با رويکرد مشارکت بيشتر شهروندان در مديريت شهري راه اندازي شده است. تعداد کل پيام ها در طول سال مورد بررسي و پس از مرحله آماده سازي داده ها مجموعاً 1.082.195 بوده است که به لحاظ تحليل‌هاي آماري تعداد قابل توجه و براي تحليل‌هاي داده‌کاوي مناسب مي‌باشد. رويکرد محقق در اين تحقيق به کارگيري تکنيک هاي مختلف داده کاوي به منظور شناسايي و پيش بيني، نيازها و مشکلات شهري بر اساس داده هاي بدست آمده از سامانه مديريت شهري 137 مي باشد. تمرکز اصلي در اين تحقيق بر استفاده از روش‌هاي داده کاوي و نرم افزار SPSS Clementine مي‌باشد. همان طور که در فصل قبل بيان شد، دليل استفاده از اين نرم افزار، توانايي آن در پردازش مجموعه هاي داده اي بزرگ و متداول بودن آن در ميان کاربران است. در بخش آماده سازي داده ها، رسم نمودارها و جداول از نرم افزارهايي نظير Sql server 2008، Excel 2007 و Spss 16 استفاده شده است. در مرحله ي توصيف اطلاعات، ابتدا توزيع فراواني و درصد فراواني متغيرهاي گوناگون و همين‌طور برخي از شاخص‌هاي سرانه را مورد بررسي قرار داديم و در بخش تحليل داده ها با استفاده از تکنيک هاي داده کاوي، گروه مدل‌ها و تحليل‌هاي زير مورد بررسي قرار گرفته است: شناسايي مناطق همگن از منظر سامانه 137 پيش بيني وضعيت تماس هاي آب گرفتگي هر يک از مناطق به ازاي بارش هر ميلميتر باران تعيين ارتباط ميان آب گرفتگی نواحی مختلف يک منطقه تعيين نواحي مستعدتر درهر منطقه در بروز مشکلات و معضلات شهري دلايل با اهميت بودن نتايج و دستاوردهاي تحقيق نتايج اين تحقيق از جنبه هاي مختلفي حائز اهميت است. اين تحقيق يکي از مسائل واقعي در حوزه ي مشکلات و معضلات شهري را پوشش مي دهد به اين معني که داده هاي مورد استفاده واقعي بوده، اهداف و رويکرد کلي متناسب با يک مسئله واقعي تدوين شده و نتايح آن مي تواند مورد استفاده کارشناسان و دست اندرکاران ذيربط در حوزه مديريت شهري قرار گيرد. اين تحقيق قصد دارد با به کارگيري تکنيک هاي شناخته شده ي داده کاوي بر روي بخشي از پيام ها و درخواست هاي ثبت شده ي شهروندان در بانك اطلاعاتي سامانه 137، ضمن ارائه ي برخي الگوهاي بالقوه مفيد و پنهان ميان داده ها، ضرورت به کارگيري اين علم نوين را در سازمان شهرداري به منظور شناسايي بهتر نيازهاي شهروندان و در نتيجه اعمال مديريت موثرتري بر روي منابع و افزايش کيفيت خدمات بيش از پيش آشکار کند. در اين تحقيق براي رسيدن به اهداف مورد نظر که عبارت از اعمال برخی تکنيک هاي داده کاوي به منظور کشف دانش نهفته در آن بود، يک فرايند کشف دانش از داده هاي واقعي طراحي و اجرا شد. اين فرايند به طور خلاصه شامل شناخت کسب و کار، شناخت داده ها، آماده سازي داده ها، مدل سازي، ارزيابي مدل و توسعه آن مي شد. هر يک از اين مراحل مستلزم صرف وقت و دقت بسياري بود. البته مرحله جمع آوري داده هاي مورد نياز از سازمان شهرداري و سپس مرحله آماده سازي داده ها نسبت به ساير مراحل زمان برتر بود و به تلاش بيشتري نياز داشت. علاوه بر موارد مذکور يکي از نقاط قابل توجه در اين تحقيق، بازه زماني و مکاني مورد بررسي است. در اين تحقيق داده هاي مربوط به يک سال کليه مناطق که بيش از يک ميليون و صد رکورد را شامل مي شد مورد پردازش و تحليل قرار گرفت. جنبه ي نوآوري تحقيق اين تحقيق، اولين پژوهش در حوزه ي مديريت شهري است که با تلفيق تکنيک هاي داده کاوي و دانش مديريت شهري با نگاهي ديگر به بررسي و تحليل داده هاي سامانه 137 در حوزه خدمات شهري پرداخته است. اين تحقيق هم چنين اولين پژوهش بر روي داده هاي سامانه 137 مي باشد که از تکنيک هاي متعدد داده کاوي به طور هم زمان استفاده کرده است. نوآوري ديگر اين تحقيق، پردازش داده هاي خام و تبديل آن ها به اطلاعات به عنوان ورودي تحليل خوشه بندي و مدل خطي تعميم يافته مي باشد. نتايج تحقيق مطالب اين فصل در دو بخش ارائه مي شود. ابتدا نتايج حاصل از تحليل توصيفي داده ها و سپس دانش به دست آمده از تحليل داده ها بر اساس تکنيک هاي داده کاوي ارائه خواهد شد. در ادامه به جزئيات هر بخش مي پردازيم. نتايج تحليل توصيفي تعداد تماس هاي ثبت شده در سامانه 137 در طول سال 89 پس از مرحله آماده سازي داده ها برابر 1.082.195 رکورد بود که همان طور که پيشتر اشاره شد، هر تماس نشان دهنده موضوع و معضلي در زمينه ي مسائل شهري از ديدگاه شهروندان تهراني مي باشد. در فصل قبل ديديم که بيشترين نوع تماس يعني بالاترين فراواني طبقه مشکلات مربوط به گروه "جمع آوري و نصب" بود. نگاه دقيق تر به تماس هاي واصله شهروندان در زير گروه "جمع آوري و نصب" نشان داد که بيشترين تعداد تماس ها مربوط مي شود به" نصب سطل زباله مخزن دار" و "جمع آوري خاک و نخاله از سطح شهر". و اين نشان مي دهد بيشترين معضل شهروندان در بخش جمع آوري و نصب که بيشترين تماس را با شهرداري تهران برقرار کرده اند در چه زمينه هايي است. در مرحله بعد به اين موضوع پرداختيم که سهم هر منطقه در مشکلات مربوط به " نصب سطل زباله مخزن دار" و "جمع آوري خاک و نخاله" چقدر است و مشخص گرديد که منطقه 4 بيشترين سهم را در اين نوع مشکلات دارد. منطقه 4، واقع در شرق کلان شهر تهران مي باشد که از طرف شمال به خط 1800 و حريم منطقه1، از طرف غرب در حدود خيابان لنگري 1 و در پاسداران با منطقه 3، از طرف جنوب با مرز خيابان رسالت با مناطق 7و8 و در محدوده خيابان دماوند با منطقه 13 از طرف شرق به حريم منطقه 4 محدود مي شود. بدين ترتيب منطقه 4 با مناطق 1 ، 3 ، 7 ، 8 و 13 داراي بدنه ي مشترك و هم جوار است. منطقه 4 به عنوان يكي از پرجمعيت ترين ، وسيع ترين ، مهاجرپذيرترين ، پرساخت و ساز ترين، دارنده ي بزرگترين حريم، با دارا بودن پارك جنگلي لويزان و هم چنين با ويژگي هايي چون وجود نابرابري اجتماعي - اقتصادي شديد در آن، جوان بودن ميانگين سني جمعيت ، وجود اقشار آسيب پذير در محله هايي هم چون خاك سفيد ، شميران نو ، شيان و ... از ساير محله هاي تهران قابل تمايز و تفكيك است. بررسي در استعدادها و ظرفيت هاي منطقه 4 نشان مي دهد اين منطقه علاوه بر آن که يکي از بزرگ ترين حريم هاي کلان شهر تهران را داراست؛ ورودي مراکز تفرجگاهي و گردشگري مانند تلو، لواسانات ولشگرک نيز مي باشد. 13/2 درصد مساحت منطقه را پارک هاي جنگلي لويزان پوشش داده است که محل تفريح شهروندان از همه مناطق است . وجود فعاليت هاي فني و حرفه اي نظير کارگاه هاي توليد و تعميرگاهي در دماوند، کارگاه هاي مبل سازي در دلاوران و لويزان و خودرو و رنگ مبل در هنگام در اين منطقه خود مويد ايجاد فراواني بالاي تماس ها در حيطه جمع آوري و نصب از سوي شهروندان اين منطقه است. نتايج توصيفي در اين بخش مويد اين مطلب است که نرخ ساخت و ساز بالا و وجود صنايع مزاحم شهري ارتباط مستقيمي با نارضايتي و ايجاد معضلات و مشکلات شهري در ميان شهروندان آن منطقه دارد. و "نصب سطل زباله مخزن دار" و "جمع آوري خاک و نخاله" بيشترين درخواست شهروندان اين مناطق از شهرداري هاي مربوطه است. طبقه بندي ديگري از رکوردهاي ثبت شده در سامانه 137 نشان داد که فارغ از نوع مشکل، منطقه 4 در مجموع باز هم بيشترين نرخ تماس ها و در واقع مشکلات و معضلات شهري را در ميان مناطق 22 گانه، داراست. با اضافه کردن شاخص جمعيت و محاسبه سرانه ي تماس در هر منطقه متوجه مي شويم اگرچه منطقه 4 به واسطه اين که پرجمعيت ترين منطقه کلان شهري تهران است، بيشترين تماس يا به عبارت ديگر، با بيشترين نرخ مشکلات و معضلات شهري روبروست اما در مناطقي نظير منطقه 12 که جمعيتي به مراتب کمتر از منطقه 4 دارد، از سرانه تماس بالاتري نسبت به ساير مناطق برخوردار است. منطقه 12 يکي از مناطق قديمي کلان شهر تهران محسوب مي شودکه قرار گرفتن بازار تهران و بسياري از اماکن فرهنگي، مراکز و نهادهاي دولتي، وزارت خانه ها و سفارت خانه ها در آن از مهم ترين ويژگي هاي اين منطقه محسوب مي شود. اين منطقه از سمت شمال به خيابان انقلاب اسلامي، از جنوب به خيابان شوش، از شرق به خيابان 17 شهريور و از غرب به خيابان وحدت اسلامي محدود شده است. وجود مراکز دولتي و غير دولتي مهم و سفارتخانه هايي نظير سفارتخانه هاي دانمارک، آلمان، روسيه، انگليس، ترکيه، روماني، تايلند، وزارت امور خارجه، وزارت اقتصاد و دارايي، وزارت فرهنگ و ارشاد اسلامي، سازمان مديريت و برنامه ريزي، شوراي اسلامي شهر تهران، دادگستري استان تهران، پزشکي قانوني، سازمان بهزيستي، اداره پست مرکزي، مرکز تلفن 118، ديوان عدالت اداري، روزنامه رسمي کشور، اداره تشخيص هويت باعث شده است تا تفاوت زيادي ميان جمعيت روز و شب اين منطقه وجود داشته باشد. لذا بررسي هاي بيشتر در نوع مشکلات منطقه 12 نشان مي دهد که اکثر مشکلات مطرح شده از سوي شهروندان ِ اين منطقه در گروه مشکلات "آسفالت" و "جمع آوري و نصب" قرار مي گيرد که علت آن نرخ بالاي سفرهاي آونگي در اين منطقه است. شکل 5-1 : رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمراني-275590460375در ادامه با ترسيم نمودار حبابي رابطه ميان تعداد تماس، جمعيت و اعتبار مصوب عمراني مناطق شهرداري به تصوير کشيده شد که در ادامه نتايج آن تشريح مي‌شود. همان‌طور که در نمودار مشخص است با افزايش جمعيت مناطق تعداد تماس‌‌ها نيز افزايش يافته است. البته اين رابطه تا حدي بديهي است. رابطه ديگري که تا حدودي بايد وجود داشته باشد افزايش بودجه مناطق با توجه به جمعيت آن ها است. اين مورد در برخي موارد ديده شده و در برخي موارد رعايت نشده است. به طور مثال منطقه 22 داراي اعتبار مصوب عمراني بسيار بالايي با توجه به جمعيت کم آن بوده است و همين طور مناطق 14 و 15 با توجه به بالا بودن جمعيت و همين‌طور تعداد تماس‌هاي شهروندان داراي اعتبار بسيار پائيني هستند. نتايج حاصل از تحليل داده کاوي و ارائه ي دانش استخراج شده نتايج حاصل از شناسايي مناطق همگن با استفاده از روش خوشه بندي دو مرحله اي -3079751214120هدف اصلي محقق شناسايي مناطق همگن با استفاده از تماس هاي برقرار شده با سامانه 137 شهرداري تهران به منظور رفع مشکلات و معضلات شهري مي‌باشد. به اين منظور با استفاده از تکنيک دو مرحله‌اي در نرم افزار Clementine مناطق به دو خوشه تقسيم شدند که خوشه اول داراي 16 عضو و خوشه دوم داراي 6 عضو گرديد. اعضاي خوشه دوم عبارتند از: منطقه 1 منطقه 3 منطقه 6 منطقه 7 منطقه 11 شکل 5-2 اعضای خوشه اول و دوم منطقه 12 بررسي نشان مي دهد همگني مناطق خوشه دوم در سرانه ي تماس بالاتر با سامانه ي 137 الزماً به معني بروز مشکلات بيشتر در اين مناطق نيست، بلکه به تفاوت ميان مناطق دو خوشه از منظر وسعت و جمعيت منطقه، سطح تحصيلات، سطح درآمد، تعداد خانوار، سطح انتظار و توقع ساکنان آن ها در دريافت خدمات مطلوب تر از سازمان مربوط مي باشد. اگرچه مناطق خوشه دوم از نظر موقعيت تجاري- اداري و جغرافيايي داراي مشابهت بسيار مي باشند اما هم چنين آگاهي و آمادگي بيشتر اين مناطق براي اعلام مشکل از طريق سامانه 137 نيز بالاتر است. به طور کلي اين خوشه از بين 25 گروه مشکلات اصلي، در 20 گروه داراي سرانه تماس بالاتر و معني‌داري نسبت به ساير مناطق هستند که اين 20 عامل عبارتند از: آب گرفتگي و آب افتادگيآسفالت آسيبهاي اجتماعياتوبوس تاکسيتغيير کاربري تفکيک و بازيافتجمع آوري و نصب حيواناتدرخت زباله و ضايعاتساخت و ساز سد معبرمرمت و ترميم مزاحمتنصب علائم ايمني نظافتپاركبانها و پاركينگ پارکها و فضاي سبزکارگران نتايج پيش بيني تماس هاي آب گرفتگي در هر يک از مناطق به ازاي بارش هر ميليمتر باران اين تحليل به منظور تخصيص بهينه ي منابع، نيروي انساني و امکانات جهت رفع مشکل آب گرفتگي و آب افتادگي در مناطق بر اساس پيش بيني تعداد تماس‌هاي مربوط به اين نوع مشکل در هر منطقه انجام شده است. اين تحليل با استفاده از ابزار مدل‌هاي خطي تعميم يافته نرم افزار Clementine انجام گرفته است. شايد در نگاه اوليه اين طور به نظر برسد که افزايش تماس هاي آب گرفتگي به ازاي بارش باران امري طبيعي مي باشد که نيازي به پيش بيني ندارد. اما در نگاهي دقيق تر در مي يابيم که برخي مناطق به ازاي بارش ميزان يکسان باران به دليل شرايط جغرافيايي، شيب زمين در آن منطقه، وجود يا عدم وجود کانال ها و راه هاي آب زير زميني خسارات متفاوتي در زمان هاي بارندگي متحمل مي شوند. چنان چه مديران شهري بر اساس نتايج به دست آمده از ميزان تماس هاي مربوط به آب گرفتگي و آب افتادگي پيش بيني کنند که کدام مناطق به ازاي بارش چه ميزان باران آسيب پذيرترند و امکانات و تجهيزات خود را در روزهاي باراني براي رفع مشکلات احتمالي آن مناطق بسيج نمايند به احتمال قوي در آينده بارندگي هاي فصلي حداقل مزاحمت و خسارت را به بار خواهد آورد. مدل برازش شده از نظر آماري داراي کفايت و پذيرش مناسبي بوده و آزمون درستنمايي نيز صحت مدل را تائيد مي‌کند. طبق اين مدل امکان پيش بيني تماس‌هاي مربوط به آب گرفتگي در مناطق مختلف بر اساس ميزان بارندگي در آن وجود دارد. به طور مثال چنان چه ميزان بارندگي در منطقه چهار، 10 ميليمتر پيش بيني شود؛ آن گاه بر اساس اين مدل پيش بيني مي‌شود در آن روز بيش از 21 تماس آب گرفتگي و آب افتادگي از آن منطقه با سامانه 137 گرفته خواهد شد. در حالي که همين ميزان بارش در منطقه 21 منجر به 12 تماس از اين نوع خواهد شد. بنابراين چنان چه شهرداري بتواند اطلاعات مربوط به ميزان بارندگي ها را به موقع از سازمان هواشناسي دريافت نمايد؛ آن گاه مي تواند در تخصيص منابع، نيروي انساني و نيز پذيرش تماس هاي آب گرفتگي و آب افتادگي در سطح شهر بيشترين آمادگي را داشته باشد. تعيين ارتباط ميان آب گرفتگي نواحي مختلف يک منطقه در اين بخش از قوانين وابستگي (انجمني) براي تشخيص تسري باران در مناطق مختلف با استفاده از روش تحليل دنباله‌اي استفاده شده است. منطقه 1 تهران به عنوان پايلوت انتخاب شده و تسري باران بين نواحي مختلف آن مدنظر قرار گرفته است. اين تحليل با استفاده از ابزار Sequence نرم افزار Clementine انجام گرفته است. نتايج تحليل منجر به شناسايي قوانين زيادي از تسري آب گرفتگي در مناطق مختلف شده است و طبق اين نتايج مي‌توان پيش بيني کرد که آب گرفتگي يک ناحيه از منطقه 1 به چه نواحي ديگري تسري کرده و چگونه مي‌توان از انتقال اين مشکل جلوگيري يا با تعريف بهتر از آن پيشگيري نمود.حداقل فاصله زماني تسري، يک روز در نظر گرفته شده است. در تحليل قوانين به دست آمده مي‌توان با اطمينان قابل قبولي گفت اکثر آب گرفتگي‌هاي اين منطقه به ناحيه 8 ختم شده است. ناحيه 8 منطقه 1 شامل محله هاي حکمت و چيذر مي شود. نقشه نواحي منطقه 1 نشان مي دهد که ناحيه 8 يکي از نواحي جنوبي اين منطقه محسوب مي شود. بررسي هاي بيشتر حاکي از آنست که قرار گرفتن اين ناحيه در شيب شمال شهر تهران، فقدان سيستم فاضلاب و وجود قنات هاي قديمي، باعث سرريز عمده ي آب گرفتگي به سمت اين ناحيه است. بنابراين در هنگام بارندگي در منطقه 1 مي توان با اطمينان قابل قبولي از بروز مشکلات آب گرفتگي و آب افتادگي در سطح اين ناحيه مطمئن بود و براي رفع آن اقدامات لازم را انديشيد. هم چنين با توجه به اين موضوع ضروري است تا وضعيت لايروبي جوي ها، رسيدگي به وضعيت قنات هاي قديمي، جهت حداقل شدن مشکلات ناشي از آب افتادگي در سطح ناحيه 8 بررسي و بازنگري شود. نتايج تحليل قوانين وابستگي براي شناسايي نواحي مستعدتر در هر منطقه در بروز مشکلات و معضلات شهري در اين تحليل از قوانين وابستگي براي شناسايي ارتباط نوع تماس‌هاي گرفته شده در مناطق مختلف و ارتباط آن با ناحيه مورد نظر استفاده شده است. در اين بخش از ابزار شناسايي قوانين تعميم يافته نرم افزار Clementine استفاده شده است. در اين تحليل گروه پيام و منطقه به عنوان مقدم و ناحيه به عنوان تالي مورد استفاده قرار گرفته است. نتايج اين تحليل مي‌تواند مشکلات مزمن يک منطقه خاص را به شهرداري تهران معرفي نمايد. به طور مثال در يکي از قوانين شناسايي شده در اين تحليل مي‌توان گفت چنان چه تماسي از منطقه 9 مبني بر وجود زباله و ضايعات گرفته شود به اطمينان قابل قبولي اين تماس از ناحيه 1 اين منطقه گرفته شده است. بنابراين ناحيه 1 از منطقه 9 بيشتر از ساير نواحي مستعد مشکلات زباله و ضايعات مي باشد. يکي از نتايج به دست آمده در اين بخش نشان مي دهد که ناحيه 4 منطقه 7، ناحيه 1 منطقه 8 و ناحيه 4 منطقه 13 بيش از ساير نواحي مناطق 7، 8 و 13 نسبت به مشکلات ناشي از برف آسيب پذيرند و اين اطلاعات مي تواند مکان يابي مخزن هاي شن و ماسه توسط ستاد برف روبي مورد استفاده قرار گيرد. پس با شناسايي نواحي داراي مشکلات مزمن و تلاش در جهت رفع آن مي توان به ارائه ي خدمات شهري مطلوب تر در آن نواحي پرداخت و در نتيجه علاوه بر کاهش مشکلات و معضلات شهري در اين نواحي، رضايت بيشتر شهروندان را نيز به دست آورد. پاسخ به سوالات تحقيق در پاسخ به سوال اول تحقيق مي توان با اطمينان گفت: از طريق داده کاوي بر روي داده هاي سامانه 137 مي توان به پيش بيني مشکلات مناطق 22 گانه شهرداري در حوزه کلان شهري پرداخت. در اين تحقيق به عنوان نمونه، بر اساس فيلد هاي اطلاعاتي موجود، تعداد مشکلات مربوط به آب گرفتگي و آب افتادگي به تفکيک هر منطقه بر اساس ميزان بارش باران در يک روز خاص پيش بيني شده است. در پاسخ به سوال دوم تحقيق مي توان گفت شناسايي مناطق 1، 3، 6، 7، 11 و 12 به عنوان مناطق داراي آگاهي و آمادگي بيشتر در برقراري ارتباط با سامانه ي 137 از طريق تحليل خوشه بندي، شناسايي ناحيه 8 منطقه 1 به عنوان ناحيه اي که بيشترين تسري آب گرفتگي در ميان ساير نواحي را دارد و نيز شناسايي مشکلات مزمن هر منطقه از طريق تحليل قواعد وابستگي همگي نمونه هايي از الگوهاي پنهان ميان داده هاي سامانه ي 137 بود که در اين تحقيق مورد بررسي قرار گرفت. محدوديت‌هاي تحقيق فرايند دريافت و جمع آوري اطلاعات سامانه 137 علي رغم طي مسيرهاي قانوني بسيار زمان گير و طولاني بود و اين سازمان مراحل زيادي را جهت حفظ امنيت داده‌هاي خود براي محقق در دريافت اطلاعات قرار داد. هم چنين محدوديت هاي موجود در کيفيت داده ها که در فصل اول به تفصيل راجع به آن پرداخت شد نيز فرايند پردازش داده ها را طولاني نمود. برخي از تحليل‌ها، خروجي‌هاي حجيمي را ارائه مي‌دهند که پرداختن به آن از فرصت زماني پايان نامه دانشگاهي خارج است و علاوه بر محدوديت زماني نياز به همراهي و همکاري نزديک کارشناسان و دست اندرکاران اين امر در مرکز مديريت شهري سامانه 137 و شهرداي تهران دارد. محقق در اين تحقيق کوشيده با بررسي و ارائه نمونه‌هايي از کاربرد اين علم نوين در سامانه 137 به اثبات اين موضوع بپردازد که کاوش داده هاي در دسترس چگونه مي تواند منجر به کشف دانش نهفته درون آن شود و چگونه شهرداري مي تواند با بهره برداري از اين دانش به افزايش کيفيت خدمات خود کمک نمايد. حجم زياد داده ها (بيش از يک ميليون رکورد) و رشته اي بودن ماهيت اکثر فيلد ها و اين که فرايندهاي داده‌کاوي که عموماً با شبيه سازي و روش‌هايي يادگيري ماشين صورت مي پذيرد، منجر شد تا سخت افزار کامپيوترهاي خانگي کفايت لازم جهت اجراي برخي از مدل ها را نداشته و محقق بالاجبار براي انجام برخي تحليل‌ها تنها بخشي از داده‌ها ( به طور مثال يک منطقه خاص) را به عنوان پايلوت انتخاب کند. امکان انجام تحليل هاي شهروند محور به دليل ناقص بودن فيلدهاي شماره تلفن وجود نداشت و لذا مشخص نبود که هر شهروند به طور متوسط چند بار با سامانه ارتباط برقرار کرده است. پيشنهادات تحقيق به طور کلي با توجه به نتايج اين تحقيق به شهرداري تهران پيشنهاد مي‌‌شود تا با به کار گيري تکنيک هاي داده‌کاوي خدمات مطلوب تر و بهتري را به شهروندان ارائه کند و در اين راستا از دوباره کاري‌ها و مشکلات قابل پيشگيري اجتناب نمايد. با توجه به نتايج بخش توصيفي به شهرداري تهران پيشنهاد مي‌شود، نيروهاي خدماتي بيشتري را به مناطق 4 و 12 تخصيص دهد زيرا منطقه 4 به دليل وسعت و قرار گرفتن در مسير توسعه شهري با مشکلات بيشتري در زمينه ي مشکلات مربوط به جمع آوري و نصب مواجه است و منطقه 12 به جهت وجود مراکز متعدد دولتي و غير دولتي و بيشترين تردد شهروندان در سطح شهر، با بيشترين سرانه ي تماس براي مشکلات مربوط به آسفالت مواجه است. همين‌طور با توجه به نتايج نمودار حبابي پيشنهاد مي‌شود تا بودجه مناسبي را به مناطق 14 و 15 تخصيص داده و مشکلات اين مناطق را تا حد زيادي مهار نمايند. هم چنين با توجه به اين که بيشترين فراواني تماس با سامانه 137، مربوط به مشکلات از نوع جمع آوري و نصب مي باشد، به نظر مي رسد اطلاع رساني و اگاهي لازم در خصوص شرح مواردي که شهروندان از طريق آن مي توانند با سامانه ي 137 ارتباط برقرار کنند به طور شفاف و کامل صورت نگرفته است. لذا به شهرداري پيشنهاد مي شود در اين خصوص اقدام لازم به عمل آورد. نتايج بخش خوشه بندي نشان مي دهد فرهنگ استفاده از سامانه ي 137 به عنوان پل ارتباطي ميان شهروندان با شهرداري تهران در مناطق خوشه اول کمتر از مناطق خوشه دوم است. و اين بدان معني است که مناطق مذکور يا آگاهي لازم براي اعلام مشکلات خود ندارند يا اينکه ضرورتي براي اطلاع رساني به مديران شهري نمي بينند. به شهرداري تهران پيشنهاد مي شود تا از طريق تبليغات، شورا ياري هاي محلات و ... ضمن توسعه فرهنگ استفاده از سامانه ي 137، ساکنين اين مناطق را نسبت به محيط پيرامون خويش وارد عرصه مديريت نمايند. به شهرداري تهران پيشنهاد مي‌شود تا با ايجاد لينک ارتباطي ميان سامانه ي 137 و بانک اطلاعاتي سازمان هواشناسي بر اساس ميزان بارش مورد انتظار در هر روز به تفکيک هر منطقه تعداد تما‌س‌هاي آب گرفتگي را در آن روز پيش بيني کرده و اقدامات لازم جهت اختصاص بهينه منابع و نيروي انساني به آن را به عمل آورد. با توجه به نتايج تحليل قوانين وابستگي دنباله‌اي به شهرداري تهران پيشنهاد مي‌شود، نواحي که بيشترين تسري آب گرفتگي به سمت آن هاست را شناسايي نموده، ضمن بررسي دلايل فني آن از بروز و ازدحام مشکلات آب گرفتگي در اين نواحي پرهيز کنند. با توجه به تحليل قوانين وابستگي (شناسايي قوانين تعميم يافته) به شهرداري تهران پيشنهاد مي‌شود تا مشکلاتي که به صورت مزمن در يک ناحيه وجود دارد را برطرف نموده تا از وقوع مجددا آن پيشگيري شود. سيزده قانون کلي شناخته شده است که در فصل چهارم به صورت تفصيلي ارائه گرديده‌اند و مي‌بايست شهرداري تهران در آن موارد تمرکز بيشتري داشته باشد. پيشنهادات جهت تحقيقات آتي بررسي ساير تکنيک هاي داده کاوي و ساير الگوريتم موجود در مورد داده‌هاي سامانه 137. تلفيق اطلاعات سامانه 137 با اطلاعات سامانه ي 1888 که مربوط به شکايات و انتقادات شهروندان از عملکرد شهرداري مي باشد مي تواند چشم انداز دقيق تري از عملکرد شهرداري در ميزان رضايت شهروندان ارائه دهد. با اضافه کردن شاخص هاي انساني هر منطقه نظير جميت ساکن، جمعيت شناور، تعداد خانوار، تحصيلات، اشتغال و شاخص هاي اقليمي نظير مساحت موثر، حريم، بافت فرسوده و نيز شاخص هاي مرتبط با تجهيزات شهري نظير تعداد سطل هاي زباله مخزن دار، بيمارستان ها و درمانگاه ها، بازارهاي ميوه و تره بار و .... به داده هاي مورد بررسي مي توان نتايج مطلوب تر و جالب تري از کاوش داده ها به دست آورد. با افزودن اطلاعات مرتبط با زمان استاندارد براي رسيدگي به هر پيام مي توان دريافت کدام مناطق يا نواحي در رسيدگي به مشکلات و معضلات شهري ارجاع شده سريع تر يا کندتر عمل مي کنند و با علت يابي و رفع آن به بهبود کيفيت خدمات شهري ارائه شده کمک شايان توجهي نمود. استفاده از ساير نرم افزارهاي داده کاوي، براي تحليل داده‌ها موجود و مقايسه نتايج آن با نتايج فعلي استفاده از فيلدهاي اطلاعاتي جديد در پايگاه داده فعلي و گسترش دامنه ي تحليل‌هاي موجود مي‌تواند نتايج بسيار قابل توجهي را به همراه داشته باشد. به طور مثال افزودن مشخصات دموگرافيک افراد تماس گيرنده و انجام تحليل‌هاي جانبي بسيار قابل توجه مي‌باشد. خلاصه فصل پنجم در اين فصل نتايج حاصل از تحليل هاي انجام شده در فصل قبل به تفکيک مورد بحث و بررسي قرار گرفت. در هر بخش دلايل احتمالي بروز چنين نتايجي از ديدگاه محقق بيان گرديد. سپس به پاسخ به سوالات تحقيق و بيان محدوديت هايي که فرايند انجام پژوهش را متاثر کرده بود پرداخته شد و در نهايت پيشنهادهاي تحقيق به همراه پيشنهاداتي براي تحقيقات آتي ارائه گرديد. فهرست منابع منابع فارسي وست فال، ماتيو و ديگران(1386)، شاخص هاي شهري براي مديريت شهرها، ترجمه همت مراد قلندري؛ امير قادري و امير حسين ممتازي، تهران، مرکز انتشارات دانشگاه علم و صنعت ايران. هراتي ، سامان (1386)؛"حل مشکلات شهري از طريق فن آوري اطلاعات و ارتباطات"، نشريه مرکز ارتباطات بين المللي شماره 46. مرشدلو، حسين ،(۱۳۸۶)،" داده کاوي پويا با استفاده از عامل "، پايان نامه کارشناسي ارشد، دانشگاه صنعتي امير کبير. کاظميان، غلامرضا، سعيدي رضواني، سعيد (1381) امکان سنجي واگذاري وظايف جديد به شهرداري ها- جلد دوم.تهران. انتشارات سازمان شهرداري هاي کشور. شريفيان ثاني، مريم (1380)؛ "مشارکت شهروندي، حکمراني شهري و مديريت شهري"، فصلنامه مديريت شهري، شماره 8. جلالي، علي اکبر (1384) شهر الکترونيک، چاپ سوم، تهران، انتشارات دانشگاه علم و صنعت ايران. خانزاده،علي(1386) "شهر، شهرداري، شهروند الکترونيکي"، ماهنامه توسعه کاربري فن آوري اطلاعات و ارتباطات، سال پنجم، شماره دوم. نظريان آزاد، سيروس(1388)نقش فناوري اطلاعات در توسعه مديريت شهري، دومين کنفرانس شهرداري الکترونيکي، تهران. جلالي لواساني، احسان؛ نجفي، مهرداد ( 1388)،" بررسي ابعاد حاصل از بکارگيري فن آوري اطلاعات در ساختار مديريت شهري (سامانه مديريت شهري 137 )"؛ دومين کنفرانش شهرداري الکترونيکي، تهران. محکي، علي اصغر(1386)، "شهرداري الکترونيکي"، ماهنامه توسعه کاربري فن آوري اطلاعات و ارتباطات ، سال پنجم، شماره دوم،. آخوندزاده نوقابي، الهام(1388)؛ کاوش دانش پنهان مديريت ارتباط با مشتري: مورد کاوي پايگاه اطلاعاتي 137 شهرداري تهران، پايان نامه کارشناسي ارشد؛ دانشگاه شاهد دانشکده فني و مهندسي. اميري، آرين (1387)؛ عوامل مؤثر بر پذيرش سامانه مديريت شهري تهران (137) توسط شهروندان؛ پايان نامه کارشناسي ارشد؛ دانشگاه علامه طباطبائي، دانشکده مديريت وحسابداري يوسفيان مريم آبادي، محمد حسين(1389)؛ طراحي چهارچوب کندوکاو فرايندهاي همکارانه بر پايه فرايند کاوي: پايان نامه کارشناسي ارشد؛ دانشگاه تربيت مدرس، دانشکده فني و مهندسي (گروه مهندسي سيستم هاي اقتصادي – اجتماعي) "داده کاوي و کاربرد آن در مديريت شهري"، (1388)، مرکز مطالعات و برنامه ريزي شهر تهران نقش نوين شهرها و مساله مديريت، ويژه نامه مرکز مطالعات و برنامه ريزي شهري شهرداري تهران،ص 7. شهرابي، جمال (1390) داده کاوي؛ تهران؛ جهاد دانشگاهي اميرکبير. شهرابي، جمال (1390) داده کاوي 2؛ تهران؛ جهاد دانشگاهي اميرکبير. شهرابي، جمال؛ ونوس شکور نياز (1389)، داده کاوي کاربردي با مثال هايي در SQL Server ؛ تهران؛ جهاد دانشگاهي اميرکبير. شهرابي، جمال؛ ذوالقدر شجاعي، علي (1388)، داده کاوي پيشرفته مفاهيم و الگوريتم ها؛ تهران؛ جهاد دانشگاهي اميرکبير. شهرابي، جمال (1390)؛ کارگاه آموزشي داده کاوي ، تهران؛ دانشگاه صنعتي اميرکبير. شهرابي، جمال (1389)؛ کارگاه آموزشي داده کاوي، تهران؛ دانشگاه صنعتي اميرکبير. نخعي زاده ، غلامرضا (۱۳۸9)،داده کاوي و کاربرد آن در بانک و بيمه ، کارگاه آموزشي، دانشگاه تربيت مدرس. http://www.irandatamining.ir/datamining.htm http://137.tehran.ir/Default.aspx?tabid=92 http://137.tehran.ir/Default.aspx?tabid=94 http://www.irimo.ir/farsi/current/index.asp?station=40751 منابع لاتين Han J., Kamber M., (2006), “Data Mining concepts and techniques”, Second Edition, Morgan Kaufmann. Larsed D., “DISCOVERING KNOWLEDGE IN DATA, An Introduction to Data Mining”, (2003), John Wiley & Sons Gupta G.K. (2006) , “Introduction to DATA MINING with Case Studies”, Prentice-Hall ,ISBN-81-203-3053-6 Frawley W.,Piatetsky G., ”Knowledge Discovery In DataBases”, ISSN- 0738-4602 Hand D.,Mannila H., Smyth P., (2001).”Principles of Data Mining”, MIT Press,Cambridge Wu X. , Kumar V., (2006), “The Top Ten Algorithms in Data mining”, Chapman & Hall /CRC Press Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth (1996), From Data Mining toKnowledge Discovery inDatabases William J. Frawley, Gregory Piatetsky-Shapiro, and Christopher J. Matheus, Knowledge Discovery in Databases:An Overview(1992) Marcin and others, Data Mining Approach for Analyzing Call Center Performance, http://arxiv.org/ftp/cs/papers/0405/0405017.pdf Ruiyuan Guo, and others, Analyzing Call Center Performance: A Data Mining Approach, http://www.softcomputing.net/icfai-km.pdf Stephanus Francois du Toit, Andre Calitz, A Model for the Visual Data Mining of Call Patterns, http://www.nmmu.ac.za/documents/coe/SFduToit.pdf Abstract Municipality is one of the most important organizations playing an important role in providing citizens with urban services. Applying the information technology and the communications systems knowledge, and also the skilled domestic experts’ ability in urban management, this organization has established a system which enters the citizens into the management zone about their life environment, and has attempted to perform urban affairs using the same citizens’ active participation. Therefore, the 137 system can be regarded as a data-base which holds valuable data on city problems. The information obtained from this system contains useful matters on the presented services to the citizens, and can be used as an important and suitable source for doing the data-mining analyses. For example, the possible future events and problems that may become problematic for the city can be predicted using these analyses, and preparation can be made facing them. In this research considered as an applied-descriptive one, the 2011 data from the 137 system has been used to perform the data-mining process using Clementine 12. One of the results is determining the homogeneity of these regions from the 137 system’s perspective using the clustering technique in two categories. It shows that the second category regions are more ready and informed for communicating with the system, and the greater number of calls from the citizens of these regions does not have any relationship with their having more problems. The regions and areas have been analyzed regarding the relation dependence rules among the problems, and it was determined that which areas of each region are more susceptible to some urban problems and difficulties that the municipality can prevent their occurrence by acquiring more readiness. In addition, interesting patterns have also been obtained by the results in predicting the number of calls related to one region’s inundation and flood based on the amounts of rain, and/or determining the dependence of the inundation messages among different areas of a special region. The obtained results are expected to be effective in urban problems’ management and enhancing citizens’ satisfaction. Key words: Urban Management, 137 Portal, Data Mining, Clustering, Association Rules. 2197735174625 Allame Tabataba’i University FacultyFaculty of Management and Accounting Dissertation in Urban Management The Application of Data Mining in discovering hidden knowledge among 137 portal of Tehran Municipally Supervisor Dr.Jamal Shahrabi Advisor Dr.Gholamreza Kazemian By Mina Goshadrou Febuary 2012

فایل های دیگر این دسته

مجوزها،گواهینامه ها و بانکهای همکار

بانک نمونه سوالات آزمون ها و دروس مقاطع مختلف دارای نماد اعتماد الکترونیک از وزارت صنعت و همچنین دارای قرارداد پرداختهای اینترنتی با شرکتهای بزرگ به پرداخت ملت و زرین پال و آقای پرداخت میباشد که در زیـر میـتوانید مجـوزها را مشاهده کنید