بررسی روش های استخراج داده وب مبتنی بر آنتالوژی

  • تاریخ ثبت: 17 فروردین 1400
  • نویسندگان: سیدمحمد جوادی مقدم
  • کلمات کلیدی: استخراج داده، وب کاوی، الگوریتم تطبیق درخت، پوشش وب، هستی شناسی
استخراج داده های وب یکی از مهمترین مسائلی است که می تواند مورد مطالعه با استفاده از ابزارهای مختلف علمی قرارگیرد که در محدوده گسترده ای از برنامه های کاربردی است . بسیاری از روش هایی که برای استخراج داده از وب سایت طراحی شده است برای حل مشکلهای خاص و درحوزه های موقت به کار می رود . سیستمهای استخراج داده های وب دسته گسترده ای از نرم افزار برنامه های کاربردی در استخراج داده ها از منابع وب هستند. یک سیستم استخراج داده های وب معمولا در تعامل با یک منبع وب باشد محتوای خارج شده می تواند از علائم Html وعصاره داده های ذخیره شده می باشد به عنوان مثال اگر منبع یک صفحه وب در صفحه و همچنین متن کاملی از خود صفحه باشد و درنهایت داده های استخراج شده ممکن است پس از پردازش به ساختار استفاده از استخراج اطلاعات به زبان طبیعی Text Mining فرمت مناسب تبدیل و ذخیره شود. یک روش مهم برای استخراج تقطیر داده های ساختار یافته و یا دانش از متن بدون ساختار یافته که به وسیله شناسایی منابع برای IE است.استخراج اطلاعات موجودیت نام و روابط بین این موجودیت ها بدست می آید. . همچنین ما دراین بحث وارد یکی از شاخه های متن کاوی که هستی شناسی نام دارد می شویم بطوری که عناصر تشکیل دهنده هستی شناسی جمعیت خواص و روابط غیر طبقه بندی را شامل می شود. در این تحقیق انواعِ تکنیک ها وروشهای استخراج داده وب و همچنین مزایا و معایب هر کدام بررسی میشوند.