وب منبع عظیمی از دادههاست که روزبهروز بر حجم اطلاعات آن افزوده میشود. دراینبین ابزارهایی تحت عنوان موتور جستجو طراحی شدند تا بتوانند به درخواستهای کاربران از میان حجم عظیم اطلاعات رسیدگی کنند. موتور جستجو پس از پیمایش هزاران صفحه وب, فرآیند پردازش اسناد را باهدف آمادهسازی متن برای نمایهسازی ایجاد میکند. برای پردازش اسناد وب از تکنیک هاو الگوریتمهای مختلفی استفاده میکنند تا بهترین نتایج ممکن را برای کاربر محیا کنند. این مقاله به بیان تکنیکهایی که برای پردازش متن و همچنین آمادهسازی متن برای نمایهسازی استفاده میشوند میپردازد.