موتور جستجوگر قبلاً پایگاه دادهاش را آماده کرده است و این گونه نیست که درست در همان لحظهی جستجو، تمام وب را بگردد.
بسیاری از خود میپرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایتهای وب را بگردد و میلیونها صفحه را در نتایج جستجوی خود ارایه کند؟
گوگل و هیچ موتور جستجوی دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخگویی به جستجوهای کاربران، تنها در پایگاه دادهای که در اختیار دارند به جستجو میپردازند و نه در وب! موتور جستجوگر به کمک بخشهای متفاوت خود، اطلاعات مورد نیاز را قبلاً جمعآوری، تجزیه و تحلیل میکند، آنرا در پایگاه دادهاش ذخیره مینماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده میگردد. بخشهای مجزای یک موتور جستجوگر عبارتند از:
Spider یا عنکبوت
Crawler یا خزنده
Indexer یا بایگانی کننده
Database یا پایگاه داده
Ranker یا سیستم رتبهبندی
الف: Spider (عنکبوت)
اسپایدر یا روبوت (Robot) نرم افزاری است که کار جمعآوری اطلاعات مورد نیاز یک موتور جستجو را بر عهده دارد. اسپایدر به صفحات مختلف سر میزند، محتوای آنها را میخواند، لینکها را دنبال میکند، اطلاعات مورد نیاز را جمعآوری میکند و آنرا در اختیار سایر بخشهای موتور جستجوگر قرار میدهد. کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید میکنند، اسپایدر هم درست این کار را انجام میدهد با این تفاوت که اسپایدر کدهای HTML صفحات را میبیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را.
اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای میگذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، میتوانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است. یکی از فعالیتهای اصلی که در SEM انجام میشود تحلیل آمار همین دید و بازدیدها است.
اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عدهای از آنها به سایتهای مختلف مراجعه میکنند و فقط به بررسی فعال بودن لینکهای آنها میپردازند و یا به دنبال آدرس ایمیل (E-mail) میگردند.
ب: Crawler (خزنده)
کراولر، نرمافزاری است که به عنوان یک فرمانده برای اسپایدر عمل میکند. کراولر مشخص میکند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم میگیرد که کدام یک از لینکهای صفحهای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضیها را دنبال کند و یا هیچ کدام را دنبال نکند.
کراولر، ممکن است قبلاً برنامهریزی شده باشد که آدرسهای خاصی را طبق برنامه در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینکهای یک صفحه به این بستگی دارد که موتور جستجو چه حجمی از اطلاعات یک سایت را میتواند (یا میخواهد) در پایگاه دادهاش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجو اطلاعات سایت شما را با خود ببرند، میتوانید آنها را از بعضی صفحات سایتتان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی میکند و از حقوق دسترسی خود اطلاع مییابد. تنظیم میزان دسترسی موتورهای جستجو به محتوای یک سایت توسط پروتکل Robots انجام میشود. به عمل کراولر، خزش (Crawling) میگویند.
- هادی زجاجی