موتورهای جستجو چگونه کار می کنند؟
برای بسیاری این سوال پیش می آید که یک موتور جستجو مانند گوگل چگونه در کثری از یک ثانیه کل اینترنت را جستجو کرده و بهترین نتایج را ارائه می دهد؟ در واقع اینطور نیست! موتورهای جستجو پایگاه داده (Data Base) خود را جستجو می کنند و نه کل اینترنت را! آن ها از قبل پایگاه داده خود را آماده می کنند (جمع آوری داده ها از اینترنت) و در هنگام جستجو نتایج حاصل از جستجوی آن را لیست می کنند.


یک موتور جستجو از بخش های زیر تشکیل شده است:

· Spider (عنکبوت)

· Crawler (خزنده)

· Indexer (بایگانی کننده)

· Data Base (پایگاه داده)

· Ranker (رتبه بندی کننده)


Spider (عنکبوت)

Spider یا روبوت (Robot)، بخش نرم افزاری یک موتور جستجو می باشد که وظیفه جمع آوری اطلاعات مورد نیاز از روی اینترنت، برای پایگاه داده موتور جستجو را بر عهده دارد. Spider با دستور فرمانده خود (Crawler) وارد یک سایت یا لینک یک صفحه شده و محتوای آن را بررسی و جمع آوری می کنند و در اختیار سایر بخش های موتور جستجو قرار می دهند. Spider ها هم مانند کاربران اینترنت صفخات را بررسی می کنند و می خوانند. البته آن ها صفحات را آنگونه که شما می بینید نمی بینند. آنها کد صفحات (Source) یک صفحه HTML را می خوانند. شما نیز می توانید با استفاده از آدرس زیر در مرورگر خود این کد را مشاهده کنید:

View > Source

Spider ها علاوه بر وظیفه خواندن صفحات وظایف دیگری نیر از جمله بررسی فعال بودن لینک های یک سایت یا صفحه، وجود ایمیل، وجود آدرس پستی و ... را هم بر عهده دارند.


Crawler (خزنده)

در واقع Crawler است که به Spider می گوید کدام صفحات مورد بررسی قرار گیرند. صاحبان سایت ها نیز می توانند تا حدی رفتار Crawler ها را کنترل کنند. می توان بوسیله پروتکل robot.txt دسترسی به صفخاتی را آزاد گذاشت یا محدود کرد و یا بوسیله sitemap.xml و انواع روش های معرفی دیگر، صفحاتی را به Crawler شناساند. همچنین ممکن است Crawler توسط خود نویسندگان موتورهای جستجو برای اجازه فرمان دیدن و یا ندیدن بعضی صفحات به Spider برنامه ریزی شده باشد. Page Rank در گوگل برای تمام صفحات مورد خزش واقع شده (Crawled) وجود دارد که ممکن است با PR (Page Rank) صفحه اصلی سایت متفاوت باشد.


Indexer (بایگانی کننده)

در واقع Spider تمام اطلاعاتی که بدست می آورد را در Indexer قرار می دهد. Indexer جهت کاهش حجم اطلاعات از کلمات بسیار رایج مانند the، an، a، is، are، www و .. صرف نظر می کند. به همین دلیل وارد کردن یا نکردن چنین کلماتی در هنگام جستجو تاثیری در نتایج ارائه شده ندارد. (مانند بزرگی و کوچکی حروف انگلیسی در عبارات مورد جستجو که در نتایج جستجو تاثیری ندارد). Indexer صفحات را به پارامتر هائی نظیر حجم، کلمات کلیدی و جایگاه و تعداد آنها در صفحه، خرد می کند و تمام آنها را به مقیاس عددی تبدیل می کند تا در زمان ارائه لیست نتایج در الگوریتم موتور جستجو مورد استفاده قرار گیرند.


Data Base (پایگاه داده)

داده ها و پارامترها پس از آن که در Indexer تولید می شوند به پایگاه داده ارسال می گردند. در این بخش داده ها با حجم فشرده تر و بصورت طبقه بندی شده کدگذای و ذخیره می شوند.

یکی از نقاط تمایز موتورهای جستحو از یکدیگر حجم پایگاه داده و بروز بودن آن می باشد. در حال حاظر گوگل بزرگ ترین پایگاه داده را در بین موتورهای جستجو دارا می باشد.

در برخی تقسیم بندی ها بخش Data Base را در Indexer ادغام کرده و در نتیجه یک موتور جستجو را شامل 4 بخش می دانند.


Ranker (رتبه بندی کننده)

درواقع مهم ترین نقطه تمایز موتورهای جستجو از یکدیگر همین بخش می باشد. یک موتور جستجوی قدرتمند هرقدر هم که پایگاه داده گسترده و حجیمی داشته باشد ولی نتایج خوبی ارائه نکند موتور جستجوی ضعیفی به حساب می آید زیرا چیزی که کاربر نهائی مشاهده می کند و برای آن به یک موتور جستجو مراجعه کرده نتایج حاصل از جستجوی یک موتور جستجو است و نه دیتابیس آن!

هنگامی که کاربری کلمه یا عبارت مورد نظر خود را در جعبه جستجو (Search Box) وارد می کند نتیاج مختلفی برای او لیست می شود. رتبه بندی این انبوه نتایج وظیفه این بخش می باشد که باید بتواند بهترین و مرتبط ترین نتایج را با استفاده از پارامتر های خود (که در الگوریتم موتور جستجو بکار می روند) به کاربر ارئه دهد. در حال حاظر قوی ترین Ranker (سیستم رتبه بندی) متعلق به موتور جستجوی گوگل می باشد
جستجو در سایت
تبلیغات
درباره ما

مجله اینترنتی دیپروتد نشریه مجازی بر بستر اینترنت به مسائل آموزشی و مقالات پیرامون کسب وکار های نوپا یا استارت آپ ها و سبک زندگی است فعالیت و محتوای مطالب ارائه شده در سایت همه بیشتر در حوزه مدیریت، کارآفرینی ، روانشناسی ،اقتصادی و فناوری اطلاعات است نام اصلی دیپروتد "ریشه های عمیق " با مجوز رسمی از هیات نظارت برمطبوعات مشغول به فعالیت است

ما را در شبکه های اجتماعی دنبال کنید