مجله اینترنتی دیپروتد

ریشه های عمیق اجتماعی و اقتصادی

دسته بندی
دیپروتد دورنما  دیپروتد راهکار و ترفند  استارت اپ  علوم اخبار دانش  رویداد  کتاب خوانی


آگهی
فروشگاه اینترنتی صنایع دستی صبنگو
مطالب
08/12 1397
برای بسیاری این سوال پیش می آید که یک موتور جستجو مانند گوگل چگونه در کثری از یک ثانیه کل اینترنت را جستجو کرده و بهترین نتایج را ارائه می دهد؟ در واقع اینطور نیست! موتورهای جستجو پایگاه داده (Data Base) خود را جستجو می کنند و نه کل اینترنت را! آن ها از قبل پایگاه داده خود را آماده می کنند (جمع آوری داده ها از اینترنت) و در هنگام جستجو نتایج حاصل از جستجوی آن را لیست می کنند.


یک موتور جستجو از بخش های زیر تشکیل شده است:

· Spider (عنکبوت)

· Crawler (خزنده)

· Indexer (بایگانی کننده)

· Data Base (پایگاه داده)

· Ranker (رتبه بندی کننده)


Spider (عنکبوت)

Spider یا روبوت (Robot)، بخش نرم افزاری یک موتور جستجو می باشد که وظیفه جمع آوری اطلاعات مورد نیاز از روی اینترنت، برای پایگاه داده موتور جستجو را بر عهده دارد. Spider با دستور فرمانده خود (Crawler) وارد یک سایت یا لینک یک صفحه شده و محتوای آن را بررسی و جمع آوری می کنند و در اختیار سایر بخش های موتور جستجو قرار می دهند. Spider ها هم مانند کاربران اینترنت صفخات را بررسی می کنند و می خوانند. البته آن ها صفحات را آنگونه که شما می بینید نمی بینند. آنها کد صفحات (Source) یک صفحه HTML را می خوانند. شما نیز می توانید با استفاده از آدرس زیر در مرورگر خود این کد را مشاهده کنید:

View > Source

Spider ها علاوه بر وظیفه خواندن صفحات وظایف دیگری نیر از جمله بررسی فعال بودن لینک های یک سایت یا صفحه، وجود ایمیل، وجود آدرس پستی و ... را هم بر عهده دارند.


Crawler (خزنده)

در واقع Crawler است که به Spider می گوید کدام صفحات مورد بررسی قرار گیرند. صاحبان سایت ها نیز می توانند تا حدی رفتار Crawler ها را کنترل کنند. می توان بوسیله پروتکل robot.txt دسترسی به صفخاتی را آزاد گذاشت یا محدود کرد و یا بوسیله sitemap.xml و انواع روش های معرفی دیگر، صفحاتی را به Crawler شناساند. همچنین ممکن است Crawler توسط خود نویسندگان موتورهای جستجو برای اجازه فرمان دیدن و یا ندیدن بعضی صفحات به Spider برنامه ریزی شده باشد. Page Rank در گوگل برای تمام صفحات مورد خزش واقع شده (Crawled) وجود دارد که ممکن است با PR (Page Rank) صفحه اصلی سایت متفاوت باشد.


Indexer (بایگانی کننده)

در واقع Spider تمام اطلاعاتی که بدست می آورد را در Indexer قرار می دهد. Indexer جهت کاهش حجم اطلاعات از کلمات بسیار رایج مانند the، an، a، is، are، www و .. صرف نظر می کند. به همین دلیل وارد کردن یا نکردن چنین کلماتی در هنگام جستجو تاثیری در نتایج ارائه شده ندارد. (مانند بزرگی و کوچکی حروف انگلیسی در عبارات مورد جستجو که در نتایج جستجو تاثیری ندارد). Indexer صفحات را به پارامتر هائی نظیر حجم، کلمات کلیدی و جایگاه و تعداد آنها در صفحه، خرد می کند و تمام آنها را به مقیاس عددی تبدیل می کند تا در زمان ارائه لیست نتایج در الگوریتم موتور جستجو مورد استفاده قرار گیرند.


Data Base (پایگاه داده)

داده ها و پارامترها پس از آن که در Indexer تولید می شوند به پایگاه داده ارسال می گردند. در این بخش داده ها با حجم فشرده تر و بصورت طبقه بندی شده کدگذای و ذخیره می شوند.

یکی از نقاط تمایز موتورهای جستحو از یکدیگر حجم پایگاه داده و بروز بودن آن می باشد. در حال حاظر گوگل بزرگ ترین پایگاه داده را در بین موتورهای جستجو دارا می باشد.

در برخی تقسیم بندی ها بخش Data Base را در Indexer ادغام کرده و در نتیجه یک موتور جستجو را شامل 4 بخش می دانند.


Ranker (رتبه بندی کننده)

درواقع مهم ترین نقطه تمایز موتورهای جستجو از یکدیگر همین بخش می باشد. یک موتور جستجوی قدرتمند هرقدر هم که پایگاه داده گسترده و حجیمی داشته باشد ولی نتایج خوبی ارائه نکند موتور جستجوی ضعیفی به حساب می آید زیرا چیزی که کاربر نهائی مشاهده می کند و برای آن به یک موتور جستجو مراجعه کرده نتایج حاصل از جستجوی یک موتور جستجو است و نه دیتابیس آن!

هنگامی که کاربری کلمه یا عبارت مورد نظر خود را در جعبه جستجو (Search Box) وارد می کند نتیاج مختلفی برای او لیست می شود. رتبه بندی این انبوه نتایج وظیفه این بخش می باشد که باید بتواند بهترین و مرتبط ترین نتایج را با استفاده از پارامتر های خود (که در الگوریتم موتور جستجو بکار می روند) به کاربر ارئه دهد. در حال حاظر قوی ترین Ranker (سیستم رتبه بندی) متعلق به موتور جستجوی گوگل می باشد



منبع :
لینک :
کد مطلب: 8127
تاریخ و زمان انتشار: 12 آبان 1397, 14:00
واژگان کلیدی:
پیوند کوتاه نوشتار:
https://deeprooted.ir/8127
نوشتار های پیشین نویسنده:
  • شبیه سازی روش کار موتور جستجو
  • مقالات برتر کارآفرینی کوتاه
  • محتوا
  • افک چیست
  • موتور جستجو چگونه کار می کند؟
  • ۱۰ روش ساده برای کسب رتبه بالا در موتورهای جستجوگر
  • سئو چیست؟
  • سئو چیست؟
  • آبتین وب فروشگاه اینترنتی قند رژیمی کامور
    موتورهای جستجو چگونه کار می کنند؟
    سمت نو
    اخبار

    رویدادها
    کسب و کار های نوپا

    TED

    معرفی کتاب

    سبک زندگی

    معرفی سایت
    داغ ترین ها