آشنایی با الگوریتم‌های موتورهای جست‌وجو

تاریخ انتشار:

هر موتور جست‌وجو، الگوریتم‌های اختصاصی خودش را برای تعیین ارتباط (قواعدی برای رده‌بندی نتایج) دارد که به‌طور پیوسته در حال توسعه و بهبود هستند زیرا موتورهای جست‌وجو در جریان کار و تجربیات خود چیزهای زیادی می‌آموزند. اجازه بدهید قبل از ورود به بحث، کار را با ارایه یک تعریف از الگوریتم موتور جست‌وجو آغاز کنیم. این الگوریتم یک فرمول ریاضی پیچیده است که یک موتور جست‌وجو از آن برای رده‌بندی صفحات وبی که در کاوش‌های وب خود می‌یابد، استفاده می‌کند. الگوریتم‌های موتورهای جست‌وجو فوق‌العاده محرمانه هستند. در واقع افراد زیادی وجود دارند که در خارج از صنعت موتورهای جست‌وجو مشغول به کار هستند و تلاش می‌کنند تا کد این موتورها را مهندسی معکوس کرده و نحوه کار آن‌ها را بفهمند تا به دیگران کمک کنند که در نتیجه جست‌وجوهای مرتبط با سایت خود، در رده‌بندی بالاتری قرار گیرند. یک الگوریتم، مجموعه‌ای از قواعد است که یک موتور جست‌وجو از آن‌ها برای رده‌بندی فهرست‌های درج شده داخل ایندکس خود در پاسخ به یک جست‌وجوی خاص استفاده می‌کند. هیچ موتور جست‌وجویی دقیقا نحوه کار الگوریتم خود را فاش نمی‌کند تا به این ترتیب از خود در برابر رقبای دیگر و همچنین افرادی که می‌خواهند اسپم‌هایی را به موتور جست‌وجو بفرستند، محافظت کرده باشد.

هر چه موتورهای جست‌وجو بیشتر برای بهبود کیفیت نتایج جست‌وجوی خود تلاش می‌کنند، الگوریتم‌های آن‌ها نیز بدون وقفه پیشرفته‌تر می‌شوند. توسعه تاریخی رده‌بندی موتورهای جست‌وجوی اینترنتی با منطق یک وب‌گرد معمولی و توزیع عبارت کلیدی آغاز شد، اما با توسعه بیشتر، عوامل دیگری مانند «محبوبیت لینک» بر این معیارها غلبه کرده و به‌عنوان عوامل اصلی در رده‌بندی باقی ماندند.توضیح الگوریتم‌های موتورهای جست‌وجو بدون در نظر گرفتن تفاوت مابین انواع موتورها کامل نخواهد بود. البته باید توجه داشته باشید که هر یک از انواع موتورهای جست‌وجو دارای قواعد متمایز کننده‌ای برای رده‌بندی هستند. اولین گروه در این مجموعه، موتورهای جست‌وجوی مبتنی بر خزنده‌ها (Crawler) هستند که موتورهای جست‌وجوی صدرنشینی مانند گوگل و MSN در میان آن‌ها قرار می‌گیرند. این گروه از موتورهای جست‌وجو در عین حال تحت عنوان گروه سنتی نیز شناخته می‌شود. نوع دیگری از موتورهای جست‌وجو، دایرکتوری‌هایی هستند که از منابع انسانی برای شاخص‌گذاری و ایندکس استفاده می‌کنند. اکثر دایرکتوری‌ها فاقد مکانیزم‌های رده‌بندی اختصاصی برای خود هستند و غالبا از چند عامل آشکار و بدیهی مانند ترتیب الفبایی یا PageRank گوگل برای مرتب کردن URLها استفاده می‌کنند.

دسته بعدی در این مجموعه، موتورهای جست‌وجوی دورگه هستند که موتورهای META و آن دسته از موتورهای جست‌وجویی که از نتایج سایر موتورها استفاده می‌کنند را در بر می‌گیرند. گروه آخر شامل PPC و موتورهای دربرگیری پرداختی است که فهرست‌هایی را در مقابل پرداخت وجه معینی ارایه می‌کنند.موتورهای جست‌وجوی مبتنی بر Crawler، یک تکنیک پیشرفته برای تعیین میزان ارتباط صفحات شما با عبارات و کلمات جست‌وجو را به‌کار می‌گیرند. با وجود آن‌که هر موتور جست‌وجو دارای ویژگی‌های متمایز‌کننده خود است، ایده اصلی این نوع موتورهای جست‌وجو در توجه به تعدادی از عوامل درون صفحه‌ای و برون صفحه‌ای نهفته است. تنها پس از تعیین وضعیت این عوامل است که یک موقعیت یا رده‌بندی معین به صفحه وب شما تعلق می‌گیرد.

وضعیت بعدی به موتورهای جست‌وجوی PPC مربوط می‌شود. موتورهای دربرگیری پرداختی، هزینه معینی را برای فهرست کردن صفحه شما و همچنین مابه‌التفاوتی را برای سیستم‌های کاری مانند Spidering مجدد یا اعطای رد‌ه‌بندی برتر در عبارات کلیدی انتخاب شده شما، دریافت می‌کنند. قاعده اصلی که در قلب فرآیند PPC نهفته، این است که هر چه پول بیشتری پرداخت کنید موقعیت بالاتری را برای عبارات جست‌وجوی خاص به‌دست خواهید آورد. در این سیستم، عبارات و کلمات کلیدی به یک هزینه CPCم (Cost-per-Click) وابستگی دارند.این سیستم حراج کاملا جاافتاده از محبوبیت بالایی برخوردار است و اکثر موتورهای جست‌وجوی مهم اینترنتی از چنین الگویی به‌عنوان بخشی از سیستم رده‌بندی و شاخص‌گذاری خود استفاده می‌کنند. برای مثال، Yahoo! صاحب موتور پرداختی Overture است و نتایج جست‌وجو را برای AltaVista، AllTheWeb، MSN، نتایج تکمیلی Overture و سایر موتورهای مبتنی بر Inktomi مانند HotBot فراهم می‌کند. نتایج دارای پشتیبانی مالی در جست‌وجوهای Overture در بالاترین سطح فهرست قرار می‌گیرند و صفحاتی که توسط Yahoo! تغذیه می‌شوند در پایین نتایج جست‌وجو رده‌بندی خواهند شد. البته این موتور جست‌وجو نیز درست مثل موتورهای جست‌وجوی برتری مانند MSN و گوگل، صفحات را با توجه به عوامل درون صفحه‌ای و برون صفحه‌ای آن‌ها رده‌بندی می‌کند.موتور جست‌وجوی گوگل به‌خاطر مطالبات خود در هنگام ارایه صفحات، به‌عنوان یکی از شناخته‌ شده‌ترین نمونه‌ها در نظر گرفته می‌شوند. با وجود آن‌که افراد زیادی سیستم PageRank را به‌عنوان الگوریتم اصلی موتور جست‌وجوی آن در نظر می‌گیرند، اما گوگل روش‌های دیگری نیز برای رده‌بندی صفحات دارد.

PageRank یک مقدار مطلق است که به‌طور منظم توسط گوگل برای هر صفحه‌ای که در ایندکس خود دارد، محاسبه می‌شود. در اینجا شما باید بدانید که تعداد لینک‌های ورودی از سایت‌های دیگر در خارج از دامنه خودتان و همچنین کیفیت لینک‌ها از اهمیت فوق‌العاده‌ای در رده‌بندی PageRank برخوردارند.دو عبارت دیگر نیز وجود دارند که به روش گوگل برای رده‌بندی صفحات مربوط می‌شوند: Hilltop و Sandbox.Hilltop الگوریتمی است که در سال 1999 ایجاد شده. این الگوریتم اساسا به رابطه مابین صفحات «Expert» و «Authority»  توجه می‌کند. یک صفحه Expert، صفحه‌ است که به تعداد زیادی از اسناد مرتبط دیگر لینک می‌دهد. در عین حال، یک صفحه Authority صفحه‌ای است که از چند صفحه Expert به آن لینک داده شده. از نظر تئوری، گوگل باید صفحات Expert را یافته و سپس رده‌بندی خوبی را به صفحاتی که به آن‌ها لینک داده شده اعطا نماید. صفحاتی که روی سایت‌هایی مانند Yahoo!، DMOZ، سایت‌های دانشگاهی و سایت‌های کتابخانه قرار گرفته‌اند، می‌توانند به‌عنوان صفحات Expert در نظر گرفته شوند.گوگل در عین حال عمر صفحه شما را با کمک الگوریتم SandBox بررسی می‌کند. این الگوریتم سن صفحه شما را تعیین کرده و در عین حال مشخص می‌کند چه مدتی از به‌روزرسانی صفحه مورد نظر گذشته است. به‌طور معمول، صفحاتی با محتوای قدیمی به‌تدریج به پایین فهرست نتایج می‌لغزند در حالی که صفحات جدیدی که تازه شناسایی شده‌اند در موقعیت بالاتری نسبت به زمانی که فقط به PageRank آن‌ها توجه شود، قرار خواهند گرفت. به‌عبارت دیگر، گوگل فرض می‌کند که صفحات جدید محتوای به‌روزتر و مرتبط‌تری دارند و برای آن‌ها برتری معینی نسبت به صفحات قدیمی در نظر می‌گیرد. بنابراین، به‌روزرسانی مرتب صفحات شما می‌توانند به نگه‌داشتن آن‌ها در بالای لیست کمک کند.

الگوریتم پاندا
در ماه ژانویه سال 2011، گوگل وعده داد اقداماتی را علیه سایت‌های Content Farm که با محتوای بی‌ربط یا بی‌کیفیت خود در بالای فهرست‌های نتایج جست‌وجو قرار می‌گیرند، انجام خواهد داد. حالا این شرکت با معرفی به‌روزرسانی جدید الگوریتم جست‌وجوی خود که با نام پاندا شناخته می‌شود، تغییراتی را در الگوریتم رده‌بندی اعمال کرده تا چنین مواردی را از فهرست‌های جست‌وجو حذف کنند. الگوریتم جدید از فوریه مورد استفاده قرار گرفته است.
گوگل الگوریتم خود را به‌طور منظم تغییر می‌دهد، اما اکثر تغییرات به‌حدی کوچک هستند که تعداد اندکی متوجه آن می‌شوند. اما به نظر می‌رسد که این بار وضعیت متفاوت است. به گفته گوگل، تغییرات جدید حداقل 12 درصد از نتایج جست‌وجو در داخل ایالات متحده را تحت تاثیر می‌گذارند. این مقدار بسیار بیشتر از تاثیری است که اکثر تغییرات الگوریتم‌های گوگل تاکنون به همراه داشته‌اند. البته تغییرات ابتدا بر نتایج جست‌وجوهای داخل ایالات متحده تاثیر داشتند، اما به تدریج در سراسر دنیا مشاهده خواهند شد.پس از ارایه الگوریتم جدید، گوگل تایید کرده که سایت‌های Scrapper را با آن نشانه گرفته است. سایت‌های Scrapper سایت‌هایی هستند که خودشان هیچ محتوای را تولید نمی‌کنند، بلکه محتوا را از سایر منابع به مجموعه خود اضافه می‌کنند. بعضی از سایت‌ها این کار را با روش‌های قانونی مانند استفاده از فایل‌های RSS با اجازه، انجام می‌دهند. گروه دیگری از سایت‌ها نیز مقادیر کوچکی از محتوای سایت‌های دیگر را با در نظر گرفتن قواعد استفاده عادلانه جمع‌آوری می‌کنند. اما تنها Scrape یا کپی کردن محتوا از سایت‌های دیگر با استفاده از روش‌های خودکار که در بسیاری از سایت‌های Content Farm انجام می‌شود، کاری نیست که گوگل تمایل داشته باشد برای آن امتیازی قایل شود.نکته جالب این است که گرچه الگوریتم جدید گوگل به‌طور رسمی با نام پاندا منتشر شده، اما مهندسین این شرکت به‌صورت داخلی از نام Farmer برای آن استفاده می‌کنند. به‌نظر می‌رسد که قرار است آخرین به‌روزرسانی الگوریتم گوگل محتوای سایت‌های مختلف را شخم زده و آن‌ها را بر اساس اصالت محتوایشان رده‌بندی کند.

 

جمع‌بندی
موتورهای جست‌وجو برای انجام وظیفه اصلی خود یعنی ارایه یک فهرست از نتایج که بیشترین ارتباط را با عبارت کلیدی جست‌وجوی کاربران داشته باشند، به الگوریتم‌های پیشرفته‌ای تکیه دارند که به ‌آن‌ها اجازه می‌دهند سایت‌های شناسایی شده خود را بر اساس پارامترهای معینی رده‌بندی کنند.این الگوریتم‌ها که فرمول‌های بسیار پیچیده ریاضی هستند، به‌طور کاملا محرمانه‌ای نگه‌داری می‌شوند. با این‌حال، گروه‌های مختلفی تمام تلاش خود را برای شناسایی و درک بهتر این الگوریتم‌ها و نحوه کار آن‌ها به کار می‌گیرند.
در بهترین شرایط، این افراد شامل SEOها یا بهینه‌سازی کنندگان موتورهای جست‌وجو هستندکه با کمک به سایت‌های مختلف به آن‌ها امکان می‌دهند رده‌بندی بالاتری را در فهرست نتایج جست‌وجوی موتورهایی که از یک الگوریتم خاص بهره می‌گیرند، به‌دست آورند.البته آشنایی با جزییات و روش کار موتورهای جست‌وجو در عین حال به سایت‌هایی که هیچ محتوای ارزشمندی تولید نمی‌کنند یا تولیدکنندگان اسپم نیز اجازه می‌دهد تا به شکل‌های مختلف از این اطلاعات سوء استفاده کنند. با این ‌حال اگر شما یا شرکت‌تان نیز یک سایت وب دارید، باید به آشنایی با قواعد کار الگوریتم‌های جست‌وجو توجه داشته باشید.

2 دیدگاه برای ”آشنایی با الگوریتم‌های موتورهای جست‌وجو

  1. mohammad mardani

    بسیار کامل و زیبا ممنون

  2. جوکار

    بسیار عالی و مفید بود ممنون از سایت خوبتون

دیدگاه خود را ارسال کنید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *