Google BERT Vs. Smith Alqoritmləri Birlikdə İşləyir - Semalt Baxış




Google bu yaxınlarda yeni NLP alqoritmi SMITH haqqında bir araşdırma sənədi yayımladı. Bu sənəd, bir çox SEO mütəxəssisini SERP sıralamasında artım və ya azalma təmin edəcək dəyişikliklər barədə məlumatlandırdı. Buna baxmayaraq, burada narahatlığımız bu yeni SMITH alqoritminin BERT ilə müqayisəsi necədir?

Google tərəfindən nəşr olunan yazıda SMITH-in uzun axtarış sorğularını və uzun sənədləri başa düşməkdə BERT-dən üstün olduğunu iddia etdilər. SMITH-i bu qədər maraqlı edən, BERT-in söz və cümlələrlə etdiyinə bənzər bir sənəd içindəki hissələri anlaya bilməsi. SMITH-in bu təkmilləşdirilmiş xüsusiyyəti, daha uzun sənədləri asanlıqla başa düşməsini təmin edir.

Ancaq daha irəli getməmişdən əvvəl sizə SMITH-in google alqoritmlərində yaşamadığını bildirməliyik. Ancaq fərziyyələrimiz doğrudursa, keçid indeksləşdirməsi ilə yanaşı başlayacaq və ya əvvəl olacaq. Əgər həqiqətən SEP-də necə sıralanmağı öyrənmək istəyirsinizsə, Maşın öyrənməsi istər-istəməz bu marağa yan-yana gedəcəkdir.

Yəni mövzuya qayıdaq, BERT dəyişdirilmək üzrədir? İnternetdəki geniş, möhkəm və bu səbəbdən SMITH ilə daha yaxşı işləyən sənədlərin çoxu deyilmi?

Gəlin irəliyə atlayaq və nə ilə nəticələndiyimizi görək. SMITH həm sağlam, həm də incə sənədləri oxumaq işini görə bilər. Bir Bazuka kimi düşünün. Qapıları da aça biləcəyi üçün böyük ziyana səbəb ola bilər.

Başlamaq üçün niyə BERT və ya SMITH lazımdır?

Buradakı əsl sual, axtarış motorunun axtarış nəticələrini təmin etməsi üçün niyə Natural Learning Processing tələb etməsidir? Cavab sadədir. Axtarış motorları, axtarış motorlarını başa düşən simlərdən və ya açar sözlərdən şeylərə və ya veb səhifələrə keçid zamanı NLP tələb edir.

Google-ın bir fikri olmadığı yerdə, səhifədə açar sözlərdən başqa nə ola bilər və ya indeksləşdirilən məzmunun axtarış sorğusu ilə əlaqəli olub olmadığını. Google, NLP sayəsində axtarış sorğusuna yazılan simvolların kontekstini anlayır.
NLP sayəsində Google, "çay sahili" və "bank hesabı" deyəndə bir istifadəçinin niyyətlərini fərqləndirə bilər. "Caroline dostları ilə içki, içki, pint, ale, dəm üçün görüşdü" kimi ifadələri qeyri-təbii kimi başa düşə bilər.

SEO mütəxəssisləri olaraq, axtarış sorğusunu başa düşməyin çox yol keçdiyini söyləməliyik. Ən yaxşısı, keçmişdə internetdə doğru məqalələri tapmaq həddindən artıq çətin olduğuna inanır.

BERT anlayışı

BERT hazırda bir çox tətbiqetmə üçün ən yaxşı NLP modeli kimi fəaliyyət göstərir, xüsusən də mürəkkəb dil strukturlarını başa düşməyə gəldikdə. Çoxları ilk Bidirektian xarakterini bu alqoritmin ən böyük sıçrayışı kimi qəbul edir. BERT soldan sağa oxuyan bir alqoritmə sahib olmaqdansa, sözləri də onların məzmunu ilə əlaqəli başa düşə bilər. Bu yolla, sorğuya qoyulmuş fərdi sözlər üçün nəticə verməyəcək, lakin axtarış sorğusundakı sözlərin kollektiv mənasına əsaslanan veb səhifələr.

Anlayışınızı asanlaşdırmaq üçün bir nümunə:

Bir yük maşınının işığı var.

Bu ifadəni soldan sağa təfsir etsəydiniz, "işıq" sözünə çatdıqda, yük maşınını işıqlı bir şey kimi təsnif edərdiniz. Bunun səbəbi, açıqlamada yük maşınının işıqdan əvvəl gəlməsi.

Ancaq yük maşınlarındakı şeyləri təsnif etmək istəyiriksə, "yük" dən əvvəl rastlaşmadığımız üçün "yüngül" tərk edə bilərik.

Bəyanatı yalnız bir istiqamətdə nəzərdən keçirmək çətindir.

Əlavə olaraq, BERT-nin bu qədər diqqətəlayiq olmasının başqa bir sirr faydası var və bu, əvvəlki modellərə nisbətən daha az resurs xərcləri ilə dilin effektiv şəkildə işlənməsinə imkan verir. Həqiqətən, bunu bütün veblərə tətbiq etmək istədikdə nəzərə alınması vacib bir amildir.

Tokenlərin tətbiqi BERT ilə müşayiət olunan başqa bir təkamüldür. BERT-də 30.000 jeton var və bunların hər biri bir sözün 30.000-dən kənarda olması halında simvollar və fraqmentlər üçün bir neçə əlavə işarələr olan ortaq bir sözü təmsil edir.

Ayələr və transformatorları işləmə qabiliyyəti sayəsində BERT məzmunu başa düşdü və bu da cümlələri kifayət qədər başa düşmə qabiliyyəti verdi.

Yəni "gənc xanım banka getdi. Sonra çay kənarında oturdu və çayın axışını izlədi".

BERT bu cümlələrə fərqli dəyərlər təyin edəcək, çünki iki fərqli şeyə işarə edirlər.

SMITH-i anlamaq

Daha sonra daha böyük sənədləri işləmək üçün istifadə etmək üçün daha yaxşı mənbələrə və nömrələrə sahib bir alqoritm olan SMITH gəlir. BERT sənəd başına təxminən 256 jeton istifadə edir və bu həddi aşdıqda hesablama qiyməti optimal iş üçün çox yüksək olur. Bunun əksinə olaraq, SMITH sənəd başına 2248 tokenə qədər işləyə bilər. Bu, BERT-nin istifadə etdiyi jetonun təxminən 8X-i deməkdir.

Hesablama xərclərinin niyə tək bir NLP modelində artdığını anlamaq üçün əvvəlcə bir cümləni və bir abzasın başa düşülməsinin lazım olduğunu düşünməliyik. Bir cümlə ilə işləyərkən anlamaq üçün yalnız bir ümumi anlayış var. Bir-birilə əlaqəli daha az söz var, bu səbəbdən sözlər və yaddaşında saxladığı fikirlər arasında daha az əlaqə var.

Paraqraflara cümlələr qurmaqla bu sözlər arasındakı əlaqə çox artır. 8X mətni eyni modeldən istifadə edərək sürət və yaddaş optimallaşdırma qabiliyyətində daha çox dəfə tələb edəcəkdir. SMITH əsas fərqi çoxlu sayda çevrimdışı işləmə və etməklə bütün fərqləri yaradır. Maraqlıdır ki, SMITH hələ də BERT-in düzgün işləməsindən asılıdır.

SMITH-in sənədi özündə necə götürdüyünün təsviri:
  1. Əvvəlcə sənədi idarə edilməsi daha asan olan qruplaşdırma ölçülərinə ayırır.
  2. Sonra cümlələrin hər blokunu ayrı-ayrılıqda işləyir.
  3. Daha sonra bir transformator hər bir blokun kontekstli bir təsvirini öyrənir, bundan sonra onları sənəd təqdimatına çevirir.

SMITH necə işləyir?

SMITH modelini öyrətmək üçün BERT-dən iki yolla öyrənirik:

BERT-i öyrətmək üçün bir cümlədən bir söz çıxarılır və alternativ variantlar təqdim ediləcəkdir

Daha yaxşı öyrədilmiş BERT, təqdim olunan alternativlərdən düzgün seçimi seçərkən daha uğurlu olacaqdır. Məsələn, BERT-ə cümlə verilirsə:

Xoşbəxt qəhvəyi ------ piket hasarının üstündən atladı.
  • Seçim bir - pomidor.
  • Seçim iki - it.
BERT nə qədər yaxşı təlim görsə, ikinci seçim olan doğru variantı seçmək şansı da o qədər yüksəkdir.

Bu təlim metodu SMITH-də də tətbiq olunur.

SMITH Böyük sənədlər üçün hazırlanır

SMITH nə qədər yaxşı təlim görsə, buraxılmış cümlələri tanımaq şansı da o qədər yüksəkdir. BERT ilə eyni fikir, lakin fərqli bir tətbiq. Bu hissə, xüsusilə maraqlıdır, çünki Google tərəfindən yaradılan məzmunu birləşdirilmiş axtarış motoru nəticəsi səhifələrinə birləşdirir. Əlbətdə ki, istifadəçilər gedə bilər, amma etməzlər, çünki Google nəticə səhifəsindəki bütün ən yaxşı mənbələrdən qısa və uzun formalı məzmunu bir yerə yığa bilər.

Bunun baş verməsindən şübhələnirsinizsə, bunun artıq başlandığını bilməlisiniz və hələ başa düşməmələrinə baxmayaraq, bu bir başlanğıcdır.

SMITH BERT-dən yaxşıdır?

Bütün oxuduqlarınızla SMITH-in daha yaxşı olduğunu və bir çox vəzifədə həqiqətən daha yaxşı olduğunu düşünmək tamamilə təbiidir. Ancaq bir anlıq internetdən necə istifadə etdiyinizi düşünün; axtarış sorğularına mütəmadi olaraq hansı sualları daxil edirsiniz?
  • "Bu gün üçün hava proqnozu nədir?"
  • "Bir restorana istiqamətləndirmə".
Bu cür axtarış sorğularına cavab vermək üçün ümumiyyətlə məhdud və sadə olmayan məlumatlarla qısa məzmun tələb olunur. SMITH daha uzun və daha mürəkkəb sənədləri və uzun və mürəkkəb axtarış sorğularını anlamaqda daha çox iştirak edir.

Buraya cavablarını yaratmaq üçün bir neçə sənəd və mövzunu birləşdirmək daxildir. Məzmunun necə parçalana biləcəyini müəyyənləşdirir və Google-a göstəriləcək düzgün şeyi bilmək imkanı verir. Google-a məzmun səhifələrinin bir-biri ilə necə əlaqəli olduğunu anlamağa kömək edəcək və əlaqələrin digər faydalar arasında qiymətləndirilə biləcəyi bir miqyas təmin edir.

Bununla birlikdə həm BERT həm də SMITH-in vacib olduğunu söyləyərək sona çatırıq və hər ikisi də özünəməxsus məqsədlərinə xidmət edir.

Nəticə

SMITH bazuka olduğu halda, işlərin kollektiv olaraq necə olduğunu aydın şəkildə göstərmək üçün buna ehtiyacımız var. Resurslarda daha böyük bir iş gördüyünə görə daha çox xərclənir, ancaq eyni işi yerinə yetirərkən BERT-dən çox azdır.

BERT, SMITH-ə qısa sorğuların və kiçik məzmun hissələrinin başa düşülməsinə kömək edir. Bununla birlikdə, Google, hər ikisini əvəz edəcək başqa bir NLP alqoritmi hazırlayana qədər və sonra SEO-da daha bir irəliləyişlə hərəkət edəcəyik.

SEO ilə maraqlanırsınız? Digər məqalələrimizə baxın Semalt blog.

mass gmail