Како Гоогле БЕРТ вс. Смитх алгоритми раде заједно - Семалт преглед




Гоогле је недавно објавио истраживачки рад о њиховом новом НЛП алгоритму СМИТХ. Овај рад је указао многим СЕО стручњацима на промене које би захтевале повећање или пад у рангу СЕРП-а. Ипак, наша брига овде је како се овај нови СМИТХ алгоритам упоређује са БЕРТ?

У раду који је објавио Гоогле, тврдили су да СМИТХ надмашује БЕРТ у разумевању дугих упита за претрагу и докумената. Оно што СМИТХ чини толико занимљивим јесте то што може да разуме одломке у документу слично ономе што БЕРТ ради речима и реченицама. Ова побољшана карактеристика СМИТХ-а омогућава му да са лакоћом разуме дуже документе.

Али пре него што наставимо даље, морамо вас обавестити да СМИТХ тренутно не живи у Гооглеовим алгоритмима. Али ако су наша нагађања тачна, покренуће се заједно са индексирањем пролаза или ће му претходити. Ако сте заиста заинтересовани да научите како се рангирати на СЕП-у, машинско учење би неизбежно ишло упоредо са овим интересовањем.

Вратимо се на тему, да ли ће БЕРТ бити замењен? Неће ли већина докумената на Интернету који су огромни, робусни и због тога дуже изводити боље са СМИТХ-ом?

Кренимо у даље и видимо шта смо закључили. СМИТХ може обавити посао читања чврстих и танких докумената. Замислите то као Базуку. Може да нанесе велику штету јер такође може да отвори врата.

За почетак, зашто БЕРТ или СМИТХ?

Право питање овде је зашто ће претраживач захтевати Обраду природног учења да би пружио резултате претраге. Одговор је једноставан. Претраживачи захтевају НЛП у свом прелазу са низа који разумеју претраживач или кључних речи на ствари или веб странице.

Тамо где Гоогле нема представу, шта још може бити на страници осим кључних речи или да ли садржај који се индексира уопште има смисла у односу на упит за претрагу. Захваљујући НЛП-у, Гоогле може да разуме контекст знакова уписаних у његов упит за претрагу.
Захваљујући НЛП-у, Гоогле може да разликује намеру корисника када каже „речна обала“ и „банковни рачун“. Такође може схватити неприродне изјаве попут „Царолине се састала са својим пријатељима на пићу, пићу, пиву, пиву, пиву ...“.

Као стручњаци за СЕО, морамо рећи да је разумевање упита за претрагу далеко напредовало. Најбољи верују да је у прошлости било претешко тешко пронаћи праве чланке на Интернету.

Разумевање БЕРТ-а

БЕРТ тренутно функционише као најбољи НЛП модел који имамо за многе, ако не и за већину апликација, посебно када је реч о разумевању сложених језичких структура. Многи први двосмерни лик сматрају највећим скоком напред у овом алгоритму. Уместо да има алгоритам који чита с лева на десно, БЕРТ такође може да разуме речи у односу на њихов контекст. На овај начин то не би дало резултате за појединачне речи стављене у упит, већ индексирало веб странице на основу колективног значења речи у упиту за претрагу.

Ево примера који ће вам олакшати разумевање:

КАМИОН ИМА СВЕТЛОСТ.

Ако бисте ту изјаву тумачили слева надесно, кад бисте досегли реч „светло“, класификовали бисте камион као нешто са светлошћу. То је зато што је камион стигао пред светло у изјави.

Али ако желимо класификовати ствари на камионе, можда ћемо изоставити „светло“ јер на њега не наилазимо пре „камиона“.

Тешко је разматрати изјаву само у једном правцу.

Поред тога, БЕРТ такође има још једну тајну предност што је тако изванредан и омогућава ефикасну обраду језика уз ниже трошкове ресурса у поређењу са претходним моделима. То је заиста важан фактор који треба узети у обзир када неко жели да га примени на целој мрежи.

Примена жетона је још једна еволуција која прати БЕРТ. У БЕРТ-у постоји 30.000 токена, а сваки од њих представља заједничку реч са неколико додатних токена за знакове и фрагменте у случају да реч постоји изван 30.000.

Захваљујући својој способности да обрађује жетоне и трансформаторе, БЕРТ је разумео садржај, што му је такође омогућило адекватно разумевање реченица.

Дакле, ако кажемо, "млада дама је отишла до обале. Касније је седела на обали реке и гледала како река тече".

БЕРТ ће тим реченицама доделити различите вредности јер се односе на две различите ствари.

Разумевање СМИТА

Затим долази СМИТХ, алгоритам са бољим ресурсима и бројевима за обраду већих докумената. БЕРТ користи око 256 токена по документу, а када премаши овај праг, рачунски трошкови постају превисоки за оптималну функцију. Супротно томе, СМИТХ може да обради до 2.248 токена по документу. То је отприлике 8 пута већи број токена који БЕРТ користи.

Да бисмо разумели зашто рачунски трошкови расту у једном НЛП моделу, прво морамо размотрити шта је потребно да бисмо разумели реченицу и пасус. Када се ради о реченици, постоји само један општи концепт који треба разумети. Мање је речи које се односе једна на другу, а самим тим и мање веза између речи и идеја које имају у сећању.

Прављењем реченица у параграфе, веза између ових речи се умножава. За процесирање 8Кс текста биће потребно много више пута у брзини и капацитету за оптимизацију меморије користећи исти модел. Ово је место где СМИТХ чини све разлике у основи груписањем и обављањем пуно офлајн обраде. Занимљиво је да СМИТХ и даље зависи од БЕРТ-а да би правилно функционисао.

Ево описа како СМИТХ у основи узима документ:
  1. Прво разбија документ на груписање величина којима је лакше управљати.
  2. Затим обрађује сваки блок реченица појединачно.
  3. Тада трансформатор учи контекстуални приказ сваког блока, након чега их претвара у приказ документа.

Како СМИТХ ради?

Да бисмо обучили СМИТХ модел, учимо од БЕРТ-а на два начина:

Да би се тренирао БЕРТ, из реченице се уклања реч и биће понуђене алтернативне опције

БЕРТ који је боље обучен је онај који ће бити успешнији у одабиру праве опције од понуђених алтернатива. На пример, ако се БЕРТ-у изрекне реченица:

Срећна смеђа ------ прескочила је ограду.
  • Прва опција - парадајз.
  • Друга опција - пас.
Што је БЕРТ боље обучен, то су веће шансе да одабере праву опцију, која је друга опција.

Ова метода обуке се такође примењује у СМИТХ-у.

СМИТХ је обучен за велике документе

Што је СМИТ боље обучен, то су веће шансе да препозна изостављене реченице. Иста је идеја са БЕРТ-ом, али другачија апликација. Овај део је посебно занимљив јер осликава свет са садржајима које генерише Гоогле, а који су сложени у зазидане странице резултата претраживача. Корисници наравно могу да оду, али неће, јер Гоогле на својој страници резултата може да састави кратке и дуготрајне садржаје из свих најбољих извора.

Ако сумњате да се ово догодило, требало би да знате да је то већ почело да се догађа, и иако то још увек нису савладали, то је почетак.

Да ли је СМИТХ бољи од БЕРТ-а?

Уз све што сте прочитали, потпуно је природно претпоставити да је СМИТХ бољи, а у многим задацима је заиста бољи. Али размислите како на тренутак користите Интернет; која питања редовно уносите у упите за претрагу?
  • „Каква је временска прогноза за данас?
  • „Смернице до ресторана“.
Одговарање на такве упите за претрагу обично захтева кратак садржај, често са ограниченим и некомпликованим подацима. СМИТХ је више укључен у разумевање дужих и сложенијих докумената и дугих и сложених упита за претрагу.

То ће укључивати састављање неколико докумената и тема ради стварања њихових одговора. Одређује како се садржај може рашчланити, омогућавајући Гоогле-у да зна праву ствар за приказивање. Помоћи ће Гоогле-у да разуме како су странице садржаја повезане међусобно и пружа скалу на којој се везе могу ценити међу осталим предностима.

Уз то, закључујемо рекавши да су и БЕРТ и СМИТХ важни и да обоје служе својој јединственој сврси.

Закључак

Иако је СМИТХ базоока, он нам треба да бисмо створили јасну слику како ствари колективно стоје. У ресурсима то кошта више јер ради већи посао, али кошта много мање од БЕРТ-а када радите тај исти посао.

БЕРТ помаже СМИТХ-у да помогне у разумевању кратких упита и ситних делова садржаја. То је, међутим, све док Гоогле не развије још један НЛП алгоритам који ће заменити оба, а онда ћемо кренути и сустићи још један напредак у СЕО-у.

Занима вас СЕО? Погледајте наше остале чланке на Семалт блог.