Главная » 2009»Май»25 » Разработан алгоритм определения продажности сайтов
Разработан алгоритм определения продажности сайтов
20:50
А вы в состоянии понять, что за сайт перед вами - чья-то личная
страница или корпоративный проект, особенно если на нем расположена
некая коммерческая информация? Специалисты в сфере IT из Индии и Японии
утверждают, что нашли автоматический способ отличить чью-то
персональную страничку от коммерческого сайта, сделанного с целью
одурачивания потребителей.
Такахиро Хаваши с коллегами из
университета Ниигаты объясняют, что их метод извлекает субъективно
воспринимаемые выражения, расположенные на вэб-странице. Затем система
подсчитывает степень субъективности и выносит вердикт, выражает ли
содержание страницы чье-то личное мнение или это такая маркетинговая
уловка.
Ученые протестировали систему в работе, проанализировав
1200 страниц, тематически относящихся к четырем направлениям -
конкретный товар, туризм, ресторан и кино. Выяснилось, что данный метод
намного более эффективен для нахождения именно личных страниц, чем
любой поисковик. А происходит это потому, что большинство популярных
поисковых машин оценивает личные странички невысоко и они редко
встречаются даже на первых десяти страницах результатов поиска.
Личные
сайты, блоги и форумы расцениваются поисковиками, например Google или
Яндекс, как личные странички, и как правило они никогда не займут места
в первой десятке результатов поиска (SERPs). Именно чье-то личное
мнение о том или ином продукте найти в интернете несравнимо труднее,
чем коммерческие резюме и релизы.
Новая система основывается на
том факте, что составители проплаченных сообщений чаще всего не
употребляют критических или негативных отзывов о какой-либо продукции
или услуге. Личные же мнения обычно пестрят и положительными, и
негативными сообщениями.
В японском письменном это могут быть:
выражения с негативной окраской, завершающие частицы, междометия и
определенные символы - Кандзи - наподобие наших смайликов. Существуют
эквивалентные выражения и на других языках.
Вот примерно такие
выражения и извлекаются из текста страницы, а системный алгоритм
разбирается, сколько из них положительных, а сколько отрицательных. Это
и служит основным индикатором принадлежности страницы.
Подобный
подход было бы неплохо применять в результатах поиска всех поисковиков,
чтобы те, кому это важно, могли искать мнения потребителей, а не
штампованные на заказ тексты.