Контент современного медиапространства растет невероятными темпами, отличается чрезвычайным разнообразием. Наиболее эффективным в исследованиях следует признать мультимодальный подход, который отражает социальный семиотический подход к современной коммуникации, поскольку в медиапространстве преобладают смешанные и ремиксные изображения, вербальные, невербальные формы взаимодействуют с 3D-7D объектами и др. Мультимодальность позволяет выйти за пределы анализа языковых структур и рассмотреть новые разнообразные способы коммуникации и создания смыслов. Именно мультимодальный подход представляется наиболее адекватным при анализе сетевого контента, позволяет конвертировать данные, поступающие по различным каналам.
Александр ХАРЛАМОВ
старший научный сотрудник Института высшей нервной деятельности и нейрофизиологии РАН, доктор технических наук, профессор
Мария ПИЛЬГУН
ведущий научный сотрудник отдела психолингвистики Института языкознания РАН, доктор филологических наук, профессор
Несмотря на то что, безусловно, довлеющей тенденцией развития медиапространства является визуализация, обращаю внимание на текстовые данные. Поскольку главное, что связано с формированием, передачей смыслов, определяется вербальным текстом. Это одна из причин победного шествия мессенджеров, которые уже почти похоронили социальные сети. Преимущество подобного канала – оптимальный вариант для мгновенной передачи вербальной информации и стирания граней между устной и письменной речью.
Одна из важных тенденций развития научной парадигмы – распространение Больших данных, которые уже изменили бизнес, науку и привели к появлению принципиально нового типа эмпирических данных. Закономерно, что сегодня многие исследователи стараются включить их в свои практики. Думаю, все согласятся, что проблема сбора информации на сегодняшний день практически решена, существует множество сервисов и структур, которые делают это блестяще.
Проблемы возникают на этапе очистки, а главное – анализа, интерпретации данных. В частности, один из актуальных моментов – это анализ тональности. То, что волновало людей очень давно и волнует сейчас, к этой проблеме с разных сторон подходят ученые исходя из различных научных парадигм, а также практики от психотерапевтов до политтехнологов. Нейросетевые технологии позволяют перевести подобный анализ на принципиально новый уровень.
Если мы говорим о текстовых данных, то сегодня, как известно, существует два основных типа методов обработки текста, которые построены на принципиально различных основах. Это методы, основанные на векторном представлении текстов, и методы, основанные на сетевом представлении текстов. Векторные представления разработаны очень подробно, существует огромное количество сервисов, которые позволяют решать разнообразные задачи. Позволю себе напомнить, что эти методы построены на монограммной модели языка (bag-of-words), в которой единицы текста рассматриваются обособленно, независимо друг от друга. И когда мы говорим об английском языке аналитического типа, то это вполне корректный подход, который дает огромное количество прекрасных решений. Есть серверы, которые работают и на материале русского языка, например, RusVectores, который предоставляет очень интересные возможности.
Представляется, что наиболее перспективным методом анализа текстов является нейросетевой метод анализа, построенный на сетевой n-граммной модели, в которой единицы текста рассматриваются как взаимосвязанные на глубину n шагов. Например, технология для автоматического смыслового анализа текстов TextAnalyst позволяет получить однородную семантическую (ассоциативную) сеть в виде графа, с вершинами, обозначающими понятия, где дуги указывают на близость этих понятий в рамках анализируемого текста. Подобная сеть, в отличие от модели языка, где используется не более чем 3-граммная модель, учитывает зависимость между словами текста (корпуса текстов), описывающего предметную область на n шагов (в случае использования программы TextAnalyst – на 10 шагов).
В текстовой базе данных выделяются взаимосвязанные ключевые понятия и строится семантическая сеть конкретной предметной области. С помощью программы TextAnalyst 2.0 формируется семантическая сеть, извлеченная из сети тематическая структура текста, проводится ассоциативный поиск по релевантным запросам, что позволяет проанализировать импликатуры.
Интерпретация текста, в частности, анализ интенции автора художественного текста – проблема, которая имеет длительную историю изучения в различных научных парадигмах, но, тем не менее, еще далека от решения, и представляется трудноразрешимой.
Выделение имплицитной информация, заложенной в тексте, также неоднозначно решенная задача.
Мы решили на примерах провокационно подобранных текстов показать возможности, которые уже сегодня дает нам нейросетевой подход при анализе текстовых данных. Безусловным достоинством нейросетевых технологий и вообще автоматизированного анализа текста является его полная беспристрастность, будь то стилистически совершенный текст или тексты сомнительного качества.
Материалом для исследования послужили тексты «Другие берега» В. Набокова и «Набережная неисцелимых» И. Бродского.
Имена В. Набокова и И. Бродского как двуязычных авторов занимают особое положение в истории мировой культуры. Творчество В. Набокова, владевшего несколькими языками и создавшего неповторимый, стилистически безукоризненный художественный мир на двух языках, не имеет аналогов в истории мировой литературы. И. Бродский переводил с английского, испанского, польского, сербохорватского, но его собственное творчество представлено только на русском и английском языках. Между тем следует заметить, что И. Бродский был более совершенен в русской поэтической форме, а по-английски предпочитал писать прозаические тексты.
Также были проанализированы «Долгое государство Путина» Владислава Суркова и данные социальных сетей.
«Другие берега» Владимира Набокова. Стиль В. Набокова известен мистификациями, непредсказуемыми поворотами сюжета, непредсказуемыми развязками. Автор создает полифонический текст, в котором соединяются субъективные противоположные точки зрения на описываемые события, взаимоисключающие трактовки происходящего или вводится необъективный, неадекватный повествователь, т.е. сознательно создается атмосфера неопределенности, недосказанности.
Мистификации, травестирование достигали предельного значения в интервью писателя, цитаты из некоторых часто приводятся как важные характеристики его творчества, окончательно запутывая некоторых читателей и даже исследователей.
Например, часто цитируется фраза В. Набокова из интервью, без учета характера изданий и пародийной манеры автора при общении с журналистами:
«Я американский писатель, рожденный в России, получивший образование в Англии, где я изучал французскую литературу перед тем, как на пятнадцать лет переселиться в Германию»
(Playboy 1964 г.)
Как известно, Playboy – скандально известный эротический журнал для мужчин, общеизвестно также крайне негативное, пренебрежительное отношение Набокова к журналистам.
В свете данных ассоциативного поиска, очевидно, что не вполне корректно буквально интерпретировать приведенную цитату, а следует расценивать ее в духе травестированной манеры В. Набокова общения с журналистами.
Тем не менее, отойдем от субъективных мнений и посмотрим, как нейросетевой анализ позволяет работать с различными речевыми структурами.
С помощью программы TextAnalyst 2.0 была сформирована семантическая сеть, извлеченная из сети тематическая структура анализируемого контента, проводился ассоциативный поиск по релевантным запросам.
Полученный из семантической сети перечень наиболее значимых понятий и концептов (имеющих наивысший ранг), несущих основную смысловую нагрузку, позволил определить ядро информации, наиболее важные для акторов семантические акценты.
Выделение тематической структуры выбранного контента позволило описать содержание в виде иерархии связанных тем и подтем, которые отражают основные концепты и соответствуют узлам сети понятий. Используемый инструментарий позволил создавать иерархическую тематическую структуру, выявить базовую тему и раскрывать связи с подтемами, которые формируют разноуровневые сематические сети.
Кроме того, контент был проанализирован с точки зрения связности тематического дерева. Были выделены тематические кусты, появившиеся в результате изменения порога по весу связей в сети понятий (разрыв более или менее сильных связей в зависимости от величины порога). Подобный анализ собранного датасета позволил проанализировать структуру текста в различных срезах и на разных уровнях семантической глубины.
Ассоциативный поиск – это инструмент, который позволяет выделить, имплицитную информацию, импликатуры. Например, реакции по запросу «Англия» показывают, что английский язык был важен для В. Набокова как некий мир, формирующий описание детства автора. По внешним источникам известно, что В. Набоков вырос в семье, которая культивировала английскую культуру (что было не характерно для русского дворянского общества), это был один из важных культурных кодов, определяющих восприятие окружающего мира, наряду с французским языком, который для Набокова был только одним из иностранных языков, которыми владел писатель, ассоциировался у него с романсом, музыкальными произведениями.
Между тем, минимальный результат дает ассоциативный поиск по запросу американский – только лексемы русский (67) и книги (67). Дом – ключевое понятие, вокруг которого строится повествование (максимальный вес связи в тематической структуре и семантической сети – 99). Дом для В. Набокова – это петербургский (а после – деревенский) дом, гостиная, парк, детская, завтрак в кругу родных и пр. Очевидно, иного наполнения для понятия дом для В. Набокова не существовало до конца жизни. Уместно вспомнить, что во время обучения в Кембриджском университете В. Набоков основал Славянское общество, которое в дальнейшем стало Русским Обществом Кембриджского университета. В Швейцарии писатель жил в отеле, не покупая собственного дома, несмотря на финансовую свободу, которую ему подарил гонорар за «Лолиту» и киносценарий в начале 1960-х гг., когда писатель смог оставить преподавание в Америке и вернуться в Старый Свет.
«Набережная неисцелимых» Иосифа Бродского. Тематическая структура текста достаточно прозрачна: Венеции – чудесный город с мраморными мостами, прекрасной архитектурой и культурой. Водная стихия в зимнем городе – важнейшие семантические акценты для И. Бродского (вес связей – 100), вокруг которых строится смысловой рисунок текста. Между тем, результаты ассоциативного поиска показывают, что волновало автора прежде всего сравнение прекрасных мест на Адриатике и Атлантике с Балтикой, отражение в прекрасной Италии родных для автора мест.
«Долгое государство Путина» Владислава Суркова. Это текст принципиально другого типа. Публикация В. Суркова – один из наиболее обсуждаемых текстов в сетевом пространстве, который вызвал негативную агрессивную реакцию в обществе. Тематическая структура очевидна – это статус российской государственности и власти на фоне американского и западного влияния. Семантическая сеть тоже не отличается особой изощренностью. Здесь появляются лексемы «истории», «глубинное государство», «вмешательство», «геополитическая борьба» и пр. Ассоциативный поиск позволяет выявить импликатуры, в определенной степени объяснить подмену тезиса, которую вполне сознательно производит автор, предлагая воспринимать систему современного государства как некую абсолютную ценность.
Для этого автору и нужна историческая перспектива. Для древнерусского человека светская власть была продолжением власти духовной. В древнерусских памятниках отражается восприятие земной власти как продолжения сакральной, определенного порядка устройства светской и церковной жизни. Противопоставление земной и божественной власти представлено уже в разножанровых текстах ХVIII в., в которых проявляется десакрализация института власти, противопоставление светской государственности и божественной воли, власти и народа. С ХVIII в. до настоящего времени негативная динамика восприятия данного понятия нарастает. Негативные коннотации, закрепившиеся у носителей современного русского языка, связаны с усиливающейся бюрократизацией управления государством и коррупцией.
Между тем, данные показывают, что негативная реакция общества на анализируемый текст была вполне очевидна для автора и мало его интересовала. Адресатом выступал только один человек, который хотел услышать именно такую интерпретацию, поэтому коммуникативный акт был успешным.
Сетевой контент. Сетевой контент в данном случае представлен политически активными акторами в социальных сетях ВКонтакте, F и ЖЖ, мы за ними наблюдаем с 2014 года. Неизменными остаются кластеры, которые вполне очевидны. Меняются коммуникативные типы, в напряженные периоды, например, предвыборные, появилась «массовка» – новые типы людей, которые делают свою работу.
До недавнего времени кластеры (официальный, оппозиционный и националистический) находились на разных полюсах, в резких конфликтных отношениях, не допускающих даже потенциальной возможности диалога. Если представители разных кластеров пересекались, входили во взаимодействие, начиналась виртуальная стрельба. Между тем в последнее время появились общие импликатуры, которые характерны для всех трех кластеров.
Результаты ассоциативного поиска позволяют выявить следующие импликатуры, характерные для трех типов кластеров: дистанция между властью и народом; отсутствие диалога между власть и обществом по вине власти; замалчивания правдивой, объективной информации с помощью СМИ; создание поводов для отвлечения внимания общества от реальных проблем.
Казалось бы, наличие общих импликатур дает некую надежду и основания для того, что враждующие кластеры могут вступить в какой-то диалог, для которого появляется основа. Ничего подобного! Оказывается, что политически активные акторы, даже при наличии идентичной имплицитной информации, речевых средствах, не слышат друг друга и не желают снижать уровень конфликта. Принадлежность к разным кластерам становится непреодолимой коммуникативной преградой, которая не позволяет снижать уровень агрессии и конфликтогенности нашего общества, что и демонстрирует сетевой контент.
Таком образом, нейросетевой подход, использованный в технологии TextAnalyst выявляет потенциал ассоциативных связей на нескольких уровнях: выделение эксплицитной информации на уровне семантической сети и выделение имплицитной информации с помощью ассоциативного поиска.
Автоматический анализ текста, выполненный с помощью данной технологии, позволяет проводить исследование на нескольких уровнях: определить объективную информацию, выраженную эксплицитно (тематическую структуру текста – внешнюю канву повествования, семантическую структуру – смысловую основу текста, содержащую объективную информацию). Между тем, ассоциативный поиск выявляет импликатуры, оценочную парадигму, позволяет делать выводы об имплицитной информации, коннотативных значениях.