Команда программистов, психологов и лингвистов предложила создать алгоритм поиска подходящих старшеклассников во ВКонтакте, поскольку социальные сети – это открытый источник больших данных, на основании которых можно выявить потенциальных абитуриентов и их интересы. Сейчас точность алгоритма составляет более 85%, он определяет уровень интеллекта, креативности и мотивации выпускников, а также способен понять, какая образовательная программа будет интересна абитуриенту. Как же создавалась и развивалась программа?
Артем ФЕЩЕНКО
старший преподаватель Томского государственного университета, руководитель лаборатории анализа образовательных данных
По образованию я историк, но последние десять лет занимаюсь исследованием влияния социальных сетей на образование. А еще я – отец троих детей, и моя старшая дочь, которая сейчас заканчивает 9-й класс, вдохновила меня на решение одной интересной загадки. Мы с супругой – гуманитарии, но для своих детей выбрали физико-математический лицей. Это может показаться неожиданным, странным, но отчасти мы оказались правы. Наши дети к такому предмету, как история, равнодушны, но и к профильным предметам – физике и математике – не испытывают заметного интереса. И вообще в пространстве школьного и внешкольного образования у них признаков увлечения какой-то темой пока не наблюдается.
До поступления дочери в вуз остается два года, и меня, как и многих других ответственных родителей, мучают сомнения: а правильно ли был выбран профиль школы, как подсказать своему ребенку ту область самореализации, в которой он будет ощущать себя успешным, и уже сейчас дать возможность попробовать себя в этой деятельности?
Моя дочь достаточно самостоятельна в мышлении, но сейчас у нее нет прочных оснований для понимания себя и своего будущего в профессии. К традиционным инструментам профдиагностики она относится скептически. Как только узнает, что на заполнение серьезного опросника нужно потратить час или больше, всегда находит более интересные и важные занятия, например заглянуть на минутку во ВКонтакте и… зависнуть там на несколько часов.
И тут меня осенило! Подростки значительную часть своего времени проводят в социальных сетях, оставляют заметный след в этом пространстве, в отличие от взрослых их поведение здесь более естественно, менее подвержено социальному конформизму. И вот та загадка, которую мне захотелось решить: как узнать о пока еще не проявившихся талантах и способностях моего ребенка по его профилю во ВКонтакте?
На похожие вопросы сегодня пытаются найти ответ многие университеты, особенно региональные: как найти своего абитуриента через социальную сеть, открыть грани его таланта, как на этапе приемной кампании установить взаимную интересную и полезную коммуникацию, как показать абитуриенту возможности реализации – не обязательно в Питере или Москве, а и в региональной системе образования? Можно ли противопоставить практике охоты за талантами более гуманную человекоориентированную стратегию рекрутинга?
Так два лейтмотива – личный и профессиональный – соединились в моей истории и превратились в проект по исследованию цифровых следов старшеклассников. Подсказать детям направления дальнейшего образования и помочь университетам в общении с такими детьми – вполне прикладная задача.
Для решения этой задачи нужна была междисциплинарная команда. Сначала у нас была маленькая группа из трех человек. Я – с видением задачи и с опытом исследований в области педагогических наук; аспирант физико-технического факультета, увлекающийся темой больших данных и машинного обучения; психолог, разбирающийся в теме одаренности профайлинга. В результате формулирования гипотез исследования и декомпозиции задач в первые полгода к нашей группе стали присоединяться другие коллеги: социолог с методами SNА, филолог со знанием компьютерной лингвистики, математик, специалист по профдиагностике и машинному обучению.
Никто из нас – по большей части гуманитариев – раньше не занимался большими данными, цифровыми следами и машинным обучением. Мы учились на ходу, штудировали зарубежные статьи, проходили курсы, осваивали новый софт. Дефицит компетенций в программировании мы закрывали студентами соответствующих профилей в нашем университете, определяя им все более сложные задачи, и они росли в этом проекте вместе с нами.
И уже через год после старта проекта у нас появились первые ответы на нашу загадку. Для самоопределения моей дочери мы проанализировали цифровые следы и обнаружили у нее сильный интерес к креативным практикам, темам, связанным с графическим дизайном и имиджмейкерством. Проявление этих увлечений не стало каким-то большим откровением, но изменилось отношение к ним. Раньше дочь не воспринимала эти интересы как возможную сферу профессиональной реализации, сейчас же это один из вариантов в ее самоопределении. Дальше время покажет, какой путь она выберет. Но уже сегодня появились интересные и неожиданные подсказки и возможность посмотреть на себя со стороны через свой цифровой след.
Вторым результатом для нашей команды стала возможность найти в сети абитуриентов-гуманитариев и помочь им выборе факультетов и образовательных программ. Мы помогали поступать не только в ТГУ, напротив, мы максимально дистанцировались от своей альма-матер и старались быть полезными как можно большему числу абитуриентов на территории Сибирского федерального округа. Анализируя профили пользователей и угадывая в них гуманитариев, мы вступали с ними в контакт, приглашали в специальное сообщество, где абитуриенты находили ответы на самые актуальные вопросы. Примерно девять тысяч школьников попали в наши профориентационные сети, из них примерно девятьсот получили персональные консультации, по запросу выбрали и осознанно поступили на свой факультет, в том числе и в ТГУ.
К этим двум результатам мы пришли через три исследовательских направления. В нашем проекте такое разделение было связано с типом данных, которые можно анализировать в цифровых средах пользователей. Это текст на стене, подписки на сообщества и сетевые связи или список друзей. Работая со стенами пользователей, мы проверяли гипотезы о взаимосвязи образовательных интересов и текстов, публикуемых на личных страницах, для определения лингвистических маркеров, выражающих интерес к гуманитарным, точным и естественным наукам.
Мы собрали корпус текстов на материале тематических сообществ ВКонтакте и применили к ним разные алгоритмы классификации. Это позволило под каждую область знаний составить словарь, или thesaurus, от 20 до 400 единиц и разработать новый классификатор текстов. Для стен пользователей точность классификации или разделение находимых детей на гуманитариев, естественников и физматов мы проверяли уже по факту поступления таких ребят на факультет и отражение этого факта в профиле ВКонтакте.
Лучший результат по точности классификации показал метод опорных векторов, и этот результат нас не слишком обрадовал. Применение такой модели для прогнозирования профиля подготовки кажется не многим лучше, чем подбрасывание монетки. Кроме того, этот метод неприменим к большинству аккаунтов в сети, так как только у 15% старшеклассников объема текстов на стене достаточно для анализа. Это поколение мало пишет, и пока в анализе текстов в цифровых средах мы не продвинулись дальше.
Второе направление нашей работы было связано с анализом подписок вообще. В подписке более чем 120 тысяч абитуриентов мы получили datasette из одного миллиона популярных сообществ, из которого выделили девять тысяч сообществ-маркеров, связанных с отдельными предметными областями. Анализ подписок каждого отдельного абитуриента с помощью полученного классификатора позволяет с точностью примерно 80–90% прогнозировать его интерес к той или иной области: гуманитарные науки, естественные, точные. Также через подписки мы смогли обнаружить взаимосвязь признаков одаренности ребенка и его потребление цифрового контента в социальной сети из многообразия трактовок и понимания феномена одаренности.
Мы выбрали для себя концепцию Дж. Рензулли, на наш взгляд наиболее гуманистическую, позволяющую искать и открывать в ребенке не только уже проявившиеся, но и потенциальные способности, интеллектуальные, креативные, связанные с личностной мотивацией. Для проверки этой гипотезы был собран datasette, объединяющий результаты тестирования трех тысяч старшеклассников и их подписок во ВКонтакте. Мы смогли обнаружить взаимосвязь между уровнем исследуемого признака, например креативностью, и определенными сообществами. При проверке разных классификаторов наиболее точным вновь оказался метод опорных векторов. Любопытно, что маркерами «признак одаренности» очень часто становились сообщества, тематически не связанные с искомым признаком. И это лишний раз подтверждает силу алгоритмов машинного обучения и большого объема данных в обнаружении скрытых закономерностей.
Третье направление нашего исследования было связано с анализом связи абитуриентов. Мы рассматривали сети отдельных старшеклассников. Гипотезы различий в структуре связей абитуриентов с разными образовательными интересами не подтвердились, например, гуманитариями и физматами, как не подтвердились и предположения о различиях в сетях у детей с разными уровнями интеллекта. Но у ребят с высокими и низкими уровнями результатов прохождения тестов на креативность выявлены определенные различия.
Сети старшеклассников с низким уровнем креативности обычно состоят из 120–220 друзей, эти сети исключительно сегментированы, каждый граф состоит в среднем из 13–25 кластеров. Из них можно выделить 5–6 крупных сообществ, которые практически не связаны между собой, об этом также свидетельствует высокий коэффициент модулярности при низкой плотности сети. Наше предположение заключается в том, что эти ребята выбирают для себя занятия, в которых есть меньшая вероятность встретить знакомых людей, либо же сообщества диаметрально противоположной тематики.
Школьники с высоким уровнем креативности имеют склонность к формированию большого количества контактов, их сеть состоит в среднем из 260–400 друзей, эти сети имеют выраженный сегментарный характер. Однако различные кластеры имеют значительное количество связей между собой. Можно предположить, что такие ребята склонны разделять свое коммуникативное пространство. Однако при этом между ними есть много общего.
Во второй год реализации нашего проекта мы сфокусировали свое внимание только на анализе подписок пользователей на сообщества как наиболее репрезентативном и информативным элементе цифрового следа. По ним нам удалось научиться прогнозировать и рекомендовать абитуриенту наиболее подходящую профессиональную сферу, повысить точность прогнозирования способности к творческой деятельности, научиться распознавать в подростках потенциальных предпринимателей и косвенно подтвердить существование мифической женской логики. Конечно, это шутка, но в контексте нашего проекта обнаружился феномен чуть менее предсказуемого поведения девочек в сети. Все наши прогнозные модели в среднем на 5–10% хуже справляются с аккаунтами девочек.
Возвращаясь к вдохновителям моей истории – детям и университетам, могу сказать, что самое любопытное – это то, что мы смогли придумать вместе с проектом по профориентации специального робота в виде приложения для социальной сети ВКонтакте, который анализирует цифровой след и подсказывает одну или несколько профессиональных сфер, релевантных интересам и увлечениям ребенка. Теперь не только моя дочь, но и ваши дети могут получить от искусственного интеллекта подсказки по выбору своей будущей профессии.
Практика умной и интересной коммуникации – взаимно полезной и абитуриенту, и вузу – через социальные сети распространилась в ТГУ на все направления подготовки. Это дает свои плоды. Университет получает более мотивированных студентов с более осознанным выбором профиля обучения. И это сказывается как на оценках, так и на внеучебной активности ребят. В нынешнюю приемную кампанию мы уже помогаем нескольким другим вузам внедрить наши находки в их систему поддержки и сопровождения абитуриентов.
В конце своей истории хочу дать несколько советов.
Дорогие родители! В ХХI веке примите факт существования ваших детей в социальных сетях, это норма. Грань между реальным и виртуальным будет размываться все сильнее и сильнее. Попробуйте извлечь пользу из цифровых следов ваших детей, научите их навыкам цифровой гигиены.
Любимые дети! Выбирайте профессию не только глазами, ушами и разумом, но и сердцем. Не гонитесь за трендами, научитесь прислушиваться к себе. Выбор профессии на основе ваших жизненных ценностей и увлечений – залог успешной самореализации в будущем. Используйте инструменты анализа своих цифровых следов: они могут дать неожиданные подсказки.
Уважаемые коллеги-исследователи! Поверьте, когда у вас есть настоящая тема, которая вас волнует, будоражит, вы всегда сможете собрать команду и разрешить загадку, к которой раньше никто и не осмеливался приблизиться. Даже если вы из не очень крутого вуза, это будет вам по плечу, когда в мегапроекте есть лидер, vision-загадка и большое желание ее решить. Не бойтесь в работе делать ставку на молодежь, студентов – они учатся быстрее нас, у них больше энергии и порой меньше прагматизма.
Уважаемые предприниматели! Обратите внимание на возможности интерпретации цифровых следов ваших клиентов и потребителей для лучшего понимания их запросов и потребностей.