Wikidata - Викиданные
Sep. 22nd, 2013 08:45 pm
Wikidata — на русском языке принято официальное название
Викиданные — свободная база информации. На этом,
собственно, представления даже продвинутых пользователей
интернета обычно ограничиваются. Явственно различимый корень
"вики" в начале названия отсылает к Википедии, что заставляет
одних думать, что это, наверное, что-то ненадёжное, других
— что это внутренняя кухня Википедии.
Начинался проект, действительно, в большой степени как
служебный. Многие люди, в том числе и я, долго думали про
что-то подобное, так как в Википедии была масса вещей,
требующих центрального хранения данных. Ну, например,
существовалла хорошо известная проблема дат смерти. Если
человек умирает, то часто его соотечественники об этом узнают,
и в Википедии на соответствующем языке добавляют информацию о
смерти. Но они редко потом ходят по всем разделам на разных
языках Википедии и все их исправляют, да и не всегда просто это
сделать — попробуйте, например, поредактировать арабский
или японский раздел. Поэтому, если умирал, скажем, спортсмен,
давно закончивший соревноваться, или много лет не выступавший
актёр, так что информация об их смерти проходила только в
местной прессе, могло пройти много лет, прежде чем она
расползалась по всем Википедиям. Для дат смерти нашёлся
энтузиаст, Джонатан Карди, создавший специальный механизм, при
котором, если в одной Википедии появлялась информация о смерти
кого-либо, в остальные разделы об этом сообщалось. А, скажем,
для выборов мэров городов за такой механизм никто не взялся, и
устаревшая информация о давно перевыбранных мэрах висит в
Википедии годами. Было бы куда проще, если бы она хранилась
где-то в одном месте, и было бы достаточно исправить её один
раз, чтобы сразу изменились статьи во всех разделах
Википедии.
Занялось созданием такого хранилища немецкое отделение Фонда
Викимедиа, самое хорошо организованное и самое богатое из всех.
Они специально набрали команду программистов, которой руководил
Денни Врандечич, на тот момент сотрудник Технологического
Института Карлсруэ. Собственно, он и стал гуру проекта,
реализовав своё видение того, как он должен быть устроен.
Сначала проект готовился не то чтобы в строжайшей секретности,
но был недоступен для широкой публики. 30 октября 2012 года
проект был открыт для свободного редактирования всеми желающими
в сильно ограниченном виде. Единственная функция, которая у
него тогда работала — хранение ссылок страниц Википедии
друг на друга и краткие описания объектов этих страниц на всех
имеющихся языках. Ни в одном из разделов Википедии эти данные
нельзя было использовать напрямую.
Мне удалось поработать в проекте в первый же день. Такого
всеобщего энтузиазма я не видел, наверное, много лет. Люди
чувствовали себя демиургами. В первый день было созданно около
тысячи объектов — то есть тех самых страниц базы данных,
на которых хранятся описания и информация об имеющихся
страницах Википедии. Первые двести с чем-то страниц (они
традиционно имеют адреса Q*, где * — порядковый номер
создания) организаторы предусмотрительно сделали сами. Под
номером Q1 идёт вселенная. Россия имеет номер Q159, и именно
там я сделал свою первую правку, добавив информацию о статье
польского раздела. За первый день мне удалось создать страницы
о четырёх океанах, сторонах света, паре десятков стран и паре
десятков городов, и ещё немного по мелочи. Первой созданной
мной страницей была Волга.
Энтузиазм, разумеется, довольно быстро сменился пониманием
того, что большую часть работу должны выполнять специально
написанные программы — как их называют в близких
Википедии кругах, боты. На данный момент создано около 14
миллионов страниц. Для сравнения, в самой большой Википедии
— английской — 4,3 миллиона статей. Реальные
результаты появились в январе, когда венгерская Википедия
вызвалась быть первой, где ссылки на другие разделы читались
непосредственно из Викиданных. В английской Википедии этот
механизм был включён в феврале 2013 года, а вскоре после неё и
во всех остальных разделах. Тут-то и оказалось, что даже такая
ограниченная функциональность очень полезна: масса ссылок либо
отсутствовала, либо стояла неверно. Отрабатывались механизмы,
каким образом эти ошибки можно отследить, и сейчас эта проблема
в целом решена. Число ошибок в связях между разделами очень
мало, и в основном это так называемые интервики-конфликты:
например, одной статье в одном разделе соответствуют две в
другом (эта ситуация известна как проблемы Бонни и Клайда
— есть разделы, где существуют отдельные статьи про Бонни
и Клайда, а есть, где только одна про двух сразу). Летом
аналогичный механизм был рпаспространён на Викигид, и в
ближайшем будущем будет распространён и на Викисклад.
Следующим шагом было создание так называемых свойств объектов.
Например, на страницу о городе теперь можно добавить информацию
о том, кто в нём мэр. С недавнего времени все разделы Википедии
имеют возможность считывать и показывать эту информацию
напрямую из Викиданных, при помощи языка луа. Не знаю,
воспользовался ли хоть один раздел пока такой возможностью для
мэров, но она есть и доступна. Имеется масса очевидных проблем
— например, что делать армянскому разделу, если имя
нового мэра в Викиданных не записано по-армянски? Но в любом
случае ситуация много лучше, чем год назад.
Но главное, что за год Викиданные вышли из состояния хранилища
данных при Википедии и превратились в хранилище данных для
всего интернета, при котором имеется неплохой мозговой центр
разработки алгоритмов сбора и представления данных и других
подобных вещей. Я подписан на почтовую рассылку Викиданных, и
примерно половина мейлов, которые мне приходят, чисто
техническая — про онтологии, семантический веб и подобные
высокие материи. Множество людей, не имеющих никакого отношения
к Википедии, приходят со своими вопросами, принимают участие в
обсуждениях, думают о том, как для своих задач использовать
базу данных с миллионами элементов.
Я мало что понимаю в семантических сетях, и про них
рассказывать не буду. Приведу только один пример, близкий мне.
Существенная часть моего времени в Википедии уходит на
поддержание в порядке списков памятников культурного наследия
по разным странам, в том числе по России. Ну, с Россией там
отдельная история, но даже по какой-нибудь Чехии силами
большого количества людей в чешской Википедии списки были
составлены, а вот перевести их на другие языки никто не
сподобился. Работу эту на данный момент не удалось
автоматизировать (не спрашивайте меня, почему), и перевод
списков на английский требует не сильно меньше времени, чем
составление их по-чешски. При этом работа это рутинная и
малоинтересная. Теперь представим себе, что для каждого
памятника создана отдельная страница в Викиданных. На ней
записана вся информация, которая есть и в списках —
уровень охраны, номер в каталоге, адрес, координаты,
фотография. После этого пишется шаблон на луа, и для размещения
списка хоть во всех Википедиях одновременно осталось только
перевести названия. Для чего при желании можно в шаблоне
подкрасить непереведённые поля зелёным цветом. И, заметим,
использовать его можно после этого будет не только в Википедии,
а где угодно, для каких угодно целей. С полной возможностью
делать какие надо выборки. Ничего подобного ещё год назад
представить было невозможно, а сейчас моё предложение на
Викиданных встретило предварительное одобрение. Имеющиеся
проблемы представляются преодолимыми.
Другой пример. Есть такой проект, называется Викисловарь. Это
словарь, сделанный на викидвижке и на тех же принципах, что
Википедия. Его гораздо сложнее интегрировать в Викиданные, и
этот вопрос давно активно обсуждается, но если это удастся
сделать, мы получим универсальный словарь с любого языка на
любой, по размеру ничуть не меньше имеющихся в настоящее время.
Специалисты машинного перевода уже думают над следующим
шагом.
Ну и, наконец, немного о внутреннем устройстве Викиданных. Оно,
собственно, такое же, как в Википедии. Имеются 97
администраторов, прошедших через процедуру выборов сообщества и
имеющих технические возможности защищать и удалять страницы, а
также блокировать пользователей — последнее, впрочем,
приходится делать довольно редко. Вандализма хватает, но он в
основном идёт от незарегистрированных пользователей и в
основном рано или поздно ловится фильтрами и откатывается
ботами. Среди администраторов только три, указавших знание
только одного языка — как несложно догадаться,
английского. С родным русским только два администратора —
Амир Арони и я, и ни один из нас не является активным
участником русской Википедии.
Вообще, русской Википедии как-то последнее время не очень везёт
с интеграцией в международное сообщество Викимедиа.
Единственного стюарда она потеряла, после этого какое-то время
был наиболее активен я, а после моего ухода в рассылке
осталась, кажется, одна Виктория, да и то она не очень там
активна. Видимо, тем, кто знает язык, это не очень интересно, а
кому интересно — не знают английского. Поэтому,
собственно, сообщество и живёт какими-то мифами, непонятно
откуда взявшимися. Один в один отношения России с Западом в
реальной жизни. Видимо, это какая-то устойчивая модель. А
может, просто так неудачно сложилось.
no subject
Date: 2013-09-22 08:00 pm (UTC)А в нашей русской википедии всякое бывает, причём иногда участник может совершенно не понимать, что он предлагает и продвигает. Часто сталкивался с подобным.
no subject
Date: 2013-09-22 08:14 pm (UTC)