[personal profile] ymblanter

Wikidata — на русском языке принято официальное название Викиданные — свободная база информации. На этом, собственно, представления даже продвинутых пользователей интернета обычно ограничиваются. Явственно различимый корень "вики" в начале названия отсылает к Википедии, что заставляет одних думать, что это, наверное, что-то ненадёжное, других — что это внутренняя кухня Википедии.



Начинался проект, действительно, в большой степени как служебный. Многие люди, в том числе и я, долго думали про что-то подобное, так как в Википедии была масса вещей, требующих центрального хранения данных. Ну, например, существовалла хорошо известная проблема дат смерти. Если человек умирает, то часто его соотечественники об этом узнают, и в Википедии на соответствующем языке добавляют информацию о смерти. Но они редко потом ходят по всем разделам на разных языках Википедии и все их исправляют, да и не всегда просто это сделать — попробуйте, например, поредактировать арабский или японский раздел. Поэтому, если умирал, скажем, спортсмен, давно закончивший соревноваться, или много лет не выступавший актёр, так что информация об их смерти проходила только в местной прессе, могло пройти много лет, прежде чем она расползалась по всем Википедиям. Для дат смерти нашёлся энтузиаст, Джонатан Карди, создавший специальный механизм, при котором, если в одной Википедии появлялась информация о смерти кого-либо, в остальные разделы об этом сообщалось. А, скажем, для выборов мэров городов за такой механизм никто не взялся, и устаревшая информация о давно перевыбранных мэрах висит в Википедии годами. Было бы куда проще, если бы она хранилась где-то в одном месте, и было бы достаточно исправить её один раз, чтобы сразу изменились статьи во всех разделах Википедии.

Занялось созданием такого хранилища немецкое отделение Фонда Викимедиа, самое хорошо организованное и самое богатое из всех. Они специально набрали команду программистов, которой руководил Денни Врандечич, на тот момент сотрудник Технологического Института Карлсруэ. Собственно, он и стал гуру проекта, реализовав своё видение того, как он должен быть устроен. Сначала проект готовился не то чтобы в строжайшей секретности, но был недоступен для широкой публики. 30 октября 2012 года проект был открыт для свободного редактирования всеми желающими в сильно ограниченном виде. Единственная функция, которая у него тогда работала — хранение ссылок страниц Википедии друг на друга и краткие описания объектов этих страниц на всех имеющихся языках. Ни в одном из разделов Википедии эти данные нельзя было использовать напрямую.

Мне удалось поработать в проекте в первый же день. Такого всеобщего энтузиазма я не видел, наверное, много лет. Люди чувствовали себя демиургами. В первый день было созданно около тысячи объектов — то есть тех самых страниц базы данных, на которых хранятся описания и информация об имеющихся страницах Википедии. Первые двести с чем-то страниц (они традиционно имеют адреса Q*, где * — порядковый номер создания) организаторы предусмотрительно сделали сами. Под номером Q1 идёт вселенная. Россия имеет номер Q159, и именно там я сделал свою первую правку, добавив информацию о статье польского раздела. За первый день мне удалось создать страницы о четырёх океанах, сторонах света, паре десятков стран и паре десятков городов, и ещё немного по мелочи. Первой созданной мной страницей была Волга.

Энтузиазм, разумеется, довольно быстро сменился пониманием того, что большую часть работу должны выполнять специально написанные программы — как их называют в близких Википедии кругах, боты. На данный момент создано около 14 миллионов страниц. Для сравнения, в самой большой Википедии — английской — 4,3 миллиона статей. Реальные результаты появились в январе, когда венгерская Википедия вызвалась быть первой, где ссылки на другие разделы читались непосредственно из Викиданных. В английской Википедии этот механизм был включён в феврале 2013 года, а вскоре после неё и во всех остальных разделах. Тут-то и оказалось, что даже такая ограниченная функциональность очень полезна: масса ссылок либо отсутствовала, либо стояла неверно. Отрабатывались механизмы, каким образом эти ошибки можно отследить, и сейчас эта проблема в целом решена. Число ошибок в связях между разделами очень мало, и в основном это так называемые интервики-конфликты: например, одной статье в одном разделе соответствуют две в другом (эта ситуация известна как проблемы Бонни и Клайда — есть разделы, где существуют отдельные статьи про Бонни и Клайда, а есть, где только одна про двух сразу). Летом аналогичный механизм был рпаспространён на Викигид, и в ближайшем будущем будет распространён и на Викисклад.

Следующим шагом было создание так называемых свойств объектов. Например, на страницу о городе теперь можно добавить информацию о том, кто в нём мэр. С недавнего времени все разделы Википедии имеют возможность считывать и показывать эту информацию напрямую из Викиданных, при помощи языка луа. Не знаю, воспользовался ли хоть один раздел пока такой возможностью для мэров, но она есть и доступна. Имеется масса очевидных проблем — например, что делать армянскому разделу, если имя нового мэра в Викиданных не записано по-армянски? Но в любом случае ситуация много лучше, чем год назад.

Но главное, что за год Викиданные вышли из состояния хранилища данных при Википедии и превратились в хранилище данных для всего интернета, при котором имеется неплохой мозговой центр разработки алгоритмов сбора и представления данных и других подобных вещей. Я подписан на почтовую рассылку Викиданных, и примерно половина мейлов, которые мне приходят, чисто техническая — про онтологии, семантический веб и подобные высокие материи. Множество людей, не имеющих никакого отношения к Википедии, приходят со своими вопросами, принимают участие в обсуждениях, думают о том, как для своих задач использовать базу данных с миллионами элементов.

Я мало что понимаю в семантических сетях, и про них рассказывать не буду. Приведу только один пример, близкий мне. Существенная часть моего времени в Википедии уходит на поддержание в порядке списков памятников культурного наследия по разным странам, в том числе по России. Ну, с Россией там отдельная история, но даже по какой-нибудь Чехии силами большого количества людей в чешской Википедии списки были составлены, а вот перевести их на другие языки никто не сподобился. Работу эту на данный момент не удалось автоматизировать (не спрашивайте меня, почему), и перевод списков на английский требует не сильно меньше времени, чем составление их по-чешски. При этом работа это рутинная и малоинтересная. Теперь представим себе, что для каждого памятника создана отдельная страница в Викиданных. На ней записана вся информация, которая есть и в списках — уровень охраны, номер в каталоге, адрес, координаты, фотография. После этого пишется шаблон на луа, и для размещения списка хоть во всех Википедиях одновременно осталось только перевести названия. Для чего при желании можно в шаблоне подкрасить непереведённые поля зелёным цветом. И, заметим, использовать его можно после этого будет не только в Википедии, а где угодно, для каких угодно целей. С полной возможностью делать какие надо выборки. Ничего подобного ещё год назад представить было невозможно, а сейчас моё предложение на Викиданных встретило предварительное одобрение. Имеющиеся проблемы представляются преодолимыми.

Другой пример. Есть такой проект, называется Викисловарь. Это словарь, сделанный на викидвижке и на тех же принципах, что Википедия. Его гораздо сложнее интегрировать в Викиданные, и этот вопрос давно активно обсуждается, но если это удастся сделать, мы получим универсальный словарь с любого языка на любой, по размеру ничуть не меньше имеющихся в настоящее время. Специалисты машинного перевода уже думают над следующим шагом.

Ну и, наконец, немного о внутреннем устройстве Викиданных. Оно, собственно, такое же, как в Википедии. Имеются 97 администраторов, прошедших через процедуру выборов сообщества и имеющих технические возможности защищать и удалять страницы, а также блокировать пользователей — последнее, впрочем, приходится делать довольно редко. Вандализма хватает, но он в основном идёт от незарегистрированных пользователей и в основном рано или поздно ловится фильтрами и откатывается ботами. Среди администраторов только три, указавших знание только одного языка — как несложно догадаться, английского. С родным русским только два администратора — Амир Арони и я, и ни один из нас не является активным участником русской Википедии.

Вообще, русской Википедии как-то последнее время не очень везёт с интеграцией в международное сообщество Викимедиа. Единственного стюарда она потеряла, после этого какое-то время был наиболее активен я, а после моего ухода в рассылке осталась, кажется, одна Виктория, да и то она не очень там активна. Видимо, тем, кто знает язык, это не очень интересно, а кому интересно — не знают английского. Поэтому, собственно, сообщество и живёт какими-то мифами, непонятно откуда взявшимися. Один в один отношения России с Западом в реальной жизни. Видимо, это какая-то устойчивая модель. А может, просто так неудачно сложилось.

Date: 2013-09-22 08:00 pm (UTC)
From: [identity profile] stolkin.livejournal.com
Я довольно часто пользуюсь машинным переводом, но специфика моей темы позволяет мне не уклонятся от смысла иноязычных статей, как-бы косноязычно они не были написаны.
А в нашей русской википедии всякое бывает, причём иногда участник может совершенно не понимать, что он предлагает и продвигает. Часто сталкивался с подобным.

Date: 2013-09-22 08:14 pm (UTC)
From: [identity profile] ymblanter.livejournal.com
Да, этого сколько угодно.

Profile

ymblanter

March 2026

S M T W T F S
123456 7
89 10111213 14
15161718192021
22232425262728
293031    

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 21st, 2026 11:13 am
Powered by Dreamwidth Studios