Качество в структурированном писательстве

03.02.2016

Статья входит в цикл «Понимание и применение структурированного писательства».

В очередном выпуске своей серии публикаций о структурированном писательстве Марк Бейкер изучает качество с точки зрения роботов, которые читают, а также реальную роль машины по отношению к писателю.

Когда я говорю программистам о том, чем занимаюсь, они часто спрашивают меня, чем же так важно структурированное писательство. У машин так хорошо получается читать человеческий язык, утверждают они, что семантическая разметка в качестве помощи машине стремительно становится бессмысленной. Но структурированное писательство — оно не в помощь машине. Оно для привлечения машины в помощь писателю. И больше всего писателю требуется помощь с качеством.

Роботы, которые читают

Машины действительно всё лучше и лучше понимают человеческий язык. Подход, который называется Глубинным обучением, всё больше становится основной технологией для таких компаний как Facebook, Google и Baidu как для понимания языка, так и для распознавания речи.

Семантическая веб-инициатива долгое время ищет способы создания Сети, в которой не только люди говорят с людьми, но также машины говорят с машинами. Это традиционно связано с использованием совершенно отдельного канала коммуникаций — семантической разметки, встроенной в тексты, но не отображаемой читателю-человеку. Это также связано с созданием специализированных семантических хранилищ данных, совместимых с языком запросов, чтобы научить компьютеры понимать связи, которые люди выражают обычным языком. Системы управления контентом снабжены схемами метаданных, часто связанными с тщательно продуманными таксономиями, в попытке создавать контент, который проще искать, потому что обычный поиск по тексту работает не так хорошо, как хотелось бы.

Но этот двухканальный подход — один текст для человека, другой для машины — имеет смысл только тогда, когда мы предполагаем, что машина не может читать человеческий язык. Если машина и человек оба могут читать один и тот же текст и понимают его на одинаковом уровне (или если понимание у машины находится на более высоком уровне, чем у человека), то нам не нужны два канала. Человеческая Сеть становится семантической Сетью.

В конце концов, человеческий текст всегда был семантическим. Семантика — это просто изучение смысла. Все содержательные тексты имеют семантику. Просто сложно создать компьютеры, которые бы могли читать и понимать так, как это делают люди. Семантические технологии — для упрощения семантики для машин, потому что машина недостаточно умна, чтобы читать обычную семантику.

Упрощение для роботов

Упрощение неизбежно связано с упущением значительной части семантики текста. Например, полноценное выражение всего смысла и выводов даже самого простого текста в триплетах RDF было бы той ещё задачей. Это всегда порождало проблему для семантических технологий: какую семантику вы выберете для упрощения до машинного уровня и для каких целей? Именно поэтому не существует универсального подхода для структурированного писательства, который работает для всех целей и всех объектов. Вы можете только представить часть человеческой семантики машине, и какую часть вы выбираете, зависит от того, какие конкретно функции вы хотите выполнять.

Но если машина может читать текст так же хорошо, как и вы, то эти ограничения исчезают. Глубинное обучение движет нас в этом направлении.

Ну и почему тогда мы должны заморачиваться структурированным писательством? Да просто потому, что даже если машины стремительно учатся читать человеческий текст лучше, чем большинство людей, этот текст до сих пор пишется людьми, а большинство людей нельзя назвать хорошими писателями.

Как научить людей писать лучше

Под этим я имею в виду не только то, что они плохо знают грамматику, орфографию или что они пишут лишние предложения, слишком часто используют пассивный залог, хотя все эти вещи могут быть правдой и раздражать. Я имею в виду нечто более фундаментальное: они не говорят правильные вещи правильным образом. Они опускают то, что необходимо сказать или они говорят это так, что это сложно понять.

Мы все страдаем от недуга под названием «проклятие знания», который делает сложным для нас понять, каково это — не понимать что-то, что мы знаем. Мы используем сокращения, мы делаем допущения, мы говорим невразумительным образом, а также просто упускаем что-то.

Это результат не просто халатности. Эффективность человеческих коммуникаций зиждется на нашей способности допускать, что человек, с которым мы обмениваемся огромной коллекцией опыта, идей и лексики, понимает нас. Неспособность изложить очевидное — такой же недостаток писательства, как и пропуск необходимого. Потому как то, что очевидно для одного читателя, необходимо другому. Проклятие знания наступает тогда, когда что-то становится очевидным для нас, и мы больше не можем себе представить, что это остаётся необходимым для кого-то ещё.

Именно поэтому многие коммуникации между людьми неуспешны. Адресат коммуникации просто не понимает этого или не получает информацию, которая нужна, потому что писатель её упустил. Машины могут научиться быть лучшими читателями, чем являются сейчас, но даже машины не смогут научиться читать информацию, которой просто нет.

Мы пишем для роботов лучше, чем для людей

На самом деле одним из преимуществ относительной тупости компьютеров является то, что они заставляют нас быть очень аккуратными в том, как мы создаём и структурируем данные, по которым действуют машины. Мы быстро нарываемся на последствия фразы «мусор на входе, мусор на выходе», потому что машины, которым мы это говорим, слишком тупы, чтобы знать, где взять информацию о том, где находится мусор, при этом они не могут в отличие от людей что-то уточнить или свериться с другими источниками. Они просто выплёвывают мусор.

Это означает, что мы должны заострить большее внимание на улучшении качества и точности поступающих данных. Мы усердно составляем их структуры и используем механизмы досконального аудита, чтобы убедиться, что они завершены и корректны, перед тем, как скормим их машине.

Мы никогда так не стараемся улучшить качество контента, когда делаем его для людей. Встретившись с плохим контентом, люди не зависают и не загораются; они либо теряют интерес, либо проводят дополнительное исследование. Если принять во внимание наши способности как исследователей и наше упорство в преследовании целей, которые для нас действительно важны, мы часто обходимся продиранием через плохой контент, хотя это приводит к значительным финансовым затратам. И дистанция, которая часто разделяет писателей и читателей, означает, что писатели часто не представляют, через что проходит читатель. Если бы читатели зависали и загорались, мы бы прилагали больше усилий и внимания качеству контента.

Даже сегодня, когда огромное внимание уделяется управлению корпоративным контентом и способности создать хранилище корпоративных знаний, доступное всем сотрудникам, большее внимание уделяется простоте поиска контента, а не тому, чтобы извлекать из него больше пользы. (Это несмотря на тот факт, что лучше всего сделать контент лёгким для поиска — это сделать так, чтобы можно было извлекать из него больше пользы). Люди, пытающиеся построить семантическую сеть, тратят много времени, пытаясь создавать данные, которые они готовят для машин, корректными, точными и полными. Мы и близко не делаем столько всего для людей. Пока мы так поступаем, глубинное обучение само по себе может оказаться недостаточным, чтобы сделать из человеческой сети семантическую сеть.

Частично эта проблема всегда была связана с тем, что улучшение качества контента наталкивается на проклятие знания. И авторы, которые создают контент, и большинство экспертов по предмету, рецензирующих его, страдают от этого проклятья, и это означает, что существует не так уж много способов проверить написанный контент. Руководства по стилю и шаблоны могут помочь напомнить авторам о том, что необходимо, но их сложно запомнить и проконтролировать, т.е. автор, сбившийся с пути, не получит значительной обратной связи. Также контент крупной формы, типичный для бумажной эры, не предназначен сам по себе для общепринятой формы аудита. Короткая форма контента, более превалирующая в эру Сети, больше по своей природе подходит к повторяемым и контрольным шаблонам, которые мы можем выразить посредством структурированного писательства.

Структура и качество

Структурированное писательство предлагает способ и для ведения документирования, и для контроля качества контента. Хотя вам не нужны компьютеры, чтобы определить структуру контента, основанные на бумаге процессы всегда должны были строиться вокруг процесса публикации, и поэтому в основном оставались в домене носителя. Но большинство полезных структур, которые контролируют и помогают авторам, пишущим о каком-либо конкретном объекте для конкретной аудитории, лежат в домене объекта. Без компьютеров, способных преобразовывать разметку домена объекта в разметку домена носителя, готовой к публикации, возможность применения структурированного писательства к проблеме качества была ограничена.

Поэтому мой ответ тем людям, которые спрашивают, не является ли структурированное писательство релевантным, такой: «мусор на входе, мусор на выходе». Структурированное писательство — не о создании контента, подходящего для чтения машинами, оно о том, как делать контент лучше. Создание контента читаемым для машин – это то действие, которое позволяет нам использовать машины для помощи нам делать контент лучше.

Структурность, искусство и наука

Многие писатели считают это спорным. Многие видят качественное писательство как однозначно человеческое и индивидуальное действие, искусство, не науку, нечто защищённое от вторжения алгоритмов и роботов. Но я бы сказал, что использование структур и алгоритмов в качестве инструментов не преуменьшает значение человека и художественных аспектов писательства. Скорее, это дополняет и расширяет их.

И я бы сказал, что этот подход мы видим во всех видах искусства. Музыка всегда зависит от процесса создания и совершенствования музыкальных инструментов как средств для музыкантов. Примерно так же математика музыкальной теории дала нам хорошо темперированный строй, на котором основана вся западная музыка.

Компьютерное программирование часто рассматривается как искусство среди тех, кто им занимается, но использование правильных структур воспринимается как неотделимая часть этого искусства. Искусство состоит не в отказе от структурирования, а в разумном и творческом их использовании. Как заметил учёный-компьютерщик Дональд Кнут в своём очерке «Компьютерное программирование как искусство», большинство областей — это не только лишь искусство или только лишь наука, а их смесь.

Очевидно, большинство авторов, изучающих этот вопрос, приходят к такому же выводу, что их объект — это и наука, и искусство, каким бы он ни был. Я нашёл книгу по основам фотографии, написанную в 1893 году, которая начиналась с того, что «разработка фотографического изображения — и искусство, и наука». Между прочим, когда я в первый раз взял словарь, чтобы изучить слова «искусство» и «наука», мой взгляд случайно упал на предисловие от редактора, которая начиналось со следующего: «Создание словаря — это и наука, и искусство».

Являясь писателями, мы можем использовать структуры, шаблоны и алгоритмы в помощь к искусству, так же, как и в любой другой профессии.

Конечно, некоторые писатели могут заявить, что нет структуры, связанной с писательством. Мы давно осознали важность грамматической структуры и литературной структуры в расширении коммуникаций. Вопрос в том, может ли тот тип структуры, который предлагает структурированное писательство, улучшить наше писательство, и если это так, то в каких областях? Поэзия традиционно очень структурирована, но вряд ли использование XML-схемы поможет вам написать сонет более качественно. С другой стороны, очевидно, что следование принятому шаблону рецепта поможет вам написать более качественно поваренную книгу, и использование структурированного писательства для создания ваших рецептов поможет вам как улучшить связность ваших рецептов, так и создавать их более эффективно.

Встаёт вопрос, сколько же у нас работы, похожей на рецепты, при выполнении которой мы получим преимущество от структурированного писательства, а какая её часть похожа на сонеты, и это не поможет. Думаю, что ответ состоит в том, что по крайней мере значительная часть бизнеса и технических коммуникаций могут получить значительное преимущество. Если вы просмотрите многие из этих коммуникаций и не увидите заметного структурирования, я скажу, что это не доказательство того, что структурирование не годится, но при этом подходящая структура ещё не была разработана и применена к контенту.

Контр-структурированный контент

Мы должны также признать, что многие писатели имели плохой опыт со структурированным писательством. Во многих таких случаях системы структурированного писательства не выбирались и не создавались писателями для улучшения их искусства; они были навязаны извне для какой-то другой цели, например, для облегчения работы с системой управления контентом или для того, чтобы сделать проще повторное использование контента. В некоторых случаях эти системы активно вмешиваются в авторское искусство и напрямую препятствуют производству контента высокого качества.

В открывающей статье этой серии я заметил, что структурирование существует, чтобы служить особой цели:

Блок структурированного контента структурирован для особой цели, о которой вы думали в то время, когда его создавали. Контент структурирован для этой цели или набора целей, о которых вы думали, но не структурирован для других целей. Так же как шапка может быть подходящего размера для Тома и неподходящего для Гарри, блок контента может быть структурирован для Мэри и не структурирован для Джейн. Всё зависит от контекста.

Писатели, у которых был плохой опыт со структурированным контентом, обычно сталкивались со структурами, которые не были разработаны для авторских целей. Но такой контент не только не структурирован для этих авторских целей, на самом деле он контр-структурирован. Он структурирован так, чтобы активно сбивать авторов с того, чтобы они делали свою работу хорошо.

Я общаюсь с авторами, которые показывают мне дизайны страниц и разметки, которые не имеют смысла, сокрушаются о том, что система не даёт им никакого другого выбора. Структурирование контента — не универсально, и вы не можете ожидать, что просто установите лучшую CMS месяца или систему структурированного писательства и получите на выходе что-то хорошее.

Однако должным образом применённое, что означает помощь и улучшение работы для авторов, структурированное писательство может существенно повысить качество контента. В предстоящих статьях мы рассмотрим алгоритмы структурированного контента, многие из которых напрямую связаны с повышением качества контента.

Пока роботы не одержали верх

Конечно, это всё подразумевает, что машины не становятся лучшими писателями, как это делаем мы. Такие компании, как Narrative Science, работают над этим, но я не думаю, что они хотя бы близко подошли на этом пути к тому, что делают ребята из глубинного обучения, которые учат компьютеры читать.

Подвержены ли роботы проклятью знания? Возможно, нет. Но существующие роботы-писатели определённо работают с более структурированными данными, так что структурированное писательство всё ещё остаётся ключом к качеству контента, даже если роботы подбираются к нашим клавиатурам.

Как ни странно, согласно недавней статье Джеймса Бессена (James Bessen) в The Atlantic под названием «Парадокс автоматизации», автоматизация не лишает нас необходимости в работе «белых воротничков» так сильно, как мы этого боялись. Сокращая затраты, она повышает запросы, в результате чего происходит чистый прирост работы, по крайней мере, для людей, которые учатся использовать новые технологии эффективно.

Это говорит о том, что семантические технологии и управление контентом в мире не приводят к таким изменениям, как должны были, пока мы улучшаем качество контента на постоянной основе. Структурированное писательство, особенно структурированное писательство в домене объекта, — один из лучших инструментов, чтобы это делать.

Источник: Quality in Structured Writing

Тэги: качество контента, Марк Бейкер, структурированное писательство, теория документирования

< Вернуться к списку публикаций