Как развивался проект Google Books

02 мая 2017, 09:07

Книги способны творить чудеса. Как однажды сказал Франц Кафка, «книга должна быть топором для замерзшего моря внутри нас». Это изречение принадлежит Кафке, так ведь? Гугл может подтвердить. Но где и в каких условиях Кафка это сказал? Поиск выводит на веб-сайты с цитатами, но на них полагаться не стоит. Обычно они ошибочно приписывают все цитаты Марку Твену. Чтобы ответить на этот и подобные вопросы, нужно воспользоваться Google Book Search – инструментом, способным искать текст по миллионам оцифрованных изданий. Нужно только найти маленькую кнопку «еще» в верхней части поисковой выдачи – она идет после вкладок «Картинки», «Видео» и «Новости». Нажмите на эту кнопку и выберите пункт «Книги». Оказывается, цитата Кафки о «замерзшем море» появилась в «Письмах друзьям, родным и редакторам» Кафки в его послании Оскару Поллаку, датированном 27 января 1904 года. Фото: Клайв Дарра/Flickr Google Book Search – потрясающе эффективный инструмент для подобных задач. Когда сервис появился 15 лет назад, эта затея казалась невозможно амбициозной: молодая технологическая компания, которой только недавно удалось охватить и организовать непроходимые информационные джунгли Всемирной паутины, собирается расширить возможности своего поиска в офлайн. Сканируя миллионы печатных книг из библиотек, которые присоединились к проекту, компания могла добавить в свою базу данных всю человеческую историю до появления интернета. «В книгах содержатся тысячи лет человеческих знаний, причем, возможно, в самом качественном виде из возможных, – сказал сооснователь Google Сергей Брин в интервью журналу The New Yorker в то время. – Не воспользоваться этим – слишком большое упущение». Сегодня Google знаменита своим подходом к амбициозным проектам, своей готовностью браться за колоссальные задачи в масштабах всего мира. Многие ветераны Google сходятся во мнении, что Books был первым подобным проектом в истории компании: только подумайте, сканировать все книги мира! На этапе зарождения Google Books должен был дать миру видение «утопической литературы», в которой удобство электронной эпохи сочетается с мудростью печатных книг. В то время эта идея казалась чем-то вроде сингулярности для печатного слова: мы загрузим все книги в эфир, и каким-то образом это приведет к повышению уровня грамотности всех людей на Земле. Однако вместо этого Google Books достигла разве что тихого средневековья, раздавая цитаты и фрагменты текстов из более чем 25 миллионов книг своей базы. Сотрудники Google говорят, что на большее и не рассчитывали. Возможно, это действительно так. Но можно точно сказать, что они заставили всех остальных надеяться на большее. На пути от космических обещаний до обыденности с Google Books произошли два события. Вскоре после запуска проект превратился из рая для идеалистов в юридический ад: авторы стали бороться с правом Google индексировать их труды, и издатели также стали защищать свою индустрию от натиска электронных сервисов. За этим последовали юридические тяжбы длиной в десятилетие – все закончилось лишь в прошлом году, когда Верховный суд США отклонил иск Гильдии писателей и окончательно снял все преграды на пути Google к литературным амбициям. Однако в это время с Google Books произошло еще одно изменение – то, которое знакомо едва ли не каждой организации или группе людей, увязших в долгих юридических тяжбах. Проект потерял былой драйв и амбиции. Когда я начал работать над этим текстом, я опасался, что проект Books уже не существовал в качестве существенной части Google, что компания его полностью свернула. Вокруг Google Books, как и в случае со многими другими идеями компании, всегда была некая завеса тайны, однако сейчас, когда я стал задавать вопросы, все как будто сквозь землю провалились. Неделями я не мог найти никого, хоть отдаленно способного рассказать о текущем состоянии проекта. На странице «История» на сайте Google Books рассказ обрывается на 2007 годе, а блог проекта перестал обновляться в 2012 году. С того момента все новости стали выходить в основном блоге «Поиска Google», где информацию о Books найти практически невозможно. Google Books сохранил свою актуальность в качестве работающего и полезного сервиса. Однако как действительно живой проект с собственными планами, анонсами и видимостью работы он словно перестал существовать. Особенно странно все это выглядит, учитывая итоговую победу над противниками в судах. Фото: imadc/Depositphotos Несколько бывших сотрудников проекта, с которыми я разговаривал, поделились своими подозрениями по поводу того, что компания перестала сканировать книги. Впоследствии я узнал, что небольшая группа работников все еще работает над поиском по книгам и добавляет новые издания, пусть и с гораздо меньшей интенсивностью, чем на пике работы проекта в 2010-2011 годах. «Для нас не так важны модные фишки и функции, которые сразу видны пользователям, – рассказывает нынешний глава проекта Стефан Джаскевиц (Stephane Jaskiewicz), который работал в команде около десяти лет. – Мы скорее работаем за кадром и оттачиваем техническую сторону: добавляем новый контент, обрабатываем его так, чтобы можно было просматривать книгу в сети, и отлаживаем алгоритм поиска». Одна задача всегда была важна для Google Books: совершенствование сканеров, которые добавляют новые книги к «корпусу», как принято называть базу данных. На этапе зарождения проекта, в 2002 году, Ларри Пэйдж и Марисса Майер решили прикинуть, сколько времени займет сканирование всех книг на Земле, и поставили метроном рядом с цифровой камерой на штативе. Как только компания поставила себе цель вывести скорость на эффективный уровень, подробности работы стали тщательным образом скрываться. Джаскевиц подтверждает, что установки для сканирования продолжают совершенствоваться, и обновления выходят раз в шесть месяцев. Очень помогают технологии светодиодной подсветки, которые были не так распространены на момент запуска проекта. Также полезно изучение более производительных техник перелистывания страниц для операторов установок. «Это очень похоже на игру на гитаре перебором, – рассказывает Джаскевиц. – Мы находим людей, у которых есть свои собственные способы перелистывания – особая постановка большого пальца и прочие подобные приемы». Однако основная часть работы в Google Books остается повышением «качества поиска» – так, чтобы вы смогли еще быстрее и еще надежнее найти нужную вам цитату Кафки. Это игра, победителям которой не достается всеобщее признание – максимум, награда лучшему игроку запаса. Чтобы понять, как проект Google Books пришел к этому, нужно знать кое-что об авторских правах, по которым все книги делятся на три категории. Некоторые книги являются общедоступными, то есть с их текстом можно делать все что угодно. В основном, это книги, опубликованные до 1923 года, а также более современные труды, чьи авторы решили отказаться от стандартных авторских прав. Многие из более новых книг до сих пор издаются и попадают под защиту авторских прав: если вы хотите использовать их текст для своих целей, нужно договориться об этом с автором и издателем. Есть еще третья категория: книги, которые уже вышли из печати, но все еще защищены авторским правом – их неофициально называют «сиротскими работами». Таких изданий достаточно много – «от 17-25% опубликованных работ и около 70% специализированных коллекций», сообщают результаты исследования, проведенного Агентством по защите авторского права США. Какому количеству книг соответствует эта доля? Сложно сказать, поскольку никто точно не знает, сколько существует книг за Земле в общей сложности. Это число зависит от того, что принято считать «книгой», и определить эти рамки не так-то просто. В 2010 году инженер Google Леонид Тэйчер (Leonid Taycher) в записи в блоге написал, что после анализа метаданных Google Books определил общее число книг (на тот момент) на уровне 130 млн. Другие специалисты назвали это исследование «вздором». Скорее всего, реальное количество книг ниже оценки Тэйчера, но значительно выше тех 25 миллионов, что сейчас содержатся в базе Google Books. Таким образом, значительная доля от этого огромного числа приходится на «сиротские работы». До недавнего времени они не доставляли особых проблем. Можно было взять такую в библиотеке или найти в книжном магазине без каких-либо проблем. Но стоило Google заявить о своем желании отсканировать эти книги и сделать их доступными в интернете, все заявили свои права на них. Развернувшиеся после этого юридические прения стали, по сути, битвой за право опеки над этими сиротами. Google, издатели и авторы пытались завладеть правом контролировать процесс перевода этих книг в новый дом в цифровом мире. В итоге три этих стороны пришли к компромиссу, который получил название «Договор о Google Books». По его условиям Google получала возможность полностью разместить книги в интернете без необходимости выплачивать компенсации правообладателям. Однако в 2011 году федеральный судья аннулировал договор под предлогом опасений о том, что частная коммерческая компания навсегда станет регистратором новых книг и сборщиком прибыли со всей мировой литературы. Как только договор перестал работать, Google снова начала сканировать книги, а издатели погрузились в перспективный рынок электронных книг, который навредил позициям Google в гонке за лидерство благодаря успеху Amazon Kindle. Но Гильдия авторов не отменила свой иск, напирая на то, что дерзкая попытка Google сканировать и индексировать все книги без разрешения правообладателей была незаконной. Google – богатая компания, но не настолько, чтобы игнорировать угрозу многомиллиардных штрафов за нарушение авторских прав (миллионы книг и тысячи долларов штрафа за каждую). Весь этот процесс длился, пока Верховный суд США не положил ему конец в прошлом году, раз и навсегда закрепив право Google составить каталог книг и показывать краткие выдержки («сниппеты») в поисковой выдаче так же, как это делается для веб-страниц. Это решение суда стало фундаментальным достижением для будущего онлайн-поиска – для Google и всего мира. «Теперь это официальный прецедент, от которого выиграют все, – рассказывает Эрин Саймон (Erin Simon), нынешний советник по продукту Google Books. – Этот случай будет в учебниках. В первую очередь, важно определить, что именно означает “правомерное использование”». (Также Саймон с улыбкой отметила, что на момент подачи иска от правообладателей она еще даже не приступила к обучению в юридической академии.) Пусть Гильдия авторов и проиграла суд, ее представители уверены, что боролись за правое дело. Google «пошла не по тому пути с самого начала», считает Джеймс Глейк (James Gleick), президент Гильдии: «Они начали работать, не привлекая к делу творческое сообщество, за счет которого и развивают свой проект. Крупные компании относятся к творческому труду так, будто у них есть “право первой ночи”. Они считают себя хозяевами мира. Вместо этого нужно было просто получить лицензии». Можно было бы подумать, что победа в Верховном суде означала новый прилив сил в работе над Google Books: запускайте сканеры, полный вперед! Однако все указывает на то, что в данном случае ничего такого не произошло – отчасти потому, что база и так уже было огромна. «У нас есть фиксированный бюджет на все нужды, – объясняет Джаскевиц. – Сначала мы сканировали все, что попадало в руки. В какой-то момент стало получаться много дубликатов». Сейчас Google стал предоставлять сотрудничающим библиотекам списки самых интересных книг. Фото: Amy/Flickr Есть множество других объяснений потери былого энтузиазма Google. Неприятный осадок после судебных тяжб. Взлет перспективных новых идей, которые быстрее себя окупали. И еще: постепенное осознание того, что сканирование всех книг мира, какую бы пользу оно ни принесло, может и не изменить мир так сильно, как этого хотелось. Для многих библиофилов стремление Google стать всемирной библиотекой не имело смысла: с этой ролью прекрасно справлялись некоторые общественные организации. Как только Google показала, что идея сканирования всемирной литературы вполне осуществима, за ее реализацию взялись и другие. Internet Archive Брюстера Каля (Brewster Kahle), в которой задокументированы этапы развития интернета, уже отсканировала собственную базу. «Цифровая общественная библиотека Америки» выросла из встреч в Центре Беркмана в Гарварде в 2010 году и теперь служит в качестве собрания цифровых коллекций многих библиотек и организаций. Когда Google договаривалась с университетскими библиотеками о том, чтобы сканировать их коллекции, компания обязалась предоставлять библиотекам копии полученных данных, и в 2008 году общество HathiTrust начала собирать и предлагать эти файлы в пользование. (Ей тоже пришлось защищаться от исков Гильдии авторов.) В HathiTrust входят 125 организаций и учреждений, которые «уверены, что вместе могут помогать научным исследованиям и культурному обмену лучше, чем по одиночке, или оставив это дело компаниям вроде Google», считает директор общества Майк Ферлоу (Mike Furlough). Кроме того, есть еще и Библиотека Конгресса, новый руководитель которой – Карла Хэйден (Carla Hayden) – взялась за то, чтобы оцифровать свои коллекции и выложить их в открытый доступ. Каждая из этих организаций в каком-то смысле является конкурентом Google Books. Однако в реальности Google ушла настолько далеко вперед, что вряд ли хоть одна из них сможет соперничать с компанией на равных. Многие эксперты сходятся во мнении, что Google потребовалось несколько сотен миллионов долларов на создание Google Books, и ни одна другая организация не пойдет на такие расходы, чтобы получить альтернативу. Однако у некоммерческих организаций есть преимущество, которого нет у Google: они неподвластны переменам приоритетов, которые могут произойти с гигантской корпорацией. Все их внимание сосредоточено на книгах, и им не приходится распылять свое внимание на управление одним из крупнейших рекламных бизнесов в мире или операционной системой для смартфонов. В отличие от Google, некоммерческим организациям всегда будет интересно искать новые способы связывать читателей с книгами, которые помогут, как сказал бы Кафка, растопить замерзший разум. Не раз в истории нескончаемые судебные процессы превращались в мощные водовороты, которые затягивали и топили всех участников дела. (В литературе это наиболее ярко показал Диккенс в «Холодном доме»: растянувшееся на несколько поколений дело «Джарндис против Джарндиса» привело к тому, что все стоящие на кону активы ушли на оплату судебных расходов.) В мире высоких технологий такие дела, как знаменитый иск о нарушении антитрестового законодательства, преследовавший IBM долгие годы, могут вставать на пути корпораций и давать конкурентам шанс заполнить освободившуюся нишу. Сама Google достигла лидерства в области онлайн-поиска, пока Microsoft отбивалась от атак Министерства юстиции. Однако эта «битва за книги» никогда не была для Google чем-то принципиальным, на что бросались все доступные ресурсы. Да и вообще, тратой ресурсов это не назовешь. Этот конфликт дал Google ценный урок. Как отметил Джеймс Глейк из Гильдии авторов, Google запускала проект Books с позиции «лучше извиняться потом, чем сейчас просить разрешения», которая распространена в сегодняшнем мире стартапов. В каком-то смысле корпорация повела себя как Uber в мире интеллектуальной собственности, став сервисом для совместного чтения и ожидая, что весь мир станет видеть в Google то же, что она видела в себе – орден добрых волшебников, служащих всему человечеству. Это был наивный взгляд на мир, и последовавший вскоре жесткий отпор стал для компании шоком. К счастью, Google вынесла из этого опыта урок, который оказался невероятно полезен стремительно растущей компании: технологии – это хорошо, но они не могут решить всех проблем. Иногда нужно заниматься политикой: общаться с заинтересованными сторонами, искать союзников, находить компромисс с оппонентами. В результате этого Google собрала команду лоббистов и юристов, которые помогли компании выйти из других сложных ситуаций – например, путаницы с авторскими правами в YouTube – с гораздо лучшим результатом и меньшими потерями. Компания выросла, стала взрослее. Она осознала, что стремиться в космос можно всегда, но не всегда удается туда попасть. Возможно, что когда-нибудь Google предпримет еще одну попытку решить проблему сиротских работ. Однако сейчас, похоже, компания ждет, пока ее примеру последуют другие. «Не думаю, что мы можем что-то изменить при нынешней правовой базе», – отмечает Джаскевиц. Пока я работал над статьей, я не мог перестать думать о книге, которую прочитал несколько лет назад. Это был эксцентричный, до занудства внимательный к деталям роман «Круглосуточный книжный мистера Пенумбры» (Mr. Penumbra’s 24-Hour Bookstore) Робина Слоуна (Robin Sloan). В ней рассказывается о тайном обществе, которое пытается разгадать вековую загадку, связанную с книгопечатанием и типографией. Google играет в романе критически важную роль, пока главный герой работает над поиском разгадки. Оказывается, что даже необъятной информационной базы компании недостаточно, чтобы все получилось. Затем протагонист находит одну книгу, которая помогает разрешить загадку. Все, что было нужно – и этой фразой Слоун заканчивает свое произведение – «нужная книга в нужное время». Роман напоминает, что возможности инженерной мысли Google не безграничны. Разделение задач на простые этапы, представление их в виде данных и применение эффективных методик – это хороший способ работать. Так вы сможете серьезно продвинуться в деле создания «библиотеки утопии», но не сможете преуспеть. Но даже если и сможете, жизнь не превратится в утопию. Вас все еще будет ждать тяжелая работа. Ведь превратив книгу в данные, вы упрощаете процесс поиска цитат и сниппетов, но никак не изменяете процесс чтения книги – этот неповторимый способ временного перемещения опыта одного человека в разум другого. До сих пор для полноценного чтения книги требуется участие человека с обоих сторон. Индексная система вроде Google Books помогает нам находить и анализировать текст, но пока что использование этих фрагментов остается нашей заботой. Возможно, стремлению оцифровать все книги было предначертано обернуться разочарованием и не преобразить жизнь людей. Как и многие другие продвинутые в техническом плане библиофилы, Слоун активно использует Google Books, однако его расстраивает то, что сервис перестал развиваться и поражать воображение. «Я бы хотел, чтобы Google Books был красивым и полезным сервисом, который бы развивался и постоянно становился еще интереснее», – мечтает он. Кроме того, Слоуна волнует еще один вопрос: ясно, что Google по закону не может сделать полные тексты книг доступными для всех желающих – но что если дать прочитать их машинам? Сегодня инструменты машинного обучения, способные анализировать тексты разными способами, развиваются очень быстро. Слоун отмечает, что «культура вокруг этой индустрии во многом напоминает то, что происходило в “Домашнем компьютерном клубе” и первых интернет-компаниях». Однако для продвижения в исследованиях ученым нужно снабжать свои программы огромным количеством данных. «Если бы Google могла взять этот корпус данных, разделить его по жанрам, темам, временным промежуткам и всем остальным возможным категориям и затем предоставить доступ к базе инженерам и энтузиастам машинного обучения, из этого могло бы получиться что-то интересное – сейчас даже невозможно сказать, что», – объясняет Слоун. Он предположил, что Google уже делает это внутри компании. Джаскевиц и другие специалисты Google комментировать эти догадки отказались. Возможно, когда очередная нейросеть из будущего получит сознание и почувствует присущий Кафке экзистенциальный кризис, она сможет найти утешение в правильной книге, которая поможет растопить лед. Или, в отличие от нас эта сеть сможет прочитать все отсканированные нами книги – действительно прочитать, как это и нужно делать. Что бы она тогда сделала? Источник Материалы по теме: Квиз дня: что вы знаете о Google? Наконец-то, в Кремниевой долине нашлась работа и для гуманитариев Как прочитать полезную книгу за 90 минут Barnes & Noble против Amazon. Как традиционные книжные могут выиграть у интернет-магазинов Фото на обложке: Сэнди ван Хелден (Sandy van Helden)

Как развивался проект Google Books — © RB.ru

Вещи

Марисса Майер

Марк Твен

Франц Кафка

Гарвардский университет

IBM

Microsoft