StudyEnglishWords

4#

Что мы узнали из 5 миллионов книг - видеоролик

Изучайте английский язык с помощью параллельных субтитров ролика "Что мы узнали из 5 миллионов книг". Метод интервальных повторений для пополнения словарного запаса английских слов. Встроенный словарь. Всего 542 книги и 1777 познавательных видеороликов в бесплатном доступе.

страница 2 из 8  ←предыдущая следующая→ ...

00:02:19
on 129 million distinct occasions,
в 129 миллионах случаев
publishing books.
публикации книг.
Now if those books are not lost to history,
Если эти книги не затерялись в истории,
then they are somewhere in a library,
они хранятся где-то в какой-то библиотеке,
and many of those books have been getting retrieved from the libraries
и многие из этих книг были извлечены из библиотек
00:02:30
and digitized by Google,
и оцифрованы компанией Google,
which has scanned 15 million books to date.
которая на сегодня просканировала 15 миллионов книг.
Now when Google digitizes a book, they put it into a really nice format.
Когда компания Google оцифровывает книгу, они сохраняют её в очень удобном формате.
Now we've got the data, plus we have metadata.
У нас есть данные и есть метаданные.
We have information about things like where was it published,
У нас есть сведения о том, где книга была опубликована,
00:02:42
who was the author, when was it published.
кто её автор, когда она была опубликована.
And what we do is go through all of those records
Мы прошлись по всем этим записям,
and exclude everything that's not the highest quality data.
и исключили всё, кроме данных наивысшего качества.
What we're left with
Таким образом,
is a collection of five million books,
осталась коллекция из 5 миллионов книг,
00:02:56
500 billion words,
500 миллиардов слов,
a string of characters a thousand times longer
строка символов в тысячу раз длиннее,
than the human genome --
чем геном человека —
a text which, when written out,
если написать этот текст,
would stretch from here to the Moon and back
то он протянется до Луны и обратно
00:03:08
10 times over --
10 раз —
a veritable shard of our cultural genome.
настоящий осколок культурного генома.
Of course what we did
Естественно, мы сделали
when faced with such outrageous hyperbole ...
перед лицом такой вопиющей гиперболы...
(Laughter)
(Смех)
00:03:21
was what any self-respecting researchers
то, что сделал бы любой
would have done.
уважающий себя ученый.
We took a page out of XKCD,
Мы взяли страницу из XKDC
and we said, "Stand back.
и сказали: «Разойдись,
We're going to try science."
мы займёмся наукой».
00:03:33
(Laughter)
(Смех)
JM: Now of course, we were thinking,
ЖМ: Конечно, мы подумали,
well let's just first put the data out there
давайте сначала сделаем данные доступными
for people to do science to it.
для людей, которые применят к ним науку.
Now we're thinking, what data can we release?
И мы подумали, какие данные мы может опубликовать?
00:03:43
Well of course, you want to take the books
Конечно, хотелось взять и опубликовать
and release the full text of these five million books.
полные тексты всех этих пяти миллионов книг.
Now Google, and Jon Orwant in particular,
Google, и Джон Орвант в частности,
told us a little equation that we should learn.
научили нас небольшому уравнению.
So you have five million, that is, five million authors
Итак, есть пять миллионов, значит пять миллионов авторов
00:03:54
and five million plaintiffs is a massive lawsuit.
и пять миллионов истцов равняется огромная судебная тяжба.
So, although that would be really, really awesome,
И, хотя это было бы очень, просто нереально круто,
again, that's extremely, extremely impractical.
опять же, это очень, просто нереально непрактично.
(Laughter)
(Смех)
Now again, we kind of caved in,
Что ж, мы вроде как поддались,
00:04:06
and we did the very practical approach, which was a bit less awesome.
и подошли к делу очень практично, хоть и не так круто.
We said, well instead of releasing the full text,
Мы сказали, что вместо публикации полных текстов,
we're going to release statistics about the books.
мы опубликуем статистику о книгах.
So take for instance "A gleam of happiness."
Возьмём, например, «A gleam of happiness »
скачать в HTML/PDF
share