uu.seUppsala University Publications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Google Books Ngram Viewer nya möjligheter för den ryska korpusforskningen eller bara "More of the Same"?
Uppsala University, Disciplinary Domain of Humanities and Social Sciences, Faculty of Languages, Department of Modern Languages, Slavic Languages.
2016 (Swedish)Independent thesis Advanced level (degree of Master (One Year)), 10 credits / 15 HE creditsStudent thesis
Abstract [sv]

I detta arbete undersöks sökverktyget Ngram Viewer och dess ryska delkorpus, innehållande totalt drygt 67 miljarder ord från närmre 600 000 böcker, utgivna mellan 1607 och 2009.

Arbetet består av tre huvudsakliga delar; en översiktligt jämförande undersökning av andra ryskspråkiga korpusar, därefter en mindre litteraturstudie av tidigare forskning genomförd med hjälp av den ryska delkorpusen i Ngram Viewer och slutligen egna tester och pilotundersökningar av densamma. Syftet med uppsatsen är framförallt att undersöka Ngram Viewers möjligheter och begränsningar i en större kontext av korpusforskning. Pilotstudierna i Ngram Viewer fokuserar framförallt på relationen mellan begreppen русский och российский (och därmed indirekt förhållandet mellan Русь och Россия‏), bland annat genom jämförelse med tidigare studier (Griščenko, 2013, 2014a).

En av de viktigaste insikterna från arbetets första två delar är korpusens bristande funktioner vad gäller hantering av skrivtecken som avskaffades vid den ryska stavningsreformen 1917. Pilotundersökningarna i arbetets tredje del avgränsas därför främst till material från åren 1900–2008. Att de lingvistiska annotationerna i korpusen uteslutande är automatiskt genererade samt att man inte har direkt tillgång till korpusens källmaterial utgör också viktiga faktorer som begränsar Ngram Viewers användningsområde.

Abstract [ru]

В этой работе изучается корпус и инструмент Google Books Ngram Viewer и как можно использовать корпус для исследования исторических изменений русского языка. Русский подкорпус Ngram Viewer содержит около 67 миллионов слов из почти 600 000 книг, изданных 1607–2009 гг.

 

Исследование состоит из трех частей. В первой части сравнивается Ngram Viewer с другими корпусами русского языка. Во второй части предлагается обзор научной литературы относительно Ngram Viewer, и его русского подкорпуса. В третьей части приводятся собственные пилотажные исследования с помощью Ngram Viewer. Прежде всего, рассматривается использование слов русский и российский, в частности, по сравнению с исследованиями Грищенко 2013 и 2014а.

 

Мы пришли к выводу, что Ngram Viewer в первую очередь может быть использован как инструмент количественного анализа русского языка 20-ого и 21-ого веков. По техническим причинам корпус оказался менее полезным для изучения более древних текстов (до орфографической реформы 1917 г.).

Place, publisher, year, edition, pages
2016.
Keyword [en]
Ngram Viewer, Russian, corpus, linguistics, culturomics, big data
Keyword [sv]
Ngram Viewer, ryska, korpus, lingvistik, kulturomik, "big data"
National Category
Specific Languages General Language Studies and Linguistics
Identifiers
URN: urn:nbn:se:uu:diva-298747OAI: oai:DiVA.org:uu-298747DiVA: diva2:947089
Subject / course
Russian
Supervisors
Examiners
Available from: 2016-07-31 Created: 2016-07-06 Last updated: 2016-07-31Bibliographically approved

Open Access in DiVA

fulltext(1124 kB)151 downloads
File information
File name FULLTEXT01.pdfFile size 1124 kBChecksum SHA-512
4f6666d0e412d1263566dd857494a62d69f3ca61663aef13f97bcc7cc6f0081ed01a046fc23419a589a9b6029efc20a3215f7a2207dd55e93ed701ceda05d53c
Type fulltextMimetype application/pdf

By organisation
Slavic Languages
Specific LanguagesGeneral Language Studies and Linguistics

Search outside of DiVA

GoogleGoogle Scholar
Total: 151 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 512 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • modern-language-association
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf