Преобразование Word2007 в R

Я только начинаю использовать R и не могу понять, как загружать файлы из любой другой программы в R. Я попробовал базовый пример перехода из Word в R. Я использовал этот веб-сайт в качестве предполагаемого примера того, как это сделать. http://www.mayin.org/ajayshah/KB/R/html/r1.html. Итак, вот что я напечатал:

A‹-read.table("C:\Users\anr28\Desktop\x.docx", sep=",", col.names=c("год", "мой1", "мой2"))

У меня был документ с именем «x» в Microsoft Word, который, согласно меню свойств на моем компьютере, заканчивается на docx. Я точно следовал тому, что они сделали в примере, и это не сработало. Это были распечатанные сообщения об ошибках, но я не знаю, как их интерпретировать.

Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
  line 1 did not have 3 elements
In addition: Warning message:
In read.table("C:\\Users\\anr28\\Desktop\\x.docx", sep = ",", col.names = c("year",  :
  incomplete final line found by readTableHeader on 'C:\Users\anr28\Desktop\x.docx'

Пожалуйста, помогите, я пытаюсь изучить это самостоятельно, и это очень расстраивает, что я не могу принести файлы, чтобы на самом деле изучить суть программы, а это то, что мне действительно нужно. Спасибо


person Adam    schedule 14.02.2011    source источник
comment
Вы пытаетесь сделать что-то действительно необычное: импортируете документ текстового процессора в инструмент статистической обработки. Пример кода, на который вы ссылаетесь, будет работать только для данных в значениях, разделенных запятыми, или в другом подобном табличном формате. Попробуйте экспортировать данные в файл .csv и повторите попытку импорта. Также может быть полезно прочитать руководства по R, например: cran. r-project.org/doc/manuals/R-data.pdf   -  person Andrie    schedule 14.02.2011
comment
Адам, я рекомендую ознакомиться с руководством R по импорту и экспорту данных здесь: cran.r-project.org/doc/manuals/R-data.pdf. Вы также можете ознакомиться с пакетом R2wd для взаимодействия с документами Word. Вышеупомянутая проблема заключается в том, что R ожидает какую-то плоскую файловую структуру (в данном случае csv), а не какие-то навороты, которые Word помещает поверх этого. Повторно сохраните этот документ как текстовый файл, и он должен работать нормально.   -  person Chase    schedule 14.02.2011
comment
Соответствующее сообщение: чтение файла MSWord в R   -  person zx8754    schedule 13.05.2014


Ответы (4)


Функция read.table (и связанная с ней) ожидает текстовый файл. Word использует свой собственный тип файла (отсюда и расширение .docx), который не является обычным текстом, он включает в себя ваши данные (вероятно, сжатые) вместе с информацией о шрифтах, цветах, размерах и множестве других вещей, которые R не поддерживает. понимать.

Лучше всего открыть файл в Word, а затем снова сохранить его как обычный текстовый файл (попробуйте щелкнуть кружок в левом верхнем углу, затем выберите «Сохранить как», затем выберите «Другие форматы», затем в диалоговом окне выберите вариант «Обычный текст (.txt)» для «Сохранить как тип»). Затем прочитайте текстовый файл в R, следуя примеру.

person Greg Snow    schedule 14.02.2011

Ссылка, которую вы разместили, касается файла, который выглядит так:

1997,3.1,4
1998,7.2,19
1999,1.7,2
2000,1.1,13

«Похоже» означает, что если вы прочитаете этот файл в обычном текстовом редакторе, таком как блокнот, вы получите вот что. Файл Word не является обычным текстом. Простой текстовый файл — это файл (часто с расширением .txt, но это необязательно), содержащий только текст. Word-файл — это файл, который можно открывать и читать по словам и который содержит информацию о тексте, а также набор текста, шрифты и т. д., закодированные на машинном языке, который не читается. Вы можете увидеть разницу, открыв документ Word в блокноте.

Как сказано в других ответах, вы можете сохранить свой текстовый файл как обычный текстовый файл с помощью «сохранить как». Вы также можете сохранить данные из Excel в виде обычного текстового файла, который легко читается в R.

person Sacha Epskamp    schedule 14.02.2011

Возможно, вы захотите использовать простой текстовый редактор (не текстовый процессор) для ввода простых файлов данных — попробуйте notepad++, который так же прост в использовании, как блокнот, но с гораздо большей функциональностью.

Google и загрузите его, затем введите несколько чисел, разделенных запятыми, сохраните и прочитайте в R.

В R для Windows также встроен базовый текстовый редактор, который можно использовать для ввода функций и файлов данных R.

person Spacedman    schedule 14.02.2011

Нет смысла считывать данные в R из проприетарного формата Windows. R с радостью примет любой текстовый формат. В вашем случае просто сохраните как обычный текст и прочитайте его.

person Maiasaura    schedule 14.02.2011
comment
-1 В R есть функции чтения, которые поддерживают импорт из многих проприетарных форматов, включая Excel, SPSS, SAS и т. д. Сохранение файла формата Word в обычный текст не гарантирует, что R сможет импортировать его с помощью read.table — данные должны иметь формат, понятный read.table. - person Andrie; 14.02.2011