извлечь метатеги с веб-сайта с помощью порции (scrapy)

я хочу использовать порцию для извлечения метатегов с какого-то веб-сайта, но он не показывает тег заголовка, он начинается только с тега тела

я могу извлечь данные только из тега body

python web-crawler scrapy portia

rahul mehta 27.11.2014 источник

arrow_upward
7
arrow_downward

Вам нужно аннотировать элемент в body, а затем перейти к элементу в head, который вы хотите отобразить.

Аннотируйте элемент на странице, неважно какой.
Щелкните значок настроек либо во всплывающем окне аннотаций, либо на панели аннотаций на правой панели инструментов.
Щелкните элемент html. Вы получите предупреждение о том, что вы потеряете все атрибуты, сопоставленные с аннотацией, нажмите «ОК».
Щелкните значок настроек еще раз и на этот раз выберите элемент head.
Щелкните значок настроек еще раз, и вы сможете выбрать дочерние элементы в head.
Выбрав элемент, нажмите кнопку + Field, чтобы создать новое поле, а затем сопоставьте желаемое значение атрибута с целевым полем.

Richard Dowinton 03.08.2015

arrow_upward
1
arrow_downward

вы можете использовать это для мета-имен:

meta_name = hxs.select('//meta/@name').extract()

и это для мета-контента:

meta_content = hxs.select('//meta/@content').extract()

и это для содержимого мета с определенным именем, например описанием:

meta = hxs.select('//meta[@name=\'description\']/@content').extract()

Maryam Homayouni 01.08.2015