Разработка программы для извлечения текста из файлов
Форматы файлов, из которых нужно извлекать текст:
- .doc
- .docx
- .html
- xls
- xlsx
- .rtf
- в отдельную категорию выношу .doc файлы 1997-2003 годов.
- .zip
- .rar
Программа должна представлять из себя функцию, которая на вход принимает url ссылку на файл, после чего, делает следующее:
Если это файл (doc, docx, pdf, html, xls, xlsx, rtf):
- Извлекает текст из файла, после чего, создаёт .txt файл куда помещает извлечённый текст.
- Поочерёдно извлекает текст из каждого файла архива, содовая при этом .txt файл для размещения в нём извлечённого из файла архива текста.