• Vui lòng đọc nội qui diễn đàn để tránh bị xóa bài viết
  • Tìm kiếm trước khi đặt câu hỏi

Cần code string searching văn bản docx, pdf

Bạn có những ý tưởng, sáng kiến nhưng không thực hiện được? Hãy chia sẽ với mọi người để biến ý tưởng thành hiện thực

Điều hành viên: Điều hành

andy286
Bài viết: 2
Ngày tham gia: T.Ba 01/11/2016 3:18 pm

Cần code string searching văn bản docx, pdf

Gửi bàigửi bởi andy286 » T.Tư 02/11/2016 3:37 pm

Ý tưởng của em là trong một folder chứa rất nhiều file doc, docx, pdf đặt tên rất lộn xộn. Em muốn viết một code tự động quét lần lượt các file đó tìm cho em nội dung trong các file đó có chứa các ký tự như là "giám đốc nguyễn văn A" "Công ty B". Sau đó xuất ra một list box tên văn bản chứa các từ khóa đó và link mở nó. Em đã thiết kế giao diện và phần sườn một ít rồi nên em không muốn đặt mua phần mềm vì mọi thứ đã làm sẵn nên em cần xin code để tự học hỏi nghiên cứu thêm, nếu code ứng dụng thành công em cũng xin trả phí đáp lễ cho mọi người. Mong mọi người giúp đỡ!!! Nếu được xin giúp em nghiên cứu search ảnh trong các file văn bản đó :">


Chia sẻ và không ngừng học hỏi

Hình đại diện của người dùng
Kasper
Guru
Guru
Bài viết: 1062
Ngày tham gia: T.Sáu 16/05/2008 10:54 am
Has thanked: 2 time
Been thanked: 76 time
Liên hệ:

Re: Cần code string searching văn bản docx, pdf

Gửi bàigửi bởi Kasper » T.Năm 03/11/2016 6:04 pm

Tôi search được 2 kết quả như sau:
1. Về file .doc:
  1. protected bool FindTextInWord(object text, string flname)
  2.     {
  3.         object matchCase = false;
  4.         object matchWholeWord = true;
  5.         object matchWildCards = false;
  6.         object matchSoundsLike = false;
  7.         object matchAllWordForms = false;
  8.         object forward = true;
  9.         object format = false;
  10.         object matchKashida = false;
  11.         object matchDiacritics = false;
  12.         object matchAlefHamza = false;
  13.         object matchControl = false;
  14.         object read_only = false;
  15.         object visible = true;
  16.         object replace = 2;
  17.         object wrap = 1;
  18.  
  19.         Microsoft.Office.Interop.Word.Application app = new Microsoft.Office.Interop.Word.Application();
  20.         Microsoft.Office.Interop.Word.Document docOpen = app.Documents.Open(flname);
  21.         bool val = false;
  22.         try
  23.         {
  24.             val = app.Selection.Find.Execute(ref text, ref matchCase, ref matchWholeWord,
  25.             ref matchWildCards, ref matchSoundsLike, ref matchAllWordForms, ref forward, ref wrap,
  26.             ref format, Type.Missing, Type.Missing,
  27.             Type.Missing, Type.Missing, Type.Missing, Type.Missing);
  28.         }
  29.         finally
  30.         {
  31.             app.Documents.Close();
  32.         }
  33.         return val;
  34.     }
  35.  


sử dụng:
  1. FindTextInWord((object)"Proposal","your file name here");
  2.  


2. Về file pdf:
http://www.codeproject.com/Articles/141 ... F-in-C-NET

Trên là link đến project extract nội dung file .pdf thành text, việc còn lại của bạn là tìm trong nội dung của text này.

Chúc bạn thành công !
Lành tợ tòng, ác tợ hoa,
Nhà hòa muôn việc đều nên.

andy286
Bài viết: 2
Ngày tham gia: T.Ba 01/11/2016 3:18 pm

Re: Cần code string searching văn bản docx, pdf

Gửi bàigửi bởi andy286 » T.Năm 03/11/2016 8:01 pm

Thanks Kasper em đang nghiên cứu code anh gửi. Nếu thành công post thành quả cho a xem :D
Chia sẻ và không ngừng học hỏi


Quay về “Ý tưởng của bạn”

Đang trực tuyến

Đang xem chuyên mục này: Không có thành viên nào trực tuyến.1 khách